之前用类似 AlphaGo 论文的方法训练了个策略网络,经过一番折腾,现在可在网页中直接用 JS 运行了(纯本地运行噢,感谢 MXnet 的 amalgamation 功能)。虽然 JS 比较慢,在电脑上每步要两秒钟(比 CPU 直接跑模型慢几十倍,比 GPU 慢几百倍),但实际在 iPhone7 上也能跑,速度不错(在安卓上就很慢了)。
点击打开: https://withablink.coding.me/goPolicyNet/
这里的策略网络的架构是 13 层 128 个 3x3 卷积,配合残差和 BN ,并且只用了 8 个特征平面(本方 /对手 /无子 /1 气 /2 气 /3 气 /4 气及以上 /上一手位置),同样实现了 KGS 测试集 54%+的准确率,而且训练速度非常快。
经测试,做为完全没有搜索的纯神经网络,棋力比 AlphaGo v13 的纯策略网络强,有奕城段位的水准(只要你不故意利用它的漏洞...比如它不会征子)。电脑的选点有时挺有意思,会发现一些狗的习惯。现在正在进行进一步强化学习中。
1
withablink OP 上张图吧。可以看到,在人机大战第四局第 78 手后,其实策略网络给出的选点是正确的(图中 123456789 代表对于下一手的推荐选点的前 9 位),说明当时 AlphaGo 很可能是价值网络 /Rollout 出了问题:
|
2
WildCat 2017-03-07 15:29:00 +08:00 via iPhone
膜拜下大神,自己打算月底入门下 DL 🙈
|
3
est 2017-03-07 15:36:01 +08:00
v 站上的分享越来越高端了。
|
4
langmoe 2017-03-07 15:46:35 +08:00
这个月的膝盖就给你了
|
5
WildCat 2017-03-08 17:05:21 +08:00
果然 V2EX 已经沦落为水站了,这种大神贴都没人来拜了
|
6
1069401249 2017-03-08 17:11:19 +08:00
666 大牛啊
|
7
antonlee 2017-03-09 10:20:50 +08:00
这个不错
|
8
qfdk 2017-03-09 14:56:27 +08:00 via iPhone
前排支持
|
9
gam2046 2017-03-09 18:36:59 +08:00
@WildCat 这个也不一定,我相信也有一些人其实是和我一样,对神经网络、围棋都不怎么懂。虽然看着很厉害,但是也不知道能说些什么,那么就只能看看罢了。这又不是贴吧,没事水个 顶、支持 什么的。
|
11
lovelinghan 2017-03-10 11:42:12 +08:00
膜拜
|