V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
hijkzzz
V2EX  ›  Python

深度强化学习玩微信跳一跳

  •  1
     
  •   hijkzzz ·
    hijkzzz · 2018-06-15 14:06:54 +08:00 · 5435 次点击
    这是一个创建于 2400 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近学习了一下深度强化学习算法,用 CNN+DDPG 算法做了一个玩微信跳一跳的 AI

    和 GitHub 上的基于 OpenCV 的方法有本质的区别,实现了端到端的自动学习

    有兴趣的同学可以看一看,或者帮忙改进改进一下,目前参数调优和训练量都还不足

    代码在 https://github.com/hijkzzz/wechat-jump-ddpg

    第 1 条附言  ·  2018-06-15 15:23:01 +08:00
    总之就是感觉用深度学习+强化学习机器自主学会玩这个游戏很有意思

    OpenCV 测量距离的方式来做的话就感觉是人工设定规则罢了

    业余恶搞 哈哈
    7 条回复    2018-06-16 19:47:52 +08:00
    Heigum
        1
    Heigum  
       2018-06-15 14:24:20 +08:00 via Android
    我跳一跳的排行榜都没人了
    nine99
        2
    nine99  
       2018-06-15 14:57:52 +08:00
    好奇这个训练起来会有多慢
    ynyounuo
        3
    ynyounuo  
       2018-06-15 15:01:35 +08:00
    跳一跳距离和按压时间正相关,你这样意义不大。
    hijkzzz
        4
    hijkzzz  
    OP
       2018-06-15 15:11:30 +08:00
    @ynyounuo
    输入不是距离
    输入的是原始游戏图像

    这个只是作死,当然用测量距离的方式更容易做
    但是那种是典型的基于规则的
    和 AI 就没什么太多关系了
    takato
        5
    takato  
       2018-06-15 16:32:50 +08:00 via iPad
    @hijkzzz 目前 RL 对短距离激励还是比较容易做的(比如这个 case ),长距离激励会比较麻烦点。

    关于可能的改进,提个可能的方向,不一定对:CNN 会不会套得有一些深。
    tsaoyu
        6
    tsaoyu  
       2018-06-15 18:16:03 +08:00
    做的还是很有意思的。
    @takato 可以继续往稀疏奖励和高维状态的方向上去做,应用方面的话机器人,能源规划以及资产管理都有一些可以继续深入的点。
    takato
        7
    takato  
       2018-06-16 19:47:52 +08:00
    @tsaoyu 稀疏奖励不好学。而且很容易学到随机特征。。不过想想也是,世界的规则就是这样,某种层面上具有非常强的随机性。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5672 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 03:02 · PVG 11:02 · LAX 19:02 · JFK 22:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.