返回栏目
首页人工智能 • 正文

世界上最难的“沙雕”游戏被AI打破了

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载,转载请与来源联系。

世界上最难的“沙雕”游戏被AI打破了

13年前,是这样的“ 变态” 高难度的游戏曾经风靡一时。

它的名字简单粗暴— — QWOP 意味着让玩家在这四个关键位置控制游戏人物的左右大腿和小腿,最快跑100米。

事实上,大部分玩家一开始拿到的时候,可能连起点线都走不动了。

如果能跑几米远,绝对是高手,也可以在朋友面前炫耀。

QWOP的难点在于,如果角色失去平衡,就很难再恢复,需要在100米的距离上不要让重心过于前后倾斜。

当你经过艰苦的练习后第一次跑的时候,就会放在50米作者故意设置的扶手上。 好的百米短跑为什么会有障碍?

△某小编当年的游戏截图

在那个4399小游戏盛行的时代,这也被称为&ldquo。男人跑100米” 。 因为太难了“ 变态” QWOP开发者收到过很多谩骂邮件。

虽然大部分人很难到达终点,但是骨灰级的玩家们依然很享受。 他们不仅可以轻松地奔跑,至今仍在为竞争世界排名而挑战。

两个月前,一个日本玩家创造了新的世界记录。 48.34秒。

看这个&ldquo沙雕游戏” 有没有考虑为了训练双足机器人而加强学习的画面?

来自波士顿的咨询数据分析师Wesley Liao也是这么认为的。

但是&请不要认为是&ldquo。 变态” 困难的游戏在AI面前就下起了毛毛雨。

Liao综合了迄今为止的多种强化学习算法,最后“ 世界名师” 告诉我,辛苦了,终于让AI打破了上周人类选手的记录。

你会发现这个游戏的难度不如围棋啊。 (手动狗头)

小牛刀一开始,Liao就使用OpenAI Gym加强学习环境训练AI,首先设定游戏的状态、操作、奖惩机制。

状态包括每个身体部位和关节的位置、速度和角度。 操作方法仅限于4个QWOP键、6个2键的组合以及完全不按键的11种。

训练AI的算法是ACER (具有经验再生能力的Actor-Critic )。 该算法的优点是不仅可以从最近获得的经验中学习更快的经验,还可以从记忆数据中学习更快的经验。

因为宏碁非常复杂,所以廖是别人的实现代码“ 稳定基线&雷达; 。

Liao先试着让AI自己学习一下。 经过多次实验,他发现AI只学了&ldquo。 擦膝盖” 这种方式跑在终点,速度很慢。

这和大多数人类普通玩家和其他强化学习算法一样,距离高手的水平还很远,更不用说打破记录了。

仔细分析后发现,AI完全没有学习舞步机制,只是学习了最安全、最慢的方法才到达终点。

似乎不可以在AI完全自学。

学习跑步就像DeepMind是顶级棋手教AlphaGo下棋一样,但是Liao认为人类玩家也可以教AI吗?

但是Liao本人的技术和顶级玩家差距太大了,自己最多也只能跑28米。

这不重要。 至少Liao迈出更大步伐的技术是,AI是“ 矿渣技术” 学一点跑步技术吧。

但不幸的是,AI认为“ 邯郸步” :不仅没有掌握跑步技能,反而在起点跌倒了。

然后Liao让AI自己继续训练。 师傅入门,个人修行,意味着AI能结合人类的技术和自学能力吗?

结果很兴奋,经过90个小时的训练,AI终于学会了像人一样跑步!

最终成绩为1分25秒,已经能进入世界排名前15名,超过人类不远了。

接下来要做的是教AI更多的技术。 本人的技术太渣了。

所以,为了进一步提高AI的水平,必须找顶级高手帮忙。

顶级辅助Liao观察了速通排行榜的视频,发现顶级玩家的技巧是通过抬起左腿可以跑得更快。

△第1位玩家gunmaneko的踢技

他是世界排名前两位的玩家gunmaneko和Kurodo教他踢球技巧的操作。

两个玩家热情地回答了他的问题。 其中,Kurodo指出,这个技巧的关键是减少游戏角色的纵向动作,提出了将身高保持在AI上的报酬函数。

Liao向Kurodo分享了他的代码,Kurodo慷慨地用代码把自己游戏记录了50次时的关键记录发给了Liao。

Liao利用这些数据尝试了AI的预训练,但效果并不好。 AI没有掌握踢球的技巧,反而忘记了基本的跑步方法。

Liao必须改变方法,将Kurodo的数据注入到AI的播放缓存* (播放缓冲器) *中。 这相当于修改了AI的记忆,让AI的记忆一半是自己的,另一半来自Kurodo。

然后AI每次自己玩的时候都会注入Kurodo的数据,保证AI随机从记忆中选择一个进行学习时选择两个记忆的概率是相同的,在学习新技术的过程中不要忘记基本的操作。

AI利用Kurodo的数据训练了15个小时,终于学会了踢球,但由于两种记忆不协调,跑步时间一长动作就不稳定。

Liao此时清除了Kurodo的记忆,让AI自己训练25个小时,总训练时间达到了65个小时。

最终AI成绩达到1分08秒,终于进入前十。

打破世界记录的Liao把教AI这个游戏的过程制作成视频发送到了网上。 一个月前,外国媒体Gismodo问他:“为什么AI还没有打破世界记录?”

于是,Liao重新训练了只为了优化速度而存在的新AI。

新的AI转移到了优先ddqn算法上。 由于该算法将权重添加到学习效率较高的状态,而不是均匀的采样,因此新的AI可以迅速掌握旧AI已经掌握的技术。

另外,新AI的奖励函数删除了身高、膝盖弯曲角度等参数,改为只与前进速度相关。

新的AI首先利用现有的数据进行几分钟的事前训练,然后进行40个小时的自我训练。 最终,新AI每秒进行的动作数量在训练环境中从9提高到18,在测试环境中达到25。

新的AI对于踢球技术的掌握非常稳定,即使受到障碍物的影响也会迅速恢复。

快速高效的动作使AI的成绩提高到了47.34秒,比人类最高纪录的48.34秒正好快了1秒。

正是这样,人工智能又被添加到了超越人类的游戏列表中。

你觉得One More Thing就这样结束了吗?

跑100米也跑不完,这个游戏有世界性的难度— — “ 男子跑完了马拉松” 。

支援Liao的玩家Kurodo最近刚提交了世界纪录,全世界也只有两个人完成了这个壮举。

难以想象他们在电脑前连续按QWOP画面几个小时。

此外,QWOP开发者Bennett Foddy还在继续开发这样的&ldquo。 变态” 难度较高的独立游戏

Getting Over It with Bennett Foddy很有名,中文名字“ 挖升&rdquo。 。 玩法是,被放在坛子里的人继续用锤子举起自己。

Foddy曾在普林斯顿大学和牛津大学担任博士后研究员,现在是独立的游戏设计师。 QWOP是普林斯顿大学时代开发的。

我只能说,学霸开发的游戏,学渣真的不能玩。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com