最新AI:无需被告知规则就能自己玩转游戏?--丁科技网

原创

2020-12-25 08:00:24

来源：钉科技

2016年,Alphabet的DeepMind与AlphaGo一起问世,该AI一直领先于人类最好的棋手。一年后,工作继续完善,AlphaGo Zero创建。AlphaGo通过观察业余比赛和专业比赛学会了围棋,而AlphaGo Zero能通过简单地与自己对战来掌握游戏。然后,DeepMind创建了AlphaZero,该AlphaZero可以使用单一算法玩围棋、国际象棋和将棋。

这些AI的共同特点是,它们必须掌握游戏规则然后再进行培训。DeepMind的最新AI MuZero不需要游戏的规则即可掌握游戏。与DeepMind之前的AI算法一样,MuZero具有相同甚至更好的能力。

MuZero没有尝试对所有模型进行建模,而只是尝试考虑那些对决策至关重要的因素。正如DeepMind所指出的,这是作为人类所做的事情。当大多数人看着窗外,看到地平线上形成乌云时,他们通常不会陷入乌云是如何形成之类的问题。相反,它们思考的是如果出门应该穿什么以防止被淋湿。MuZero就是做类似这样的事情。

MuZero在做决定时会考虑三件事。首先,它会考虑上一次行动的结果、当前所处的位置以及下一次行动的最佳方案。这种看似简单的方法使MuZero成为迄今为止DeepMind最有效的算法。在测试中DeepMind发现,MuZero与之前的AI算法表现都一样好。而且,给它的时间越多,它提供的解决方案就越好。即使加入了时间限制,比如在行动前限制吃豆人女士的模拟次数,MuZero也取得了不错的效果。

该公司表示,MuZero的学习能力有一天可以帮助解决没有简单规则领域的复杂问题。(钉科技根据《engadget》消息编译)

原创文章

三年1亿台、五年2亿台，星闪音频终端凭什么这么猛？

7月面板价格转跌，电视厂商迎来利润修复契机？

上半年电视销量下滑10%，6月三个品牌合力逆增8%，凭什么？

家电巨头牵手汽车龙头，格力与吉利在下一盘什么棋？

国产激光投影拿下近5成份额，全球第一却被这个国外巨头把持

苹果折叠OLED面板采购或居第二，9月将成格局重塑拐点

不认可手机跑分成绩！安兔兔点名某企业，手机营销不可乱来

618笔记本线上下滑15%：联想第一，苹果暴增，小米华为份额接近