DeepMind首次在所有57款雅达利游戏上超越人类玩家

57款雅达利游戏

DeepMind 在最新发布的预印本论文和博客中表示,他们构建了一个名为Agent57的智能体,该智能体在街机学习环境(Arcade Learning Environment,ALE)数据集所有57个雅达利游戏中实现了超越人类的表现。

如果Agent57真如DeepMind所描述的那样优秀,那么它将为构建更加强大的AI决策模型奠定基础。想象一下,人工智能不仅可以自动完成平凡、重复性的任务(比如数据输入),还可以自动推理环境。这对于那些希望实现自动化以提高生产力的企业而言,可能就是福音。

为什么选择雅达利游戏

让单个智能体完成尽可能多的任务是DeepMind一直以来的研究目标,也被该公司视为迈向通用人工智能的必经之路。而利用游戏来评估智能体性能是强化学习研究中的一个普遍做法。游戏中的环境是对真实环境的一种模拟,通常来说,智能体在游戏中能够应对的环境越复杂,它在真实环境中的适应能力也会越强。

这次DeepMind挑战的街机学习环境中包含57款雅达利游戏,可以为强化学习智能体提供各种复杂挑战,因此被视为评估智能体通用能力的理想试验场。

选择雅达利游戏作为挑战目标的原因主要有3点。首先,雅达利游戏足够多样化,可以评估智能体的泛化性能;其次,它足够有趣,可以模拟在真实环境中可能遇到的情况;第三,雅达利游戏是由独立的组织构建,可以避免实验偏见。

早在2012年,DeepMind开发Deep Q-Network(DQN)来挑战雅达利57中游戏。DQN是雅达利2600游戏众多挑战者中第一个达到人类控制水平的智能体。期间尽管取得了进步,但经过改进后的 DQN始终没有克服四款比较难的游戏:Montezuma's Revenge、Pitfall、Solaris和Skiing。此次新发布的Agent57改变了这一局面。

Agent57如何实现超越人类

DeepMind在自己的博客上公布了Agent57的框架。Agent57使用强化学习算法,同时运行在多台电脑上,这些AI赋能的智能体在环境中会选择能够最大化奖赏的动作去执行。此前,强化学习在电子游戏领域已经展现出了极大的潜力。OpenAI的OpenAI Five和DeepMind的AlphaStar RL智能体分别打败了 99.4%的Dota 2玩家和99.8%的星际2玩家。

Agent57的计算框架

具体来说,Agent57通过将众多actor(actor可以理解为一个有状态的行为)馈入到可以采样的一个中央存储库(也称为经验回溯缓冲器)中学习,进而实现数据收集。该缓冲器包含定期剪枝的过渡序列,它们是在与独立、按优先级排列的游戏环境副本交互的actor进程中产生的。

DeepMind团队使用两种不同的AI模型来近似每个状态动作的价值(state-action value),这些价值能够说明智能体利用给定策略来执行特定动作的好坏程度,这样就使得Agent57可以适应与奖励相对应的均值与方差。他们还整合了一个可以在每个actor上独立运行的元控制器,从而可以在训练和评估时,适应性地选择使用哪种策略。

DeepMind研究团队表示,这个框架模型具有以下两大优势:第一,得益于训练中的策略优先级选择,它可以使得Agent57分配更多的网络容量,来更好地表征与手边任务最相关策略的状态行动值函数;第二,在评估时,它可以用一种自然的方式来选择最佳策略。

Agent57与MuZero、R2D2和NGU等领先算法进行了成绩对比

DeepMind团队将自己的算法与MuZero、R2D2和NGU等领先算法进行了对比。其中,MuZero在全部57种游戏中达到了最高平均分(5661.84)和最高中值(2381.51),但在Venture等游戏中表现很差,得分只到和随机策略相当的水平。

与之相比,Agent57的总体表现上限更高(100),训练50亿帧后即在51种游戏上超越了人类,训练780亿帧后在Skiing游戏上超越了人类。

表现优于人类之后

DeepMind团队也在官方博客中透露了团队的下一步计划。“Agent57最终在所有基准测试集最困难的游戏中都超过了人类水平。但这并不意味着雅达利游戏研究的结束,我们不仅要关注数据效率,也需要关注总体表现……未来的主要改进可能会面向 Agent57在探索、规划和信度分配上。”论文合作者之一在官方博客中写道。

不过,对于DeepMind此次的新进展,有不少网友在网上表示祝贺,但也有人提出质疑。有人就认为Agent57表现优于人类的说法并不准确,只能说表现优于人类平均水平,因为在Montezuma's Revenge这款游戏中,Agent57并没有打破人类的最高水平。另一方面,有人认为DeepMind的研究总是侧重于在雅达利等游戏上的性能表现,但如何利用这种模型来解决现实世界的实际问题才更关键。

它会挑战支付宝微信吗?揭秘“央行数字货币”

2020年,有两件事将被记入史册,一是新冠肺炎疫情,二是即将发布的央行数字货币!近日有一张清晰度并不高的手机截图,开始在网上热传。图中是一个与我们现行人民币完全不同的图样,但又增加了很多熟悉的元素,比如“扫码支付”、“汇款”、“收付款”等等。而它,正是传说中的央行数字货币DC/EP。

发布于:22天以前  |  3598次阅读  |  详细内容 »

宜家中国回应网传视频事件:坚决反对并谴责 已报警

据国内媒体报道,近日,一段疑似在宜家拍摄的不雅视频被上传网络。5月9日,宜家家居IKEA官方微博发布声明称,关于近日网络上传播的疑似涉及宜家商场的视频事件,宜家中国非常重视。“我们坚决反对并谴责这种行为,并已第一时间向疑似受影响的商场所在城市的警方报警。”

发布于:15天以前  |  1682次阅读  |  详细内容 »

工信部:互联网流量大幅增长 今年将新建50万个5G基站

(央视财经《正点财经》)工信部相关负责人介绍,这次疫情期间,居家隔离带来网络流量的爆发式增长,在如此高负荷情况下,我国的网络经受住了考验。当前,我国5G建设发展取得明显的阶段性成效,更为疫情期间各项应用提供了保障。

发布于:1月以前  |  1439次阅读  |  详细内容 »

阿里参股韵达2% 四通八达智慧物流网再加速

韵达股份发布年报信息显示,阿里巴巴已成为其股东之一,持股2%。中国物流学会特约研究员杨达卿表示,这是阿里看好快递行业的表现,参股韵达是多赢局面,阿里的智慧物流网络建设将进一步加速,韵达将聚焦技术升级,加快降本提效,开拓更多新场景。

发布于:25天以前  |  1433次阅读  |  详细内容 »

1985-2020:中国信用卡大革命

从1985年发行第一张信用卡,到2003年前后专营机构出现;从早期的“跑马圈地”到“精耕细作”,再到移动互联网时代的平台化、后台化……中国信用卡行业经历了35年的变迁。而从另一个维度来看信用卡中心,它们“独立”于总行之外,是商业银行现代化经营的探路者;它们没有网点,是线上化运营的急先锋;它们早早地实现数字化、...

发布于:22天以前  |  1410次阅读  |  详细内容 »

复课后,学生上体育课不要戴N95

最近有关一名六年级小学生戴N95口罩上体育课的文章引发关注,人们担心一旦孩子心肺功能受损,可能造成不可逆的结果。随着多地小学和中学开始复课,在户外运动时如何正确佩戴口罩备受瞩目。

发布于:25天以前  |  1196次阅读  |  详细内容 »

Win10五月更新RTM版敲定:已达发布预览通道 最快一周内推送

今晨,Windows v2004版本Build 19041.208抵达发布预览通道(Release Preview ring),这距离其进入慢速通道测试仅仅一周时间。发布预览是转正前的最后一环,外界预计,微软最快一周内开启正式版推送,也就是面向稳定版用户开放升级,不出意外的话,Windows10易升、媒体介质创建工具将按惯例先行。

发布于:24天以前  |  1018次阅读  |  详细内容 »

谭德塞:现在比以往任何时候都更需要一个更强大的世卫组织

当地时间18日,世卫组织总干事谭德塞在第73届世界卫生大会上致辞。谭德塞表示,世界经历过一些疾病大流行,但新冠肺炎是首个由冠状病毒引起的大流行病,这是一个综合了多种危险因素的敌人。新冠肺炎造成的卫生系统中断,导致几十年来在艾滋病、疟疾、结核病等多个领域上取得的进展遭到威胁。全球经济正朝着大萧条以来最严重...

发布于:6天以前  |  1013次阅读  |  详细内容 »

《十万个为什么》主要作者叶永烈去世 享年80岁

澎湃新闻从上海作协获悉,著名作家叶永烈于2020年5月15日上午在长海医院去世,享年80岁。澎湃新闻记者下午打通叶永烈家里电话,是其儿子的友人接通的。她向记者证实叶先生于今天早上刚过世,“目前还比较忙乱,没有什么方便说的,谢谢。”

发布于:9天以前  |  972次阅读  |  详细内容 »

三星放弃世袭制 李氏后代不再掌权

5月9日消息,据韩联社报道,韩国三星电子副会长、三星集团实际掌门人李在镕举行记者会,就接班过程中存在的违法行为和工会问题等向全体国民道歉,并表示不会将企业的经营管理权交给自己的后代。

发布于:16天以前  |  964次阅读  |  详细内容 »

英菲尼迪被曝裁员超一半 国内只剩北京总部一家办公室运营

据乘联会公布的数据显示,去年国内车企的产销量都出现了同比大幅下滑现象,本就处于车市寒冬状态。而今年又受多重不利因素的冲击,部分车企也遭遇了更大的危机。日前,据媒体报道,近期英菲尼迪在国内进行组织机构调整,四个大区事业部,东区、西区、南区、北区全部裁撤,同时关闭上海、广州、成都三地办公室,只留下北京总...

发布于:27天以前  |  880次阅读  |  详细内容 »

中国丧葬用品出口订单猛增5倍 第一名是美国

4月26日,观察者网从阿里巴巴国际站了解到,该平台3月丧葬用品订单数比2月增加487%;3月20日至4月20日,裹尸袋询盘量环比增长22100%;丧葬用品流量前三名为美国、墨西哥和意大利,美国远超其他国家。目前,美国累计确诊人数已逼近百万。

发布于:28天以前  |  804次阅读  |  详细内容 »

美FDA批准瑞德西韦紧急使用授权 吉利德盘后涨超3%

美国食品和药物管理局(FDA)周五给予瑞德西韦紧急使用授权,吉利德科学股价盘后涨超3%。美国食品和药物管理局(FDA)周五对抗病毒药物瑞德西韦发放紧急使用授权,允许将该药用于治疗疑似及确诊的、重症住院的儿童及成年人新冠患者。

发布于:23天以前  |  770次阅读  |  详细内容 »

[图]unc0ver 5.0.0发布:可越狱A12和A13处理器的所有iOS 13.5设备

在5月21日放出预告后,unc0ver团队今天正式放出了5.0.0版本更新,适用于macOS、Windows和Linux平台。该团队表示最新发布的5.0.0版本使用了Pwn20wnd发现的零日漏洞,能够越狱包括iPhone 11 Pro、iPad Pro 2020以及iPhone SE第二代在内搭载A12和A13处理器的所有iOS 13.5设备。

发布于:1天以前  |  744次阅读  |  详细内容 »

最新资讯

特斯拉Model Y底盘 或采用数字制造 2小时以前  |  6次阅读
海底1万米,中国来了! 2小时以前  |  6次阅读

最热资讯

华为“去美国化”的成功几率有多大? 20小时以前  |  436次阅读
新iPhone SE使用2周体验:喜欢就买吧 3天以前  |  271次阅读