DeepMind这项伟大的突破,今天以Mastering the game of Gowithout human knowledge为题,发表于Nature,引起轰动。知社特邀国内外几位人工智能专家,给予深度解析和点评。文末有DeepMind David Silver博士专访视频。特别致谢Nature和DeepMind提供讯息和资料授权。
This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.
AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein folding or designing new materials.
the AI’s open¬ing choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
Jim Burke教授,一个五年前退休的IEEE Life Fellow,曾经讲过那个年代的故事:去开电力系统的学术会议,每讨论一个工程问题,不管是啥,总会有一帮人说这可以用神经网络解决,当然最后也就不了了之了。简单的说是大家挖坑灌水吹泡泡,最后没啥可忽悠的了,就找个别的地儿再继续挖坑灌水吹泡泡。上世纪末的学术圈,如果出门不说自己搞神经网络的都不好意思跟人打招呼,就和如今的深度学习、大数据分析一样。
This is not the beginning of any end because AlphaGo Zero, like all other successful AI so far, is extremely limited in what it knows and in what it can do compared with humans and even other animals.
The improvement in training time and computational complex¬ity of AlphaGo Zero relative to AlphaGo, achieved in about a year, is a major achieve¬ment… the results suggest that AIs based on reinforcement learning can perform much better than those that rely on human expertise.
If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.
以下为DeepMind David Silver 博士专访视频,中文字幕由Nature上海办公室制作:
今日Nature: 人工智能从0到1, 无师自通完爆阿法狗100-0 | 深度解析
去年,有个小孩读遍人世所有的棋谱,辛勤打谱,苦思冥想,棋艺精进,4-1打败世界冠军李世石,从此人间无敌手。他的名字叫阿法狗。
今年,他的弟弟只靠一副棋盘和黑白两子,没看过一个棋谱,也没有一个人指点,从零开始,自娱自乐,自己参悟,100-0打败哥哥阿法狗。他的名字叫阿法元。
DeepMind这项伟大的突破,今天以Mastering the game of Gowithout human knowledge为题,发表于Nature,引起轰动。知社特邀国内外几位人工智能专家,给予深度解析和点评。文末有DeepMind David Silver博士专访视频。特别致谢Nature和DeepMind提供讯息和资料授权。
Nature今天上线的这篇重磅论文,详细介绍了谷歌DeepMind团队最新的研究成果。人工智能的一项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。去年,阿法狗(AlphaGo)代表人工智能在围棋领域首次战胜了人类的世界冠军,但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上,进而自我训练,实现超越。
阿法狗元棋力的增长与积分比较
可是今天,我们发现,人类其实把阿法狗教坏了! 新一代的阿法元(AlphaGo Zero), 完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcement learning)和参悟, 棋艺增长远超阿法狗,百战百胜,击溃阿法狗100-0。
达到这样一个水准,阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。而它的哥哥阿法狗,需要在48个TPU上,花几个月的时间,学习三千万棋局,才打败人类。
这篇论文的第一和通讯作者是DeepMind的David Silver博士, 阿法狗项目负责人。他介绍说阿法元远比阿法狗强大,因为它不再被人类认知所局限,而能够发现新知识,发展新策略:
DeepMind联合创始人和CEO则说这一新技术能够用于解决诸如蛋白质折叠和新材料开发这样的重要问题:
美国的两位棋手在Nature对阿法元的棋局做了点评:它的开局和收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错。但是中盘看起来则非常诡异:
为更深入了解阿法元的技术细节,知社采访了美国杜克大学人工智能专家陈怡然教授。他向知社介绍说:
他进一步解释道:
阿法元是如何实现无师自通的呢? 杜克大学博士研究生吴春鹏向知社介绍了技术细节:
杜克大学博士研究生谢知遥对此做了进一步阐述:
这个工作意义何在呢?人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授也对知社发表了看法:
接着,洪教授也简单回顾了人工神经网络的历史:
然后,洪教授对人工智能做了并不十分乐观的展望:
美国密歇根大学人工智能实验室主任Satinder Singh也表达了和洪教授类似的观点:这并非任何结束的开始,因为人工智能和人甚至动物相比,所知所能依然极端有限:
不过,Singh教授仍然对阿法元大加赞赏:这是一项重大成就, 显示强化学习而不依赖人的经验,可以做的更好:
陈怡然教授则对人工智能的未来做了进一步的思考:
陈教授最后也提出一个有趣的命题:
不过David Silver对此并不担心,而对未来充满信心。他指出:
以下为DeepMind David Silver 博士专访视频,中文字幕由Nature上海办公室制作:
您觉得哪一个突破更加关键呢?是阿法狗拜人为师最后打败老师,还是阿法元无师自通打败阿法狗?不妨留言告诉我们,并和大伙分享您对人工智能何去何从的看法。
免责声明:本文来自作者—— IT行业网,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。