阿尔法“新狗”三天自学,胜过千年。谷歌会用它做什么?
AlphaGo zero图片来自互联网。
自学习能力的出现是人工智能和机器学习的新突破。“以前人们普遍认为机器学习是基于海量大数据的,但是从AlphaGoZero我们发现算法比数据更重要。”AlphaGo项目的负责人大卫·西尔弗(David Silver)说。
还有就是因为算法用的多,数据用的少,AlphaGo只用了一台计算机器和四个TPU,被它打败的一代AlphaGo用了多台机器和48个TPU。
当人们惊讶于AlphaGo在围棋领域的水平时,对于DeepMind团队来说,仅仅是一个开始。他们的目的是通过培养自主学习的能力来解决其他领域无法解决的更棘手的问题。
从AlphaGo,AlphaGoMaster到AlphaGo Zero
AlphaGo是2015和10出的。在它与棋手李世石下棋广为人知之前,它就已经打败了欧洲围棋冠军范辉。范辉接受采访时说,当时在他看来,一个计算程序是不可能打败职业棋手的。
结果他0-5输给了AlphaGo,但他也加入了DeepMind团队,帮助训练AlphaGo。2016年3月,在他帮助下训练的AlphaGo以4-1的比分战胜了人类最顶尖的棋手李世石。2017年初,AlphaGo更名为“大师”,在网上挑战60名人类棋手,保持全胜。2017年5月,乌镇,名为Master的第二代AlphaGo以3-0击败世界最强棋手柯洁。
AlphaGo对战柯洁图片来自网络。
在今年5月的比赛中,DeepMind的多位高管曾向记者透露,Master已经实现了自我学习能力,甚至拥有了自己的“直觉”。“我们发现AlphaGo不再需要依赖人类训练员。”戴维·席尔瓦告诉记者。
在与柯洁的对局中,AlphaGo已经能下出很多人类棋手想象不到的棋。赛后柯洁表示,第一代AlphaGo还是能找到破绽的,Master实现了从人到神的飞跃。
AlphaGoZero在“独立性”上更进一步。在训练的过程中,是一场自我博弈。从训练图中可以看出,两位棋手一开始都因为不熟悉围棋而实力较弱,但随着时间的推移,他们在短短三天内与对方进行了490万场比赛后变得越来越强,实现了围棋水平的突破。
(图:AlphaGo训练72小时图谱)
人类顶尖棋手柯洁被认为是围棋天才。6岁开始学棋,17岁世界排名第一。一个人类天才研究了十几年,三天就被AlphaZero超越了。
但是DeepMind团队不在这里。“AlphaGo的意义不是打败人类,而是理解知识,解决更多的问题。”戴维·席尔瓦说。