好学的机器系列｜今天，我们掌握了围棋技艺

在线人数:
总访问量:
总文章量:

By Anonymous
Contributor profile | More stories

浏览次数
现在:
最近一小时:
最近24小时:
浏览总量:

Wednesday, January 27, 2016 22:42

% of readers think this story is Fact. Add your two cents.

围棋起源于三千多年前的中国，孔子曾在著述中表示“围棋的美学魅力使其成为真正的中国学者必备的“四艺之一”。目前，全球共有四千万人在玩围棋。玩围棋的步法主要依靠直觉与构想，因为它精致而又有极高的智力要求，几个世纪以来一直在启发人类的想像力。今天，我们很高兴的宣布，我们构建的AlphaGo系统通过机器学习掌握了这门古老的技艺。

尽管有着极简的游戏规则，但实际上围棋却是一种极为复杂的游戏。计算起来，围棋共有1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000种可能的走法——这个数字大于宇宙中原子的数量，比国际象棋还多一个10的100 次方。

出于这种复杂性，计算机很难掌握围棋技艺，也使围棋在人工智能研究者眼中成为吸引力巨大的挑战——这些研究者利用游戏作为试验场，开发巧妙而灵活的算法法，帮助计算机使用类似于人类大脑的思维方式解决问题。1952年计算机掌握了第一款游戏——井字棋；接下来是1994年的西洋跳棋；1997年，“深蓝”赢得了国际象棋比赛。人工智能并不局限于桌面游戏：2011年，IBM的Watson 在智力游戏Jeopardy中勇夺第一，2014年，我们设计的算法通过原始像素输入就学会了数十种雅达利（Atari）游戏。

但是截止目前，围棋仍然是横亘在人工智能研究者面前的难题：计算机的围棋水平只能达到业余选手的程度。

传统的人工智能方法是将所有可能的走法构建成一棵搜索树，但这种方法对围棋并不适用。所以在征服围棋的过程中，我们决定另辟蹊径。我们构建了AlphaGo的系统，将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述，这些处理层包含数百万个类似于神经的连接点。其中一个神经网络“策略网络”（policy network）选择下一步走法，另一个神经网络“价值网络”（value network）预测比赛胜利者。

我们如何做到这一切？

我们用人类围棋高手的三千万步围棋走法训练神经网络，直至神经网络预测人类走法的准确率达到57%。不过我们的目标是击败最优秀的人类棋手，而不止是模仿他们。为了做到这一点，AlphaGo学习自行研究新战略，在它的神经网络之间运行了数千局围棋，利用反复试验调整连接点，这个流程也称为巩固学习（reinforcement learning）。当然，这些都需要大量计算能力，因此我们广泛使用Google云平台，完成了大量研究工作。

完成训练后，我们要对AlphaGo进行测试。首先，我们在AlphaGo和其他顶级计算机围棋程序之间举行了比赛，结果AlphaGo在全部500场比赛中只输了一场。下一步就是邀请欧洲围棋三料冠军Fan Hui来到我们的伦敦办公室参加挑战赛，樊麾是一位优秀专业棋手，自12岁起就全身心投入于围棋事业。在去年十月的闭门比赛中，AlphaGo取得了5:0的胜利，这也是计算机程序首次击败专业围棋选手。

接下来要做什么？

三月，AlphaGo将面临终极挑战：在首尔与传奇棋手李世石展开一场五局鏖战，李世石是过去十年来的世界顶级围棋选手。

我们非常高兴能够征服围棋，克服了人工智能历史上最困难的挑战之一。不过对于我们来说，这项成就最重要的意义在于，AlphaGo不仅是遵循人工规则的“专家”系统，它还通过通用“机器学习”自行掌握如何赢得围棋比赛的规则。游戏是迅速而高效地开发及测试人工智能算法的完美平台，不过最终，我们要运用这些技术解决现实社会的重要问题。我们所采用的方法具有通用性，因此我们希望有一天这些方法也能用来解决当今世界面临的最严峻、最紧迫的问题——从气候建模到复杂的灾难分析，期待着继续运用这些技术解决更多问题！

2016-01-27 22:39:04

原始网页: http://blog.sina.com.cn/s/blog_9c079b040102wmqd.html

评论