|
浏览次数 | |
现在: | |
最近一小时: | |
最近24小时: | |
浏览总量: |
围棋起源于三千多年前的中国,孔子曾在著述中表示“围棋的美学魅力使其成为真正的中国学者必备的“四艺之一”。目前,全球共有四千万人在玩围棋。玩围棋的步法主要依靠直觉与构想,因为它精致而又有极高的智力要求,几个世纪以来一直在启发人类的想像力。今天, 我们很高兴的宣布,我们构建的AlphaGo系统通过机器学习掌握了这门古老的技艺。
尽管有着极简的游戏规则,但实际上围棋却是一种极为复杂的游戏。计算起来,围棋共有1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000种可能的走法——这个数字大于宇宙中原子的数量,比国际象棋还多一个10的100 次方。
出于这种复杂性,计算机很难掌握围棋技艺,也使围棋在人工智能研究者眼中成为吸引力巨大的挑战——这些研究者利用游戏作为试验场,开发巧妙而灵活的算法法,帮助计算机使用类似于人类大脑的思维方式解决问题。1952年计算机掌握了第一款游戏——井字棋;接下来是1994年的西洋跳棋;1997年,“深蓝”赢得了国际象棋比赛。人工智能并不局限于桌面游戏:2011年,IBM的Watson 在智力游戏Jeopardy中勇夺第一,2014年,我们设计的算法通过原始像素输入就学会了数十种雅达利(Atari)游戏。
但是截止目前,围棋仍然是横亘在人工智能研究者面前的难题:计算机的围棋水平只能达到业余选手的程度。
传统的人工智能方法是将所有可能的走法构建成一棵搜索树 ,但这种方法对围棋并不适用。所以在征服围棋的过程中,我们决定另辟蹊径。我们构建了AlphaGo的系统,将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述,这些处理层包含数百万个类似于神经的连接点。其中一个神经网络“策略网络”(policy network)选择下一步走法,另一个神经网络“价值网络”(value network)预测比赛胜利者。
我们如何做到这一切?
我们用人类围棋高手的三千万步围棋走法训练神经网络,直至神经网络预测人类走法的准确率达到57%。不过我们的目标是击败最优秀的人类棋手,而不止是模仿他们。为了做到这一点,AlphaGo学习自行研究新战略,在它的神经网络之间运行了数千局围棋,利用反复试验调整连接点,这个流程也称为巩固学习(reinforcement learning)。当然,这些都需要大量计算能力,因此我们广泛使用Google云平台,完成了大量研究工作。
完成训练后,我们要对AlphaGo进行测试。首先,我们在AlphaGo和其他顶级计算机围棋程序之间举行了比赛,结果AlphaGo在全部500场比赛中只输了一场。下一步就是邀请欧洲围棋三料冠军Fan Hui来到我们的伦敦办公室参加挑战赛,樊麾是一位优秀专业棋手,自12岁起就全身心投入于围棋事业。在去年十月的闭门比赛中,AlphaGo取得了5:0的胜利,这也是计算机程序首次击败专业围棋选手。
接下来要做什么?
三月,AlphaGo将面临终极挑战:在首尔与传奇棋手李世石展开一场五局鏖战,李世石是过去十年来的世界顶级围棋选手。
我们非常高兴能够征服围棋,克服了人工智能历史上最困难的挑战之一。不过对于我们来说,这项成就最重要的意义在于,AlphaGo不仅是遵循人工规则的“专家”系统,它还通过通用“机器学习”自行掌握如何赢得围棋比赛的规则。游戏是迅速而高效地开发及测试人工智能算法的完美平台,不过最终,我们要运用这些技术解决现实社会的重要问题。我们所采用的方法具有通用性,因此我们希望有一天这些方法也能用来解决当今世界面临的最严峻、最紧迫的问题——从气候建模到复杂的灾难分析,期待着继续运用这些技术解决更多问题!
2016-01-27 22:39:04