除了中间遇到一次对手断线, Master 的独孤求败之路一直在继续,接连接受了数位重量级棋手的挑战,其中甚至包括有中国“棋圣”之称的聂卫平,以及中国九段棋手陈耀烨、韩国九段棋手赵汉乘、韩国棋手申真谞、中国九段棋手常昊、中国九段棋手周睿羊。
而就在 Master 击败了中国九段棋手周睿羊之后,一项不多话的 Master 终于发言告诉大家他是谁了:“我是 AlphaGo 的黄博士”。1月4 日晚,随着古力败下阵来,Master 对人类棋手获得了 60 场不败的纪录。
而且,事实上中国排名第一的棋手柯洁也在之后发文表示,其实他是少数几位知道 Master 身份的人,而且他一开始就知道与他对战的就是战力升级之后的 AlphaGo 最新版,至此也确认了 Master 的确就是 AlphaGo 的真身。
当然 AlphaGo 是不会说话的,因此代替他发言的当然是他的老搭档,也就是去年在人机大战中陪着 AlphaGo 一路过关斩将的黄士杰博士。
不过虽然 AlphaGo 不会疲倦,但是黄博士则是货真价实的人类,这几天的征战下来,AlphaGo 不知道是还是靠指挥黄博士下指导棋呢,还是直接用用 API 来连上系统对战?如果是下指导棋的话,黄博士光是坐在电脑前面恐怕也要累坏他了吧?
现在 AlphaGo 现身了,依照他这次的表现,恐怕从去年打完世纪之战之后,又吃了不少棋谱吧?
之后黄博士也在 Facebook 说明,以下为原文:
AlphaGo官方声明:
之前,黄士杰在接受 Engadget 的采访时曾说,如果再给 AlphaGo 一年半载的话,说不定李世乭真的就是史上唯一赢过 AlphaGo 一场的人了……果然半载之后,我们看到这样的结果。
不过中国围棋 AI 的一名开发者透露了他的看法——Master 的水平略有些让人失望。一名要求匿名的中国某大型网络公司 AI 开发者表示,Master 横扫人类棋手毫不意外,但是对过程有点失望,Master的技术没有想像得那么好,毕竟去年 7 月份 黄士杰在一次演讲中透露可以让顶尖棋手 2 子,半年过去了,看不出一定能让 2 子。也许这并不是最新版。
在 DeepMind 官方宣布之前,“Master”的身份激发了多方猜测,有不少人认为这就是 AlphaGo 的升级版,但与后者不同的是“Master”的招法极其奔放,推翻了很多人类棋手常走的定式,棋风与去年 3 月的 AlphaGo 大不相同。
值得注意的是,DeepMind 公司创始人 Hassabis 曾在一次采访中透露,他们正在尝试训练一个没有学习过人类棋谱的人工智能,而这可能就是 Master 和 AlphaGo 不同的原因。
AlphaGo 从 3 月份至今,经过 10 个月的发展,已经有了非常长足的进步,不过要追溯其技术原理,最详细的还是 3 月份发布在 Nature 的封面论文:Mastering the game of Go with deep neural networks and tree search(透过深度神经网露和树状搜索,学会围棋游戏)。
AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型透过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙地卡罗树状搜索演算法的级别(这种演算法模拟了上千种随机自己和自己下棋的结果) 。我们也引入了一种新搜索演算法,这种演算法将蒙地卡罗模拟和价值、策略网络结合起来。
透过将 Value Networks、Policy Networks 与树状搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。