人工智慧Libratus是如何击败德州扑克高手的?

浏览量:247 点赞:362 收藏:677 2020-06-16

人工智慧Libratus是如何击败德州扑克高手的?
Ryan Riess , 23, a poker professional from East Lansing, Michigan contemplates a move against Jay Farber, 29, a Las Vegas VIP Host originally from Santa Barbara, California, during the final table of the World Series of Poker $10,000 buy-in no-limit Texas Hold 'Em tournament at the Rio Hotel & Casino in Las Vegas, Nevada November 5, 2013. REUTERS/Steve Marcus- RTX151SF

1 月 30 日,宾州匹兹堡 Rivers 赌场,耗时 20 天的德州扑克人机大战尘埃落定。卡耐基梅隆大学开发的 AI 程式 Libratus 击败人类顶级职业高手,赢取了 20 万美元的奖金。儘管之前 Google DeepMind 的 AlphaGo 在与李世乭的 5 番棋围棋大战以及在网络上跟顶级围棋选手的 60 番棋大战中出尽了风头。但相对而言德州扑克对于 AI 却是更大的挑战,因为 AI 只能看到游戏的部分资讯,游戏并不存在单一的最优下法。那幺 CMU 的 Libratus 是如何击败人类顶级的职业高手的呢?

在几乎 3 个星期的时间里,Dong Kim 都呆在匹兹堡的一个赌场内跟一台机器玩扑克。但 Kim 不是普通的扑克玩家。跟他对垒的也不是普通的机器。而这场比赛也不是普通的扑克游戏。

28 岁的 Kim 是全世界最好的扑克玩家之一。而那台由卡内基梅隆大学的两位电脑科学研究人员开发的机器,是一套运行在匹兹堡的一台超级计算机的人工智慧系统。在整整 20 天的时间内,他们都在玩无限制德州扑克比赛,这是一种特别複杂的扑克游戏形式,其投注策略往往要经过很多手。

这场比赛刚刚结束不久。大概赛程过半的时候,Kim 开始觉得 Libratus 好像能看到他的牌。不过他说:「我不是指责它作弊。而是说它有那幺好。」实际上好到击败了 Kim 及其他的 3 名全球顶级人类玩家——这是人工智慧的第一次。

在这次比赛期间,Libratus 的创造者对这套系统的运作方式显得遮遮掩掩,大家不清楚它是如何设法取得如此成功的,如何以其他机器前所未有的方式模仿了人类直觉的。但结果证明,该 AI 能达到如此高度,是因为它不仅仅只是一个 AI。

Libratus 依靠了 3 套不同的系统的协作,这提醒我们现代 AI 并不是由一项而是多项技术驱动的。 这段时间以来深度神经网路抓住了大多人的眼球,当然这也有很好的理由:它们为一些全球最大型的技术公司从图像辨识到翻译乃至于搜寻的一切提供了动力。但神经网路的成功也为大量其他帮助机器模仿甚至超越人类天才的 AI 技术注入了新生命。

比方说,Libratus 就没有使用神经网路。它主要靠的是强化学习,这是人工智慧的一种,一种极其强调试错的方法。其实本质就是自己跟自己玩大量的游戏。Google 的 DeepMind 实验室利用强化学习来开发 AlphaGo,这套系统攻克围棋的时间比预期早了 10 年,但这两套系统之间有一个关键的不同。AlphaGo 是通过分析人类玩家的 3000 万份棋谱来学习游戏的,然后才通过自己跟自己下棋来改进自己的技能。相对而言,Libratus 却是从零开始学的。

通过一种名为反事实遗憾最小化的算法,它先是随机地玩,然后最终在经过几个月的训练以及玩了上万亿手扑克之后,它也达到了能挑战最好人类玩家的高度。不仅如此,它的玩法还是人类所不能的—— 它下注的範围要大得多,而且会对这些赌注随机化,这样对手就更难猜自己手上都有什幺牌了。

跟导师 Tuomas Sandholm 一起开发了这套系统的 CMU 研究生 Noam Brown 说:

但这只是第一阶段。 在匹兹堡的比赛期间,第二套系统会分析游戏状态并聚焦于第一套系统的注意力。这套系统属于一种「残局解算器」,上週一 Sandholm 和 Brown 发表的论文详细描述了它的细节。在第二套系统的帮助下,第一套系统再也不需要像过去那样跑完所有可能的场景了。它可以只试探其中的一些场景。也就是说,Libratus 不仅仅是在在比赛前学习,而且还能在比赛中学到东西。

光靠这两套系统就已经很有效率了。但 Kim 等其他玩家仍然能够找出机器玩法的一些模式然后设法加以利用。 为此,Brown 和 Sandholm 开发了第三套系统。每天晚上 Brown 都会跑一个算法来识别出那些模式,然后从策略中剔除掉。 他说:「一个晚上它就能计算完,然后在次日把一切準备就绪。」

如果这似乎不公平的话,好吧,AI 就是这幺干。这并不仅仅是 AI 跨越了许多技术。人类往往也频繁加入进来,积极地改进 AI、跑 AI 或者增强 AI。Libratus 的确是个里程碑,展示了一种新型的 AI,从华尔街的交易到网路安全乃至于拍卖和政治谈判,这种 AI 都可以从中扮演一定的角色。曾帮助 Google 设立中心 AI 实验室,现为百度首席科学家的吴恩达说:「扑克曾经是 AI 最难攻克的游戏之一,因为关于游戏状态你只能看到部分资讯。扑克并没有单一的最优下法。相反,AI 玩家必须让自己的行动随机化,这样它诈唬时才能让对方无法确定真假。」

Libratus 把这一点做到了极致。它的下注非常的随机化,甚至超过了人类最好玩家的水平。而且如果这个方法不奏效的话,Brown 晚上跑的算法就会弥补它的不足。金融市场交易员也可以採取相同的做法,外交官亦然。这是一个强大且相当令人不安的想法:机器可以用大赌注吓退人类。

上一篇: 下一篇:

相关推荐