Zi 字媒體

你以為只是下圍棋能贏人類？微軟的 AI 在吃豆人遊戲上也超越人類了

2021/12/25

yidianzixun

300 + 明星創業公司，3000 + 行業人士齊聚全球人工智慧與機器人峰會 GAIR 2017，一同見證 AI 浪潮之巔！峰會搶票火熱進行中。讀者有專屬送票福利活動哦，詳情見文末！

雷鋒網按：微軟研究人員創建了一個人工智慧的系統，這個系統能夠在 20 世紀 80 年代風靡全球的電子遊戲吃豆人小姐（Ms. Pac-Man）中獲得最高分，系統使用了分治策略來更大程度地影響 AI 代理，從而完美地通關遊戲。

今年年初，微軟收購了一家人工智慧初創公司 Maluuba，Maluuba 公司團隊運用強化學習技術（機器學習的分支），在吃豆人小姐遊戲 Atari 2600 版本中表現完美。使用這種方法，該團隊在這個遊戲中得到的分數高達 999,990。

位於加拿大蒙特利爾的麥吉爾大學（McGill University），從事計算機科學研究的 Doina Precup 副教授表示，AI 研究人員的常常使用各種電子遊戲來測試他們研發的系統，但研究人員發現吃豆人小姐遊戲是最難攻克的。

但是，Precup 表示，相比於研究人員所取得的成就而言，她對於研究人員獲得成果的過程更加感興趣。為了在吃豆人小姐遊戲中獲得更高的分數，Maluuba 公司團隊將操控吃豆人小姐遊戲的大問題分解成若干個小問題，然後將小問題分發給 AI 代理解決。

Precup 說「這個分治策略的想法讓 Maluuba 公司的研究人員使用不同的系統來實現同一個目標，這是一件非常有趣的事情」，她還說到：「這個想法類似於一些大腦如何工作的理論，它可以更大程度地影響 AI 代理教學，從而利用有限的信息來完成更為複雜的任務。倘若能夠完美利用分治策略，那人工智慧將向前跨越一大步，這真的令人感到尤為興奮。」

Maluuba 團隊將這種分治策略稱之為混合式獎賞架構（Hybrid Reward Architecture），這個方法使用了 150 多名人工智慧代理，每個代理與其他代理相互獨立地精通吃豆人小姐遊戲。比如，一些代理成功找到一個豆子將獲得的獎勵，而另外一些代理由於幽靈的存在必須呆在原處。

然後，研究人員在吃豆人小姐遊戲中創建了一個頂級代理，就像一家公司的高級經理一樣，頂級代理能夠獲得所有代理的建議，綜合分析後由頂級代理來決定吃豆人小姐該如何移動。

頂級代理會根據選擇各個方向前進的代理數量的大小來決定移動方向，但同時也需要考慮到代理想要往某個方向移動的反應強度。例如，如果 100 個代理想向右邊移動，因為向右邊走是他們的最佳路徑，但有 3 個人想要向左邊移動，因為右邊有一個致命的幽靈，那這 3 個代理向左邊移動的反應強度明顯強於其他代理，考慮到幽靈的存在，頂級代理應該決定向左移動。

Maluuba 公司的研究室經理 Harman Van Seijen，對於他們的最新研究成果發表了一篇文章，文章中寫到，當每位代理都果斷地做出選擇，頂級代理綜合利用每個代理的信息后做出最佳選擇，那麼在吃豆人小姐遊戲中就可以獲得最好的結果。Harman Van Seijen 說：「雖然每個代理只關心一個特定的問題，但是他們之間有很好的相互作用」。

圖為 Harman Van Seijen

為什麼 AI 主要研究攻克吃豆人小姐遊戲

需要運用最先進的 AI 研究方法來擊敗類似於上世紀 80 年代 Atari 吃豆人小姐遊戲這樣的簡單遊戲，這看上去很匪夷所思。但是 Maluuba 公司的項目經理 Rahul Mehrotra 表示，使用演算法來贏得這些簡單的電子遊戲其實非常困難，因為在玩遊戲的過程中可能會遇到的各種各樣的情況。

Mehrotra 表示：「許多從事人工智慧的公司構建遊戲智能演算法，因為公司希望人工智慧能夠像人類一樣擁有打遊戲的技能。」

Steve Golson 是吃豆人小姐遊戲街機版的創始人之一，他說到，吃豆人小姐最初定位是街機遊戲，希望遊戲對人們有持續吸引力而走出宿舍，所以吃豆人小姐遊戲必須掌握人類不可完全征服的遊戲程序。

圖為 Steve Golson

運營諮詢公司 Trilobyte Systems 的 Golson 說到，他們故意設計了吃豆人小姐遊戲比普通吃豆人遊戲更加不可預測，所以玩家們很難打通關。複雜的遊戲使得研究人員試圖使用 AI 代理來對隨機環境做出理想的反應。Golson 還說到：「使用 AI 代理來通關吃豆人小姐遊戲是可行的，但由於遊戲的隨機性，所需要設計的 AI 程序將尤為複雜。」

強化學習

對於在不斷發展的強化學習領域工作的研究人員來說，這種不可預測性極有價值。在 AI 研究中，強化學習是監督學習的副本，是一種更常用的人工智慧方法，它能夠讓系統在做任務時變得更好。

通過強化學習，代理對其每個動作都採取積極或消極的反應，通過不斷地試驗和犯錯誤來最大限度地獲得積極反應或獎賞。

具有監督學習的 AI 系統，通過給出良好和不恰當的示例，來學習如何在對話中做出適當的回應。而強化學習系統則是通過系統在對話中做出正確的回應，而後獲得更高級別反饋的方式來學習對話。

AI 專家認為，強化學習可以用於創建 AI 代理，這樣的代理可以做出更多的決定，能夠完成更複雜工作，為人們提供更高水平的服務。Mehrotra 表示，他們開發的能夠通關吃豆人小姐遊戲的系統，就可以為人們提供更好的服務。它可以在特定時間或任意時間幫助公司的銷售部門預測商品的潛在客戶。該系統可以使用多個代理，每個代理代表一個客戶，可以預測很多重要因素，例如：哪些客戶會續簽合同，哪些合同對於公司是有價值的。

有了 AI 系統預測的幫助，銷售主管可以把更多的時間放在潛在客戶身上，如此會提高出售機會，因為銷售人員的目光已經瞄準了最容易下訂單的客戶。

Van Seijen 表示，他希望這種分治策略可以被用在 AI 的其他研究領域，如自然語言處理領域。他還說到：「分治策略使人們在解決真正複雜的問題的方式上取得進步。」

via Microsoft

ps：優惠券僅限 CCF-GAIR 大會「參會門票」，本鏈接只能使用 5 次，有效期 1 天。長按複製鏈接，在瀏覽器打開立即使用。優惠券額度每天遞減，欲購從速。

複製鏈接到瀏覽器立即使用

為了感謝各位讀者的支持，雷鋒網將不定期送出 CCF-GAIR 大會門票 。活動規則：分享以下海報到朋友圈並邀請好友點贊，將截圖發到雷鋒網微信後台，我們將給獲贊最多的讀者送出一張 CCF-GAIR 大會門票。本日活動截止明天晚上 10 點（6 月 16 日）。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點