Zi 字媒體

被微軟收購后，Maluuba著手研究多重引導強化學習機

2021/12/25

Maluuba 位於蒙特利爾（加拿大東南部港市），是加拿大的人工智慧初創公司，於今年年初被微軟收購。雷鋒網()了解到，該創業公司及其研究團隊致力於開發一種更為優異的機器智能工具，以分析無結構化文本，從而使人機交互更加自然。團隊日前完成了他們的處女作《Multi-Advisor Reinforcement Learning》，這是該團隊前段時間的工作重心。

其論文強調了「多重引導強化學習機（multi-advisor reinforcement learning）」理論，將問題分解得更加簡單且易於計算。此外， Maluuba 公司正進行有效的嘗試，教會機器一些領導技巧。從而化解以往的困難問題。

有哪些問題亟待解決？

死板，是目前人機交互界面仍然無法克服的難題，並且這種交互很容易出現各式各樣的問題。雷鋒網了解到，雖然目前行業領先的Siri, Alexa 和 Cortana 已遠遠超過以往的對話系統，但是它們表現出的智能仍然和普通的人類智力相差甚遠。

如果我們從計算機的角度出發，思考這一系統可擁有的最大能力時，我們就可以理解：即使是一個容納儘可能完整體系的模型，也不足以替代工程師創造出特定需求的智能工具，而只能在某些限定下有良好的表現。這就是為什麼你可命令Siri幫你打電話，但是不能要求它組織一場大型晚宴。

強化學習（ reinforcement learning, 機器學習的分支）從被提出以來，倍受智能領域研究工作者的關注。如之前的描述，強化學習從經濟學家的實用性概念中借鑒了新的思想，並不斷嘗試量化並反覆地評估和給出決策。採用「遊戲化」機制處理問題，並圖形化地設置一些智能系統可以優化的「節點」，這樣智能系統就可以改進，而不是直接的為自動汽車定義所有的行駛規則。當駕駛超過雙黃線時，系統可以動態的丟棄一些節點；當系統維持在速度限定內時，系統可以有保留的加入一些節點。這一思想可為系統提供更多的自適應性，但是這仍是一個相當複雜的問題，需要很大的計算量。於是，多重引導強化學習機的到來將巧妙化解這些問題。

問題解決

針對強化學習，Maluuba 試圖解決這些複雜的問題。他們的方法是使用多重「引導者」（「advisors」）的概念來突破問題，將其約減並模塊化。傳統的強化學習演算法採用的是單智能體（ Agent ）強化學習法（Single-Agent reinforcement），但是近期採用多智能體的演算法已經越顯常見了。

在 Maluuba 的訪談中，該團隊展示了一個關於智能排程助手的案例。可能有朝一日，智能演算法會按不同的會議等級分配不同的智能體，而不是讓單智能體學習演算法去安排每一種最佳的會議日程。

困難在於，如何調動所有的智能體相互協作。

Maluuba 最初想到的方法是讓這些智能體像人類一樣分解問題。而讓人們協同的高效工作本就是一個不小的工程，即便分而治之的思想有時可以超過單槍匹馬的決策。因此，解決的方法是讓聚合器（ aggregator ）坐在所有「引導者」的上方來做決定。在 Maluuba 的論文中，每一個引導者針對待解決的大問題都會有不同的側重點。如果引導者們持有不同的觀點，聚合器將站出來進行仲裁。

Maluuba 使用 Pac-Man 女士設計的簡化版程序 Pac-Boy ，用於測試不同的多重引導強化聚合學習框架理論。該團隊渴望學習人類是如何高效的分解問題。另外，如何組織及管理眾多最優聚合器，在理想情況下也是存在一些通用方法的。這就是該團隊熱衷於此的原因。於是他們決定讓機器學習「101領導法則（leadership 101）」。

多強化學習機的優勢何在？

多強化學習機可以大幅度地提升CPU和GPU的計算效率。打破這樣一個計算瓶頸的同時也使得多伺服器并行計算變得更加便於實施。降低計算複雜度是全世界科研工作者研究強化學習時的一把鑰匙。該研究團隊成員表示，這一問題也伴隨著微軟公司發展至今。微軟開啟了

Azure

雲平台，為機器學習團隊搭建了交流渠道。當 Azure 開始運作時， Maluuba 便扮演了語言文本分析領域的重要角色。

儘管強化學習本身並不是一個嶄新的概念， Maluuba 在這上面傾注了大量的資源。團隊成員肯定，團隊已經看到強化學習在 DeepMind 開發的 AlphaGo 上表現出的巨大潛力，未來的聯合研究項目將會帶來更加有效的以及適應性更強的增強學習方法。這或許將為微軟的面向會話的產品帶來更多的用戶。

via Techcrunch，雷鋒網

雷鋒網版權文章，未經授權禁止轉載。詳情見轉載須知。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點