Zi 字媒體

局部隨機行為機器人可促進人類整體協作

2021/12/25

本文由科技導報（ID:STReview）授權轉載，作者：劉勇，盧宇鵬

遵循原則辦事一直以來被認為是人類高效合作的基礎，然而最近一項研究表明，一定程度上不按常理出牌反而可以促進人類合作，實現大同。

2017 年5 月17 日，來自耶魯大學的學者Hirokazu Shirado 和Nicholas A.Christakis，在《Nature》上發表了一篇題為《Locally noisy autonomous agents improve global human coordination in network experiments》的文章（圖1），引起了廣泛關注。

圖1 《Nature》2017 年第7654 期封面

機器人Bot 與人協作實驗

在論文中設計了一個實驗，要求參與的志願者玩一個在線遊戲，遊戲中搭建了一個由20 個節點構成的網路，每位志願者控制其中一個網路節點，每個節點可以在橙色、綠色和紫色3 種顏色之間轉換。當相鄰兩個節點顏色相同時，認為兩個節點之間存在衝突，如圖2（a）中的紅色邊所示。遊戲中，每位志願者只能看到自己以及和自身相鄰節點的顏色，從而調整自己的顏色。遊戲最終目的是要使網路變為不存在衝突的狀態，如圖2（b）所示。如果整個網路在5 min之內實現了目標（相鄰節點顏色不同），所有玩家都會受到額外的獎勵。

圖2 在線遊戲實驗中網路節點變化示意

研究人員一共招募了4000 名人類玩家，並將230 個隨機生成的機器人Bot置於該網路中，實驗將由這些人類玩家以及機器人共同協作完成。實驗被分為多組，以便進行對比。第1 組，20個節點全部由人控制；第2 組，17 個節點由人控制，3 個節點顏色固定；第3 組，17 個節點由人控制，3 個節點由機器人Bot 控制。這第3 組實驗可以根據機器人Bot 位置和動作策略的不同而細分的。根據位置劃分，分為3 種類型：1）機器人Bot 部署在網路中心；2）機器人Bot 部署在網路邊緣；3）機器人Bot 部署位置隨機。根據機器人Bot 採用的動作策略又可分為3種類型：1）機器人Bot 每隔1.5 s 選擇一種顏色，使得自己和周圍相鄰節點衝突最少；2）機器人Bot 在70%的時間裡採用第一種策略，剩下的30%時間裡隨機選擇顏色；3）機器人Bot 在90%的時間裡採用第1種策略，剩下的10%時間裡隨機選擇顏色。以上根據機器人Bot 的位置和策略的不同，可以組合構成第3 組實驗方案的9 類實驗。

實驗結果如圖3 所示。圖3 中的縱軸表示尚未被解決衝突的實驗數量占同類實驗總數的比率，橫軸表示遊戲進行的時長。深藍色線條表示由人和機器人Bot 協作的結果，淺藍色線條表示全部由人控制的結果。圖3 中的P 值是對數秩檢驗結果，因此該組實驗存在顯著差異的置信度可表示為1-P。由於上述未加入機器人Bot 的第1 組和第2 組實驗結果非常接近，在圖2 的實驗中只給出了第1組實驗和第3 組實驗的對比結果。圖2中的第1 行，第2 行和第3 行分別給出了機器人Bot 位置對結果的影響，分別對應為機器人Bot 隨機擺放，放在網路中間以及放在網路邊緣3 種位置情況；圖2 中的第1 列，第2 列和第3 列分別給出機器人Bot 採用不同智能策略（按照0，10%，30%的比例隨機選擇顏色）的實驗結果；以圖2 左上方第1 張子圖為例，深藍色線條表示3 個機器人Bot 參與遊戲的實驗結果，其中參與實驗的3 個機器人Bot 位置隨機擺放，機器人Bot 每隔1.5 s 選擇1種顏色，使得自己和周圍相鄰節點衝突最少。淺藍色曲線表示20 個節點全部由人類控制的結果。由該子圖中的P 值可知，有74.3%（1-0.257）的概率可以認為該子圖對應的實驗結果是有顯著性差異的。

圖3 機器人Bot 與人協作實驗結果

實驗結果分析與評價

實驗結果表明，混有機器人Bot 的網路測試結果和全部由人類控制的網路測試結果相比互有優劣，存在一定隨機性。但是注意看最中間的實驗結果，具有10%行為雜訊且位於網路中心的機器人Bot 反而可以顯著提升遊戲的可解性，同時具有98.5%的概率說明兩組實驗存在顯著性差異。在全部由人類控制的總計30 次的實驗中，共有20 次實驗在5min 內解決了所有衝突，這20次實驗的平均時間為232.4 s，而有10%行為雜訊且機器人Bot 位於網路中心的這組實驗一共進行了20 次，其中17 次實驗在5min 內解決了所有衝突，這17 次實驗的的平均時間為103.1 s，相比全由人控制的實驗，其解決問題的比率提升了26.9%，其平均速度提升了55.6%。

乍一看來，上述實驗結果和人類直覺似乎相悖，直覺通常會認為雜訊、隨機動作是無意義的，只是浪費資源的一種行為。然而，這一直覺卻被日益深入發展的人工智慧所顛覆。以最近全球熱切關注的圍棋人機大戰為例，AlphaGo的一些落子與人類棋手的直覺和經驗相差甚遠，被認為是敗筆，卻在最後成為了整盤棋的轉折點。事實上，人類棋手往往會以自己主觀的最優解法去理解整盤棋，和對手對抗。在訓練過程中潛移默化的認為某些落子會使整盤棋更有勝算，最後就固化這樣的思維，形成了自身的直覺。這樣做的好處是在圍棋這一超高維度運算中可以快速地降低問題的複雜性和維度，進而做出判斷。但是，缺陷也是顯而易見的，上述直覺引導下的策略會造成解空間覆蓋不全，儘管直覺可以比較快地收斂到一個相對不錯的解，但是這樣的解往往還存在比較大的提升空間。這也就不難理解，AlphaGo 當時看似失誤的走棋會成為最後的關鍵。其原因就在於這是對更大的解空間進行探索而得出的，而這樣的探索過程往往伴有一定程度的隨機性，解空間大了，可以選擇的策略自然就會更多，獲得更優解的概率也就相應上升了。

其實在人工智慧領域，利用雜訊來探索未知空間早已有所應用。例如強化學習領域中對未知領域的探索常見的做法就是採用e-greedy 方法，即在智能體學習的前期採用完全隨機的探索，去充分的探索未知領域，到了學習後期，則以90%概率選擇當前最優，10%的概率仍然進行隨機探索，這種做法不僅利用了自己本身的知識，也不斷繼續學習。隨著學習時間的推移，智能體會學得越來越好，設想一下，如果不對未知進行探索，僅僅只滿足現在所得，故步自封，自然也就不會進步了。

但是之前的探索僅僅對於自身進行，也就是優化自我，而上述文章中的實驗是基於隨機雜訊優化協同合作，這是第一次被提出的，是這篇文章的一大亮點。人與人之間合作一般有兩種形式，第一是自上而下，由leader 指定任務，分配工作，這樣並不一定高效；第二每個人發揮各自特長，但這又會引入個人目標與最終目標的矛盾。本文對兩種合作方式都做了實驗，在實驗初期指定3 個點的顏色就是對第1 種方法的模擬，結果和全由人類控制的效果類似。但是對第2 種合作方式提出了一種非常大膽的想法——一定程度的隨機。在實驗中玩家往往會選擇使得自己和周圍節點衝突最少的顏色（個人目標），但是這種方法和全局無衝突（全局目標）存在一定矛盾。通過在網路中引入能夠產生隨機行為的機器人Bot，很好的協調了相互之間的合作，也就是機器人幫助人類實現了協作提升。

未來展望

《Locally noisy autonomous agents improve global human coordination in network experiments》一文對合作共贏提出了新的想法，期待這一想法可以在後續可以進一步展開。下一步的研究重點可能在於以下幾個方面：

正如作者所說，本實驗和真正人類協作還存在一定的差距，後續工作將會在網路合作更大，任務更加複雜的環境中進行，來拓展該研究的實用性。

理論上進行推導，為什麼是10%而不是其他的雜訊程度，可以達到促進作用，是否存在一定的極限，極限是多少，這樣將會更有說服力，更具泛化能力。

作者簡介：劉勇，浙江大學智能系統與控制研究所，教授；盧宇鵬，浙江大學智能系統與控制研究所，碩士研究所。

註：本文發表在2017年第14期《科技導報》，歡迎關注。本文部分圖片來自互聯網，版權事宜未及落實，歡迎圖片作者與我們聯繫稿酬事宜。

一網打盡系列文章，請回復以下關鍵詞查看：

預見未來：預見2016 | 預見2020 | 預見2025 | 預見2030 | 預見2035 | 預見2045 | 預見2050 |

前沿科技：顛覆性技術 | 生物 | 仿生 | 腦科學 | 精準醫學 | 基因 | 基因編輯 | 虛擬現實 | 增強現實 | 納米 | 人工智慧 | 機器人 | 3D列印 | 4D列印 | 太赫茲 | 雲計算 | 物聯網 | 互聯網+ | 大數據 | 石墨烯 | 能源 | 電池 | 量子 | 超材料 | 超級計算機 | 衛星 | 北斗 | 智能製造 | 不依賴GPS導航 | 通信 | MIT技術評論 | 航空發動機 | 可穿戴 | 氮化鎵 | 隱身 | 半導體 | 腦機介面

先進武器：武器 | 無人機 | 轟炸機 | 預警機 | 運輸機 | 戰鬥機 | 六代機 | 網路武器 | 激光武器 | 電磁炮 | 高超聲速武器 | 反無人機 | 防空反導 | 潛航器 |

全文收錄：2016文章全收錄 | 2015文章全收錄 | 2014文章全收錄

其他主題系列陸續整理中，敬請期待……

「遠望智庫」聚焦前沿科技領域，著眼科技未來發展，圍繞軍民融合、科技創新、管理創新、科技安全、知識產權等主題，開展情報挖掘、發展戰略研究、規劃論證、評估評價、項目篩選，以及成果轉化等工作，為管理決策、產業規劃、企業發展、機構投資提供情報、諮詢、培訓等服務，為推動國家創新驅動發展和軍民融合深度發展提供智力支撐。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點