Zi 字媒體

哈弗神經學博士：自動駕駛汽車不會讀心術，但人會！

2021/12/25

yidianzixun

如果向機器人學家或計算機科學家提問，需要具備哪些功能才能讓一輛汽車實現自動駕駛？

他們的回答都差不多，比如：

需要知道道路的邊界在哪裡；

需要能夠從縱向和側向操控汽車（即轉向和加減速）；

需要知道某段道路的限速是多少；

能夠識別並讀懂路標代表什麼含義；

能夠檢測交通信號燈是紅色還是綠色；

能夠快速對行駛路徑中出現的意外物體作出反應；

能夠實現高精度定位與導航。

上述功能確實是重要，且不可或缺，但卻忽略了真實世界駕駛過程中一個重要組成部分：我們的直覺。我們是如此擅長且毫不費力地使用著直覺來確定周圍人的動機，以致於自己都沒察覺到這個過程，更不用說對其進行編程。

然而，目前自動駕駛汽車缺乏的正是這個能力——看一眼某個人（如行車過程中經常遇見的三類人：行人、駕駛員和騎腳踏車的人），就知道他們此刻在想什麼。事實上，人類駕駛員在開車時的這些即時判斷，對自身與他人的行車安全起著至關重要的作用。

來自哈佛大學的自動駕駛初創公司

山姆·安東尼（Sam Anthony）是哈佛大學認知學、腦科學與行為學在讀博士（PhD Candidate in Cognition, Brain and Behavior），同時也是自動駕駛軟體初創公司 Perceptive Automata 的 CTO 兼聯合創始人。Perceptive Automata 的成員全部來自哈佛大學，成員的學術背景包括神經科學、計算機視覺與機器學習，致力於開發下一代人工智慧技術。

為了弄清人們在開車時喚醒這些潛意識的頻率，安東尼曾在自己工作過的哈佛大學實驗室附近的一個安靜的沒有信號燈的十字路口安裝了一台相機以記錄路口的交通情況。

在想象中，這種較偏僻的十字路口不會像波士頓市中心、曼哈頓或者墨西哥城的那麼擁擠或難以通過。但是在短短 30 秒的視頻片段間隔中，仍能數出超過 45 個瞬間，是某一人在用直覺讀懂另一人內心的想法。

這些非語言的瞬間產生的直覺認知可能是：

「那人不會讓步」；

「那人沒看到我在這裡」；

「那人在遛狗，不會亂穿馬路」；

「那兩個人在談話，不會過馬路」，等等。

預知心理狀態

有很多實驗證據表明，人類非常善於憑直覺讀懂他人的意圖，即會「讀心術」。薩莉-安妮測試（Sally-Anne Test）是一項經典的心理學實驗，受試者（通常是孩子）通常會看著一個用娃娃演示劇情的研究人員，如圖 2 所示，劇情如下：

有兩個小姑娘，名叫 Sally 和 Anne。

Sally 有一個籃子， Anne 有一個箱子。

Sally 的籃子里有一顆彈珠，但是 Anne 的箱子里沒有。

有一天早上，Sally 出門了。

Anne 偷偷打開了 Sally 的籃子，偷走了彈珠，放進了自己的箱子里。

Sally 晚上回到了家，她想找自己的珠子。

那麼問題來了，她應該去哪裡找呢？

實驗結果表明，四歲以上的正常兒童都會脫口而出：「當然是去自己的籃子里找啊！」

但其實，「當然」二字隱藏著一個非常複雜的認知過程——受試兒童不僅需要知道 Sally 意識到了某些事情（珠子放在了籃子里），沒有意識到某些事情（珠子被別人拿走了）；此外，還需要知道 Sally 的認知狀態只有在嘗試過某些事情（查看了自己的籃子）之後才會得到更新（珠子不見了），不然他的認知狀態就是一貫的（離開時和回來時都會認為珠子在籃子里）。

薩莉-安妮測試在世界各地的實驗室中已經重複了很多次，是研究人員用來測試人的社會直覺（social intuition）是否受損的標準工具包的一部分。如果被試者是自閉症光譜患者，他們會以為 Sally 會跟自己一樣，以上帝視角行動，因此會認為 Sally 應該去 Anne 的箱子里找珠子。

試想一下，如果自動駕駛汽車也按照自閉症光譜患者的認知模式來行動，那會是一種什麼樣的場景呢？

計算機不會「讀心術」

人類預知他人心理狀態的能力是如此與生俱來，我們甚至把它應用到明顯非人類的對象上—— Heider-Simmel 實驗展示了我們是如何易於將感知到的意圖賦予簡單的幾何形狀的。在這個著名的研究中，有一部電影展示了圍繞屏幕移動的兩個三角形和一個圓圈，如上圖所示。

毫無例外的是，大多數人構建了相同的發生在這三個幾何形狀之間的故事情節：深色大三角是惡棍，白色小三角是受害者，淺色圓圈是保護者，大三角在不停地追著小三角，而圓圈在保護小三角，情勢十分危急，但最後圓圈成功拯救了小三角，虛驚一場。

所有這些心理狀態和故事情節都只是在看著幾何形狀移動的過程中自發產生的，在心理學中，這被稱為「刺激貧乏」（Poverty of the Stimulus，POTS），是語言天賦論的基礎。

我們與公共道路的其他人之間的互動過程也是一個「刺激貧乏」的例子之一：

我們只需要花幾百毫秒看一眼某個行人，就知道如何回應他；

當我們看到一輛車輕微地向旁邊車道側向移動了半秒鐘，就知道要決定是否給它讓路；

我們只需觀察一個疾馳的騎腳踏車的人幾秒鐘，就能判斷出他是否注意到了我們正在轉彎。

類似上述的這種互動和默契會在行駛過程中經常出現，它們是安全與文明駕駛的核心。但是，截止到目前，計算機還無望如此操控車輛，對心理狀態缺乏直覺認知的危險也已經得到了證實。

在自動駕駛汽車發生的第一次交通事故中，谷歌的車錯誤地認為公共汽車駕駛員會給它讓路，誤解了駕駛員努力繞過一輛停著的汽車的緊迫性以及方式的靈活性。在另一次交通事故中，優步在亞利桑那州測試的一輛自動駕駛汽車被一個試圖轉向變道的駕駛員給撞了，後者預計任何後面正在駛來的汽車會注意到自己車道的交通流量已經放緩，相鄰車道上的汽車的變道意圖會增加。但是，優步的自動駕駛系統並不懂這些。

克服「莫拉維克悖論」

為什麼對於人類如此容易的「讀心術」，對於計算機而言會這麼困難呢？這種情形在人工智慧系統的開發過程中經常出現，以致於有一個專有名詞來描述它，即「莫拉維克悖論」（Moravec』s Paradox）——對人來說最簡單的任務，對計算機來說通常是最難的任務。

那麼問題來了，如果不能明確地表述某項任務需要做什麼，你如何設計相應的演算法來執行任務呢？

通常的解決方法是儘可能簡單地定義任務，並使用可以從大量數據中學習的被稱之為「深入學習」演算法。例如，當給出足夠數量的樹的圖片（以及不是樹的其它東西的圖片）時，計算機程序可以非常好地識別出樹。如果你把一個問題歸結為證實或反駁一個關於世界的明確的事實——那裡有一棵樹，或者沒有一棵樹——那演算法確實可以做得很好。

但是，如果在某些問題中，關於世界的基本事實既不簡單也不易得，該怎麼辦？人可以對其他人做出驚人準確的判斷，因為我們有一套非常複雜的內部模型來理解其他人的行為方式。但是這些模型就像是隱藏在我們大腦中的黑匣子中，目前還無法破解。

解決上述問題的唯一辦法是深入理解人的行為，不僅僅是通過逆向工程，而是通過行為科學的視角來認真、全面地表徵它。人類擁有非常強大的理解能力，但其背後的內部機制尚不明了。安東尼認為，我們需要利用對人類行為研究所積累的知識，來構建計算機視覺模型。這些模型被訓練成能夠捕捉人類對世界的反應的細微差別與微妙之處，而不是試圖猜測我們的內部模式對於外部世界的描述是什麼樣的。

首先，我們需要弄清楚人類是如何工作的，然後才是機器學習。只有擁有對人類能力中的怪癖和弱點豐富而深刻的特徵描述，我們才能夠充分了解正在努力破解的人類「直覺難題」，並構建相應的計算機模型。因為，自動駕駛汽車必須能夠以符合人類預期的方式行駛，才真正能夠地發揮其效用。

筆者認為，安東尼雖然提出了自動駕駛的一個非常重要的問題，但他似乎忽略了一點——計算機科學的奠基人艾倫·圖靈設計圖靈機的初衷是解決可計算問題，之後基於馮諾依曼架構設計的計算機都屬於圖靈機的範疇。

人工智慧雖然發展的如火如荼，本質上都是將待解決的問題轉化成可計算問題，然後交給計算機去處理。

那麼問題來了，人類所擁有的、在解決問題時非常管用的、經過數百萬年生物演化而來的「常識」、「直覺」等工具是屬於可計算範疇嗎？

如果不是，圖靈機是無濟於事的。那麼解決上文中描述的自動駕駛汽車難題似乎就剩下如下兩種辦法了：

將人類駕駛員剔除出整個交通系統；

發明區別於圖靈機的新型計算機。

好像還是第一種辦法更簡單易行一些。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點