Zi 字媒體

金准數據——DeepMind AI 關係推理超越人類

2021/12/25

yidianzixun

研究一：視覺互動網路 VIN，從原始視覺觀察中學習真實物理機制的通用模型

首先看《視覺互動網路》（Visual Interaction Networks）。

DeepMind 官方博客中稱，理解關係推理的一大關鍵因素是，預測未來一個真實場景中發生了什麼。

只看一眼，人類不僅能夠推斷出物體接下來幾秒鐘、幾分鐘乃至更長時間所處的位置，還能夠預測接下來發生了什麼。

例如，對著牆踢一個球，大腦能夠預測到球碰到牆以及接下來球和牆兩者的走向：球會根據入射角度、速度反彈，而牆應該還會在那裡不動。

這些預測雖然簡單，但都是由一套複雜的認知系統所引導的。

由此，DeepMind 的相關研究人員開發了「視覺互動網路」（Visual Interaction Network，VIN），能夠簡單模擬大腦的推斷系統。

VIN 能夠根據幾幀連續的視頻，推斷（infer）上面多個物體接下來所處的位置。

這與生成模型不同，生成模型生成的結果是從視覺上「想象」出來的，而 VIN 則是根據物體彼此之間的基本關係演化推斷出的。

左邊是真實結果（ground-truth），右邊是 VIN 的預測。在連續大約 150 幀的視頻中，VIN 給出了極為接近的模擬，這之後的預測結果從肉眼看來也算是合理的。

VIN 由兩大機制組成：一個視覺模塊和一個現實推理模塊（physical reasoning module）。結合在一起，VIN 的兩大模塊能夠處理一段視覺場景，並且預測其中每個不同物體在現實物理規律下會發生的情況。

DeepMind 研究人員在各種不同的環境中測試了 VIN，包括彈跳撞球、有彈簧連接的質體，以及行星引力系統。結果表明，VIN 可以準確預測物體在未來幾百步（hundreds of steps）會發生的情況。

論文：視覺互動網路

作者在摘要中寫道，只需一眼，人類便能對一系列不同的物理系統的未來狀態做出各種各樣的預測。另一方面，來自工程、機器人和圖形學的現代方法通常局限於狹窄的領域，需要直接測量底層狀態（underlying state）。

我們提出了視覺互動網路（Visual Interaction Network，VIN），一個用於從原始視覺觀察中學習物理系統動態機制的通用模型。

VIN 由基於卷積神經網路的感知前端（a，見上）和基於交互網路的動態預測器（b，見下）組成。通過聯合訓練，感知前端學會了將動態視覺場景解析為一組特殊的物體表徵。動態預測器則通過計算物體之間的相互作用和力學關係，學習將這些狀態向前推進，從而產生任意長度的預測物理軌跡。

作者發現，在只有 6 幀輸入視頻的情況下，VIN 可以生成各種物理系統中幾百個時間步長的預測軌跡，而且這些軌跡都是準確的。

VIN 也可以應用於物體不可見的場景當中，從而根據可見物體預測不可見物體的未來狀態，由此隱含地推斷未知物體的質量。研究結果表明，感知模塊和基於物體動態機制的預測模塊引入的物體表徵能夠進行精確的動態預測。這項工作為複雜物理環境中，根據原始感官觀察的輸入，進行基於模型的決策和規劃開闢了新的機會。

VIN 的架構示意圖

研究二：模塊化、具有關係推理能力的深度神經網路架構 RN

再來看《用於關係推理的簡單神經網路模塊》。

作者的摘要中寫道，關係推理（Relational Resoning）是通用智能行為的核心組成部分，但此前研究證明難神經網路很難學習做關係推理。在本文中，我們描述了如何使用關係網路（Relation Network，RN）作為簡單的即插即用模塊，從根本上解決依賴於關係推理的問題。

我們在 3 個任務中測試了 RN 增強的網路：

使用 CLEVR 這一具有挑戰的數據集回答視覺問題，實現了當前最好的結果，而且超越人類水平；
使用 bAbI 任務進行基於文本的問答；
關於動態物理系統的複雜推理。

然後，我們專門整理了一個類似 CLEVR 的數據集 Sort-of-CLEVR，並在這一數據集上展示了卷積神經網路不具備解決關係問題的通用（general）能力，但在使用 RN 增強以後，就能獲得關係推理的能力。

我們的工作表明了，配備 RN 模塊的深度學習架構能以怎樣的方式隱含地（implicitly）發現並且學習去推理實體及其關係。

3 種不同標準測試，CLEVR 數據集關係推理能力超越人類

任務一：Sort-of-CLEVR 數據集

為了探索我們的假設，RN 架構比更標準的神經網路架構更擅於進行一般的（general）關係推理，我們構建了一個類似於 CLEVR 的數據集，稱之為「Sort-of-CLEVR」。

Oort-of-CLEVR 數據集的主要特點是區分了相關和不相關的問題。該數據集由 2D 彩色圖像及與圖像有關的問題和答案組成。每個圖像共有 6 個物體，其中每個物體都是隨機選擇的形狀（正方形或圓形）。作者使用 6 種顏色（紅、藍、綠、橙、黃、灰）標識每個物體。

為了避免進行複雜的自然語言處理，問題是手工編碼決定的。此外，在圖像方面，數據集也做了簡化處理，降低了圖像處理中涉及的複雜問題。

每個圖像都有 10 個關係問題和 10 個非關係問題。例如，關係問題有「與灰色物體最遠的物體的形狀是什麼？」「有多少個物體與綠色物體具有相同的形狀？」非關係問題的例子是：「灰色物體的形狀是什麼？」和「有藍色物體在場景的頂部或底部嗎？」

CLEVER 數據集圖像理解問題舉例

任務二：bAbl 問答數據集

bAbI 是一個純文本的 QA 數據集。其中，有 20 個任務，每個任務對應於一種特定類型的推理，如推論（deduction）、歸納（induction）或計數（counting）。每個問題都與一組支撐事實有關。例如，事實「Sandra 拿起了足球」和「Sandra 去辦公室了」支撐問題「足球在哪裡」（答案：「辦公室」）。

如果完成一個任務的準確率超過了 95％，模型就算成功了。

許多記憶增強的神經網路（Memory-augmentated neural network），在 bAbI 上都取得了很好的成績。當每個任務使用 10K 數量級樣本進行聯合訓練時，Memory Network 的成績是 14/20，DeepMind DNC 是 18/20，稀疏 DNC 是 19/20，還有 EntNet 是 16/20。

視覺 QA 問題的結構示意圖

測試結果表明，RN 的數據是 18/20。

任務三：動態物理系統複雜推理

我們使用 MuJoCo 物理引擎開發了一個模擬連接彈簧的質體的系統的數據集。每個場景都包含 10 個在桌面上移動的彩色球。一些球獨立移動，自由地與其他球和障礙牆碰撞。其他一些隨機選擇的球，則有隱形的彈簧或固定的力連接。

在這些球之間引入隨機選擇的連接，創造了一個不斷變化的物理系統。作者定義了兩個獨立的任務，僅通過觀察多個連續幀里球的顏色以及相應坐標位置：1）推斷出球之間的連接力存在還是不存在，以及 2）桌面上有多少個「系統」（包括球以及節點）。

這兩個任務都涉及關於球的相對位置和速度的推理。不同的是第一個任務的推論是明確的，而第二個任務要求推理是隱含的，也更加困難。

有效分配，發揮不同結構神經網路的特長

論文展示了如何將用於計算實體間關係的專用模塊 RN 應用於更廣泛的深度學習架構，從而大幅提高後者完成與關係推理有關的任務的能力。

論文提出的模塊化結構 RN 在 CLEVR 數據集上取得了 95.5％的正確率，超過了人類水平。bAbI 結果也顯示了 RN 擁有通用（general）推理能力，解決了 18/20 項任務，沒有災難性的故障。

作者在論文中寫道，工作中最有趣的一個方面是在相對簡單的、基於 CNN 和基於 LSTM 的 VQA 架構中，插入 RN 模塊，將 CLEVR 的結果從 68.5％提高到95.5％，取得了當前最優也是超越人類的水平。

作者推測，RN 提供了更靈活的推理機制，而有了 RN 做關係推理后，CNN 更多專註於處理局部空間結構數據，從而實現了整體的性能大幅提升。

作者寫道，在計算過程中，區分「處理」和「推理」很重要。例如 ResNet 這樣強大的深度學習架構，作為視覺處理器而言十分高效，但可能並不是推理任意關係最合適的選擇。

他們這項工作的一個關鍵貢獻是，RN 通過學習能夠歸納（induce）上游處理任務，從而提供一組對物體有用的表徵。

需要注意的是，輸入數據和目標函數並沒有指定內部物體表徵的任何特定形式或語義。這表明 RN 具有豐富的結構化推理能力，哪怕是非結構化的輸入和輸出也能勝任。

作者認為，他們新提出的這一關係網路（RN）模塊是一種簡單而強大的方法，適用於讓深度神經網路學習在複雜的現實世界中執行多種不同的、結構化的推理任務。

深度神經網路在理解世界本質方面擁有強大能力

DeepMind 最新上傳到 arXiv 網站的兩篇論文，結果都展示了神經網路在解構世界方面強大的能力。

神經網路能夠將世界解構為一個個由物體組成的系統，以及這些系統內部和之間的關係，並且在此基礎上進行泛化，生成對場景以及其中的物體彼此之間新的推論，乍看起來很不相同，然而在本質上卻有共通之處。

DeepMind 博客最後寫道，他們認為論文中提出的新方法都是可擴展的，能夠應用於更多的任務，構建更多的複雜模型，從而更好地理解人類強大而靈活的智能的關鍵一環——推理。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點