search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

AI瑞文智力測驗超美國人平均IQ,計算模型用類比推理解決視覺問題

1新智元編譯

譯者:熊笑 弗格森

【新智元導讀】作為廣泛應用於無國界的智力/推理能力測試,瑞文標準推理測驗可以測驗一個人的觀察力及推理能力。在此前一項廣受爭議的對超過 80 個國家和地區進行的 IQ 調查中,曾得出了所謂的「國家(和地區)平均 IQ」。美國西北大學的研究團隊開發出了一個新的模型,能夠在標準智力測試中超過到美國人的平均 IQ 水平。這項研究構建了用類比推理解決視覺問題的模型,研究者表示:「目前絕大多關於視覺的 AI 研究都集中在對象識別或場景標記,而非推理。但是識別只有能夠為後續推理所用才有其意義。我們的研究對於更廣泛地認識視覺推理有重要意義。」

AI 模型在瑞文推理測試中表現超過了美國人的平均水平

前一段時間,美國西北大學的研究團隊開發出了一個新的計算模型,能夠在標準智力測試中達到人類水平。這項研究對於讓 AI 像人類那樣「看」並理解這個世界有重要意義。

讓我們先看看什麼是「人類水平」——研究所用的智力測試是瑞文標準推理測驗(Raven's Standard Progressive Matrices,簡稱 SPM),由英國心理學家瑞文(J.C.Raven)於1938年創製,在世界各國沿用至今,用以測驗一個人的觀察力及清晰思維的能力。它是一種純粹的非文字智力測驗,所以廣泛應用於無國界的智力/推理能力測試。

從 2002 年到 2006 年,英國心理學教授 Richard Lynn 和芬蘭政治學教授 Tatu Vanhanen 在超過 80 個國家和地區進行了一次 IQ 調查,得出了所謂的「國家(和地區)平均 IQ」——這一結果引發了大量爭議,對這一結果的詮釋需要非常小心。

這是在調查中排名前 10 位的國家和地區,其中有不少名詞是並列的。我們可以看到,香港和新加坡的國家平均 IQ 最高,達到 108。的國家平均 IQ 是 105,和日本並列第三。排在第二的是韓國(106)。美國的國家平均 IQ 是98,排在第9。

本文末尾,我們附上了 80 多個國家和地區的國家平均 IQ 排名。

圖像識別只有能夠為後續推理所用才有其意義

模型的開發者是西北大學 McCormick 工學院的電氣工程和計算機科學教授 Ken Forbus 和前西北大學心理學博士后研究員 Andrew Lovett 。這一研究發表在了《心理學評論》(Psychological Review)上。

Ken Forbus 介紹說:「相對於成年美國人來說,該模型能夠達到第 75 百分位,高出平均水平。人類感覺困難的問題,模型一樣會感到困難。這顯示出它具有和人類認知相似的一些特性。」

Ken Forbus

Forbus 的實驗室開發了一個稱為 CogSketch 的人工智慧平台,能夠解決視覺問題和理解圖形,並給出即時、互動的反饋。新模型就是在這一平台上開發而成的。

CogSketch 還引入了一個基於西北大學心理學教授 Dedre Gentner 的結構映射理論的類比計算模型。Gentner 因該理論獲得了 2016 年的 David E. Rumelhart 獎。

解決複雜視覺問題的能力是人類智力的重要特徵之一。開發具有這一能力的 AI 系統體現了符號表徵與類比在視覺推理中的重要性,並可能彌合計算機同人類認知之間的鴻溝。

上圖是瑞文標準推理測驗中的一道題目。根據題目中所展示的元素之間的關係,答題者被要求在空缺中填出應有的圖形組合,選項一般有 6 - 8 個。

聰明如你,一定閃電般做出了選擇。

這兩道題是測試中比較難的——無論是對於人類還是對於 AI 來說,但它們無疑難不住關注新智元的你。

有興趣做一套瑞文測試?可以去這裡:http://www.ravensprogressivematricestest.com。一共有 60 道題。

「瑞文測試是現有的對心理學家所說的「流體智力」——即抽象思維、推理、模式識別、解決問題和判別關係的一般能力——的最佳測試方法。」Lovett 說,他目前在美國海軍研究實驗室擔任研究員。「我們的研究結果顯示,對流體智力來說,靈活運用關係表徵,並進行對比和再次闡釋的能力非常重要。」

使用和理解複雜關係表徵的能力是高級認知(higher-order cognition)的關鍵。關係表徵連接了實體和概念,比如「鐘錶在門上方」或「壓力差導致了水的流動」。這類比較對於製造和進行類比至關重要。而這正是人類賴以解決難題、做出取捨以及描述他們身邊世界的關鍵方法。

Forbus 說:「目前絕大多關於視覺的 AI 研究都集中在對象識別或場景標記,而非推理。但是識別只有能夠為後續推理所用才有其意義。我們的研究對於更廣泛地認識視覺推理有重要意義。」

構建用類比推理解決視覺問題的模型

模型的開發者 Ken Forbus 和 Andrew Lovett 在《心理學評論》(Psychological Review)上發表了研究報告,題為《Modeling Visual Problem as Analogical Reasoning》。

研究者表示,類比也許是人類智能的一個里程碑。通過比較兩個領域並確定其結構的共同點,可以推導出有用的推論、得出有啟發性的抽象結果。類比可以驅動科學發現,當年 Rutherford 就曾提出的電子圍繞著原子旋轉,就像衛星圍繞著太陽旋轉一樣。但它也在我們的日常生活中扮演了重要的角色,讓我們將過去學習到的經驗應用到當下,比如,解決物理問題,選擇電影觀看或考慮購買新車一樣。

類比的力量在於它的抽象本質。我們可以比較兩種截然不同的情景,基於其關係結構的共同點,將我們在一種場景中學到的東西應用到另一種場景中。鑒於這種高度抽象的思維方式及其在人類推理中的重要性,當研究人員想要測試個人的推理能力時,他們往往依賴於具體的視覺任務,這可能令人感到意外。

圖1

圖1描述了 Raven Progressive Matrices (RPM)智能測試中的一個問題例子。這一測試要求參與者在一個三行三列的矩陣中對圖像進行比較。RPM 被設計用于衡量被測試者的演繹能力(也就是在複雜的模擬環境中發現模式的能力),這一術語近期被另一個叫「流體智能」的詞取代。近10年來,這一術語依然非常受歡迎,因為在預測被測試者的行為表現商,它取得了較大的成果,而且不僅是在視覺測試集,還包括口語的和數學的數據集等。

圖2

一個視覺測試為什麼能在衡量通用的問題上會有如此好的效果?解決問題?研究者認為,去掉其固有的本質,RPM測試了個人進行高效的類比的能力。RPM與類比之間的聯繫在圖 2 中得到了良好的證明。

上圖展示了 RPM 測試題(模擬題)的「智能考察點」,即所謂的 Carpenter rules (Carpenter 等,1990),以及研究者所開發的模型在解題時所採取的策略。

在這種分析中,視覺(或者幾何學)、口語和數學的類比方法都圍繞著 RPM 進行聚合,這意味著,二者之間有著強大的關聯,所以從整體上能對二者進行衡量。確實,RPM 能被看成是一個複雜的幾何學類比問題,其中被試者必須定義首先出現的兩張圖片和頂層最上面一張圖片之間的關係,進而計算出一個能在底部產生類比聯繫的圖像。與這一說法相一致,Holyoak 和同事展示了,在進行類比的地圖繪製和檢索時,高的 RPM 表現要求更少的協助。

此外,一項腦成像研究的元分析發現,言語類比,幾何類比和矩陣問題產生了可能與關係推理相關的常見腦區,也就是左側前額葉前額葉標記。

研究者認為,支持有效類比的機制和策略也是支持視覺問題解決的機制和策略。為了測試這個說法,他們使用一個完善的計算模型,即結構映射引擎(RPM),對人力資源管理的績效進行了模擬。雖然中小企業最初是為抽象類比而設計的,但越來越多的證據表明,其基本原則也適用於具體的視覺比較。RPM提供了測試大規模測類比在視覺思維中起作用的機會,並確定在SME提供的類比映射之外執行此任務所需的組件。特別是,考慮到感知和再現表現的雙重挑戰:你如何以支持抽象類比思想的方式來表達具體的視覺信息,當圖像失調時如何改變表示?

這種方法還使研究者能夠獲得有關 RPM 的新洞見。通過去除模型執行某些操作的能力,並將由此產生的錯誤與人類成績進行比較,研究者可以確定是哪些因素在讓一道問題變得更容易或更難。如下所示,當(a)問題必須更抽象地表達或(b)需要複雜的重新表徵操作時(complex rerepresentation),問題往往會變得更困難。最後,研究者關注的是,RPM 中的抽象思維和重新表徵是否可能泛化到其他類比任務,從而成為人類智力的核心。

研究者詳細地描述了 RPM,包括一個此前已經構建好的計算模型。之後,研究者提出了他們的理論框架,展示了類比推理如何更廣泛地映射到 RPM和視覺問題的解決上。然後研究者描述了基於這一框架的計算模型。

國家平均 IQ 排名

編譯來源:http://www.mccormick.northwestern.edu/news/articles/2017/01/making-ai-systems-see-the-world-as-humans-do.html

論文 DOI:http://dx.doi.org/10.1037/rev0000039



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦