Zi 字媒體

2017GAITC AI變革時代的智能系統測評分論壇實錄丨蘇彥捷：智力測試與智能測評的對比思考

2021/12/25

yidianzixun

主題：AI變革時代的智能系統測評分論壇

時間：2017年5月22日上午
地點：國家會議中心402B

本文根據速記進行整理

智力測試與智能測評的對比思考

蘇彥捷

北京大學教授

於劍：下面請北京大學教授蘇彥捷，智力測試與智能測評的對比思考。

蘇彥捷：大家上午好。因為我是心理學方向，不是特別懂計算機的東西，像陳老師說的，我們13年很有可能開始一個合作，後來沒有進行下來，我們希望來做一下機器人的智能測試。我想跟大家說為什麼我對這個研發感興趣，其實剛才陳老師也提到了，在學科交叉的過程中給我們提出了很多挑戰，剛才幾位老師講的我覺得都跟心理學有關係。

因為我們做動物和人的比較，如果把機器人放在這樣一個框架裡面怎麼理解這個問題，跟大家交流。我準備的內容還是有點多，會挑比較有意思的部分跟大家討論。

陳老師說了機器人是自己跟自己比，我的想法是還是要放在框架裡面比。我們覺得如果做智能測試，可能框架還是很重要的，你得有一個參照框架，你在什麼樣的框架裡面來說擁有什麼樣的能力。我們提到的個體在一個畢生發展過程中，不同年齡段就是一個比較框架，動物和人也是一個比較框架，所以談到比較一定要有一個框架。我們來討論心理學當中的一個背景解釋，說這兩個巨人哪個大？我們從解釋來說，感官有一個機制來告訴我後頭那個大，但是如果沒有框架，實際的東西大小是一樣的，但是在背景上就會覺得後面的大，這是框架的作用。

我做的是命題作文，因為陳小平老師給我一個題目，智能測試和智能測評的對比思考。我稍微改了一點，因為我覺得很多時候不一定完全說得清楚，智能測試和智能系統測評，兩個東西放在一塊說一下。如果說到測評的話，肯定還需要說到怎麼去界定這個東西。因為界定肯定是影響測評的。這是前提。我們來看怎麼說人類或者機體的智力，因為也包括動物。涉及到個體，現在也有強調群體的智力，或者叫做組織的智力，智商。都是有機體，它有一個物質基礎，是大腦活動的體現。會有一些具體的能力表現，在我們的人類心理學當中，對於智能的界定也是特別複雜的事情，各種各樣的人，有各種各樣界定，不同的界定就有不同的測試方法。我們做比較心理學的時候，有一個對智力的界定，包括三個方面：生物學意義上的智力，即大腦的能力，心理測量學意義上的智力，即智商的測定。還有就是成功的適應，就像剛才陳老師提到的，即你達到了什麼樣的目的。現在講的智能系統，這些內容都是我學來的，因為為了參加這個會得想想您們會怎麼說這些內容。

智能系統好像是一個機器的東西，是類人類的系統，能夠產生像人類一樣行為的系統，這是大家提到這個系統有別於其他系統的特點，其實它已經採取了人類解決問題的方法，是啟髮式的，不是絕對的計算。我們做智能比較的時候，如果做到動物的話，研究者把不同的動物放在一塊。你看看，你覺得誰更聰明一點？如果讓大學生做的話，是大概這樣一個排隊的情況。給動物智力一個從1到10分的評估，ape，9.2分，下面是7分、5分、6分，如果把可佳擱進來，你覺得它應該在哪兒？它一定得在這樣的框架裡面。因為心理學主要是對人類的理解，我們做動物就是為了給人類提供參照系。因為人會覺得自己是10分，把自己作為評價標準。

我們看人類的測評和動物的智能測評其實經歷了很多階段。最開始當成鐵板一塊，一般的智力，最後分成不同的方面，對於動物的測評學習了人類的方法，會把個體的能力分成不同方面。處理物理世界的，一般來講稱為物理認知，如果測量處理社會世界的能力，叫做社會認知或者社會智力。在做靈長類測評的時候，按照這樣的框架分成物理認知測評和社會認知測評。做人的智力測評，有韋氏智力測量，包括成人的量表和兒童的量表。現在有用類似韋氏智力測驗的方法對機器人，或者智能系統的測評，完全參考了這樣一個方法。

我們說的做推理能力測試的有一個瑞文測試，更多的強調推理能力。這是推理能力的測試。剛才提到了心理學家對智力的認識是不斷地進步的，逐漸發展認識，認為我們其實不能把智能看成只包括一個方面的內容，需要從不同的方面來理解智能。比如說剛才提到的，智能系統的語言理解，或者說推理能力，或者是一個純粹的記憶能力。因為如果按照單純記憶能力的話，我覺得人真的沒法跟它比。前一陣詩詞大會上，那麼惹人喜歡的上海小姑娘，可以記住那麼多詩詞。如果讓計算機來做這些任務蠻簡單吧，只要把材料全部輸出去，像詩詞大會上那樣出題，填空、補全等，智能系統會很容易，很快就能輸出出來，所以要看怎麼比，比什麼。按照著名心理學家Sternberg（斯滕伯格）的智力理論，我們人的智能可以分成三個維度，實踐的智力、分析的智力、創造性的智力。心理學家Gardner（加德納）分成八個方面，這是轉化成版本的，從不同的方面測評智能。將來做機器人的智能測評也得考慮這些方面，要分成不同的類型，這樣才能夠說得清楚，否則就很難說清楚。

我剛才提到了，因為跟陳小平老師當時13年開始想做機器人的智能測評，我們做了文獻的調研。當時做的人很少，我們查到的一個美國的研究，做了智能機器人的測評，做的是物體的感知測評。因為它是一個碩士論文，在文獻當中分析了有些智能測試在機器人當中很難實施，所以這篇論文只做了知覺推理測評，即機器人通過10種行為（Rattle, Grasp, Lift, Hold, Shake, Drop, Tap, Poke, Push, Press）知覺客體屬性，並對這些屬性進行推理以完成四套蒙台梭利客體配對和匹配任務。

目前國內的智能系統測試研究是。北京交通大學的課題組做的。基本上用的韋氏智力測氧測評的方式，出一些題目，比如有些常識的問題、計算的問題、排列的問題等等，每年都測。2014年做的測試，對人類三個不同年齡組（6歲、12歲、18歲），智能系統包括谷歌、百度等智能系統，其實測了50個這樣的智能系統，加上人類的三組，大概是53個。我們只把前面分數列出來了。它的基本方法就是韋氏智力測驗的方法。2015年、2016年都做了一些，2016年的結果是說這些智能系統的分數絕對值提高了，但是跟人類比起來還相差很遠。

到底機器人和人差在什麼地方？剛才提到了如果做人機交互，肯定要考慮到這個問題。因為我們智力不只是一個解題的能力，還有相互作用的，人際交往能力。而機器和人構成了人機交互，交互作用的問題還是要考慮進來。這是涉及到社會智力的問題。社會智力可能在現在的機器人當中考慮的還是比較有限，雖然有一些意圖的推理，像剛才幾位老師提到的，但是很多的意圖，我們說只能意會，不能言傳的東西，在機器人的理解當中是比較困難的問題。像人類的生活當中，其實常常不直接提出需求，你在飯桌上跟一個朋友說：「你能把鹽遞給我嗎？」這不是詢問能力的問題，我是想讓你把鹽遞給我。個體間的交往需要這樣對心理狀態進行推理的能力。所以個體很早地時候就會有各種各樣不同的表現。眼中讀心，從各種表情中判斷他的情緒，。還有幽默的表達，剛才劉挺老師提到了加個「的」字和不加「的」字，意思很不一樣。我們實際生活中有很多幽默的表達，哪怕是同一個字或者詞，表達的可能卻是不同的意思。其實在人類生活當中我們覺得這是很自然的事，很容易理解。但是對它們機器人（智能系統）來說可能就是件很困難的事。我們覺得要記那麼多東西很難，但是對於它們來說卻是很簡單的事。所以不能是絕對的比較，還要看比較什麼。

剛才提到小冰，因為它也是我的一個學生參與的工作，從心理學的角度來談。因為對話一定考慮他想聽什麼，我們的學生也說，其實這個小冰說的話都是前言不搭后語的。它說的東西不是按照你想要的東西來說。但是我們人類有特別重要的能力，我們能夠解釋成它像是要跟我說的話。像這個做詩的軟體，做唐詩。你只能輸入一個字，因為我們今天講智能，我就輸了一個「智」，一個「能」，結果給出的像是一首詩的樣子。因為很像是人做的，就會覺得真好，你會解讀成你需要的東西。5·20還有好多人用做詩軟體，寫各種各樣的情詩出來，但是能不能做出像我們說的這種根據情境真情實意的流露。這是蘇小妹和蘇東坡互相調侃，這樣簡單的東西就是情境的東西，陳老師提到的環境、情境。做事軟體做出的這些東西很難達到這樣的水平。人和機器目前來看在這方面還是有差距的。

我們比較人和動物的時候，動物不是人，我們很難把人的智能賦予給它。現在機器人更是這樣，它連生物有機體都不是的話，我們很難把它表現出來的東西歸結為一個智能的，或者像我們這種人類智能的表現。我們怎麼去理解它？從哪個層次理解它？這個的確是與挑戰並存的，但是也給我們提供了很多機會，如果進行研究回答這樣的問題，可以推進很多理論上的探討。

回到界定。我們要做人類智力測試與智能系統測評這種比較的話，首先要界定不同的方面，從不同的方面做這樣的比較。這種比較的意圖和目的是什麼，理解人類的智能和機器的智能。這就是我希望和大家分享的，謝謝大家！

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點