search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

2017GAITC AI變革時代的智能系統測評分論壇實錄丨蘇彥捷:智力測試與智能測評的對比思考

主題:AI變革時代的智能系統測評分論壇

時間:2017年5月22日上午

地點:國家會議中心402B

本文根據速記進行整理

智力測試與智能測評的對比思考

蘇彥捷

北京大學教授

於劍:下面請北京大學教授蘇彥捷,智力測試與智能測評的對比思考。

蘇彥捷:大家上午好。因為我是心理學方向,不是特別懂計算機的東西,像陳老師說的,我們13年很有可能開始一個合作,後來沒有進行下來,我們希望來做一下機器人的智能測試。我想跟大家說為什麼我對這個研發感興趣,其實剛才陳老師也提到了,在學科交叉的過程中給我們提出了很多挑戰,剛才幾位老師講的我覺得都跟心理學有關係。

因為我們做動物和人的比較,如果把機器人放在這樣一個框架裡面怎麼理解這個問題,跟大家交流。我準備的內容還是有點多,會挑比較有意思的部分跟大家討論。

陳老師說了機器人是自己跟自己比,我的想法是還是要放在框架裡面比。我們覺得如果做智能測試,可能框架還是很重要的,你得有一個參照框架,你在什麼樣的框架裡面來說擁有什麼樣的能力。我們提到的個體在一個畢生發展過程中,不同年齡段就是一個比較框架,動物和人也是一個比較框架,所以談到比較一定要有一個框架。我們來討論心理學當中的一個背景解釋,說這兩個巨人哪個大?我們從解釋來說,感官有一個機制來告訴我後頭那個大,但是如果沒有框架,實際的東西大小是一樣的,但是在背景上就會覺得後面的大,這是框架的作用。

我做的是命題作文,因為陳小平老師給我一個題目,智能測試和智能測評的對比思考。我稍微改了一點,因為我覺得很多時候不一定完全說得清楚,智能測試和智能系統測評,兩個東西放在一塊說一下。如果說到測評的話,肯定還需要說到怎麼去界定這個東西。因為界定肯定是影響測評的。這是前提。我們來看怎麼說人類或者機體的智力,因為也包括動物。涉及到個體,現在也有強調群體的智力,或者叫做組織的智力,智商。都是有機體,它有一個物質基礎,是大腦活動的體現。會有一些具體的能力表現,在我們的人類心理學當中,對於智能的界定也是特別複雜的事情,各種各樣的人,有各種各樣界定,不同的界定就有不同的測試方法。我們做比較心理學的時候,有一個對智力的界定,包括三個方面:生物學意義上的智力,即大腦的能力,心理測量學意義上的智力,即智商的測定。還有就是成功的適應,就像剛才陳老師提到的,即你達到了什麼樣的目的。現在講的智能系統,這些內容都是我學來的,因為為了參加這個會得想想您們會怎麼說這些內容。

智能系統好像是一個機器的東西,是類人類的系統,能夠產生像人類一樣行為的系統,這是大家提到這個系統有別於其他系統的特點,其實它已經採取了人類解決問題的方法,是啟髮式的,不是絕對的計算。我們做智能比較的時候,如果做到動物的話,研究者把不同的動物放在一塊。你看看,你覺得誰更聰明一點?如果讓大學生做的話,是大概這樣一個排隊的情況。給動物智力一個從1到10分的評估,ape,9.2分,下面是7分、5分、6分,如果把可佳擱進來,你覺得它應該在哪兒?它一定得在這樣的框架裡面。因為心理學主要是對人類的理解,我們做動物就是為了給人類提供參照系。因為人會覺得自己是10分,把自己作為評價標準。

我們看人類的測評和動物的智能測評其實經歷了很多階段。最開始當成鐵板一塊,一般的智力,最後分成不同的方面,對於動物的測評學習了人類的方法,會把個體的能力分成不同方面。處理物理世界的,一般來講稱為物理認知,如果測量處理社會世界的能力,叫做社會認知或者社會智力。在做靈長類測評的時候,按照這樣的框架分成物理認知測評和社會認知測評。做人的智力測評,有韋氏智力測量,包括成人的量表和兒童的量表。現在有用類似韋氏智力測驗的方法對機器人,或者智能系統的測評,完全參考了這樣一個方法。

我們說的做推理能力測試的有一個瑞文測試,更多的強調推理能力。這是推理能力的測試。剛才提到了心理學家對智力的認識是不斷地進步的,逐漸發展認識,認為我們其實不能把智能看成只包括一個方面的內容,需要從不同的方面來理解智能。比如說剛才提到的,智能系統的語言理解,或者說推理能力,或者是一個純粹的記憶能力。因為如果按照單純記憶能力的話,我覺得人真的沒法跟它比。前一陣詩詞大會上,那麼惹人喜歡的上海小姑娘,可以記住那麼多詩詞。如果讓計算機來做這些任務蠻簡單吧,只要把材料全部輸出去,像詩詞大會上那樣出題,填空、補全等,智能系統會很容易,很快就能輸出出來,所以要看怎麼比,比什麼。按照著名心理學家Sternberg(斯滕伯格)的智力理論,我們人的智能可以分成三個維度,實踐的智力、分析的智力、創造性的智力。心理學家Gardner(加德納)分成八個方面,這是轉化成版本的,從不同的方面測評智能。將來做機器人的智能測評也得考慮這些方面,要分成不同的類型,這樣才能夠說得清楚,否則就很難說清楚。

我剛才提到了,因為跟陳小平老師當時13年開始想做機器人的智能測評,我們做了文獻的調研。當時做的人很少,我們查到的一個美國的研究,做了智能機器人的測評,做的是物體的感知測評。因為它是一個碩士論文,在文獻當中分析了有些智能測試在機器人當中很難實施,所以這篇論文只做了知覺推理測評,即機器人通過10種行為(Rattle, Grasp, Lift, Hold, Shake, Drop, Tap, Poke, Push, Press)知覺客體屬性,並對這些屬性進行推理以完成四套蒙台梭利客體配對和匹配任務。

目前國內的智能系統測試研究是。北京交通大學的課題組做的。基本上用的韋氏智力測氧測評的方式,出一些題目,比如有些常識的問題、計算的問題、排列的問題等等,每年都測。2014年做的測試,對人類三個不同年齡組(6歲、12歲、18歲),智能系統包括谷歌、百度等智能系統,其實測了50個這樣的智能系統,加上人類的三組,大概是53個。我們只把前面分數列出來了。它的基本方法就是韋氏智力測驗的方法。2015年、2016年都做了一些,2016年的結果是說這些智能系統的分數絕對值提高了,但是跟人類比起來還相差很遠。

到底機器人和人差在什麼地方?剛才提到了如果做人機交互,肯定要考慮到這個問題。因為我們智力不只是一個解題的能力,還有相互作用的,人際交往能力。而機器和人構成了人機交互,交互作用的問題還是要考慮進來。這是涉及到社會智力的問題。社會智力可能在現在的機器人當中考慮的還是比較有限,雖然有一些意圖的推理,像剛才幾位老師提到的,但是很多的意圖,我們說只能意會,不能言傳的東西,在機器人的理解當中是比較困難的問題。像人類的生活當中,其實常常不直接提出需求,你在飯桌上跟一個朋友說:「你能把鹽遞給我嗎?」這不是詢問能力的問題,我是想讓你把鹽遞給我。個體間的交往需要這樣對心理狀態進行推理的能力。所以個體很早地時候就會有各種各樣不同的表現。眼中讀心,從各種表情中判斷他的情緒,。還有幽默的表達,剛才劉挺老師提到了加個「的」字和不加「的」字,意思很不一樣。我們實際生活中有很多幽默的表達,哪怕是同一個字或者詞,表達的可能卻是不同的意思。其實在人類生活當中我們覺得這是很自然的事,很容易理解。但是對它們機器人(智能系統)來說可能就是件很困難的事。我們覺得要記那麼多東西很難,但是對於它們來說卻是很簡單的事。所以不能是絕對的比較,還要看比較什麼。

剛才提到小冰,因為它也是我的一個學生參與的工作,從心理學的角度來談。因為對話一定考慮他想聽什麼,我們的學生也說,其實這個小冰說的話都是前言不搭后語的。它說的東西不是按照你想要的東西來說。但是我們人類有特別重要的能力,我們能夠解釋成它像是要跟我說的話。像這個做詩的軟體,做唐詩。你只能輸入一個字,因為我們今天講智能,我就輸了一個「智」,一個「能」,結果給出的像是一首詩的樣子。因為很像是人做的,就會覺得真好,你會解讀成你需要的東西。5·20還有好多人用做詩軟體,寫各種各樣的情詩出來,但是能不能做出像我們說的這種根據情境真情實意的流露。這是蘇小妹和蘇東坡互相調侃,這樣簡單的東西就是情境的東西,陳老師提到的環境、情境。做事軟體做出的這些東西很難達到這樣的水平。人和機器目前來看在這方面還是有差距的。

我們比較人和動物的時候,動物不是人,我們很難把人的智能賦予給它。現在機器人更是這樣,它連生物有機體都不是的話,我們很難把它表現出來的東西歸結為一個智能的,或者像我們這種人類智能的表現。我們怎麼去理解它?從哪個層次理解它?這個的確是與挑戰並存的,但是也給我們提供了很多機會,如果進行研究回答這樣的問題,可以推進很多理論上的探討。

回到界定。我們要做人類智力測試與智能系統測評這種比較的話,首先要界定不同的方面,從不同的方面做這樣的比較。這種比較的意圖和目的是什麼,理解人類的智能和機器的智能。這就是我希望和大家分享的,謝謝大家!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦