search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

智商測試能測出什麼?

微信ID:sanlianshutong

『生活需要讀書和新知』

人殺人了,如何免於罪行?

除了社會新聞看到「精神病」,還可能是因為智商。

1996年8月份,達里爾·阿特金斯因涉嫌殺害一名空軍士兵而入獄。為此,阿特金斯以搶劫和故意殺人罪被判死刑。而1998年時阿特金斯接受智商測試的結果為59,低於死刑最低智商標準———70。

美國最高法院因此在2002年重新聽審這一案件后認為,阿特金斯智商過低,處死智力如此低下的犯人是「殘忍而不合常理的」,阿特金斯由此僥倖保命。但是,2005年的智商測試結果卻顯示阿特金斯有變聰明的跡象,智商達到了74-76之間。

圍繞著阿特金斯究竟是否「弱智」的問題,控辯雙方展開了一場拉鋸戰。美國法院在2009年最終認定阿特金斯的智力水平能夠承擔死刑罪名,對其判處死刑。

而現在已經不是太火的「智商測試」,到底能測出什麼?

* 文章節選自《智商測試:一段閃光的歷史,一個失色的點子》( [美]斯蒂芬·默多克 著 盧欣渝 譯 生活·讀書·新知三聯書店 2016-3)。轉載自鳳凰讀書。文章版權所有,轉載請與微信後台聯繫。

智商測試能測出什麼?

文 | [美]斯蒂芬·默多克

譯 | 盧欣渝

大多數心理學家堅信,他們能夠測定智力,而且,他們測定的東西非常重要。

一位處於學術前沿的心理學家在電子郵件中寫道:"人和人之間的差異體現的是巨大的社會和政治內涵。智力是人們最為重要的差異之一,而智商測試可以揭示這些差異。"

如何給智力下定義,長期以來,心理學家們爭論不休。爭議最大的是,智力究竟為何物。自從查爾斯·斯皮爾曼命名常規智力以來,大多數定義都可以九九歸一為一個詞語:"思維能力"。

達里爾·阿特金斯案第一次開庭時,埃文·納爾遜博士把智力定義為"某種用于思維、推理、理解的能力。在理想的社會環境里,智力和受教育的程度毫無關係。它主要指的是思維能力,某種程度上指的是知識。不過,人們常常梳理不清這兩者之間的關係"。納爾遜認為,阿特金斯的智商成績為59分,恰恰忠實地反映了他"當前的智力水平"。

那麼,阿特金斯的智商指數為59,這究竟意味著什麼呢?研究一下智力測試的基本結構,有助於解開這一疑團。

阿特金斯案

自1939年誕生以來,韋氏成人智力測評-Ⅲ里的題型幾乎沒有什麼變化,不僅閱讀理解部分如是,其他部分也如是。現如今,在韋氏成人智力測評-Ⅲ的l4類題型里,僅有兩類題型源自20世紀60年代以來的設計,另有一類源自20世紀30年代的設計,剩下的11類源自第一次世界大戰前。

納爾遜博士用來測定阿特金斯的韋氏成人智力測評-Ⅲ之類的智商測試,通常由"口頭"提問和"非口頭"提問組成。因為,上個世紀初,美國的心理醫生們的測試對象包括識字的、不識字的以及不會說英語的人群(口頭提問方式甚至包括數學問題)。這種口頭和非口頭試題結構並非基於智力理論,亦非基於某種精細的人腦功能模塊,而是歷史原因使然。

第一次世界大戰期間,在埃利斯島工作的醫生們,以及在美國軍隊里工作的心理學家們,他們面對的是許多讀不懂英文的人,因此他們需要採用非口頭的"動手"作答的提問方式——比如利用拼圖塊拼出一艘艦艇的圖案——測定智力。這種解題方式後來為軍隊的B試卷所採用,最終被韋氏成人智力測評和其他韋氏測評方法所採用。

韋氏成人智力測評中的口頭答題方式主要取自軍隊的A試卷。這種為識字的人設計的測試方法來自更早的實踐活動,例如劉易斯·特曼引進的埃爾弗雷德·賓尼特的方法。

因此,今天的心理學家們利用韋氏成人智力測評測定智力時,他們實際上是在廢舊的鋼軌上跑今天的火車。這類測試並非基於什麼理論,而是基於前人的實踐。第一次世界大戰前,埃爾弗雷德·賓尼特的試卷中有這樣的問題:"如果某人得罪了你,向你道歉,你應當做什麼?"軍隊的A試卷測試的不過是常識問題,實例如下:

水結冰會脹破水管,其原因為:

  • 寒冷使水管變脆

  • 水結冰後會膨脹

  • 結冰使水流中斷

阿特金斯案第一次開庭時,納爾遜在出庭過程中列舉的韋氏成人智力測評中測定常識的一個問題,與上述題型有異曲同工之處。他說的例題是:"如果你家的水管破裂,你該做什麼?"

這一類取自試卷"閱讀理解部分"的題,明顯而鮮明地指向人們所學的知識和所受的教育,以及範圍更廣的,應試者的所有生活閱歷。如果應試者是個未受過教育的來自密西西比三角洲的農場打工者,此人就不太可能知道英國劇作家莎士比亞是《哈姆雷特》的作者。這是納爾遜在出庭過程中列舉的另一個例子。如果應試者具備哈佛大學文學博士的頭銜,情況會大為不同。

比如,早在l9世紀80年代,弗朗西斯·高爾頓就採用了背誦數字串,即鸚鵡學舌般背誦一串數字(正著背誦和倒著背誦)。如今它仍然是韋氏成人智力測評試卷里的題型之一。

說實在的,大多數口頭問答的題型源自埃爾弗雷德·賓尼特的測試套題。智力究竟是什麼,賓尼特對此沒發表什麼言論。他的看法是,通過測試不同年齡段的孩子的語言能力和推理能力,可以將他們區分開來。20世紀30年代的人物大衛·韋克斯勒(DavidWech-sler,各種韋氏成人智力測評的發明人)除了開發測試題,也沒提出過什麼理論,或極少提及理論。而且,直到世紀末,他開發的題型幾乎還是當初的老樣子。

簡而言之,如今的智力測試沒有理論依據,人們不過是利用已經掌握的能力對人群草率地加以群分而已。

賓尼特的高明之處在於,他提出,智力測試者應當測定人們更高層次的推理能力,例如抽象思維。因此,他為法國的在校學生設計的題型包括找出"蒼蠅和螞蟻"、"深紅色和血紅色"、"報紙、標籤、圖畫"的相同之處。這種找相同點的題型如今仍然存在於測試美國成年人的韋氏成人智力測評-Ⅲ中。

心理學家們為韋氏成人智力測評-Ⅲ制定的《考試指南》里有這樣一句話:"抽象能力分值應當計入總成績。"如今這一《指南》已被廣為採用。"回答可以是抽象的(例如:桌子和椅子均為'傢具'、具體的(例如:褲子和領帶均為'棉織品'或功能性的例如:地圖和指南針'可用於確定方向'。"與此相同的是,對閱讀理解部分里的問題作具體解釋,遠不如對諸如"這山望著那山高"等熟語作抽象解釋得分高。

韋氏成人智力測評-Ⅲ里有七個部分為口頭問答題,其中六個部分源自劉易斯·特曼早在1916年發表的斯坦福-賓尼特智力測試題,以及或者)第一次世界大戰期間軍隊採用的A試卷。與此相同的是,試卷中有七個部分為非口頭問答題,其中四個部分源自軍隊的試卷。"看圖答題部分"——例如,指出兔子少了一隻耳朵,網球和球網相匹配——在第一次世界大戰期間以及大戰之前即已存在,出現於同一時期的還有"圖形組合部分"和"數字元號編碼部分"。在埃利斯島上工作的醫生們發明的積木移民們用其拼出完整的圖案)至今仍然是各種韋氏測評的主要題型。醫生們認為每個人都應該會做的拼圖——例如船或人臉的側影,也誕生於那一時期。

自從埃爾弗雷德·賓尼特於l905年發表第一套測試題以來,已經過去了上百年。智商測試技術智商究竟是什麼,人類並沒有充分認識,也沒有達成一致)源自實用的必然和歷史的必然,自出現至今幾乎沒發生過什麼變化。變化確實有,不過往往只是形式上的改變。

例如,為應付大規模的測試,採用了單項選擇的形式;為適應美國和其他地方的文化背景,題型都進行了入鄉隨俗式的改造。在韋氏測評和其他智商測試中業已存在數十年的口頭問答題和"動手"作答的提問方式,並非出自智力理論或認知理論,而是出自特殊的歷史需求,出自對考試成績和卷面成績,以及預測未來的某種力量對比關係的統計。心理學抗拒改變,致使智商測試長期以來一直沿襲著固有的結構。

儘管沒有理論基礎,儘管韋克斯勒因其測評方法過分狹隘如鯁在喉,人類依然沿用著韋氏測評,似乎它能夠解析人們的大部分或全部認知能力。例如,利用韋氏測評作私立學校入學測評的心理學家們往往會說,學校特別看重韋氏兒童智力測評和韋氏幼兒智力測評,將其看做測定孩子未來學習能力的方法。學校完全不會考慮孩子的非智力因素。

第一次世界大戰期間,大衛·韋克斯勒不過是年輕的軍隊監考人員中的一員。那時候,他剛剛完成美國哥倫比亞大學的碩士研究所學業。戰前以及戰後,包括在軍隊服役期間,身為學生的韋克斯勒,有機會和當時差不多所有名聲斐然的心理學家共同從事研究和工作。在此過程中,韋克斯勒接觸到了心理學對智力的全方位思考。

在哥倫比亞大學期間,韋克斯勒師從詹姆斯·麥基恩·卡特爾,我們在第二章里介紹過此人,他的人體檢查數據和智力測試分數無論縱向還是橫向都沒有比對性。韋克斯勒和心理學家艾德華·桑代克EdwardThorndike)也一起共過事,後者堅信,智力由獨立的、特殊的能力構成,也即是說,其構成並非單一。韋克斯勒在英國學習了數個月,其間師從查爾斯·斯皮爾曼,後者因命名了常規智力而享譽天下。韋克斯勒在法國期間,和其他許多心理學家共過事。

面對如此眾多並且相互矛盾的觀點,韋克斯勒表現得極為現實。他總結道:那些高水平的心理學家們"全都沒錯"。這完全稱不上是純粹基於理論的觀點。不過,持這樣的態度,使他在創作測試題時顯得特別靈活和特別開放。

20世紀30年代,韋克斯勒將人們在第一次世界大戰期間應用爛熟的測試方法和當年心理學家們所熟知的其他測試方法一勺燴,使之成為一種可行的、多用途的考試方法。心理學家們對他的方法愛不釋手,導致劉易斯·特曼的斯坦福-賓尼特智力測試套題相形見絀。

對於大衛·韋克斯勒試題的出處,那些擁有執照的心理學家在使用試題的過程中也有過擔心。喬治梅森大學的傑克·納格利埃里JackNaglieri)是一位學院派心理學家,他常常在全美各地作報告。

在作報告的過程中,他常常向聽眾演示美國軍方在第一次世界大戰時期的試題。看見這些試題,"人們會問,怎麼看起來像韋氏測評試題啊?這時候我會解釋說,當然啦,確實如此,因為韋克斯勒的試題都是剽竊的……韋克斯勒所做的不過是把'一戰'時期的規模化測試改成了一對一的測試。他所做的不過如此……他的實際貢獻是,他提供了一種心理醫生們能夠在診所里使用的測試方法"。

大衛·韋克斯勒

韋克斯勒的第一套測試題發表於l939年,其名稱為韋克斯勒-貝爾維智力測評。與之前的測試相比,它最大的不同在於,心理學家們要求應試者做的題型既包括口頭問答,也包括非口頭問答。對於當年的許多心理學家而言,將這兩類問答題放在一起毫無意義。

對於能閱讀英文以及能說英語的人們來說,讓他們做動手題,回答非口頭問題——例如擺弄木頭塊,拼圖案——還有什麼意義呢?與從前的老前輩埃爾弗雷德·賓尼特和查爾斯·斯皮爾曼如出一轍,韋克斯勒也認為,心理學家們應當測定各種各樣的智能。

同時他還認為,動手題能夠讓檢測者深入窺探他人可以測出來的智力,尤其能夠深入窺探人們的個性。韋克斯勒清楚,試卷的各個部分之間相互關聯得非常好,也即是說,能夠做好辭彙部分和算術部分的人,同樣能夠做好動手題。這僅僅是個例子。所以,從某種程度上說,這些活動在智力上是互通的。

總體上說,每當人們問韋克斯勒,他的試題究竟能測出什麼,他一向出言謹慎。他說過,通過做他的試卷,可以得到一個分數,例如達里爾·阿特金斯的得分為59。

他認為,測試的得分可以量化人們從事智力工作的能力。他還認為,智商測試無法直接測定人們的智力。無論他的試卷能測出什麼,他曾經白紙黑字地表述過:"測出的肯定不是某種單一因素能夠表示清楚的東西,無論如何也不能用人們常說的辭彙進行定義,例如智能、演繹能力、智慧因素等等,更不用說常規智力指數了。智力可能是這個東西,也可能是其他東西。"

對從事智力工作的人來說,能力很重要,不過韋克斯勒認為,這並不是"唯一重要的或首當其衝的因素"。他把有關智力的"其他東西"諸如熱情、執著、規劃能力等稱做"非智力因素"。韋克斯勒甚至還試圖測定這些非智力因素,而且還發明了測試方法,不過始終不成功。所以,如今他留給人類的,不過是據稱能測定常規智力的測試方法而已。

儘管沒有理論基礎,儘管韋克斯勒因其測評方法過分狹隘如鯁在喉,人類依然沿用著韋氏測評,似乎它能夠解析人們的大部分或全部認知能力。例如,利用韋氏測評作私立學校入學測評的心理學家們往往會說,學校特別看重韋氏兒童智力測評和韋氏幼兒智力測評測試小小孩的方法),將其看做測定孩子未來學習能力的方法。學校完全不會考慮孩子的非智力因素。

各種各樣的早期韋氏測評題無非是拼湊而成的,差不多就像捆紮木筏那樣拼湊而成。人們的思維究竟可以調動到什麼程度,通過韋氏測評能否真實地揭示出來?常見的情況是,一些思維足夠敏捷然而未受過教育的人,在口頭問答環節得分相當低。不過,這樣的結果並不能套用到非口頭動手類題型里。例如,做非口頭韋氏成人智力矩陣推理測時,在看完一系列圖片后,應試者必須按要求回答提問。

做最初級的題型時——難度會隨著做題的進程逐級增加——心理學家會嚮應試者出示一系列圖片,第一幅畫著沒有色彩的盒子,爾後是填了色彩的盒子,再往後是一支沒填色彩的箭。應試者應當由此推導出,最後一步是一支填了色彩的箭。

"這些題非常重要,因為它們和學校里教的知識毫無關係。"在阿特金斯案庭審期間,納爾遜博士如是說。"應試者是否上過學,完全無關緊要。所有接受過傳統教育的人,沒人做過這樣的東西。"

心理學家們始終保留著一些秘不示人的玄機,這是其一。不過,正規教育和個人閱歷對所有智商測試和題型都有影響。例如生日這種看起來根本不靠譜的東西,也可以決定9歲的孩子應該上三年級還是四年級。一般來說,四年級的9歲孩子比三年級的9歲孩子智商高,這一點在非口頭測試中的抽象推理題型上反映得相當準確,韋氏成人智力矩陣推理測評題即如是。

和人們的直覺正相反,最終的結果證明,比起直接針對知識例如辭彙和算術)的測試,非口頭測試更容易受人們生活環境的影響。

智商測試的分數為什麼會逐漸升高,沒有人知道確切的原因。是由於普惠制的教育,還是由於計算機遊戲的存在,或是由於考試多了熟能生巧,甚至是由於營養的改善,抑或是多種原因的綜合?學術界對此爭論得不可開交。不過,有一點人們卻沒有異議:未見人類的遺傳基因有任何突變。

20世紀80年代,一位名叫詹姆斯·弗林的紐西蘭政治科學家發現,在發達國家的圈子裡,智商測試的分數一直在逐年上升,前一代人和后一代人之間的分數差距非常大。

弗林向各國的學術界人士散發了一份調查表,要求他們盡最大可能由遠及近追溯人們的智商測試分數,然後反饋給他。最初,他僅能從14個國家得到反饋信息。從20世紀40年代到50年代,這些國家常常用相同的方法為軍隊里的人作測試。

到20世紀90年代,弗林已經搜集了20個國家的信息。儘管各國的考試時間長短不一,應試者做的試卷卻完全相同,因此弗林可以輕而易舉地比較兩三代人之間的分數差異。

弗林最感興趣的智力測驗是瑞文漸進測評。韋氏成人智力矩陣推理測評題即源自該測評。從20世紀30年代問世以來,瑞文測評中的60道題在很長一個時期一直沒什麼變化,因此該測評成了對比各個時代智商分數的理想工具。用弗林的話來說,瑞文測評的內容沒什麼"文化內涵",避開了人們在學校、工作場合,以及其他有文化氛圍的地方常見的文字和標記。

心理學家們認為,矩陣測評測定的是"流動的"智力——現場推斷問題的智力和解決問題的智力,其對立面為後天獲得的知識,即"固化的"智力。固化的智力例如用辭彙測驗即可檢測出來。

許多心理學家同時還認為,利用瑞文測評測定常規智力指數是最靠得住的方法。所以,弗林的研究成果公開發表之前,許多專家認為,瑞文測評的分數在好幾代人之內會維持穩定。和前一代人相比,后一代人不可能在很短的時間變得天生聰穎,對吧?

他們大錯特錯了。從世界範圍來說,瑞文測評的分值每年都在提高。僅舉一個實例為證:1945年以來,荷蘭軍方每年都用相同的簡易版瑞文測評從60道題里選取40道題)測驗年滿l8歲的入伍新兵。隨著時間的延續,能夠在選出的40道題里答對24道以上的人或多或少在逐年增加。1952年,僅有31%的人達標;l962年,比率已經提高到46%;l972年,63%的人能夠答對24道題以上;1981年到1982年問,82%的人能夠達標。這表明,在過去30年問,智商測試的分值平均增長了20個點。雖然弗林從各國搜集來的數據不盡相同,上述發現確實是有力的證明。

可想而知,弗林的研究成果在心理學界引起了巨大的恐慌和激烈的辯論。自從智商測試橫空出世以來,心理學家們一向堅信,他們可以通過智商測試解析應試者理解周圍事物的能力。加利福尼亞州立大學的著名心理學家阿瑟·詹森曾經說過,智商測試得分為75的人能夠沉浸於棒球賽的氛圍里,卻無法正確理解比賽規則和棒聯運作細則,甚至也不清楚每支球隊有幾個球員。

智商測試的成績和人們的智力究竟是什麼關係,弗林的發現使人們更難以推論了。

弗林曾經提到:"有一位從教30年的荷蘭女性,她的智商測試分數為ll0,不妨以她為例進行說明。l952年,她的聰明超過高年級75%的學生;1967年時,她和學生的水平旗鼓相當;到l982年,75%的學生比她更聰明了。是否其他荷蘭老師的從教經歷和這位女士一樣呢?"

和如今的成年人的智商分數相比,出生於l877年的人究竟表現如何,涉及瑞文測評的另外兩項研究成果有助於科研人員進行這樣的對比。1942年,參加瑞文測評的英國成年人,年齡跨度從25歲到65歲。l992年,科研人員請來一組年齡完全對應的人作了完全相同的測試。近年出生的幾代人得分明顯高於早年出生的幾代人。和維多利亞時代25歲的人相比,l992年,處於相同年齡的人顯然聰明了許多。弗林推測,按照如今的標準,19世紀末期,不列顛至少有70%的人智商低於75分。如果智商測試確確實實能測定智力,那麼,19世紀的人有能力做出正常人做的事嗎?

"板球運動是l9世紀末期不列顛人的主要興趣之所在,推測當年有70%的人不懂比賽規則,這道理說得通嗎?"弗林曾經這樣質疑過。"軍事信息的準確性毋庸置疑,在道理上卻同樣無法自圓其說。足球是全體荷蘭人最喜愛的運動,難道我們可以推斷,l952年有40%的荷蘭人缺少看懂足球賽的能力?"

有趣的是,從世界範圍看,諸如斯坦福-賓尼特智力測試和韋氏測評等與教育有關的智商測試的分數也在看長。拋開國別差異不說,各代人之間的平均分差在9到18之間。總的來說,如果智商的分數確實在看長,考卷和題型與教育聯繫越緊密,分數的長幅會越小。例如,在韋氏測評試卷的算術部分和辭彙部分應試者的分數似乎總是不見長不知出於什麼原因,德國在這方面是個例外;德國人學習刻苦,學會新詞的速度極快)。

"智商的大規模提升不可能是由於遺傳因素。"弗林曾經這樣寫道。"即便在一代人之內將智商的分數提高微不足道的一個點,不同的社會階層在生殖方面的微小差異都必須變得無窮大。"

對那些相信智商測試可以用來測定智力的心理學家們來說,無論智力是否與生俱來,每隔一代,人們的智商分數都會顯著提高,這對他們是個相當沉重的打擊。難道如今三十多歲的這批人比他們的父母聰明了許多?弗林曾經論述道:專利的註冊數量和學術的重大突破未見顯著上升;人們在遲緩地前行——效率高也罷,效率低也罷,人們的聰穎和愚鈍一如既往。儘管許多心理學家發出的聲音不同,不斷上升的智商測試分數有力地證明,智商測試測定的是人們的學識和"抽象解決問題的能力"。

正如弗林所言:"心理學家們應當三緘其口,不要再說智商測試能測定智力以及諸如此類的話。他們應當說,智商測試能夠測定人們解決抽象問題的能力。這一術語精確地解釋了我們的無知。我們都知道,人們作智商測試的過程就是解決問題的過程。我們會認為,這些問題離我們太遙遠,和現實相比太抽象。隨著時間的流逝,人們解決現實世界問題的能力會淡化,這種能力即是智力。除此而外,我們對智力知之甚少。"

在現實世界里,人們如何認識智商測試究竟能測出什麼非常重要。如果達里爾·阿特金斯的辭彙量極少,家裡的水管爆裂后不知所措,也不知道如何做算術,我們就無法判斷,他是缺乏知識呢,還是常規智力指數特別低。如果是前者,他就有足夠的悟性規劃一次謀殺,他也會清楚司法程序。如果是後者,憑良心說,從生物學的角度看,他已經傻到了家,因而不能對他施以死刑。

《智商測試:一段閃光的歷史,一個失色的點子》

[美]斯蒂芬·默多克 著 盧欣渝 譯

生活·讀書·新知三聯書店 2016-3

點擊下方 閱讀原文 購買

—END—

歡迎點贊分享轉發到朋友圈

「近期專題」

三聯書訊 | 2017年7月

點擊圖片閱讀

經濟上的必需偶爾會迫使某些人群按照某種政治方式行事。不過,這種安排從來不會持久。真正使得一伙人不顧艱難險阻團結在一起的原因,是因為他們有許多與別人界限分明的相同的信仰、相同的偏見、相同的嗜好和相同的恐懼、希望及理想。——房龍《寬容》

----

生活需要讀書和新知

----

ID:sanlianshutong

即可訂閱

----

回復好文,閱讀更多專題文章



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦