Zi 字媒體

讓人工智慧比人類更客觀

2021/12/25

歡迎點擊「科學網」↑關注我們！

人類與動物的一個重要區別，是人類會設計和製造工具。現代意義上的計算機也是人類創造的工具，已經一百多年歷史了，在這段歷史中，如果我們要讓計算機來完成某件事情，不管是簡單的兩數相加運算，還是複雜的自動駕駛無人汽車，就是先編程，給予事先擬定的考慮各個場景的演算法指導其執行。在這裡，計算機並沒有創造性，它們只能做人類讓它們做的事，機器所執行的所有操作，排除偶爾的一些bug所產生的麻煩，總體結果都在人的掌控之中。我們可以將這樣的過程總結為：演算法+數據=結果。

在不知不覺中，因計算機技術而發展起來的機器學習已經逐漸進入我們的生活了，從其發展趨勢來看，大有滲透到各個領域、各個環節的可能。當我們撥弄智能手機搜索某段文字或某幅圖片，尋找晚餐地點，其實我們正在與機器學習演算法進行交互。機器獲得了大量原始數據（甚至包括百科全書或報紙的全部存檔），並對這些信息進行分析，可能會採用人類分析師並不多見的模式，就是俗稱的人工智慧。如今的人工智慧程序已經可以模仿藝術大師畫畫、為政治家撰寫演講稿、參與體育賽事報導，甚至擔任創意總監、輔助醫學研究等。還有，曾經讓全球矚目的Deepmind公司所開發的AlphaGo，更是攻克了人們曾經認為的機器最不擅長的事兒，這同樣離不開計算機對人腦創造出的數據進行的不知疲倦的學習過程。人們對這樣的新生事物充滿了好奇，一方面期盼這樣的技術為人類的發展帶來新的革命，另一方面又有些擔心甚至恐懼機器學習演算法是否最終會擺脫人的控制進而戰勝人類。

的確，機器學習演算法與傳統的計算機相比有非常不同的方面，這是一種全新的構建自我的技術，它可以從數據中學習並推斷，會自己弄明白如何做事。機器掌握的數據越多，工作的複雜程度就越大。人們不用給計算機編程，因為計算機會給自己編程，也就是說，機器自身有了創造性。機器學習一下子將機器進化成技藝精湛的工匠，它們生產的每件產品都不一樣，甚至可以根據場景的需求進行精細定製。其中，數據在這裡起到了非常關鍵的作用，因為機器學習是把數據變成了演算法。機器學習的過程可總結為：數據+結果=演算法，即把數據轉換成結果的演算法。數據越多，演算法就越準確。現在機器學習之所以無處不在，是因為數據正在飛速增長。只要有足夠的數據，一段區區幾百行的代碼可輕易生成上百萬行代碼的程序，而且還可為解決不同問題而不停產生各種程序。未來的超市中也許有通用的機器學習設備出售，其說明書可能簡單到只寫了幾個字「僅需添加數據」。

要訓練機器成為人類的好幫手，就必須先讓機器從學習人類的文明成果——文字開始。此時，機器學習就猶如一個新生的寶寶，如果人們讓它一口氣讀完數百萬本書，而無須從任何字母表、單詞和語法開始學起。這種方法確有奇效，但同時也存在問題。有一個研究團隊利用 Google 新聞的數據訓練了一個 AI 程序。假設要求系統回答「他是國王，那麼她是什麼？」，系統回答「王后」，那麼這顯然是成功的，因為人類也會這樣回答。當接著問，「男人是計算機工程師，那麼女人是什麼？」，系統回答「家庭主婦」，這顯然是一個帶有刻板印象的答案，類似這樣的答案層出不窮。另外的一些研究發現，這樣的系統往往會將聽起來像白人的名字與歡樂、平靜等正面辭彙聯繫起來，而將聽起來像非裔人士的名字則與苦惱、戰爭等負面辭彙相聯繫。這就是偏見甚至是歧視了。當然，這些結果並不意味著這些程序天生就存在偏見，而是因為它們所學習的人類文化和語言本身有偏見。

無獨有偶，微軟公司2016年3月23日推出的人工智慧聊天機器人Tay。本來設計這個機器人的目的，是讓Tay成為一個善解人意的小女孩，其功能是以輕鬆詼諧的語言和年輕人的口吻，回答用戶的問題。其中年輕人的口吻，就是從聊天中獲得，希望用戶跟Tay聊得越多，她就會變得越聰明，且更加符合用戶的習慣。結果，事與願違，上線第一天Tay就被推特用戶教壞，變成了一個滿口粗言穢語的種族主義者，滔滔不絕地發表白人優越主義的口號，甚至還變成了希特勒的冬粉，要發起種族滅絕戰爭，與剛開始希望她成為的角色大相徑庭。眼見一發不可收拾，微軟公司立刻將Tay下線，且把有冒犯性的留言刪除。從上線到下線，總共16個小時。3月30日系統更新后再次上線，但也很快再次下線。

這樣的學習過程採用了一種稱為詞語表達全局向量（GloVe，Global Vectors for Word Representation）的無監督學習演算法，通過對語料庫中全局字詞同現（word-word co-occurrence）的統計結果進行訓練，所得到的結果可展示字詞向量空間的線性子結構。在處理辭彙時，這類程序通常只根據各種因素來觀察詞語之間的相關性，即不同的詞共同出現的頻率。要量化兩個詞之間的相關性，可採用最近鄰估計中的相似性測度，並給出一個數字量。GloVe模型是對全局字詞同現矩陣的非零條目進行訓練，該矩陣列出了給定語料庫中單詞彼此共存的頻率。要填充該矩陣，首先需要遍歷整個語料庫，因此對於大型語料庫來說計算量非常大，但這此遍歷是一次性的代價，隨後的訓練迭代會越來越快，因為非零條目的數量遠小於語料庫中的單詞總數。但是，這種簡單的方法可能存在問題，因為兩個給定詞所表達的複雜關係，肯定比單個數字所捕獲的的聯繫要豐富得多。當這些大數據集本身蘊含了人類固有的社會偏見和刻板印象時，機器也就自然而然地學會了，這其中就包含性別歧視和種族偏見。

這不得不說是機器學習的一個巨大缺陷，那麼是否能通過技術手段進行彌補呢？深入分析會發現一些問題。例如，男人可能被視為與女人相似，因為這兩個詞都描述人類，而另一方面，這兩個詞可能也會被認為是對立的，因為它們也會突出人類彼此不同的主線。為了以定量的方式將男人與女人的細微差別區分開來，所建立的模型就不僅僅是將單個數字與單詞對聯繫起來。為了放大可區分數字集合，自然而簡單的方法是計算兩個詞向量間的差異。GloVe的設計就是為了使這種向量差儘可能捕獲兩個並置詞的含義。要區分男人和女人的基本概念，即性或性別，還有其他一些等效詞對，如國王和王后，兄弟和姐妹。也就是說，從數學角度看，男人—女人、國王—王后、兄弟—姐妹是大致相等的。

微軟研究院與波士頓大學合作，利用「詞嵌入」（Word Embedding）技術能夠訓練程序忽略單詞之間的某些關聯，希望消除機器的偏見。所謂詞嵌入，其實是一種普遍應用於機器學習和自然語言處理過程的統計建模技術。詞嵌入需要了解一個人的語言在空間上的不同點，並通過重現幾何關係的方式來分析這些點之間的語義關係。比如，去除「前台」和「女性」之間的關聯，同時保留「女王」和「女性」的關聯。研究人員表示：「這是一項很微妙的工作，需要理解種族、民族和文化中的刻板印象產生的直接和間接的偏見」。上周（2017年4月14日），《科學》周刊發表的一項研究，也揭示了與上述文本學習過程相同的情形。研究人員根據心理學中揭示人類偏見時所使用的內隱聯想檢驗（IAT）方法，創造了新的統計學檢驗——詞嵌入聯想檢驗（WEAT），以此複製以往的心理學研究中的種族和性別歧視例子。據說這是首個展示詞嵌入中體現人類偏見的科研成果。他們還開發了詞嵌入事實聯想檢驗（WEFAT），不僅僅局限於文字聯想。

換一個思維方式，針對類似新研究開發的統計檢驗，不僅暴露了機器學習領域的潛在問題，也許還可以成為一項有用的工具，比如用來分析在文字發展史上特定社會偏見的演變過程，有助於心理學實驗室測試所揭露的偏見與現實世界的實際影響之間的相關性。

人們對人工智慧這樣的現代科技持樂觀態度，部分原因在於人們相信這可能是一種更加民主化的力量，不會被人類心智中的狹隘偏見所限制。但現在必須正視的現實是該技術反映了造物者的價值觀，人類必須謹慎對待機器學習，否則我們創造出來的人工智慧就會變成一個被隱藏無數偏見卻不自知的社會縮影。人工智慧有望改變我們的生活，為了確保它能做的更好，一方面需要走出自我限制，變得更有包容性，另一方面則需要保持敏銳的意識，特別是那些微妙的、隱藏的東西。當然，從數據集中去掉偏見因素，但同時也可能會因此失去一些有用的語言和文化內涵，這不得不說是一個艱難的抉擇。

參考文獻：

[1] 佩德羅·多明戈斯（黃芳萍譯），2017。《終極演算法：機器學習和人工智慧如何重塑世界》（The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World），中信出版集團。

[2]

Jeffrey Pennington, Richard Socher, Christopher D. Manning. GloVe: Global Vectors for Word Representation

.

[3]

Removing gender bias from algorithms

[4] https://en.wikipedia.org/wiki/Tay_(bot)

[5]

AI也有性別和種族歧視？都是被人類教壞的

[6]

AI沒有偏見？它們從人類的語言中學會了性別和種族歧視

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點