Zi 字媒體

大數據時代，「窮人與狗不得入內」的鄙視鏈無處不在

2021/12/25

看到網上有人用這個形象的例子來形容大數據時代無所不在的歧視和偏見：如果LV專賣店門口掛一個牌子，寫著「窮人與狗不得入內」，這是不是會被無數人唾罵，甚至告上法院。但是互聯網信息時代，人工智慧加上五花八門的大數據演算法，卻可以堂而皇之地把人分成三六九等，然後把不招待見的客人剔除在門外。

比如微信上的定向廣告，收到寶馬廣告的客戶在大數據和演算法的邏輯里就應該比收到小米廣告的用戶要高端，這不就是大數據時代的「窮人與狗不得入內」么。

當然，你可以說這是個性化精準推送，不會騷擾到對寶馬不感興趣（應該是買不起寶馬）的那些用戶，還會覺得這種大數據演算法還是不錯的商業模式。那麼當你知道全球最大的職業社交網站LinkedIn，它的演算法里會默認把職位更高、薪水更高的工作推薦給男性用戶，而把職位更低、薪水更少的工作推薦給女性用戶的時候，你會怎麼想？

LinkedIn全球擁有5億註冊用戶，無數公司的HR視LinkedIn為發布招聘信息的最重要渠道之一。如此多的招聘信息通過LinkedIn帶有「偏見」的演算法處理之後，「歧視性」地把更好的工作推送給帶有男性、白人等關鍵詞信息的用戶，而將較差的職位推送給女性、有色人群等，而且是在完全不公開、不透明的過程中進行。長此以往，對於整個商業社會帶來的負面影響，將無法估算。

之所以存在這些歧視和偏見，其中一個原因是這些程序的設計者、機器學習專家們都是男性，甚至是白人居多。所以在全球第一屆人工智慧當評委的選美大賽里，皮膚黑的美女都落榜了，上榜的都是膚白腿長、社會上普遍認為的美女。足以見得，這個人工智慧的演算法背後，肯定是一群「直男」工程師的審美標準。

無獨有偶，全球演算法最牛的公司Google也存在著類似的歧視。Google在推出人臉識別的時候，能夠很容易辨別白人，但是黑人等有色人種的識別率就非常差，黑人有時甚至會被機器自動識別成為黑猩猩。問題出現之後，Google雖然第一時間出來道歉，表示這是無意為之，以及承諾未來會更加註意對數據的選取和演算法的設計。但是大數據演算法里反映著人類普遍存在的「鄙視鏈」，這一點卻毋庸置疑。

當然，還有更多的演算法，其背後邏輯不公開、不透明，我們作為局外人也沒有辦法了解，設計者存在的偏見和歧視、各種商業利益都會被反應到演算法之中。被大數據演算法貼上了什麼標籤，就相當於是被劃上了不同的階層，很可能會決定這個人一生。而這也會引發一系列全新的道德問題。

窮人只配買廉價的商品，

好東西都留給上等人

大數據時代，各家公司都在拼盡全力搜羅數據、儘可能地詳盡了解自己的用戶，並且通過自己設計的演算法將其分類，並且標籤化。一旦貼上標籤，就直接將這個客戶圈定在了一個固定的階層。比如，招聘網站的演算法推測你目前的年薪是30萬元，而你交際的圈子也差不多是這個水準，那麼它會在很大概率上給你推薦年薪在50萬元以內的工作，儘管你可能更加勝任那個70萬年薪的工作。你在根本不知道年薪70萬的工作的時候，你怎麼可能獲得它呢？

甚至連行動電話公司都會「看人下菜碟」：他們對你標籤化之後，會根據你所在的檔次向你推薦這個檔次的電話號碼。也就是說你如果是「窮人」這檔，都沒有機會獲得數字好一點的電話號碼。而電話號碼，又會在很多時候決定你在其他地方的階層，比如一位在銀行的貸款經理朋友就告訴我，139、138等好的手機號碼在他們系統里的授信分值就是比其他的手機號碼要高，可能獲得貸款的金額、信用卡的額度都要更高。

電子商務平台的「鄙視鏈」就更加赤裸裸：你的每一次點擊、每一張頁面的瀏覽、每一次下單都會被記錄在電商網站的大數據之中，這些都是為你打分、貼標籤和劃分等級的重要維度。如果你是一個精打細算的用戶，「價格敏感型」就是你的標籤，那麼網站給你推送商品的時候，自然是優先選擇價格低的，那麼為了用足夠低的價格吸引你，演算法可以忽略掉質量。所以，在給你的產品推薦的前幾頁，大多都是廉價而質量也不太好的產品；那麼對價格不那麼敏感的用戶，自然可以獲得高質量產品的推薦。其實有時候，兩者的價格真的不會差距很大，但是出現在價格敏感型客戶推薦頁上的產品真的跟價格不敏感型客戶推薦頁上的不一樣，長期下來，兩者獲得的服務和生活質量還是會有差別的。

這些大數據公司究竟是怎麼樣來把客戶劃分等級呢？這自然是各家公司最頂級的商業秘密，當然也是法律和道德沒有辦法約束的。就舉個非常簡單的例子，你以為商家給你發優惠券僅僅是為了鼓勵你來購物、多購物嗎？優惠券就是一個劃分等級的最好方式之一。滴滴公司的朋友就曾經透露，他們通過優惠券的使用就可以很清楚地掌握這個客戶所在的社會等級、家庭財富等等。

滴滴公司在幾年前發展最迅猛、優惠打折最多的時候，每天會發出大量的優惠券，數據工程師通過分析這些優惠券的使用情況，就可以把客戶劃分為高中低三個檔次。高檔次，就是平時經常用滴滴叫車，就算是發了優惠券也不用，這就是有錢任性的高收入階層；中檔次，就是平時也用滴滴叫車，但是有了優惠券叫車頻率會大大提高；低檔次，就是平時壓根不用滴滴，但是只要有優惠券就用的「屌絲客戶」。當然，還有一類最被「鄙視」的：平時不用滴滴，給了優惠券到過期了也不用的。通過這個簡單粗暴的辦法，滴滴輕而易舉地篩選出了對自己最為有利的客戶，並且排除了那些毫無價值的客戶。

今天，每個行業每家公司都在做這件事情，建立最適合自己公司的「鄙視鏈」。就比如LinkedIn，它向男性用戶推薦的工作平均薪水概率上就是高於女性用戶。這也不能全怪數據工程師，因為我們社會上原本就存在著這樣那樣的偏見和歧視，它肯定會反應在數據和演算法中。數據工程師們也不是社會學專家，他們也不會考慮因為偏見和歧視所帶來的的道德倫理問題。

「請你來警察局一趟，

因為大數據說你有潛在犯罪的可能」

因為LinkedIn存在性別歧視，使很多人在職場得不到公正的待遇，這件事情讓人覺得不公平，那麼大數據帶來的法律、道德和倫理問題，就更讓人覺得難以接受，必須要全社會立刻重視起來。

「請你來警察局一趟，因為大數據說你有潛在犯罪的可能」，這可不是美國大片里的台詞。如果你生活在芝加哥，你有可能會因為大數據的演算法而被請到警察局去喝茶，還有可能會成為被重點「關注」的對象。

2017年的早些時候，美國芝加哥市的市長宣布了一個新辦法來提高城市打擊犯罪的能力和精準度。按照我們正常的思路，那就是擴大警察隊伍、加強警察到社群巡邏等等。但是芝加哥的辦法卻不同，可也代表未來的趨勢——他們引入了一個軟體程序，用來預測居民潛在的犯罪可能性。

芝加哥警察準備用這個數據分析軟體來確認城市裡的哪些人有較高的犯罪可能性，以便對這些人加強監控，甚至會時不時地拜訪這些人，以便更好提示他們不要犯罪，試圖通過這個辦法把犯罪扼殺在搖籃里。

但是顯而易見，這套大數據演算法不可能消除人類社會已經有的各種偏見和歧視。比如根據這套演算法系統，黑人等有色人種的潛在犯罪率遠遠高於白人男性，甚至一個沒有犯罪記錄的黑人小女孩的潛在犯罪率都比一個有犯罪前科的白人男性要高；低收入者就比高收入者的潛在犯罪率要高。

如果按這個劃分，在小縣城生活的人，潛在犯罪率就比在一線城市生活的人要高，要被警察重點關注，這顯然是不合理的。憑什麼河北人民的潛在犯罪率就比北京人民高呢？

腦洞再大一點，「潛在犯罪率」高的人，是不是從此就很難進入政府部門工作、也很難獲得職場的升遷？某些人的一生是不是就會因此被改變？

如何破解「數據歧視」？

提升演算法的透明度是最重要的解決方法。

不論是政府部門還是商業機構，任何一點帶有歧視和偏見的演算法就會對不同的人群造成很大的影響，甚至會誤傷很多人。解決的辦法只有一個：提升演算法的透明度，這樣才能儘可能地保證數據採集的中立和演算法的客觀。

理想的狀況是，任何使用大數據、演算法的機構，包括政府和商業部門，每年都要像披露財務狀況一樣，披露數據採集的標準、核心演算法的運算原理等等，以供相關部門和第三方機構核驗，看是否對特定人群造成了傷害和影響。

當然，如果有機構認為自己的演算法涉及到核心競爭利益而必須保密，那麼它必須為外部專家和相關機構進行各種測試提供積極條件，以確保它的演算法結果是中性的。

尤其是對政府機構和大型的商業機構而言，必須要積極引入外部數據專家、法律專家，甚至是道德倫理學家參與到大數據的演算法研發和討論中來，儘可能在最初始階段就讓演算法和數據更加中性。隨著社會的變化，很多的演算法標準也需要進行相應的調整和改進。同時，也需要更多地向員工進行培訓，讓他們更清晰地了解數據的邏輯，參與到大數據演算法中來。

人人都在談大數據的商業模式，對社會發展的推動和對經濟結構的改造，但是同樣也要深刻關注到這一系列改造背後對社會價值、倫理道德的深刻影響。

「本文僅代表作者個人觀點，未經允許不得轉載」

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點