Zi 字媒體

大數據應用與保護存在悖論嗎

2021/12/25

【財新網】（專欄作家陳立彤）人工智慧的發展過程其實就是人類淡出數據處理和應用的過程。進入大數據時代之後，人工智慧的發展或者崛起已經是不可避免的事情——一方面，自然人的智力和能力已經不足以處理大數據；另一方面，人工智慧將會全面接管數據的處理和應用（見下面所附的人工智慧調研圖）。

5月17日是世界電信和信息社會日——2017年的主題為「發展大數據，擴大影響力」。新華社消息，工信部總工程師張峰2017年5月17日稱，將建設全國一體化的國家大數據中心，推進公共數據開放和基礎數據資源跨部門、跨區域共享，提高數據應用效率和使用價值，同時加強安全監管，嚴厲打擊非法泄露和出賣個人數據行為，維護網路數據安全。

可以想象，大數據的應用將進入快速通道，但同時也帶來了應用與保護的悖論。

首先，政府所採集的公共大數據關係到國計民生，應用不當會對國家和公民個體造成不可逆轉的傷害。

關係到國計民生的大數據涉及到很多方面，包括公民個人的隱私和身份信息等「公民個人信息」。對於公民個人信息的保護，繼《網路安全法》等法律出台後，2017年5月9日，最高人民法院、最高人民檢察院首次就打擊侵犯個人信息犯罪出台《關於辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》（下稱「司法解釋」）。其對侵犯公民個人信息罪、非法購買和收受公民個人信息的定罪量刑標準以及相關法律適用問題進行了系統規定。

為什麼要加大對「公民個人信息」的保護，因為我們在這些方面有著非常多的慘痛的教訓。2016年8月19日，已經被大學錄取的山東臨沂18歲女孩徐玉玉接到一個陌生電話，被騙走了家人東拼西湊的9900元學費。在與家人去派出所報案回來的路上，女孩心臟驟停，兩天後離世。當然，徐玉玉的例子只是個案，犯罪分子根本談不上應用大數據，但可以想像的是，大數據應用如果在在公民個人信息上出了問題，那麼徐玉玉的案件肯定就不是個案了。

其次，公共大數據有很多是人工統計數據，準確性可能有問題。

公共大數據中有很多是手工採集的統計數據，統計口徑不停在變，且原始數據不可追溯，導致其準確度和可信度出現問題。如果這些數據成為政府公共決策的基礎，那麼會導致政府的決策出現偏差。

2017年1月17日，遼寧省十二屆人大八次會議在遼寧人民會堂開幕。遼寧省委副書記、省長陳求發代表省政府，作政府工作報告首次對外確認：遼寧省所轄市、縣，在2011年至2014年存在財政數據造假的問題。報告援引了國家審計署2016年的一份文件：「遼寧省所轄市、縣財政普遍存在數據造假行為，且呈現持續時間長、涉及面廣、手段多樣等特點。虛增金額和比例從2011年至2014年，呈逐年上升趨勢。財政數據造假問題，不但影響中央對遼寧省經濟形勢的判斷和決策，還影響到中央對遼寧省轉移支付規模，降低了市縣政府的可用財力和民生保障能力」。除財政數據外，其他經濟數據也存在不實的問題。

當地經濟研究專家介紹，一些縣區過去經濟數據至少有20%-30%的水分。瀋陽周邊一個縣，2013年統計的財政收入是24億元，審計署審計后「修改為」不到11億元。類似情況的並非個別現象。比如，岫岩滿族自治縣虛增財政收入8.47億元，高出同年實際財政收入的127％。

財政收入數據造假，「吹牛也要上稅」，也讓遼寧一些地市付出慘痛代價。一個地級市市委書記告訴記者，在分稅制體制下，財政收入虛增的稅收數額，也要按比例向中央和省上繳。前幾年財政收入虛增空轉，百姓沒有得到好處不說，相當於平均每人要多交稅收1000元！

這樣的有毒統計數據進入大資料庫，將會對下游的數據應用帶來災難。其引發的蝴蝶效應甚至有可能跨越數代而不自知（比如人口普查及計劃生育）。從這個角度來說，大數據的應用保護包括數據打假以及對下游數據使用者的保護。

第三，人工智慧將給大數據的保護帶來挑戰。

在大數據保護這個問題上，人工智慧或者被操縱的人工智慧平台已經不斷地向我們發起挑戰。遠的不說，就說5月中旬開始橫行的勒索軟體WannaCry所展開的攻擊模式已導致了全世界至少20萬台 Windows 電腦被黑，攻擊者加密了電腦文件，索要價值 300 美元的比特幣作為贖金。如此大規模地網路投毒，沒有跨法域、跨系統的高級人工智慧參與是難以想象的。

據報道，勒索軟體的源頭是美國安全局(NSA)。根據前安全局主管基思·亞歷山大（Keith Alexander）將軍的解釋：NSA、FBI 等政府機構為了保護國家抵抗恐怖襲擊和網路攻擊這兩種主要的威脅，就需要掌握一些在電腦操作系統中的漏洞作為抵抗恐怖襲擊和網路攻擊的工具。亞歷山大在媒體採訪時特別解釋：「NSA不會囤積漏洞；他們會放出 90％以上的獲取的漏洞，但為了追蹤恐怖分子，你就需要漏洞。」這不是官方回應，但這位 NSA 前主管的話，已經算是比較「正面」地承認 NSA 在這件事上的責任，以及此前的泄漏事件。

人工智慧對大數據保護帶來的挑戰不僅體現在像勒索軟體所帶來的網路攻擊上，還體現在我們對大數據保護的立法及執法需要機器思維，對了，你沒有看錯，我們在立法及執法的時候得像機器那樣去思考。

《網路安全法》中把「個人信息」定義為：指以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別自然人個人身份的各種信息，包括但不限於自然人的姓名、出生日期、身份證件號碼、個人生物識別信息、住址、電話號碼等。把「個人信息」定義為能夠「識別」自然人個人身份的的各種信息還太「人性化了」——機器或者人工智慧已經「進化」到不要識別自然人個人身份就可以完成相應的推銷工作。比如，VR領域最重要的技術，眼球追蹤技術，因為可以獲知人眼的真實注視點，從而也可以用在現實商務領域來捕捉客戶的興趣點。當你逛商場的時候，你的眼球關注某個商品的時間超過一定的閥值，即使你沒有下單，也說明你對這個商品感興趣（想想你談戀愛時含情脈脈的目光就能理解了）。所以，除了識別自然人個人身份的信息是公民個人信息之外，反映特定自然人活動情況的各種信息似乎也應當歸類到公民個人信息，對此上面所說的兩高司法解釋做了相應的補充——該解釋不僅明確了公民個人信息是指以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份的各種信息，同時還包括反映了特定自然人活動情況的「公民個人信息」。

如果這個定義在合規實踐當中嚴格適用，那麼將會給涉及公民個人信息的大數據應用帶來不大不小的一個障礙。公民個人信息的合法應用一般來說有兩個安全港（safe harbor），一個是獲得公民個人的許可；另一個是匿名化處理。但匿名化處理公民個人身份容易，但匿名化處理「自然人活動情況」將會非常困難，另外也將導致數據的商業價值蕩然無存。

結論

總之，大數據是網路信息技術與經濟社會各領域深度融合的產物，對於未來的互聯網生態、創新體系、產業形態乃至社會治理結構等都將產生革命性的影響。隨著信息技術的普及，大數據這座「寶庫」正在被人們發現、認識、挖掘。但我們在提升大數據價值、擴大大數據資源時，如何維護大數據安全、保護公民的個人利益不受侵犯，也是大數據應用必須解決的問題。

因為人工智慧的進化與大數據的應用的正相關性，我們在考慮大數據運用與保護的同時，一定要放眼機器世界，用它們聽得懂的語言告訴它們如何遵守我們人類的規矩。不過，要不了多久，能保護我們人類個人信息不被人工智慧侵害的，恐怕也就剩下人工智慧了。■

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點