當你刷 Facebook 的時候你應該注意什麼

編者按：隱私——有人覺得它至高無上，屬於基本人權，受憲法保護；也有人覺得「我坦坦蕩蕩，沒什麼事情需要遮掩」；也有人始終搞不清楚它到底為何物。以研究都市問題而著名的作家 Jane Jacobs 曾經說過，「只有當城市是被所有人一起創造出來的時候，它才有能力為所有人都提供些什麼。也只因為前者，後者才得以成立。」這個邏輯在互聯網世界也說得通。只不過在實體的城市裡，人們通過繳納稅收來補貼公用，而在虛擬空間里的「稅收」，便是我們的隱私。

Facebook 能千方百計來收集你的個人信息。完全避免使用 Facebook 是非常困難的；但通過了解它所收集的數據，你能明白使用 Facebook 的潛在風險，並在使用中更加謹慎。

Facebook如何收集數據
在你發布狀態之前Facebook已經知道哪些信息
發帖之後，Facebook收集哪些信息
Facebook內部如何使用你的信息：

影子檔案

Facebook與廣告商有著怎樣的關係
Facebook把哪些數據給了政府
你離開Facebook后它還會追蹤什麼信息
使用Facebook時應該注意什麼
如果不想Facebook掌握你的信息，你應該怎麼做

Facebook 或多或少已經成了我們的虛擬客廳、線上第三空間。我們在此與朋友聊天、對新聞各抒己見、組織活動、哀悼離世的人，也在此慶祝新生嬰兒、訂婚、新工作、新髮型以及假期。

作為社交平台，Facebook 已經佔據了我們很大一部分注意力，甚至變成我們的冥想盆[注1]。正因如此，一旦我們將自己的希望、夢想、政治聲明以及孩子照片交給 Facebook，了解它作為一家商業公司是如何處理這些數據就顯得至關重要了。

Facebook 確實在收集數據。2014年，Facebook 的工程師自稱每天大約能收集到600TB 的數據。

作為對比，《戰爭與和平》的文本大小是3.1MB。1966年蘇聯版的《戰爭與和平》電影時長為7小時，大小為8GB。

所以，每天 Facebook 用戶上傳的數據總量，相當於19,000萬本《戰爭與和平》小說，或者75,000部《戰爭與和平》電影。

Facebook 的數據使用政策概述了數據收集的範圍以及用途。然而，像大部分公司一樣，政策里並沒有清楚地告訴用戶真實情況究竟如何。

我每發布一條 Facebook 狀態更新，就在猜測每一次輸入的信息去向哪裡。持續的猜測讓我困擾不不堪，於是我決定進行一番研究。以下所有信息都來自科技媒體、學術期刊，以及作為 Facebook 用戶從客戶角度獲取到的信息。以從事十多年用戶數據相關工作的數據專家角度出發，我在文章中加入了個人見解。

歡迎任何 Facebook 員工對本文提出指正。如果能知道你們沒有收集和處理如下文指出的那麼多數據，我將會非常高興。

Facebook 如何收集數據

為了理解 Facebook 收集數據的過程，我做了如下的簡易示意圖。你從應用界面輸入數據。這是屬於前端的部分。

這些數據接著被納入 Facebook 的資料庫（Facebook 有很多資料庫）。這是屬於後端的部分。

你在前端看到的只是後端數據的一部分。

如果你對於技術細節感興趣，谷歌上能搜索到許多相關的架構示意圖。Facebook 的大數據處理技術非常先進，他們工具棧包括 Hive、Hadoop、HBase、BigPipe、MySQL、Memcached 和 Thrift 等。所有這些都存放在 Facebook 眾多大規模數據中心里，比如位於俄勒岡州普賴恩維爾市的數據中心。

在發布狀態前 Facebook 所了解的

在你按下「發送」之前，Facebook 可能就已經開始收集數據了。你在遣詞造句的時候，Facebook 已經收集了你輸入的每個字元。

Facebook 曾使用這些數據來研究自我審查（Self Censorship）。

一位研究員寫道：

我們的研究結果來自於一次探索性數據分析，研究的是 Facebook 里「最後時刻」的自我審查，或者被過濾后寫下的內容。我們收集的數據，來自17天內的3,900萬名用戶。在研究過程中，我們還關聯了用戶的特徵描述、社交圖譜，以及兩者之間的相互作用。

這意味著，假如你發布了一條「我恨我的老闆，他快把我逼瘋了」這樣的狀態，但在最後時刻改變了主意，「天吶，這工作真是瘋了。」Facebook 仍然知道你在刪除前輸入了什麼。

以下是一些他們用來進行研究的數據點：

這些是比較有趣的方面：刪除的帖子、刪除的評論，以及刪除的簽到。你沒有寫下的東西，不保證不會被 Facebook 儲存；同樣得不到保證的是，假如你刪除了數據，它們真的能從系統中消失。

Facebook 通過跟蹤元數據——即描述數據的數據——能夠跟蹤被刪除的帖子。舉個例子，一段通話的數據是你在通話期間談論的內容，而元數據是指呼出電話的時間、地點以及通話時長等信息。

對於 Facebook 而言，元數據與原數據同等重要，也是推斷你個人信息的依據之一。通過 Chrome 瀏覽器上的開發者工具，我們很容易看到以 xhr 形式從客戶端傳送到 Facebook 後端的大量數據。我並不是前端高手（但很樂意與任何一位交談，探索其他可以提取到的數據），但從下圖可以看出， Facebook 記錄了你花費在某個未知動作上的時間，可能是如 Facebook 此前報告的，在網站停留的時間。

巧的是，這種情況也出現在刪除賬戶的時候。

Facebook 有許多系統和數據彙集的地方。一名前 Facebook 顧問寫道：

回答你問題的前面部分，「你是否可以有償地讓 Facebook 嚴格刪除你所有的信息？」假設嚴格是指完全擦除任何你曾留在 Facebook 上的痕迹，那麼答案是否定的。

對於已刪除的帖文，情況類似。我們不確定 Facebook 是否真正在後端資料庫中刪除了帖文，而不只是在客戶端上隱藏了它。

當你真正發布一則帖子、上傳一張圖片，或者只是修改了任意信息，Facebook 完全有權力把這些數據用於內部研究，打包銷售給如 Acxiom 那樣的市場數據收集機構，或者通過國安局（NSA）或者稜鏡計劃提供給美國政府。

發布狀態后 Facebook 收集的收據

毫無疑問，Facebook 收集了你主動提供的所有數據：政治關係、工作地點、喜歡的電影、書籍、打卡的地點、你發表的評論以及任何對帖子的操作。Facebook 允許用戶下載資料庫中的部分個人數據。

在我的個人數據中，可以看到如下內容：

我上傳的照片以及圈出我的照片視頻
所有我曾發布在個人時間線上的東西（包括我曾表示感興趣的活動、其他人發布在我時間線上的東西、分享的回憶等）
我的好友以及加為好友的時間
我所有的私人信息
我曾參加過的活動
我曾用來登錄賬戶的所有設備
以及我可能感興趣的廣告。這並非我自己提供的信息，而是 Facebook 基於我所發布的東西通過演算法生成的。

我們下面會談到有關廣告的部分。

除了數據以及元數據，Facebook 還跟蹤用戶的注意力。其中一個方法在前文已經提過：那些沒有發布的狀態。另外一個方法是在視頻播放過程中通過熱點圖來記錄用戶的參與程度。

除了你的個人信息，Facebook 還知道有關你好友的一切。這意味著，即使你的個人資料不完整或是很少發布狀態，這並不影響 Facebook 對你的了解。

Facebook 在內部如何使用你的數據

對於收集到的數據，Facebook 做了不少事情。

首先，它在收集到的數據上運行簡單的程序，用來提高網站的表現，或者用於業務報告（例如網站的正常運行時間、用戶量、日收入等）。其他任何一家公司也都會這麼做。

然而事情在 Facebook 中有一點扭曲。它擁有的龐大工程師團隊專註於構建工具，目的是提高使用 SQL 類語言查詢數據的便利性，該語言建構於 Hadoop 和 Hive 之上。儘管 Facebook 聲稱對於數據的訪問受到嚴格的控制，但一些報道卻與此相斥。

廠牌 Anjunabeats 的主管 Paavo Siljamäki 在 Facebook 發布的一則帖子引起了人們對這個問題的關注。在一次訪問 Facebook 洛杉磯辦公室的時候，一位員工沒有向他索要密碼就能輕易訪問他的賬戶。

其次，Facebook 把用戶當作小白鼠一樣進行學術研究。這是數據使用政策條款中沒有提到的。有趣的是，Facebook Research 首頁上的標題是：「在 Facebook，研究貫徹到我們工作的方方面面。」

Facebook 的數據科學團隊非常龐大（最新數據顯示為41個人）。相比而言，一個同樣擁有15,000名員工的公司，如果要積極推進數據科學研究，大概僅需要5名數據科學家。

然而直到2014年，Facebook 仍然沒有任何操作流程來核查被訪問的數據和研究用途。一名前 Facebook 數據科學家寫道：

在我任職期間，並沒有機構審查委員會來審查出於內部目的進行某項實驗的決策。但如果有人得到結果並要在期刊發表文章， PR 以及法務部門必定會反覆斟酌將被公開的內容。但如果你想運行一個測試，看看人們是點擊綠色按鈕還是藍色按鈕，你不需要得到批准；或是測試一個新的廣告投放系統，看看是否會提高用戶的點擊率和營收，這同樣不需要得到批准。

他繼續指出，這對於大部分 SaaS 公司來說司空見慣。但大部分 SaaS 公司並沒有在十年中一直儲存用戶生活中最私密的細節。

他還提到：

大部分在 Facebook 與數據打交道的員工的根本目的是影響和改變用戶的情緒和行為。他們一直致力於此，讓你更喜歡產品故事，點擊更多廣告，在網站上逗留更久。

大部分網站的目的也是如此，這無可厚非。但一旦我們每天要在一個旨在影響用戶情感的網站上逗留40分鐘以上的時候，我們需要三思了。

Facebook 不僅挖掘文本，進行情感研究，還對此進行操縱利用。

Facebook 的 News Feed 功能很適合用於操縱，因為 Facebook 特意將它設計得容易沉迷。這是我們神經系統間的糖衣炮彈。Facebook 希望你花在 News Feed 的時間越多越好，花更多時間瀏覽嬰兒照片以及其他令人愉悅的事物，和能引起爭論、憤怒的新聞，這相比平淡的「我今天吃了早餐」這樣的狀態更能吸引回應。

今天我們所謂的「過濾氣泡」（Filter Bubble）就是這樣開始的。當人們只點擊感興趣的事物，Facebook 就會更偏向於展示吸引用戶互動的事物，而其他觀點、朋友、圖片將會從你的 Facebook 信息流中消失。這個例子很好地解釋了這一流程如何運作：點此查看「紅色信息流vs.藍色信息流」，你會看到自由派與保守派的 Facebook 信息流之間的差異有多麼大。

Facebook 還在研究什麼呢？比如，他們收集同性戀人群出櫃的比例。他們是如何知道的？「在過去一年裡，大概有八十萬美國人更新了他們的個人資料，表明他們對同性的喜好或者使用自定義性別。」

Facebook 有很多研究著重於圖譜理論，即我們與朋友之間的關係。換句話來說，它正在對一群從未表示過同意的對象進行人類學研究。

比如最近，數據科學團隊發布了一項關於在美移民社群的社會關係的研究，此處研究人員使用了如下數據：

我們把分析限制於匿名的聚合數據，這些數據來自在進行此項研究之前30天內至少登錄過 Facebook 一次的位於美國的用戶。我們把用戶在個人資料中填寫的家鄉設定為其國籍。
我們進一步對分析對象設置了限制，他們至少需要有兩位現居其母國的好友，和兩位現居美國的好友。我們的最終結果建立在超過一千萬符合標準的用戶樣本上面。貫穿整篇論文，所說的「Facebook 用戶」都假定符合這些限制。

這些還只是公開的研究。誰知道他們暗地裡還在做其他什麼研究。

另一個 Facebook 喜歡研究的對象是「人臉」——這不難理解。每一次你在照片中圈出自己，Facebook 都會識別出你並作出相應調整。

Facebook 鼓勵你在個人發布的照片中把朋友圈出來，而它則收集這些信息。Facebook 使用一個叫做 DeepFace 的程序來匹配一個人的其他照片。

這個叫做 DeepFace 的程序，是提高標籤精準度的一種絕佳方式。但同時也是一種侵犯他人隱私的糟糕方法。比方說，假如你不想被圈出來呢？如果你在參加對政府的示威呢？更簡單的例子是，當你與這位朋友而不是另一位朋友參加音樂會，並且不想被別人知道呢？

不幸的是，活動的隱私很快將不由你選擇了。Facebook 正在研究識別出隱藏在照片里的人的方法。一篇關於 Facebook DeepFace 的論文指出，「臉部識別技術會給社會和文化帶來巨大影響。」但文中完全沒有提及，在照片中被圈出來所可能帶來的對隱私的侵犯。例如：

「我們很快能令商店裡的攝像頭識別出進店購物的顧客。」她說。

他們是如何知道這一切的呢？

因為這是我們自願提供的數據。每當我們發布狀態更新、上傳圖片並標籤、向朋友發送信息、簽到某個地方，甚至是登錄 Facebook，系統都會生成相關信息並存入資料庫。「嘿，這個人現在在 Facebook 的宇宙中。」這個宇宙現在還包括 WhatsApp 和 Instagram。

影子檔案

當你分享的數據量沒有達到 Facebook 期望的程度時，會發生什麼？Facebook 會創建一個影子檔案，它是「Facebook 收集的非用戶提供的數據集合。」

正如文章中指出：

即使你從未提供，Facebook 也很有可能獲取你的輔助電郵地址、電話號碼和家庭住址，這些都要歸功於渴望找到你並建立聯繫的朋友們。

更糟糕的是，Facebook 收集的，可以說就是你的臉。

最近一場訴訟關注的重點不在於電郵地址或者電話號碼，而在於「臉部模板」：只要用戶上傳了圖片，Facebook 將會掃描圖片中的所有人臉並創建一個「數字生物特徵模板」。

即使 Facebook 收集數據僅供自己使用，這也足夠令人擔憂了。然而還有外部合作機構。

Facebook 與廣告主的關係

Facebook 的數據使用政策上提到，它與其他機構合作收集用戶數據：

我們從第三方合作夥伴那裡獲取您在 Facebook 上和 Facebook 以外的個人與活動信息，例如：來自與我們共同提供服務的合作方的信息，或者來自廣告主的有關您的廣告體驗與互動的信息。

它收集了「大約29,000個人口統計指標，其中大約有98%來自用戶在 Facebook 上的活動。」

據報道，大約有600個數據點來自於獨立的數據交易商比如 Experian、Acxiom 等。據稱用戶無法訪問來自第三方的人口統計數據。

除了你主動提供的個人數據，比如完整的姓名、生日、愛好、宗教信仰、所有你曾上學以及工作的地方以外，Facebook 還會對未知的數據進行推斷，所以它可以與 Acxiom 或其他廣告巨頭共享這些數據，以便更有效地針對你投放廣告。

比如 Facebook 會基於家庭收入來創建數據檔案並銷售給廣告主，畢竟他們才是真正的付費客戶。廣告主能買到精準投放的廣告，包括以下任何一種或者所有信息：

地點、年齡、代際、性別、語言、教育程度、學習領域、學校、種族認同、收入和凈值、住房所有權以及類型、住房價值、物業尺寸、住房的平方大小、修建年份，和家庭組成。

Facebook 是怎麼知道這些的？它基於自有的數據和從 Experian 之類第三方合作夥伴中得到的數據對你作出了推斷。

然後，這些信息被用來對 Facebook 用戶進行廣告投放。Facebook 所能進行的投放揭示出很多隱藏在背後的數據。比如，你不僅可以根據地理位置/年齡/性別/語言來進行投放，還可以根據愛好和生活階段（比如，剛訂婚、訂婚六個月後，或者孩子剛進入學齡階段）。即使是這麼狹窄的定位，它仍然能覆蓋到不少人（在我的例子中，是100到200人）。

這些數據還被出售給下游公司，與信用卡以及其他營銷機構現存的關於你的數據結合，來建立一個你的完整檔案。沒有一勞永逸的方法能擺脫這一切，因為數據一旦被創建，刪除它就變得非常困難。這就是為什麼隱私權倡導者們的關注點之一就是要求商業公司定期批量刪除數據。Facebook 還有權把你和你未滿18歲的孩子的照片用在廣告當中。

Facebook 提供給政府的數據

我們並不了解 Facebook 提供給政府的一切信息。Facebook 的確在網站上公開了它收到的政府請求報告，但該頁面自2016年6月起就停止了更新。但我們知道，政府索取的信息不減反增。

以上數據指向的報告中表明了曾被訪問的數據的規模和受到影響的用戶數量，但對於提供的信息類型，以及訪問數據的機構類型（本地機構、州立機構、聯邦調查局或者國安局），卻沒有額外說明。

馬克·扎克伯格甚至發表了一個聲明：

Facebook 不處於且從未參與任何向美國或其他政府提供伺服器直接訪問的計劃當中。我們從來沒有收到任何政府機構訪問大量數據的要求，也沒有像報道所稱的 Verizon 那樣，收到要求提供大批量數據或元數據的法院命令。即使發生這種情況，我們也會積極反抗。直到昨天，我們甚至還沒有聽說過稜鏡計劃。

理解字裡行間的含義很重要。對伺服器的直接訪問不必發送大批量的文件，也沒有必要知道稜鏡計劃這個名字。

我們也很難知道國安局是否使用其他方法來收集 Facebook 上的數據。至少在歐洲，關於這個問題有數個訴訟正在進行。

但現在，我們暫且假設監控仍在繼續。

當你退出登錄時 Facebook 跟蹤的數據

在以外，Facebook 會通過單點登錄來跟蹤你。

假如你退出，它還會通過 cookies 來追蹤你。正如他們的隱私政策所述：

當您使用我們的服務來訪問或使用第三方網站或手機應用時，我們會收集信息。這包括您所訪問的網站和手機應用的信息，您在網站和應用上使用我們服務的信息，以及應用開發者、應用發布者或網站提供方所提供給你或我們的信息。

Facebook 正在嘗試或已經在跟蹤用戶的滑鼠在屏幕上移動的軌跡了。

早在2011年，當你還處於登錄 Facebook 狀態的時候，它就開始跟蹤你在頁面上移動的軌跡了。

未經你同意， Facebook 會在登錄後跟蹤你在網路上的位置。Nik Cubrilovic 研究得更加深入，然後發現即使在登出後跟蹤仍然有效。Facebook 否認了這個說法。

但可以有把握地說它收集你的瀏覽歷史來豐富廣告內容。

在使用 Facebook 時，應作出的考慮

這一切意味著什麼？基本上它意味著你在 Facebook 上的所有行為，包括處於登錄狀態時在其他網站上的活動，都有可能被 Facebook 跟蹤，並保存在他們的伺服器上。

要清楚，任何公司目前都有某種形式上的用戶跟蹤。這是最根本的衡量運營效率的方法。但顯然 Facebook 已經遊走在道德層面可接受的數據業務實踐範圍之外。即使 Facebook 沒做過上文提到的事（如記錄發布前的狀態、主動干擾 News Feed），他們所進行的也是非常相似的工作，同時不能保障任何隱私或避免數據被用於實驗。這還意味著即使你不是 Facebook 上的活躍用戶，跟蹤依然無可避免。

每一次對文章的點贊、每一個添加的好友、所有簽到的位置、所有點擊的商品類別、每一張照片，都被保存在 Facebook 上並被彙集起來。

如何被彙集？這很難說。也許是作為社會實驗的一部分，也許被轉交給政府機構，也許在 Facebook 某個沒有合理許可權的員工可以訪問你的頁面並查看你的就業歷史，也許同樣的就業歷史被提供給了保險公司。

這包括所有私人的群組，所有關閉的群組，以及所有信息。正如 Facebook 指出，在 Facebook 就沒有隱私這種東西。

簡單來說，使用 Facebook 的時候，你需要假設所有行為都有可能被公開，或被用於廣告，或為政府機構分析。

如何避免 Facebook 收集數據

Facebook 起初只是大學生互相連接的途徑，最終成長至現在的規模，足以改變人們的行為，跟蹤人們的使用情況，以及可能為政府部門搜集匯總信息。

問題在於，每個人，不管他／她是否使用 Facebook，這個社交網路的跟蹤系統、關係標籤和影子檔案都已將他／她牽連其中。對於活躍用戶來說影響就更加廣泛。

所以最重要的就是必須意識到這一切確實在發生，並盡量不給 Facebook 可乘之機。

以下是我減少 Facebook 收集我個人信息的一系列措施。

並不是每個人都必須遵循我的做法。重要的是，即使你決定繼續使用 Facebook，你已經意識到 Facebook 如何處理你的個人信息，也有能力權衡保持社交活躍帶來的利弊。

不要發布過多個人信息。
不要發布任何你孩子的照片，特別當他們還處於無法表達同意的年齡。
使用完 Facebook 后登出系統。設置一個 Facebook 專用瀏覽器，以及另一個用於其他事情的瀏覽器。
使用廣告攔截器
不要使用 Facebook，特別是 Messenger 來組織或參與政治活動。如果你需要組織，使用 Facebook 來作為發起點，然後轉移到另一個平台。推薦的平台有：Signal 符合私人聊天軟體的最高標準；WhatsApp 對於群聊來說已經足夠，但它與 Facebook 的元數據系統有關聯，因此我並不推薦；Telegram 也是合適的，但由於它是閉源的，所以並不夠好。再一次提醒，對平台的選擇取決於你願意承擔的風險。更多關於這些平台的信息請參見這裡。
不要在手機上安裝 Facebook 軟體。它會向你請求很多過份的許可權。
不要在手機上安裝 Messenger，使用移動端的網頁版。Messenger 在移動端上的訪問受到屏蔽，但可以在瀏覽器上啟用桌面版來迂迴解決問題。

一個社交網路在帶來諸多好處的同時也成為互聯網上最壞的事物，這是令人悲傷的事實。但除非人們離開這個社交平台或對其施加某種經濟壓力，否則改變無從說起。

個人而言，作為一個數據專家，我所能做的就是給 Facebook 的招聘人員發了如下郵件。

尊敬的招聘官：

Facebook 收集以及使用數據的方法，包括：

轉售貴公司的數據給廣告公司如 Acxiom
跟蹤用戶瀏覽歷史
人臉識別
創建影子檔案
實施各類社會科學實驗如情感傳染（Emotional Contagion）
News Feeds 的演算法所帶來的過濾氣泡
以及最重要的的是，Facebook 給予包括 NSA 在內的政府機構訪問平台上海量數據的許可權

這不僅讓我非常反感在貴公司工作，同時也讓我三思自己對 Facebook 的使用，因為我不知道每一次進入系統的操作將被如何利用。

假如 Facebook 作為一家公司願意改變方向，並且

使用數據來對抗以上某些問題
主動研究刪除非必要數據的方法
主動研究私密、安全的通信，不受政府的干擾。
以及主動研究防止個人隱私信息被分享到不必要的第三方。

我將非常樂意了解這一切。

謹啟，
Vicki

我們都是社交動物，本能使我們渴望連接、認可與分享，希望在大眾的社交平台上建立自己的關係。這些目前為止都是 Facebook 的優勢。很難說 Facebook 沒有可取之處——它確實連接了人們、幫助組織聚會和活動，使得世界的聯繫變得更加緊密。

但作為 Facebook 用戶，我們和我們的數據是它的產品。隨著我們更加了解如何使用這些數據，我們依然可以在 Facebook 的世界里活動，按照著它的規則，但並不盲從於這一切。

本文原載於veekaybee.github.io，作者 Vicki Boykis，由 ONES Piece 翻譯計劃方文溢翻譯。

[1]:Pensieve，冥想盆，「哈利·波特」系列小說中出現的像水盆一樣的魔法工具，能夠盛放人的思想。