search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

數據的"謊言" ——大數據環境安全防護技術之數據脫敏

關注杭州美創科技有限公司噢!

數據爆炸式增長,大數據成為國家基礎性戰略資源。大數據中蘊藏的巨大商業價值被認可,但也帶來了一個問題:

「大數據對人們來說,真的只有好處嗎?」

十三五規劃綱要中明確提出: 「實施國家大數據戰略,推進數據資源開放共享。」然而,各行業數據中包含大量的個人隱私數據與敏感、重要數據,一旦泄露或遭到非法利用,將會給個人甚至國家帶來無法彌補的損失。同時,隨著大數據分析的成熟和價值挖掘的深入,利用大數據學習技術從大量相關聯的普通數據中還原出用戶的敏感、隱私信息已不再困難。

如何在數據交換、共享及使用等過程中實現對敏感數據的定向、精準和徹底脫敏,達到數據安全、可信、受控使用的目標,是數據產生者和管理者亟待解決的技術問題。因此,數據安全技術和數據隱私相關技術成為安全技術熱門。

當前,數據安全技術包括數據加密、數據脫敏、訪問控制、安全審計、備份恢復、運維管理等。本文主要從數據脫敏這一安全控制手段入手。

數據脫敏與安全控制

數據脫敏又稱數據去隱私化,或數據變形,是在給定的規則、策略下對敏感數據進行變換、修改的技術機制,能夠在很大程度上解決敏感數據在不可控環境中使用的問題。國內銀行、通信運營商等是最早開始使用數據脫敏工具的單位。多以靜態脫敏為主。

在各行業中以金融、政府和醫療行業涉及敏感信息最多,都有明確的數據脫敏需求,特別是在應用開發、測試、培訓等環節。因為開發、測試、培訓等環境的安全風險較大,如果在這種情況下使用真實數據,恐將面臨嚴重泄露。

例如在例行拷貝敏感數據或者常規生產數據到非生產環境中時不經意的泄露信息。具體表現有:

1.大部分公司將生產數據拷貝到測試和開發環境中,允許系統管理員來測試、升級、更新和修復。

2.為在商業上保持競爭力,需要新的和改進后的功能。而應用程序的開發者需要一個環境模擬來測試新功能,以確保已經存在的功能沒有被破壞。

3.零售商將各個銷售點的銷售數據與市場調查員分享,從而分析顧客們的購物模式。

4.醫藥組織向調查員分享病人的數據,來評估診斷療效。

這些被拷貝到非生產環境中的真實數據,變成了黑客們或內部心懷不軌人員的目標。一旦被竊取或者泄露,可能會造成難以挽回的損失。

數據脫敏的原理

數據脫敏在保留數據原始特徵的條件下,對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。在不違反系統規則條件下,對真實數據進行改造並提供測試使用,如身份證號、手機號、卡號、客戶號等個人信息都需要進行數據脫敏。只有授權的管理員或用戶,在必須知曉的情況下,才可通過特定應用程序與工具訪問數據的真實值,從而降低重要數據在共享、移動時的風險。

數據脫敏在不降低安全性的前提下,使原有數據的使用範圍和共享對象得以拓展,因而,成為大數據環境下最有效的敏感數據保護方法之一。

在數據脫敏系統的幫助下,單位企業能夠按照數據使用目標,通過定義精確、靈活的脫敏策略,按照用戶的許可權等級,針對不同類別的數據以不同方式脫敏,實現跨工具、應用程序和環境的迅速、一致性的訪問限制。

數據脫敏通常遵循的幾條原則包括:

(1)數據脫敏演算法通常應當是不可逆的,必須防止使用非敏感數據推斷、重建敏感原始數據。但在一些特定場合,也存在可恢複式數據復敏需求。

(2)脫敏后的數據應具有原數據的特徵,因為它們仍將用於開發或測試場合。帶有數值分佈範圍、具有指定格式(如信用卡號前四位指代銀行名稱)的數據,在脫敏后應與原始信息相似。姓名和地址等欄位應符合基本的語言認知,而不是無意義的字元串。在要求較高的情形下,還要求具有與原始數據一致的頻率分佈、欄位唯一性等。

(3)數據的引用完整性應予保留,如果被脫敏的欄位是數據表主鍵,那麼相關的引用記錄必須同步更改。

(4)對所有可能生成敏感數據的非敏感欄位同樣進行脫敏處理。例如,在病人診治記錄中為隱藏姓名與病情的對應關係,將「姓名」作為敏感欄位進行變換。但是,如果能夠憑藉某「住址」的唯一性推導出「姓名」 ,則需要將「住址」一併變換。

(5)脫敏過程應是自動化、可重複的。數據處於不停的變化中,期望對所需數據進行一勞永逸式的脫敏並不現實。生產環境中數據的生成速度極快,脫敏過程必須能夠在規則的引導下自動化進行,才能達到可用性要求,更多強調的是不同環境的控制功能;另一種意義上的可重複性,是指脫敏結果的穩定性。在某些場景下,對同一欄位脫敏的每輪計算結果都相同或者都不同,以滿足數據使用方可測性、模型正確性、安全性等指標的要求。

脫敏的方法

替換:以虛構的數據代替真實的數據,如建立一較大的字典數據表,對每一真實值記錄產生隨機因子,對原始數據內容進行字典表內容的替換。這種方法得到的數據與真實數據非常相似。

無效化:以特殊符號代替真值或真值的一部分,如遮蓋身份證號碼前6-14位。

亂序:對敏感數據列的值進行重新隨機分佈,混淆原有值和其他欄位的聯繫,這種方法不影響原有數據的統計特性,如該列總金額與原數據無異。

平均取值:針對數值型數據,首先計算它們的均值,然後使脫敏后的值在均值附近隨機分佈,從而保持數據的總和不變。通常用於成本表、工資 表等場合。

反關聯:查找可能由某些欄位推斷出另一敏感欄位的映射,並對這些欄位進行脫敏,如從出生日期可推斷出身份證號、性別、地區的場景。

偏移:通過隨機移位改變數字數據。

對稱加密:這種加密是一種特殊的可逆脫敏方法。通過加密密鑰和演算法對原始數據進行加密,密文格式與原始數據在邏輯規則上一致,通過解密密鑰可以恢復原始數據。

動態環境控制:根據預定義規則,僅改變部分回應數據,如不在約定情況下訪問業務數據時,控制數據內容,屏蔽特定欄位內容。如不給DBA賬號顯示重要客戶信息,僅對業務模塊的關鍵用戶顯示。(在生產環境中使用較多)

關於美創

杭州美創科技有限公司是一家聚焦於數據管理、數據價值的發現與挖掘,圍繞數據安全、容災、集成、分析、運維等多方面鑄造數據價值的企業,是敏感數據保護( DCAP)與數據安全領域的拓荒者和領導者,是全業務容災的倡導者和實踐者,產品和服務被廣泛應用於醫療、社保、港口物流、金融、政府、電力能源等眾多行業。公司於2005年成立,在北京、廣州、武漢、南京、寧波等地均設有分支機構。

點擊「閱讀原文」,了解更多



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦