Zi 字媒體

大數據分析解決安全之道

2021/12/25

互聯網飛速的發展，使得每天產生的日誌可達上T規模，但由於數據稀疏、異構性較強，甚至半結構化導致我們很少有精力關注。日誌是重要的非結構化數據，無處不在，技術人員通過數學分析、關聯分析、機器學習的挖掘辦法，可從日誌中獲得價值信息，用於運維監控、安全審計、用戶數據以及業務數據分析，達到發現企業信息安全短板、安全預警與應急處理的目的。那麼，如何最大限度發揮日誌的價值成為業內人士研究思考最多的問題之一。

知道創宇高級安全研究員鄧金城在2017年全球敏捷運維峰會(Gdevops, Global Devops Summit)上發表《海量運維日誌異常挖掘—我們如何從日誌中抓黑客》的演講，從海量日誌的異常分析類型、挖掘方法說起，分享了如何針對自己的網站去做相應的分析工具，以及利用分析模型來持續挖掘日誌中有價值的異常信息。

日誌異常類型：

1. 單點異常：單獨的數據實例是異常的。

2. 上下文異常：

● 在一個上下文中單獨的或連續幾個數據實例是異常的

● 需要一個上下文的概念

● 比如平衡許可權

3. 集體異常：相關數據實例的集體是異常的。

在數據實例間需要一個關係，常見的：有序數據、空間數據、圖數。在一個集體異常中單獨的實例，從它們自己看來並不是異常的。

異常挖掘方法解讀：

1. 異常挖掘方法1-基於經驗特徵挖掘

● 基於分析人員自身經驗，使用特定的與日誌相關的特徵進行挖掘

● 比如特定的字元串，特定的Cookies，特殊的UserAgent等等

● 此方法在試探性分析的時候常用

2. 異常挖掘方法2-基於數據統計挖掘

● 通過統計多維度的數據，根據其頻次，分散度等信息，挖掘有價值的異常

● 比如統計單個IP24小時內，使用的手機號碼數量；短時間內大量登錄請求等

3. 異常挖掘方法3-基於外部數據關聯挖掘

● 基於已有的外部數據與日誌的關聯性進行挖掘

● 例如高危IP庫的IP的正常訪問日誌，代理IP庫的IP的正常訪問日誌，某個通用組件或應用漏洞公開后的使用該組件或應用的網站日誌等等

4. 異常挖掘方法4-基於內部數據關聯挖掘

● 通過分析Web日誌的內部關聯性進行異常挖掘

● 例如通過分析Referer與URL二元關係組以及IP與URL二元關係組，挖掘低頻訪問且是孤立節點的頁面

5. 異常挖掘方法5-基於WAF規則的異常挖掘

● 將每條WAF規則轉換成多個語句的邏輯條件組合，並給予每個子條件一定的rank，然後對每條日誌數據進行評分，根據最後評分以及設定閾值來判定日誌是否異常

● 常用於WAF Bypass未知漏洞挖掘

6. 異常挖掘方法6-基於網站畫像的異常挖掘

● 根據網站的目錄結構、動靜態頁面分佈及頁面參數類型等信息而抽象出的一個多維度的標籤化的描述網站合法訪問範圍的畫像模型。通過判斷單條日誌數據是否在網站畫像中，來判定日誌是否為異常

● 適用於單個網站的日常持續分析

● 每個網站可以根據其應用特性和業務特徵構建個性化的網站畫像

知道創宇一直致力於通過大數據建立網路安全動態的防禦體系，鄧金城表示，通過對知道創宇雲安全平台海量日誌的分析，僅在2016年，就為客戶發現了大量的異常，分析和報告了大量安全事件，其中高危近千個，其中伺服器入侵35%、數據泄漏39%、賬號安全14%、其他12%，為用戶補齊網站安全的短板，為完善網站安全機制提供了關鍵數據，同時我們自身還收穫了幾十個0day。

「正是利用這一套大數據分析方法，這幾年，我們取得了不少成績，曾幫助某法院網站伺服器集群發現潛伏的安全問題、協助公安定位黑客個人信息等等。未來，知道創宇將會朝著可用性監控、應用性能監控、故障根源分析、安全審計、業務分析及用戶數據挖掘等方向繼續深入發展，挖掘大數據的利用價值，為客戶、合作夥伴提供更完善的安全可用服務。」

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點