Zi 字媒體

行業 | 基於Hadoop架構電子數據取證框架研究

2021/12/25

摘要：Hadoop架構是目前大數據應用的主流架構，隨著大數據應用的快速發展，在電子數據取證中越來越多遇到Hadoop數據架構的取證。基於分散式計算的Hadoop架構與傳統的計算機取證環境存在較大區別。從取證視角對Hadoop複雜架構進行了抽象，建立了Hadoop架構數據取證分層模型。並在比較分析Hadoop環境與傳統計算機環境取證差異的基礎上，根據國際通用的EDRM取證模型，構建了符合國內最新電子證據相關法律規則的、具備實戰操作性的Hadoop架構電子數據取證框架。

關鍵詞：大數據 Hadoop取證 EDRM模型取證框架

警察技術雜誌

作者：王遠征

單位：湖北省公安廳網安總隊

一、前言

隨著大數據時代的到來，大數據技術和應用已經滲透到社會的各個層面，在大數據應用實現的架構中Hadoop架構處於主流地位。據報道，至2019年全球Hadoop市場年複合增長率將達53%[1]。大數據技術在給人們的生活帶來極大便利的同時，也給大數據應用的電子數據取證帶來了巨大的挑戰。筆者在重大案事件中也越來越多的遇到基於Hadoop架構海量數據環境的取證。Hadoop架構是大數據計算的主流架構，是對大規模數據集進行分散式計算的環境，和傳統的電子數據取證所面臨的環境具有較大差別，且Hadoop架構還在飛速發展，因此，本文從電子數據取證視角對Hadoop架構進行了劃分，對Hadoop架構與傳統計算機取證環境的區別進行了分析，並在此基礎上根據國際通用取證模型（EDRM），提出了針對Hadoop架構的電子數據取證基本模型。

Hadoop大數據應用本身是獨立於雲計算環境的，可架設在單機或者多機網路環境。但在實戰場景中，Hadoop大數據應用往往架設在雲計算基礎的環境上。傳統的理論研究認為，雲計算環境自身所帶的虛擬特性及資源智能調度，使證據源本身處於一種動態環境中，難以像傳統計算機取證環境那樣，明確證據源在特定時間點所處的物理位置。上述證據源思路來源於傳統的計算機犯罪勘驗，需要對證據源進行物理扣押。本文根據2016年10月1日正式生效的《關於辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》第九條的規定，對Hadoop大數據應用，可採取利用該系統本身各分層提供的數據應用和維護介面開展網路在線提取的方式，對證據源所包含的數據信息進行勘驗取證，從而不需要明確特定時間點的證據源的物理位置，解決了以往Hadoop系統證據源物理位置確定才能開展勘驗的問題。但是應用在線數據提取，需要對Hadoop系統架構需要提取的數據類型進行分析歸類並劃分層次。

（一）Hadoop架構下電子數據取證的證據源需獲取數據種類分析

電子數據取證的目的，是獲得與案件事實相關的具有真實性、關聯性、完整性的數據。Hadoop架構自身體系複雜，模塊繁多，導致取證工作難以明確重點。從電子數據取證的視角下，根據取證工作需要，可將Hadoop架構的分散式計算集群系統中證據源的各種數據可抽象劃分為以下三類：

1. Hadoop架構分散式系統本身所處理的大數據。這類數據是從各種數據源收集而來，存儲在Hadoop系統中被處理的各類數據的集合，其特點一是數據量十分龐大，二是數據包括結構化、半結構化及非結構化等多種類型。Hadoop架構分散式系統所處理的與案情相關聯的大數據是整個電子數據取證工作最重要的取證目標。

2. Hadoop架構分散式系統產生的元數據。元數據是對上述大數據的描述。因為大數據本身的信息量十分豐富，針對上述大數據的收集分類、分析處理、查詢檢索等業務數據流產生的邏輯描述數據，是幫助取證人員更好地理解大數據，並採取有針對性的方法對其進行分析的一類重要數據，也是從電子證據關聯性的角度，對Hadoop系統內提取的數據是否能作為證據進行判斷的重要依據。

3. Hadoop架構分散式系統自身的配置及日誌數據。Hadoop系統自身也是一個複雜的分散式計算系統，它的配置信息和日誌數據是幫助取證人員理解Hadoop系統運行和獲取數據方式的重要線索和工具。從證據模型的角度考慮，後期如果需要重建Hadoop系統，對原始環境進行證據展示時，系統配置文件及日誌數據就是不可或缺的、至關重要的重建依據。

（二）取證視角下Hadoop架構分層模型

Hadoop有自己的框架結構，其生態圈還一直在持續發展，它包含很多工具和組件，相互協同工作，且這個框架結構可擴展也可根據用戶需求自定義。因此，廣義上講，Hadoop是一個不斷發展的生態系統。在目前通用文檔里，一般其核心組件架構如圖1所示。

上述架構是從開發人員角度構建的。從開發人員視角構建的系統架構圖，包含大量技術實現細節，往往會導致取證人員陷入技術細節中而難以進行高效取證。本文在對Hadoop架構下需要取證的目標數據進行分類基礎上，根據數據被Hadoop架構各組件封裝的情況，設計構建了以電子數據取證為視角的四層取證模型，該模型分層結構如圖2所示。

在這個模型中，Hadoop架構從底部到頂部共分為四個層次：

第一層宿主操作系統層：該層是Hadoop架構集群安裝的宿主主機系統層。宿主主機層的操作系統主要為Linux系統，但也可以是Windows系統。宿主主機層是Hadoop架構集群裡面最基礎的資源。對該層的取證採用通常對主機伺服器取證的方式進行，對其主機硬碟、分區進行鏡像，對其操作系統及日誌用常規取證軟體進行分析。但是，由於Hadoop架構下的HDFS文件系統對所存儲的大數據進行了封裝，導致在該層次上的取證難以直接讀取Hadoop架構內所存儲的應用數據，只能看到其對應的HDFS文件系統的文件塊。該層證據源為Hadoop大數據應用系統自身整體的物理架構，常包含多台集群伺服器及網路交換設備。但是採取針對此層證據源的取證會面臨將無數數據碎片重新拼接成有意義的海量應用系統數據的巨大工程，除非其他條件不具備，一般不採用從此層證據源開展取證工作。

第二層 Hadoop文件系統層：這一層包含了Hadoop架構中的分散式文件系統HDFS存儲的底層結構和文件、yarn（Hadoop2.0版本以上）及MapReduce等資源調度和訪問的介面。從取證視角分析，對這一層數據的取證，只能在Hadoop系統在線運行情況下，通過在線取證的方法進行。在該層次上的取證可以直接訪問獲取到Hadoop架構內通過HDFS分散式存儲的文件，也可以訪問文件相關的元數據。難點在於，無法使用現有常規的取證軟體直接獲取數據，只能通過HDFS client 、Shell介面、Java api介面三種方法，採用輸入命令或者編程的方式獲取數據。但是由於在這一層上可以直接訪問到HDFS文件系統內的文件，因此，為HDFS中存儲的相關文件提供了數據恢復的可能。此層證據源為Hadoop應用系統本身所提供的基礎文件系統，可將其類推於傳統的NTFS等文件系統來看待，在實戰場景中常需要開展對此層證據源的取證工作。

第三層 Hadoop資料庫相關層：這一層主要包括Hadoop架構內的資料庫Hbase組件及相關的分析組件Hive等。Hbase資料庫進行數據存儲時，會根據自身設計再次對數據進行封裝后存儲在HDFS分散式文件系統上。類似於文件系統層，對這一層數據的取證，同樣只能在Hadoop系統在線運行時進行，對該層數據的訪問一般也只能通過Hbaseclient、Shell或Hbase及Hive提供的Api介面進行，現有常規取證軟體也無法直接獲取數據。但是通過該層可以直接讀取到HDFS資料庫文件中的應用數據，並且在該層也能獲取到關於應用數據業務流的邏輯處理配置文件及其數據處理的底層日誌信息，為對應用數據的數據恢復提供了可能。此層證據源為Hbase分散式資料庫，該資料庫對大數據進行進一步封裝，因此對此層證據源的取證勘驗需要明晰Hbase資料庫系統內部架構及刪除演算法等內容，限於篇幅，本文將在後續文章中進一步展開。

第四層應用系統層：這一層是整個Hadoop架構的最高層，該層一般會包括對Hadoop架構進行數據管理、分析的工具和組件，如Pig等。該層的取證也只能在系統在線運行的情況下進行在線取證。但是由於該層有各種方便的工具，因此在取證過程中最為直觀，技術難度最小。在這一層上的取證可以直接通過目標對象提供的各類應用系統的使用界面進行。難點在於，由於應用層對用戶提供了友好、便捷、易用的操作界面而屏蔽了底層的數據處理細節，因此該層的取證一般難以進行數據恢復等操作。本層證據源就是Hadoop大數據應用本身給用戶開放的系統界面，數據提取簡單明確，但是也是受限最多的一層。

三、Hadoop架構與傳統計算機網路環境取證區別分析

通過上述分層架構可見，基於Hadoop架構的取證與通常基於單機和簡單網路的數據取證具有較大的區別，主要區別包括：

1. 在取證環境方面，Hadoop集群硬體節點多、數據量大、單位數據價值密度小；而傳統計算機硬體數量和數據量較少、單位數據價值密度較大。

2. 在證據獲取與固定方面，對Hadoop分散式系統通常只能在線進行取證，無法扣押，且沒有成熟的規則和工具對數據進行獲取；而傳統的取證環境內作為檢材的計算機、伺服器等易於扣押，可離線取證，且有相應的規則和成熟的工具對數據進行獲取。

3. 在證據分析方面，Hadoop環境下由於數據量大、數據封裝程度高，對數據進行分析常需藉助高性能的數據分析系統和文件檢索系統，處理的數據種類也較為多樣，常同時會涉及結構化、半結構化、非結構化的各類數據的處理和分析；而對傳統計算機取證數據的分析，由於數據量相對不大，可採取人工分析的方式或利用自動化和一鍵式的分析工具進行數據分析。

4. 證據呈現方面，要重建Hadoop應用系統並對相關證據進行展示，常需要搭建較為複雜的虛擬環境，甚至難以直接展示，需要進行技術說明；而傳統的計算機取證結果則在法庭上可以用較簡易的方法予以展示和呈現。

5. 證據真實性及完整性保證方面，Hadoop架構的取證往往需要進行在線取證，且數據有可能因為後續系統的持續運行而難以重現，證據的完整性和真實性更依託證據監督鏈和同步錄像來實現；而傳統的計算機取證一般佔主流的是靜態取證，可以直接通過計算md5或者數據簽名等方法對其完整性進行固定。

四、基於EDRM架構Hadoop取證框架的構建

EDRM(Electronic Discovery Reference Model)模型取證框架是國際知名取證廠商nuix、relativity等聯合發起的一個國際通用取證框架，目前已成為事實上的取證業界的取證框架標準，國際知名取證廠商的取證軟體設計中已經廣泛採用該模型作為取證工作流設計的基礎。

該框架不同於傳統的線性或者瀑布模型，它是從電子數據取證的視角對取證過程進行普適的一個概念抽象。該模型到2014年，已經發展到比較成熟的v3.0版本。該模型共分為六個階段共9個流程，第一階段是信息收集（Information govermance）、第二階段是證據確認（Identification）、第三階段包括證據保全（Preservation）、證據收集（Collection）、第四階段包括證據處理（Processing）、證據檢查（Review）、證據分析（Analysis）、第五階段是證據產出（Production）、第六階段是證據呈現（Presentation）。該流程可以有效適應各類數據取證的情況，並能符合大陸法系或英美法系對電子證據規範性的要求。

（二）基於EDRM模型的Hadoop環境取證框架

EDRM取證模型為普適概念性框架，筆者在該模型的基礎上，根據Hadoop架構分層模型，細化出了符合EDRM規範的Hadoop取證框架。該框架根據2016年10月1日生效的國內電子證據最新法律文件《關於辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》設計，使本框架既符合技術相關要求，同時也符合國內相關法律規則對電子數據完整性、真實性的要求。筆者設計的基於EDRM模型的Hadoop取證框架如圖3所示：

1. 信息收集環節：現場調查至關重要。現場調查是信息收集中至關重要的環節，現場調查之前應制定詳細周密的調查計劃。現場調查包括以下主要內容：硬體上，Hadoop集群分佈的物理位置、拓撲結構；軟體上，Hadoop架構的組織形式、相關組件、應用程序；人員上，Hadoop各個層次的管理人員、賬號和許可權。注意解決兩類問題：一是各個層次的負責人互相不了解其他層次的情況，有必要組織到一起進行現場溝通；二是主管部門配合或者不配合，要採取相應的應對措施。這些都是在現場調查環節應當解決的問題。

2. 證據確認與保全階段：證據確認階段，對現場調查環節中獲取的相關集群物理位置拓撲結構、網路地址、應用程序及賬號許可權的識別等等，應設計製作規範的表格予以文檔化。證據保全階段，根據分層模型，在用戶層：主要通過獲取登錄賬號密碼，參照遠程取證的相關法律法規，進行遠程取證，並做好同步錄像和見證人簽名等；在HDFS\yarn\MapReduce層：使用HDFS shell介面、HDFS Java api介面等訪問和獲取相關文件，獲取MapReduce的配置信息、日誌信息等數據；在Hbase\Hive層：使用Hbase client、 shell介面、Hbase及Hive提供的api介面等訪問和獲取相關數據，獲取應用數據處理的配置信息、日誌信息等數據；在Host operating system層：獲取宿主主機的操作系統、日誌等相關信息。

3. 證據處理-檢查-分析環節：根據案件偵查取證需要，利用mysql等資料庫及結構化和非結構化數據分析工具對上述獲取的Hadoop的大數據進行進一步的檢查分析。

4. 證據報告生成-呈現環節：完成相關取證報告，呈現取證結果。必要時，對涉及案件的關鍵證據應用系統進行模擬重建，供法庭展示使用。鑒於Hadoop環境下，上述取證流程均處於在線運行狀態下進行，難以通過完整性校驗等方式保證證據的真實性、完整性，筆者認為可以根據《關於辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》第5條第五款「對收集、提取電子數據的相關活動進行錄像」的方式，形成證據監督鏈，以保證電子數據的完整性和可追溯性。

五、結語

為適應大數據時代下，基於Hadoop應用環境的相關案事件電子數據取證的需求，本文根據國際通用的EDRM取證框架，提出了一種適應於Hadoop環境且便於取證人員使用和

掌握的標準化、規範化的取證框架，闡明了在這個框架下各個環節的取證要點，為進一步細緻探討Hadoop環境下的數據分佈存儲、刪除恢復、日誌分析、入侵檢測、安全防範等相關工作，提供了框架基礎。隨著Hadoop生態系統的不斷發展，根據各類基於Hadoop架構的相關案事件的應用實際，筆者還將不斷完善基於Hadoop架構的取證框架並探討制定相關的標準流程和規範，更好地服務於案件偵查實戰。

參考文獻：

[1] 薩米爾·瓦德卡,馬杜·西德林埃,傑森·文納.深入理解Hadoop. 北京:機械工業出版社,2015.10.

[2] Boirs Lublinsky KevinT.Smith Alexey Yakubovich.Hadoop高級編程構建與實現大數據解決方案.北京:清華大學出版社, 2014.

[3] 范東來. Hadoop海量數據處理技術詳解與項目實戰.北京:人民郵電出版社,2015.3.

[4] 陳文捷,蔡立志.大數據安全及其評估.計算機應用與軟體,上海:上海市計算機學會會刊,2016.4第33卷第4期.

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點