search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

檢察信息化人必看:三步,教你整合檢察系統的外部數據

新形勢下檢察工作如何順利開展、如何做到創新的重要因素之一是能否合理有效的運用各領域數據資源。但由於檢察工作覆蓋面廣、縱深程度高,所以只要是包含價值的數據,都應納入檢察數據中,確保查無所缺、用無所漏。

數據的廣泛性與分散性也是身為檢察技術人員的我們不得不考慮到的一點,而正巧本文為大家提出了一種面向檢察工作的數據整合方法,能夠較好的服務於各項檢察監督工作,快來隨小編我一同看看究竟。

外部數據來源

除法院等司法機關的法律文書等外部數據外,2017年2月10國務院辦公廳印發了《推進行政執法公示制度執法全過程記錄製度重大執法決定法制審核制度試點工作方案》,確定在國土部、住建部、稅務總局、江蘇省等32個部門和地方開展試點。試點單位將通過規範化的文字、音像等記錄方式對行政執法行文進行記錄,實現全程留痕和可回溯管理。隨著該工作方案的試點,此類數據量將成指數上升,這些數據將成為檢察機關進行檢察監督的一個重要數據來源。

數據的整合主要步驟如下數據的標準化整合、數據的規範化清洗、數據的智能化標記

數據的標準化整合

由於檢察數據的採集時間、採集人員、採集方式等內容各不相同,導致同一類型的數據在格式上也有所區別,例如欄位內容、欄位數量、欄位含義上的變化等。若將此類數據直接導入資料庫之中,極有可能無法直接將其運用於實戰之中,且會使資料庫的關聯關係、有效數據量受到影響,不利於資料庫長期穩定可靠的運行。

例如,在某案件的監督過程中,我們從某行政單位獲取到王某某的個人基本信息,採集到的數據可能隨著時間在內容欄位上出現差異。如下圖所示,為各採集時間點的數據內容。

圖1 數據採集內容示意圖

通過上圖可以看出,不同時間點採集的王某個人基本信息均發生了一定的變化,主要分為以下三點變化:

(一)內容變化

即採集的數據內容在欄位的數量上出現變化。如2012年至2015年採集的數據包含6個欄位,但是2016年採集的數據卻包含了7個欄位,若資料庫僅預設了6個欄位,將導致數據導入后發生第7個欄位遺漏的現象,浪費了寶貴的數據價值。若資料庫不預設足夠多的欄位,則可能出現數據遺漏的情況。

(二)屬性變化

即採集的數據屬性以隱性的方式顯示。如2012年的「性別」欄位為「0」。性別一般包含「男」、「女」、「未知」三種結果,此時我們採集的性別為「0」,則說明數據提供方對真實性別進行了字典索引,如「0」對應「男」,「1」對應「女」,當我們不清楚字典規則時,導入「年齡」這個欄位將使得檢察人員丈二和尚摸不著頭腦,無從展開進一步的分析。

(三)長度變化

即數據包含的內容長度發生變化。如2013年的「服務處所」為「一處」,包含2個字元,而2016年的「服務處所」為「一局一處」,包含4個字元。這就導致資料庫為了最大程度保存數據的價值必須不斷擴充自身的存儲庫大小,不利於後期進行資料庫管理。

為此,需要我們對採集到的原始數據展開標準化整合。標準化整合可分為以下三步:

(一)內容整合

採集數據欄位內容數量的標準化整合是指在容括當前採集到的數據欄位數量的前提下,應著眼於未來,提前設立一切可能發生變化的欄位。

例如,採集的原始數據中有10個欄位(姓名、性別、聯繫方式等),但是從檢察工作實際應用的角度出發,數據中應當包含證件類型、證件號碼等數據,那我們在創建資料庫表格時應提前設立此類欄位,欄位值在不存在相關內容時可以設為NULL(為空),後期在採集過程中一旦出現相關內容,即可完成填充,從而確保數據的無障礙導入及價值的完全存儲。

(二)屬性整合

在採集數據時,原始表格中可能存在大量的特有屬性欄位,如我們採集到的王某的性別為「0」,當我們不清楚具體的字典轉換策略時,其用於檢察工作的價值趨近於零。

所以從資料庫的設計合理性和實戰的有效性出發,應該以人工的方式對原始數據進行欄位價值的篩選,通過採集對應的字典數據對隱性內容進行顯性轉換,並使機器智能的記住相關篩選規則,確保後期遇到同種類數據時可以自動進行價值篩選,提升入庫效率。

(三)長度整合

標準化整合最後需要進行的工作是欄位長度的整合。如上圖所示,如2013年的「服務處所」為「一處」,包含2個字元,而2016年的「服務處所」為「一局一處」,包含4個字元。若是在設計數據表時將「服務處所」的字元數上限設置為2個,則會導致2016年的「服務處所」內容溢出,造成資料庫存儲錯誤或內容缺失問題。

因此,本文針對此情況設計了一種數據欄位長度設置方法。在設定數據的欄位長度時,首先向上取歷史數據欄位長度最大值,利用歷史的數據內容確定欄位長度的基數值,隨後根據欄位長度的浮動情況在基數值上增加輔助溢出值,最後將三個值的累加結果作為欄位的最終長度。

例:採集某數據時,對其中某項欄位進行長度整合,欄位的歷史長度如下表所示。

表1 數據欄位長度表

根表1可以得出,在歷史的採集過程中,欄位長度最大值為230字元,相鄰欄位差異最大值為150字元,平均差異值為65,則最終入庫時該欄位的長度應定義為445。

通過長度整合即確保數據資源的完整性和可靠性,也為後續的數據採集提供了支撐,在一定程度上能夠有效的控制資料庫的欄位長度的改動頻率。

數據的規範化清洗

本文認為,檢察數據的核心用途之一是為上層的各類應用提供信息支撐,在經過標準化整合后,還需要對其進行規範化清洗,使之更加符合上層應用的流程習慣,確保數據發揮出自身的最大價值。規範化清洗依據不同的角度,可以分為三類:

第一類

定義為「方式清洗」,可以分為人工清洗和機器清洗;

(一)方式清洗

1、人工清洗

人工清洗是指主要運用人力的形式對原始數據進行規範化操作,並在機器的輔助下實現數據的價值。通常情況下,原始數據包含的內容是全面的、不清晰的。為了使入庫的數據能夠切實有效的應用於實戰之中,需要依據各類因素對其進行人工清洗,由於影響因素大多是指區域因素、重點關注因素、人為因素等不可量化的因素,只有依靠人力對原始數據進行初步清洗。

例如,某數據中顯示人員甲的居住地為「香山大道」,但根據調查發現本地並無「香山大道」,僅存在「象山大道」,說明原始數據在登記時出現差錯,而此問題無法在初始情況下由機器自行判斷並修改,需要通過人工的形式進行清洗,從而確保數據的正確性。

2、機器清洗

機器清洗則是人工清洗在技術上的升華,隨著數據的採集量越來越大,單純的依靠人工進行規範化清洗是一件異常艱難的工作,不僅耗時長,而且工作效率低下。在此情況下,可以由機器針對人工清洗的操作建立適當的清洗規則庫,從而實現批量、快速、高效的規範化清洗。

例如,當通過人工將「香山大道」清洗為「象山大道」后,機器自行記憶此清洗規則,並通過代碼實現庫中數據的智能清洗,一旦建立完成對應的數據清洗規則,在後期再次遇到類似問題時即可以在入庫過程中進行實施機器清洗自動整改,從根本上避免了人工干預,進一步提升數據的可靠性及有效性。

第二類

定義為「對象清洗」,可以分為結構化清洗和非結構化清洗;

(二)對象清洗

在原始數據的採集過程中,我們會發現數據的種類千變萬化,不光是WORD、EXCEL等較為標準的文件,還會採集到各類音視頻等非標準文件。針對採集文件的種類,我們可以將清洗方式分為「結構化清洗」和「非結構化清洗」。

1、結構化清洗

結構化清洗是指對同一格式的同種類文件進行較為統一的清洗工作,如均為doc格式的某一類文書,我們可以篩選出其中的相同元素(如姓名、聯繫方式等欄位)進行清洗,並通過在資料庫中建立對應的關係文件表實施索引工作,這樣即可在上層應用中快速定位到相關文件,提升檢察工作的時效性。

2、非結構化清洗

非結構化清洗是指對於一些不是由標準的、有一定規律文字組成的文件進行規範量化操作。在非結構化清洗中,需要針對每種格式的文件建立獨立的清洗原則,如音頻文件清洗規則、視頻文件清洗規則、圖片文件清洗規則等。這是由於文件格式的不同,其中包含的內容也各不相同,必須根據實際檢察工作的需要進行清洗。

例如,音頻文件中應該重視音頻內容的文字轉換、聲音對象的區分、音色音調的分析、背景音分離等操作;而視頻文件中又需要對每幀畫面加入視頻圖像處理工作,從而實現視頻文件的價值深度挖掘;圖片文件除了對圖片內容的構造方法、顯性標識進行清洗外,還應對文件格式進行轉換分析(如隱寫:將文字經過格式隱藏於圖片之中)。

不論是結構化清洗還是非結構化清洗,都應注意以下兩點問題:

一是建立索引。

隨著文件數量的上升,文件的搜索耗時也會隨之增長,只有針對每個文件的特殊關鍵字建立對應的索引標記,才能進行文件的快速定位,在檢察工作中切實的發揮數據的作用。

二是優化演算法。

數據的應用過程會對文件的全部內容進行讀取,當存在非結構化數據時,必須建立性能良好、工作高效、反應快速的文件檢索演算法,在不影響其他應用正常運行的前提下,從而能夠對文件進行有效可靠的檢索工作。

第三類

定義為「內容清洗」,可以分為直接清洗和內涵清洗;

(三)內容清洗

1、直接清洗

直接清洗又可以稱為表象清洗,即對那些可以由人眼直接識別的、具備通用性的錯誤(錯別字、特殊字元)進行的清洗。

例如,身份證號顯示為「321119990909101零」,則應將其中最後一個字元由機器自動清洗為數字「0」,從而滿足上層應用的數據要求。又例如「XX小區11-206」,其中特殊字元「-」代表樓宇和樓層的分隔,應當由機器自動清洗為「XX小區11幢206室」。另外,當數據中對數據的描述進行了分類,如性別通過「0」、「1」、「2」進行代碼標記,則需要在資料庫中建立字典項,並在上層應用中實施清洗,性別字典表如下所示。

表2 性別字典示意表

2、內涵清洗

內涵清洗是指對具備地域特殊性、必須經由人工進行初次清洗的數據進行清洗。在實際的檢察工作中,我們經常會遇到上層應用顯示結果與實際結果存在偏差的情況,其中一個主要原因就是數據的時間跨度較大,導致在描述方式、描述內容上發生變化,但其實質上仍保持一致。

例如,某檢察人員對某生效的民事裁判進行監督,通過採集到的數據發現判決中涉及到一個關鍵地址「A」,其與民事證人所在的地址「B」關聯性較弱。但是經由人工核實,兩個地址實際表示同一地理位置,只是在時間上發生過更名。由於該數據潛在價值的重新體現,可以更加有效的協助法院進行民事裁判。當出現此類顯性關聯性較弱、隱性關聯性極強的數據時,機器無法直接實施清洗操作,只有通過人工進行初步清洗,並讓機器進行內涵清洗的格式學習,這樣即確保了數據錄入的準確率,也提高了數據的可用性,同時也極大程度的降低了檢察人員的工作量,提高了檢察工作的效率。

數據的智能化標記

為強化對檢察數據的入庫及運用管理,我們在數據的存儲過程中採取了智能化標記的措施,在不修改數據原有內容的基礎上,對其進行標記欄位的添加,使得資料庫的管理、使用更加清晰。

智能化標記主要分為「類別標記」、「時間標記」和「人員標記」。

(一)類別標記

類別標記是指根據特定的分類規則對數據進行存儲,將同種類的數據存放於同一空間內,而將不同種類的數據在邏輯上進行隔離,並通過交叉索引(如姓名、身份證號碼等)建立數據與數據之間的聯繫。

如下圖所示,不同種類的數據通過邏輯隔離使得內容的讀寫更加便捷,同時通過關鍵欄位的交叉索引可以實現數據之間的聯動,確保數據的運用無所遺漏。

圖2 類別標記方法示意圖

(二)時間標記

時間標記是指在數據實施導入、修改、刪除、導出等操作時,對受影響的數據添加時間標識,註明具體的操作時間及操作方法。增加時間標記一是可以與資料庫日誌相輔相成,對數據的各項操作進行嚴格管控;二是明確數據採集時間點,在後續的數據採集過程中,可以依據上一次的採集時間標記來確認該次採集數據的時間範圍,避免數據的重複採集及數據重複。

(三)人員標記

人員標記與時間標記類似,但是更加側重於對「人」的管理,也是對執行各項操作的數據添加人員標識,註明具體的操作人員賬號、操作時間及操作方法,使得數據的操作有據可查,杜絕許可權濫用。

如上文所述,檢察工作涉及到的外部數據具備多樣性、大量性等多重特點,若是僅依靠U盤、電腦終端進行數據的存儲

一是數據容易丟失,

二是容易造成泄密,

三是無法進行深層次的價值發掘。

所以本文認為,針對各項檢察工作的特殊性,建立一個「統分結合」的數據整合分析平台顯得格外重要。

將數據整合納入平台的功能之中,可以確保數據的實時導入;

通過資料庫進行維護管理及冗餘備份,可以強化數據資源的有效性及可靠性;

將數據交由平台管理,也提升了數據的安全性,並可通過日誌審計等形式建立檢察人員的自監督模式。

在這裡,我們提到的不是「整合平台」,而是「整合分析」平台。因為整合只是提升數據的可讀性,間接的提升檢察工作的時效性,但這只是數據應用的初級階段,為了切實發揮數據的價值,需要由機器根據檢察工作的具體需求對數據進行「智能分析」。

平台可以採用「統分結合」的方式加以建設,即以綜合平台為底層,在其之上針對各項檢察工作創建分支平台,這樣即保證了各項檢察工作的相對獨立性,也提供了檢察工作之間協作共享、交流溝通的通道,操作靈活、管理完善,能夠滿足各項檢察工作的實際需求。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦