search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

大數據時代下,數據感知在數據質量管理系統中的應用

關於數據質量管理,可能與大部分人沒有太大的關係。雖然,市面上有很多的公司在進行數據的挖掘、分析方面業務的工作,但是關於數據質量管理方面的公司真的是屈指可數。

由於本人所在的公司主要是為了解決發改委遇到的一些問題,而開展的1個項目。比如檢驗地市註冊資金是否存在異常這麼1個簡單的例子。而對於數據感知技術,大部分沒有了解過。為了說明,大數據時代下,數據感知在數據質量管理系統中的應用,這裡我們需要先解決幾個問題:

什麼是數據質量管理系統?

什麼是數據感知技術?

數據感知技術的用途?

下面我們分別來進行介紹。

我們知道,數據是企業數據中心的重要資產,獲取並維護高質量的數據,對業務及運營至關重要。而數據量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進行數據挖掘和數據分析。

但是在這個過程中,有許多因素會導致這些數據資產貶值,比如數據的冗餘和重複會導致信息的不可識別、不可信及精確度不夠等情況的發生。

而數據質量管理系統就是對數據進行處理后能夠提供高質量的數據,最終的目的是挖掘數據價值,推動業務發展,實現盈利。

而數據質量管理系統主要由如下一些部分組成:

而當前系統主要採用純Python來實現。對於發改委動不動就千萬級別的數據還是可以很好的進行駕馭的。

對於感知的定義是客觀事件通過感覺器官在人腦中的直接反映。而所謂數據感知,就是通過對數據的一些特徵信息來對數據進行描述。比如,我們看到遠處有1個人,長頭髮穿著紅色衣服高跟鞋,那麼我們就可以推測那個人是女的。當然,這個過程也可能會出現不準確的問題,比如那個人是個男的,就這樣打扮。

而數據感知技術可以實現給我們1組樣本數據,我們可以知道它是哪種類型。比如,給我們如下的100條記錄1組數據:

13923123425020-8876234(0760)2347234 ...3423456

通過我們的感知技術我們可以識別它為手機號碼和電話號碼,其中手機佔據的比例假設為60.82%,而電話號碼佔據的比例為32.22%,而剩下還有6.96%的數據無法被識別出來,因此我們可以推斷當前數據為聯繫方式為主。

需要注意的是,這100條記錄需要滿足隨機性,不然感知出來的結果可能會差強人意。

當然,這是比較簡單的1個例子。當然我們還可以識別中文姓名、地址信息、企業名稱、工商註冊範圍、工商註冊資金等類型,這裡就涉及到概率論及統計學的一些內容了。

當然,還會涉及到一些線性代數的內容,比如貝葉斯網路轉移矩陣的使用,會用到矩陣的相關知識。

一般情況下,數據質量管理系統都是基於規則庫進行開展工作的,而對每組數據進行規則的配置是1個繁瑣且耗時的工作,基本上沒有人願意進行這種工作。

而此時,通過數據感知技術,我們可以自動的感知規則,並為每組數據推薦最適合的規則,從而簡化人員的工作量,提高效率。

另外通過數據感知技術,還可以找到資料庫其他類似的類型的數據,進行數據關聯性的關聯,彌補一些認知上的缺陷。

實際上,數據感知只是數據質量管理中的1個很小的環節,通過這種自動化的技術,可以節省人工的成本及提高效率。

數據之王

(ID:shujuzhiwang)

——貢獻數據智慧,釋放全球數據價值

公眾號運營:大中華大數據協會

識別二維碼,關注大數據行業最前瞻性內容


熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦