Zi 字媒體

威富、大華、天地偉業大秀AI肌肉，成功實戰演示背後仍存在不少行業通用難題

2021/12/25

yidianzixun

雷鋒網按：工程院高文院士談到，監控數據本身就不是給人看的，而是給人工智慧。

雖然近些年AI演算法有著質的突破，但具體落實到安防現實場景中，準確率往往比在實驗室里殘酷的多。那麼人工智慧在安防領域的落地究竟到了哪一步？參照傳統安防巨頭的實戰使用效果比看演算法方案商的DEMO更有說服力。

近日，由深圳市安全防範行業協會主辦、CPS 中安網承辦的人工智慧安防行業應用暨實戰演練論壇中，威富集團董事長張少林、大華先進技術研究院研發總監鄭韜、天地偉業總工程師楊清永，深入講解了三家安防巨頭各自在AI安防方向的探索與實踐。

一、傳統安防領域面臨的挑戰

硬碟公司從業者向雷鋒網透露，他們生產的硬碟，每兩塊就有一塊進入到安防行業。

以北京為例，屬於政府和社會公共機構的攝像頭總數超過200萬個，這些攝像頭每分每秒都在保持錄像，每天會產生長達200多萬天的錄像，摺合成年為5000多年。所以整個安防體系，從攝像頭到存儲都是一個擁有極大數據量的網路。

這裡提出一個疑問：數據由攝像頭產生，那麼這些數據是由誰消費？

在當前的安防監控視頻網路中，絕大部分消費者是監控中心裡的工作人員，簡單來說就是警方。他們在破案時會去查看很多錄像，而數據生產的速度遠超過數據消化的速度，這導致今天安防監控行業的一個主要矛盾：我們產生了太多的視頻，可這些視頻卻沒辦法消化。

威富集團董事長張少林也談到了傳統安防面臨的挑戰：

1.被動式應用：監控人員需同時面對數十甚至上百路視頻，難以及時發現視頻畫面中的突然和異常事件，監控視頻錄像一般只能用於事后取證，且錄像查證過程需要耗費大量人力和時間。

2.數據無法有效利用：海量的視頻數據不能進行有效的數據挖掘和深度分析，不僅使得監控系統運行效率低下，而且對視頻設備和數據資源也造成極大浪費。

3.存儲壓力巨大：海量的非結構化數據，大部分是無用數據，給存儲設備帶來極大的壓力，不僅浪費存儲空間，增加存儲成本，也不利於數據的快速檢索。

目前以視頻數據為核心的安防監控體系，確實給客戶帶來了大量的麻煩。把這些數據放在客戶跟前，然後用純人工去尋找線索好比大海撈針。

但隨著AI的成熟，相比於其他行業，安防行業的兩大特性，讓人工智慧在安防領域有著很大的發揮空間。

一是安防的數據基礎滿足人工智慧的大數據特性，視頻數據有兩大特點：源數據信息量大、數據層次豐富。其次是，安防業務的本質訴求與人工智慧的技術邏輯高度一致：

事後追查——事中響應——事前預防

大數據——深度學習——智能判斷

所以整個行業都把希望寄托在人工智慧上，引進AI這個「消費者」，自動把這些視頻數據裡面的內容和目標變成結構化數據。

何為結構化數據？結構化數據就是數據能夠直接表達目標的性狀、屬性以及身份。

這種數據可以大規模去檢索，大規模地分析、統計。智能化是希望AI能夠變成以視頻數據為核心的物聯網裡面，這些數據的「消費者」，這時候「消費者」的 Output 就是結構化數據。

結構化數據也不能直接拿來使用，因為這些數據一旦實現了大規模結構化后，數據量仍舊非常龐大。

當人工智慧把這麼多的錄像轉變成結構化數據后，就會產生一個新的數據海洋：結構化數據海洋。如果數據沒有經過很好的挖掘，那它也不是有意義的情報。

結構化數據目前已經可以使用非常成熟的手段去挖掘，這個過程中會有一些非常淺度地挖掘、簡單的篩選：如黑名單。檢測到一輛車時，車牌號碼是一個嫌疑犯車牌號，當檢測到車牌號碼時，這輛車就被後台預警。

再比如說要檢測一個人：假設我有一張逃犯的照片，當我在某個捷運站的攝像頭裡看到一個人長得像這個逃犯時，它可能就變成了一個有意義的情報。

當人工智慧產生大量的結構化數據后，會有大量空間需要去做針對應用的數據挖掘。因為以前在沒有結構化數據時期，不同客戶使用的攝像頭和錄像機都是標準設備，只要看到畫面就行。它從畫面里觀察得到的信息如何體現到它的業務內容，這些事情需要人去做。

當今天這些數據變成了結構化數據以後，在不同行業、不同場景要有大量的數據挖掘應用才能夠有效地把結構化數據變成有意義的情報。

而人臉、車牌均可以看作是垂直場景的針對性數據挖掘。

二、人臉識別在安防中的應用與難題

在過去十年中，指紋識別、語音識別、人臉識別、紅膜識別、車牌識別、指靜脈識別已經在安防領域有所應用。

相比於其他生物識別技術，人臉識別具有獨特的優勢。自然無侵擾、直觀易判斷、簡便可擴展，這些條件均為人臉識別的大規模推廣應用提供了技術支撐。

人臉識別將在身份查驗和布控追逃等諸多應用中發揮巨大作用，智能識別認證合一、人臉自動檢測、定位、跟蹤、黑名單自動比對、實現標籤化存儲、檢索效率高、節約警力、節省時間。

天地偉業總工程師楊清永深入講解了人臉識別演算法和真實應用場景。

人臉識別可分為警用和非警用兩種應用方向，警用包括反恐、刑偵、維穩，民用則是支付、考勤、門禁，二者相比之下警用是最大的應用市場。現在公安對於人臉識別非常感興趣，因為人臉識別的確對他們工作有很大的幫助。

隨後楊清永繼續談到人臉識別在這些場景中會受到影響：

一、相似面部：容易將兩張相似的人臉誤判為同一個人。

二、光照條件複雜：尤其在強逆光環節下，非常影響人臉識別，大多以補光的方案進行處理。

三、受多變表情和跨年齡識別：如果目標對象面部表情過於誇張，以及一個從年幼到成年臉型發生變化后，機器很難識別出來是一個人。

四、臉部大面積遮擋：普通口罩和眼鏡的遮擋，較為有限，如果人臉特徵遮蓋太多，對識別的影響較大。

當然，上述提到這幾項難題的研究成熟度也不斷在加快。

其中楊清永指出的跨年齡識別方面，百度已經取得了非常好的效果。今年年初，吳恩達率隊的百度人工智慧在人臉識別跨年齡識別任務中以 3：2 的比分擊敗《最強大腦》名人堂輪值主席、世界記憶大師王峰。

這其中 Cross-Age Face Identification（跨年齡人臉識別）就是一個難度較大的挑戰，在第一個節目設置中，需要識別對象的年齡跨度大概為 20 歲。在第二個節目設置中，對比國小畢業照和成年照，年齡跨度也高達十幾歲，而且第二個節目設置中的人臉數達到了1500 個以上。

最終，小度的表現非常驚艷，

這裡，在稀疏的數據集上學習到更好的特徵，保證跨年齡的同一個人的兩張人臉的距離，比不同人相似年齡的兩張人臉距離小就是關鍵。

一般而言，在跨年齡階段人臉識別中，類內變化通常會大於類間變化，這造成了人臉識別的巨大困難。同時，跨年齡的訓練數據難以收集。沒有足夠多的數據，基於深度學習的神經網路很難學習到跨年齡的類內和類間變化。

百度IDL人臉團隊選擇用度量學習的方法，即通過學習一個非線性投影函數，把圖像空間投影到特徵空間中。在這個特徵空間里，跨年齡的同一個人的兩張人臉的距離會比不同人的相似年齡的兩張人臉的距離要小。

考慮到跨年齡人臉的稀缺性。用大規模人臉數據訓練好的模型作為底座，然後用跨年齡數據對它做更新。這樣不容易過擬合。

將兩點結合起來做端到端的訓練，可以大幅度提升跨年齡識別的識別率。

得益於百度擁有兩億量級的訓練數據，才能在跨年齡識別方面取得不過的效果。除此之外，比賽過程對工程要求也非常高，這些條件均是國內絕大部分公司難以比擬的。

而保證上述人臉識別準確率的關鍵就是深度學習。

三、深度學習的三個必要條件

大華先進技術研究院研發總監鄭韜談到，人臉識別能在近些一年呈井噴式發展，無疑離不開深度學習的支持。深度學習首先要滿足以下三大條件：

大量的樣本：深度學習需要海量的數據集。
高性能的計算：如果用CPU去訓練深度學習演算法，可能比用GPU的方式要多10倍甚至20倍的時間。高性能計算使得從業人員能夠快速地訓練並驗證自己的樣本、演算法，所以深度學習必須要有高性能計算，這是和GPU的計算能力相輔相成的。
市場需求：市場上有大量樣本，對客戶而言，視頻數據放在那邊沒有人去看，它就沒有市場價值。真正的目的需要把這些視頻價值利用起來，用深度學習自動提取視頻裡面的數據，獲得視頻中的價值。

大會期間，威富集團、天地偉業、大華股份三家安防巨頭也分別進行了實時車輛識別、人臉識別的實戰演練。

四、人工智慧在安防中的實戰演練

車輛識別實戰

在車輛識別測試中，大華股份基於「睿智」伺服器，對活動方拍攝好的1小時路況監控視頻進行檢測和識別，通過「車牌號、時間、年檢、車輛品牌、車身顏色、有無紙巾盒」等多維度的檢索，找出了三輛車的出現時間，雖然在時間上出現一個微乎其微的誤差，但總體效果表現較為突出。

人臉識別實戰

在人臉識別實戰測試中，活動方提供目標人員照片，由威富集團、天地偉業進行系統布控，最終雙方都準確無誤的統計出目標人員的進出次數，並做出實時預警。該系統可以識別遮擋的人臉，如佩戴眼鏡、口罩等，此外對於各個角度的人臉都能進行很好的捕捉，系統最大可識別同鏡頭程90度的人臉。

實戰出色並不代表問題都已解決

雖然車輛識別和人臉識別在實戰環節非常順利，但筆者認為，如果進行大規模和在複雜環境中使用，仍舊會存在不少問題，而這個問題也是棘手的行業通用問題。

車輛識別這一研究方向確實已經被解決了，由於車輛自身屬性，它是一種非常特殊的目標，因為它有著一個獨一無二的 ID：車牌號碼。合法車牌號碼具有唯一性，一旦把車牌號碼識別出來整個問題就比較好解決。

而且目前也有不少廠商利用最近比較火熱的GAN來生成大量以假亂真的車牌數據去做訓練，效果非常可觀。

從去年開始，車輛大數據產品已被很多廠商推出，未來也會越來越普及。這裡也有一個重要的挑戰，也算是機遇。道路上的攝像頭分 3 種：電警、卡口、監控攝像頭。所謂電警和卡口，通常是在十字路口或者高速公路的進出口上搭了一個龍門架，或者有一個裝了攝像頭的架台。這些攝像頭解析度很高，角度也非常合適，它可以在正面增加識別的成功率。但像電井和卡口這樣的攝像頭，只佔整個道路周邊攝像頭數量的很小一部分。以北京為例，電警和卡口攝像頭的數量佔道路全部攝像頭數量的千分之一左右。

還有更多攝像頭是普通的視頻監控攝像頭，這些攝像頭數量很多，解析度也不是特別高，因為它們要錄製視頻。一般在安裝的時候都是為了監控整個大場景，所以視場角較大，視場角變大的壞處就是針對每一個目標它所能夠分配的像素數量會降低。

這個時候，監控視頻里看到很多目標並不是很清晰：沒有補光、照明不夠、圖像模糊現象很嚴重。如何在這種低質量的數據、不理想的環境下仍然把視頻識別做好？這在某些方面決了定我們能否把道路監控大視頻、大數據這個事情做好，這一領域的產品其實還有很多的改進空間。

其次是人臉識別。

以北京捷運站為例，北京1000多個捷運站裡面平均每站都有上百個攝像頭，如果這裡面100個攝像頭每個捷運站流通8到10萬人是很常見的，可能在一些比較繁忙的捷運站有上百萬人。

對於看到的每一個人都要回答「N+1」個問題，如果這個「N」是一個擁有幾十萬人的全國逃犯資料庫，簡直是天文數字。

首先做個假設，一台動態人臉抓拍機每天產生以下問題：假設每個相機每天看見1萬張臉，在很多公共場所這並不是一個很誇張的假設。

假設對比庫里有1萬個目標，這可能對公安來說也不是一個大的目標庫。如果基於該假設的話，這個相機每天要回答的問題就是一億零一萬個。如果人工智慧每回答100萬個人臉比對問題就犯一個錯誤，那麼每一天在每一台相機上就會犯100個錯誤，也就是產生100個誤報或者漏報。

剛才假設每回答100萬個問題才會犯一個錯誤，其實也是非常誇張的假設，因為在動態人臉識別里，很多時候人的面孔角度是不理想的，解析度也不一定很理想，光線可能也不是很好，還可能有運動模糊。

這種情況下，如果哪個公司真的可以達到百萬分之一的錯誤率，已非常優秀。如果一個客戶裝了1000台人臉識別相機，這時候系統每天要回答1000億個問題，如果人工智慧回答100萬個問題就會犯一個錯誤，那麼客戶每天就會收到100萬個錯誤，也就是100萬個誤報或者漏報。所以人臉識別解決公共安全問題的作用仍然微不足道。

五、人臉識別解決公共安全問題仍舊微不足道

這裡面其實把大量的人工智慧和少量人類智能結合起來，會產生一個較好的互補效應。

全國各地的城市已經開始擁有一定規模的人臉識別，但很快就會碰到天花板，誤報會大規模上升。

企業需要通過大規模的、多模態數據整合來提升人工智慧的精度。

如果單看一個單點人工智慧的識別結果，它的錯誤率並沒有足夠好，就算可以做到千萬隻分之一的錯誤率，但只要問題數量過多，誤導還是很多。

但是當使用更多規模的數據，比如一個人在運動時。他在軌跡路線上是否能夠被反覆識別，或者說軌跡所體現的行為，同時能夠印證這個人的可疑性，或者說關於一個目標的多模態數據：他的車輛、消費記錄、手機信號、wifi探針、社交關係，把這些不同模式的數據能夠整合起來，有大量的規律、模態、組合可以把這個任務做得更好。

所以未來人工智慧安防產品要有很強的大數據分析能力。而這個龐大的系統工程，則需要威富集團、大華、天地偉業這類傳統安防企業與商湯、曠視這類新型AI公司聯手一起去探索。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點