Zi 字媒體

文字識別刷新世界紀錄，海康威視浦世亮新智元「AI春節」解密安防大數據 | 新智元峰會演講

2021/12/25

新智元報道

【新智元導讀】在3月27日舉行的「AI春節」——2017新智元開源·生態AI技術峰會上，海康威視研究院院長浦世亮發表演講《安防大數據驅動下的智慧生活》，介紹海康在智能+安防領域的技術探索。海康威視是全球視頻監控No.1，近年來布局安全視頻監控發展，物聯網以及視頻大數據和智能視頻分析，產業表現強勁，在以 ImageNet 為代表的國際技術競賽中也一直都有搶眼的成績。

演講中，浦世亮介紹了應對安防大數據三大挑戰，以及海康威視的應對之道：挖掘無標籤數據中的隱藏信息做額外反饋，化解標記數據成本高的問題；多感測器融合，應對複雜場景感知問題；使用線上增量學習，彌補前端設備計算力的差距。

日前，海康威視研究院預研團隊基於深度學習技術的 OCR（Optical Character Recognition，圖像中文字識別）技術，刷新了 ICDAR Robust Reading 競賽數據集的全球最好成績，並在「互聯網圖像文字」、「對焦自然場景文字」和「隨拍自然場景文字」三項挑戰的文字識別（Word Recognition）任務中取得第一。

ICDAR（International Conference on Document Analysis and Recognition）全稱為文檔分析與識別國際會議，由國際模式識別協會（IAPR）主辦。ICDAR 組織的文檔分析與識別競賽是當前 OCR 技術領域全球最具影響力的比賽，從 2003 年至今已舉辦 5 屆。其中，ICDAR 2015 競賽，吸引了來自 82 個國家的 2367 支隊伍參加，其中包括 Google、微軟、百度、三星、曠視等團隊，競賽中湧現的許多方法都對文字識別技術的發展起到了強大的推動作用。

圖1：RobustReading競賽的三項主要任務

在競賽的三大主要任務中，待識別的文字位於複雜圖像背景中，成像存在雜訊、模糊、透視、傾斜以及排列隨意等不利因素，字體格式種類繁多。

海康威視的OCR技術，在三項文字識別任務中均取得了世界第一，在互聯網文字任務中以 5.6% 的優勢超越第二名，分別在對焦自然場景文字和隨拍自然場景文字任務中超越第二名 3.4% 和 3.1%。

圖2：Born-Digital Images識別評測結果顯示HIK_OCR排名第一。

圖3：Focused Scene Text識別評測結果顯示HIK_OCR排名第一

圖4：Incidental Scene Text識別評測結果顯示HIK_OCR排名第一

文字識別技術近年來的突破，很大程度上依賴於深度學習的發展。海康威視預研團隊設計了一個數十層的卷積神經網路來完成圖像的信息編碼，然後使用啟髮式的注意力模型，實現從特徵到文字的解碼。

據介紹，海康威視此次專為文本識別設計的啟髮式機制，能夠對注意力模型提取的特徵進行合理性評估，使注意力模型在複雜場景中，具有強大的穩定性。藉助先進的OCR技術，海康威視的文字識別系統能夠應對更為複雜文字識別場景，如污損及模糊、背景干擾及形變、惡劣天氣等。

圖5：海康威視文字識別技術原理示意

目前，基於全新OCR技術的海康威視車牌識別系統已經覆蓋全球六十餘個國家和地區。基於車牌識別技術的卡口、電子警察、出入口控制、停車系統等應用也已經全面鋪開。

圖6：通用車牌識別的典型應用場景

據介紹，此次競賽成果還可以應用到機器視覺領域的標籤表單識別、民生領域的卡證執照識別、互聯網領域的惡意圖片識別、汽車輔助駕駛領域的路牌識別、城市管理領域的橫幅標語和街景識別等產品中，大幅提升產品性能與應用效果。

智能產業龍頭企業亮相新智元「AI春節」

海康威視是上市公司里最貨真價實的人工智慧公司之一，現在已經做到了全球視頻監控的第一。近年來，結合安防行業的智能化轉型浪潮，海康威視布局安全視頻監控發展，物聯網以及視頻大數據和智能視頻分析，並且取得了商業回報。

強大市場實力的背後無疑是核心技術的支撐，除了上文所說的 ICDAR，海康威視在以 ImageNet 競賽為代表的國際技術競賽中一直都有亮眼的成績，是人工智慧技術界和產業界都關注的玩家。

3 月 27 日舉行的新智元開源·生態AI技術峰會邀請到了海康威視首席專家、研究院院長浦世亮作為嘉賓，介紹海康在智慧城市安防行業的智能+現狀。

浦世亮是法國國家科學研究院（CNRS）博士，浙江大學理學博士，負責海康威視在人工智慧及大數據領域的技術研究。浦世亮帶領研究院研發的Smart 265編碼技術、目標結構化演算法、車牌識別演算法、人臉識別演算法、視頻檢索引擎、多感測器融合等技術，被廣泛應用於公共安全、金融、交通、司法、零售、智慧城市等多個領域。

在新智元「327」技術峰會上，浦世亮發表題為《安防大數據驅動下的智慧生活》的演講，介紹了智能設備的挑戰以及海康威視的應對之道。

以下為浦世亮博士的演講。

浦世亮：謝謝楊靜，謝謝新智元，今天非常榮幸有機會與大家分享海康威視在人工智慧領域的一些觀點。我演講的題目是《安防大數據驅動下的智慧生活》。下面我會與大家分享我們在應用安防大數據上所做的努力，以及在智慧生活方面所做的探索。演講的副標題是「From Real World To Real World」。現在，人工智慧設備是被數據驅動的，我們也思考了我們擁有的數據，安防攝像機有真實性也具有實時性。

視覺感測器無處不在，包括攝像機、無人機、汽車電子、還有機器人。在很多智能硬體中，視覺感測器是最重要的感知手段。當智能硬體每天開機之後，需要面對一個紛擾複雜的世界。如何讓視覺感測器更好地感知我們的世界，更好地服務我們的智慧生活，是海康威視的研究的重要命題。

智能應用關鍵：找到數據量小的大數據入口

剛才阿里巴巴的華先勝博士也提到，全球攝像機的出貨量非常大，具體有多少？跟大家分享一組市場調研報告，根據 IHS 關於全球安防攝像機出貨量的報告及預測，今年全球安防攝像機的出貨量將達到1.3億台，而且在未來幾年還將持續高速增長，預計到2020年，全球出貨量將達到將近2億台。安防攝像機的裝機量越來越大，使得安防系統成為一個非常好的視頻數據入口。除了視頻數據以外，我們的安防系統也會接入許多其它種類繁多的感測器，例如門禁、煙感、雷達等。這些接入安防系統的大數據形成肥沃的土壤，可以生長出很多智慧生活的應用。

數據質量對現在的人工智慧技術非常重要，因為現階段的深度學習依舊被數據所驅動。我們也做了很多實驗來考察數據對於人工智慧最終應用的性能會有怎樣的影響。我們列出兩個測試結果，一是在人臉檢測上的測試結果，另外一個是在行人檢索上的結果。人臉檢測就是對視頻圖像中的人臉進行檢測和定位，而行人檢索是對跨攝像機的行為進行多視頻的關聯檢索。一方面我們在互聯網上採集海量數據進行訓練，另一方面我們也用安防數據進行訓練。

可以看到，在演算法一致的情況下，實驗的結果顯示，當數據樣本非常少的時候，演算法的性能可以獲得極大的優化。我們認為在智慧生活中各種應用的嘗試最重要的是找到數據量比較小的大數據入口。

應對安防大數據三大挑戰，海康威視有獨門秘籍

同時，安防攝像機所拍攝的數據具有真實性和實時性兩大優點。因此，安防大數據可以很好驅動智慧生活的應用。然而在實際的應用中我們會面臨很多的挑戰，主要有以下三個：第一，海量數據與數據標記成本之間的矛盾；第二，複雜場景和有限的感知能力之間的矛盾；第三，神經網路和巨大的實施成本（有限的計算資源）之間的矛盾。接下來對這三點進行詳細的介紹，並且介紹我們的應對措施。

挖掘無標籤數據中的隱藏信息做額外反饋，化解標記數據成本高的問題

首先，海量數據與數據標記之間的對比。海康威視在全國有很多的聯合實驗室，我們擁有非常大的數據入口。我們建立了龐大的數據標註團隊，每天會產生源源不斷的標註數據。演算法性能基於這種數據有極大的提升。但是，我們所能標註的數據只是所獲取的數據的冰山一角，大量的數據還沉在水面之下。如何有效地利用這些數據，讓我們的演算法進一步提升？這是我們一直在研究的課題。

當然，目前學術界最直接的做法就是無監督學習，也有非常有價值的方法，例如深層對話網路。但是現階段，我們認為在大部分的應用場景下，無監督學習還是比不上有監督學習，剛才華博士也提到車牌識別中的一些深層對抗網路實驗。在數據樣本非常少的情況下的確可以運用深層對抗網路提升演算法性能。但是很多場景下，無監督學習性能比不上有監督學習。

如何充分挖掘無標籤數據中的信息？在訓練中，我們用這些隱藏在無標籤數據背後的信息做額外的信息反饋，包括特徵提取模型的反饋，對標籤預測模型的反饋和對損失函數的反饋。舉個例子，假設我們在安防場景抓拍了很多人臉，並沒有對這些人臉做逐一的標記，但是可能會獲取抓拍場景信息，獲取抓拍人群信息。當我們把這些額外的信息和標註信息進行融合訓練時，可以極大地提升演算法的泛化能力。

多感測器融合，應對複雜場景感知問題

第二個矛盾來自複雜場景與設備感知能力的矛盾。我們的智能硬體需要應對實際生活中複雜紛擾的環境。以攝像機為例，需要在各種惡劣的氣侯條件下7×24小時工作。因此，在惡劣條件下形成的成像效果極大地影響後續人工智慧演算法的效果。如何解決這個問題？現在工業界有一個趨勢：隨著微電子工藝水平的上升，各類感測器的成本、功耗、體積都呈下降趨勢，這也為產品上進行播散式融合提供了條件。多感測器的融合有很多種方式，以海康威視的黑光相機為例，黑光相機是可見光和紅外光相融合的產品，可以在380納米到1000納米的超寬光譜下進行成像，並且在超低光線下同時獲得色彩信息和亮度信息。

相比星光相機，黑光相機無論在亮度、色彩、還原度、細節的支撐度上都有極大的提升。因此，我們認為，多感測器的融合可以很好地解決複雜環境下的感知問題。

使用線上增量學習，彌補前端設備計算力的差距

第三個矛盾是複雜模型和運算能力之間的矛盾。在實際生活中，為了應對各種應用場景，我們需要設計非常複雜的演算法模型。但是設備尤其是前端設備的計算能力十分有限，就形成了複雜模型跟計算能力之間的矛盾。比如，我們的演算法工程師設計了一套上百層的網路的演算法，性能非常不錯，但一算這個產品成本、功耗等，就發現實際應用很難。為了解決這個問題，我們構建了線上增量學習的方式。所謂線上增量學習，就是用各類場景下的數據訓練一個複雜的通用模型。我們用前端採集設備採集數據，並對這些數據進行一定的難例標註，送到半監督學習框架內。半監督學習框架會基於我們的通用模型，針對場景做模型優化，同時進行裁剪和壓縮，最終線上上傳到我們的前端設備上。通過這種手段，我們可以在比較有限的計算資源下實現演算法，並針對特定場景提升性能。

以上介紹了針對三種挑戰的應對方法，海康威視在過去幾年基於安防大數據發布一系列集成深度學習的產品，包括前端攝像機、後端伺服器和門禁類產品。在這裡挑選兩款攝像機做一個介紹。第一款是人臉識別攝像機，過去幾年人臉識別技術有很多應用場景，在這些應用場景中，安防場景可能是最複雜的場景，因為它需要適應各種光照條件、准假設條件和各種角度。人臉識別相機是多感測器融合的產品，融合了深度感測器、可見光感測器，並集成檢測人臉識別的演算法。攝像機通過人臉檢測的反饋信息，實時調整攝像機的成像參數，從而生成最清晰的人臉圖象，用深度感測器獲取人臉姿態，並進行實時評估，最終挑選最優的人臉圖象進行識別。這款相機把檢測和識別同時放在裡面。

另一個產品，全局攝像機。安防產品的甲方需要同時關注全局信息和目標的細節信息，就像視頻中的出入口，我們需要關注出入口的全局信息，同時希望得到每一個出入目標的細節。我們的全局攝像機將高清的廣角攝像機與跟蹤相機相融合。廣角的高清攝像機拍攝全局圖象，跟蹤相機對目標進行跟蹤。人工智慧技術進行全局檢測，驅動跟蹤相機對目標進行拉伸，跟蹤獲得目標的細節圖象，最後用分類網路獲取多達幾十種的屬性信息，例如目標的年齡、性別、穿著、是否戴眼鏡等。

海康威視利用安防大數據進化了人工智慧的能力，在智慧城市中做了很多探索。在智能製造領域開發了阡陌搬運機器人，可以在產業線中自動搬運物料。目前，搬運機器人已經上線六百多台，實現完自動物料搬運；在安防領域實現行人的人臉實時抓拍，在多個城市平台項目中幫助公安幹警定位了幾百個在逃人員。同時可以將結構化相機用於商業系統，提取客流量、顧客的身高、年齡、穿著等，利用這些信息幫助連鎖商業客戶進行商業大數據分析。我們的系統也可以實時獲取各類路況信息，包括違章事件、車輛結構化信息，同時可以用無人機對違章車輛進行跟蹤抓拍；我們還開發了自動泊車系統，有了這套系統，尋找車位、尋找愛車包括倒車入庫等都不再是困擾。

以上分享了海康威視在智慧城市中的部分探索，我們希望利用安防大數據來驅動智慧生活，用我們的感知技術讓城市變得更加智能。

謝謝大家！

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括「BAT」在內的主流 AI 公司、600多名行業精英齊聚，共同為2017人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點