search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

盤點麥克風技術及市場,遠場語音交互如何選型麥克風?

雷鋒網()按:本文作者陳孝良,博士,聲智科技創始人,曾任中科院聲學所副研究員和信息化辦公室主任,北京市公安局首屆網路應急專家,主要從事聲學信號處理和 GPU 深度學習演算法研究工作。

智能語音交互市場的火熱逐漸輻射到產業鏈的供應商,其中最直接受益就是作為聲音的感測設備——麥克風。特別是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由於受制於智能手機和平板電腦的增長速度下滑,樓氏、歌爾和瑞聲等麥克風廠商的股票相繼在2016年中旬左右創下了低谷。

2017年的語音交互局勢趨於明朗,資本市場專註研究智能語音交互的投資機構也明顯多了起來。那麼,這就有必要深入了解一下麥克風這個行業以及技術的趨勢。

什麼是麥克風?有哪些種類和指標參考?

麥克風作為業界通俗的一種叫法,是英文Microphone的音譯名稱,國內的稱呼亂一些,有時候也簡單稱作話筒,香港和台灣地區也會稱作微音器、拾音器。麥克風的中文學術名稱正式是譯作傳聲器,這是一種將聲音轉換成電子信號的換能器,即把聲信號轉成電信號,這其實和光電轉換的原理是完全一致的。

消費級市場的麥克風基本都是標量麥克風,也就說只能採集單一的物理量信息——聲壓。聲壓是指聲波通過媒質時,由振動所產生的壓強改變數,也可以理解為聲音的幅度或者強度。聲壓常用字母"p"表示,單位是帕斯卡(符號Pa)。聲壓的帕斯卡單位由於不方便記憶(比如20x10-6Pa~20Pa),一般就以對數尺衡量有效聲壓相對於一個基準值的大小來表示,即聲壓級,其單位是分貝(符號dB)。

人類對於1KHz的聲音的聽閾為20 x10-6Pa,通常以此作為聲壓級的基準值。這樣講可能晦澀難懂,我們來簡單的類比一下:人類的呼吸聲壓是60x10-6Pa左右,聲壓級大約10dB,火箭發射的聲壓是4000Pa左右,聲壓級大約165dB,閃光彈的聲壓超過1萬Pa,聲壓級大約175dB。

分析上述這些晦澀難懂的數字,自然就引出麥克風的參數指標,其實我們關注的就是麥克風還原真實聲音的能力,這是一個很難的挑戰,因為聲電轉換即意味著失真。

為了描述麥克風的性能,有幾個性能指標是非常關鍵的,這包括了靈敏度、指向性、頻率響應、阻抗、動態範圍、信噪比、最大聲壓級(或AOP,聲學過載點)、一致性等。這幾個指標其實都好理解,決定了麥克風的性能,而且每個指標都非常關鍵,缺一不可。當然這些指標相對於喇叭的T-S參數來說,真的是簡單的了許多。

麥克風是典型的感測器產業,其技術迭代非常迅速,外觀也發生了不少變化,估計很多人從下面的麥克風陣列中準確找到麥克風就很困難。

現在麥克風陣列主要使用的是數字MEMS麥克風,其最長尺寸僅有3.76MM。MEMS麥克風也是手機中大量使用的感測器件,一般手機至少有2個以上這類麥克風。MEMS麥克風實際上只是工藝上的改進,其原理依然屬於電容式麥克風。與MEMS麥克風直接PK的,就是駐極體麥克風。

這兩種麥克風是消費電子領域的主力軍,比如亞馬遜的Echo和聲智科技的開發板主要是MEMS麥克風,科大訊飛的開發板則主要是駐極體麥克風。這兩種麥克風從性能指標來看,沒有實質性差別,駐極體麥克風的性能指標還更高,所以聲智科技的單麥系列也是駐極體麥克風,但是,MEMS麥克風的優點是一致性比較好,更適合遠場語音交互用的麥克風陣列。

電容式麥克風還有另外一個形狀,就是錄音棚常用的專業麥克風,這與我們KTV唱歌的麥克風是有本質區別的。KTV的麥克風一般都是動圈式麥克風,這種麥克風的性能不如電容麥克風,優點是適合人聲收錄,缺點是靈敏度低,這在KTV反而是優點,因為可以有效避免KTV環境的嘯叫。

當然,還有帶式麥克風和碳精麥克風,這兩種麥克風已經不常見了,特別是碳精麥克風,以前主要在老式電話中使用,現在基本被淘汰了。這幾種麥克風可以從圖中對比一下,有時候就會慨嘆,技術總是這樣顛覆式發展。

當然,新型的麥克風還包括壓電麥克風、光纖麥克風、激光麥克風等等,甚至可以直接把電視屏幕或者揚聲器(喇叭)也當作麥克風使用。另外,國防領域也在研究部署矢量麥克風等更複雜的麥克風。事實上,聲音的發展軌跡和雷達比較類似,麥克風陣列也是當前技術發展的一個階段,感測技術的迭代是技術和市場迭代的重要原因。

全球麥克風的技術和市場的格局如何?

毫無疑問,在半導體生態體系中,MEMS正扮演著越來越重要的角色,其應用範圍包含了消費電子、汽車工業、工業控制乃至生物醫學、航空航天等領域,且仍在迅速擴大。隨著消費電子市場的增長,消費類應用已經成為MEMS感測器市場的主要推動力。2014年MEMS感測器市場規模達到130億美元,最大的消費類應用規模達到59億美元,到2019年預計將超過250億美元,年複合增長率約11.2%。

我們比對了最新的行業調研數據,從2013年到現在其市場格局變化並沒有想象的變化,反而是這幾年MEMS廠商集體進入了低速發展的時期,還好今年的語音交互市場火爆,也給MEMS麥克風市場帶來了想象空間。

下面還是以互聯網公開的數據來概況介紹下市場,已經公開報道了3年,相信很多質疑的聲音也都消失了。這些數據並不能代表真實情況,特別是當前的市場狀態,但是可以作為一個重要的參考。

根據IHS的統計數據,美國公司樓氏電子在2013年是全球最大的已封裝MEMS麥克風(直接進行印刷電路板組裝)供應商;而德國公司英飛凌則是MEMS麥克風裸晶(供應給MEMS麥克風製造商)的龍頭廠商。樓氏的營收在已封裝MEMS麥克風市場中佔據59%的比例,英飛凌出貨量則在MEMS麥克風裸晶市場佔據78%。

全球已封裝MEMS麥克風供應商營收排行榜(單位:百萬美元)

全球MEMS麥克風裸晶供應商出貨量排行榜

在已封裝MEMS麥克風市場,排名第二的供應商為瑞聲(AAC),營收市佔率13%;排名第三的則是歌爾(Goertek),營收市佔率7%。瑞聲與歌爾都是廠商,其業務也重度依賴蘋果和三星;

瑞聲供應iPhone5三顆高性能MEMS麥克風中的一顆,也進駐了iPhone5S;歌爾則是iPhone專用的耳機MEMS麥克風主要供應商。瑞聲2013年營收成長8%,歌爾則因為開始供應手機用高性能麥克風,2013年營收成長率高達35%。當然,經過這3年市場變化,樓市、瑞聲和歌爾這三家的市場份額其實也發生了悄然改變,樓氏繼續強化了其行業龍頭的地位。

排名全球第四大已封裝MEMS麥克風供應商的是韓國BSE,其業績表現來自於擁有蘋果最大對手三星這個大客戶;BSE的2013年營收與2012年相較,成長率超過250%。緊追在BSE之後排名第五大的廠商則是歐洲業者意法半導體(ST),該公司的MEMS麥克風業務因為贏得了iPad設計案而持續擴張。

全球排名前50位MEMS廠商

國內包括台灣也有一些麥克風廠商,這些廠商主要依靠價格制勝,技術方面並沒有建立起太高的壁壘。國內外也出現了一些創業公司,比如美國的Vesper MEMS,以壓電麥克風作為主要技術特點,但是這些技術本身就是一線大廠掌握的技術,只是考慮市場因素而沒有產線部署。所以這類創業公司當進入量產的時候壓力還是非常大的,因為這個行業確實需要重資產和重投入。

如何選型適用遠場語音交互的麥克風?

遠場語音交互的概念其實是相對的。我們知道,語音交互涉及了非常複雜的技術鏈條,包括了聲學處理、語音識別、語義理解和語音合成等核心技術。

  • 聲學處理主要是模擬人類的耳朵,保證機器能夠聽得准真實環境下人的聲音;

  • 語音識別則是把聽到的人聲翻譯成文字;

  • 語義理解則分析這些文字的意義;

  • 語音合成就把機器要表達的文字翻譯成語音。

這四項技術雖然獨立發展,但實際上無法割裂,同時在其他技術的配合下,才能形成一次語音交互的完整鏈條。

以Siri為代表的近場語音識別已經發展了60多年,特別是在2009年以後藉助深度學習有了實質性提高,但是正如扎克伯格所說的,當真正產品落地的時候,我們發現用戶真正需要的卻是類似Echo所倡導的遠場語音識別。

顯然,這又是一個嶄新的技術領域,因為拾音距離的擴大帶來的問題不僅僅是語音信號的衰減,而且還帶來了複雜的真實環境以及複雜的用戶習慣。

近場語音識別要求必須是低雜訊、無混響、距離聲源很近的場景,比如用戶總是要對著手機講話才能獲得符合近場語音識別要求的聲音信號,同時還要求用戶滿足標準發音,其識別率才有可能達到95%以上。

但是,若聲源距離較遠,並且真實環境存在大量的雜訊、多徑反射和混響,導致拾取信號的質量下降,這就會嚴重影響語音識別率。同樣的,我們人類在複雜遠場環境的表現也不如兩兩交耳的竊竊私語。

通常近場語音識別引擎在遠場環境下,若沒有聲學處理的支持,比如麥克風陣列技術的適配,其真實場景識別率實際不足60%。而且,由於真實場景總是有多個聲源和環境雜訊疊加,比如經常會出現周邊雜訊干擾和多人同時說話的場景,這就更加重了語音識別的難度。因為當前的語音識別引擎,都是單人識別模式,無法同時處理多人識別的問題。

麥克風陣列是當前解決上述問題的主要途徑,但是麥克風陣列也有諸多缺陷,其中之一就是對於硬體的要求較高,這包括了麥克風和晶元器件。因此麥克風陣列如何選型麥克風也是非常細緻認真的一個工作。那麼,如何選型智能語音交互的麥克風呢?

首先選型前我們要對產品有一個清晰的定義,比如產品銷量、產品壽命、產品場景等等,這非常重要。即便性能指標完全一致的情況下,也需要考慮麥克風供應廠商的成本、生產工藝、供貨能力等因素,因為感測器件廠商歸根結底還是一個生產工藝的問題,比如國內的很多麥克風廠商其實就是直接購買國外英飛凌的MEMS麥克風方案直接封裝,並不具有技術研發能力,其生產工藝和生產規模就是國內很多廠商的主要差異。

其次選型要重點評估麥克風的性能指標,這包括了靈敏度、指向性、頻率響應、阻抗、動態範圍、信噪比、最大聲壓級(或AOP,聲學過載點)、一致性這幾個指標,其中指向性、信噪比、AOP和一致性是麥克風陣列最主要考慮的指標。

一般來說,指向性也就如下圖所示的幾種類型,各大廠商之間沒有實質性差異。

而信噪比(SNR)和AOP對於樓氏、歌爾和瑞聲三個巨頭來說,相差也不是太大,比如SNR基本都在65dB以上,AOP也都大於120dB,這個參數以上的麥克風質量是當前較為可靠和成熟的,也是一線大廠的主要供應型號。

一致性對於麥克風陣列則是需要特別考量的指標,因為MEMS麥克風需要焊接,這不能對於焊機廠商提出太苛刻的要求,當焊接以後麥克風是否還能保證一定的性能,這對於麥克風廠商來說就是巨大的考驗。所以,並不要輕信麥克風廠商提供的技術指標和承諾,需要認證考察他們的工廠以及生產車間及管理。

最後選型必須實際抽檢麥克風的質量,即良品率。從聲智科技的經驗來看,當批量生產的時候,有時候批次不一樣,導致麥克風的差異會很大,特別是一些中小的麥克風供應廠商。而且尤為麻煩的是,MEMS的更換成本也很大,一旦貼片焊接,若出現問題往往導致批量的麥克風報廢。當然,這只是量大的時候才需要重點考慮,當量小的時候這個問題不是太過關鍵。

MEMS競爭激烈,新興市場誰主沉浮?

但是不得不說,MEMS的市場競爭實際上一直非常激烈,前面也提到了這個市場已經誕生了包括樓氏、歌爾、瑞聲、STM、Invense等巨頭,並且佔據了其中80%以上的市場。雖然現在市場從手機和平板,逐漸向IOT設備過渡,但是當前的存量市場仍然還是手機和平板,IOT的量並不是太大。那麼這就產生了兩個問題。

一、這個市場未來到底是巨頭壟斷還是巨頭衰退?

雖然新興的語音交互市場對於麥克風器件是一個強需,但是這種場景變化會不會導致巨頭的市場變化?未來真的是都很難說,只能給出幾點思考以供參考:

  • 一是語音交互市場的強需是麥克風陣列,並非麥克風的元器件,因為對於麥克風廠商來說,除了增加了更多客戶,其客戶實質上並沒有變化,也沒有更高技術方面的需求。從這點來看導致現有MEMS市場格局變化的理由還不夠充分。

  • 二是若從技術層面來看,所有的技術廠商都需要關注技術的升級迭代,比如對於低功耗、高集成、矢量化麥克風的需求,若這些一線廠商不跟蹤技術的進展,當技術顛覆的時候很可能就會被取代,駐極體麥克風的供應商很可能短期內就會面臨這個嚴峻問題。當然,總會有些公司的處境比較尷尬,特別是一些廠商當遇到麥克風技術和市場挑戰的時候選擇退縮轉型,轉型經常會做成轉行,這對於感測器廠商來說是巨大的挑戰。

二、這個市場還有沒有創業機會?

從機會均等的角度來看,任何一個行業都存在眾多創業的機會,核心就在於如何把握和利用。這和晶元行業有些類似,麥克風的行業屬性決定了其必然是重資產的模式,包括設備和產線的規模投入,另外成本把控、產線管理和加工工藝也都是其核心要素,這些核心技術事實上每項都是極大的投入。

另外,有理想的廠商應該是堅持走技術驅動的路線,比如瑞聲科技和歌爾聲學剛開始都是購買英飛凌的MEMS和ASIC晶元,然後封測賣給客戶,這樣長時間技術積累,再利用收購,這兩家公司也逐步掌握了MEMS麥克風技術。那麼對於其他廠商來說,這條路是不是可以複製或者超越,再或者乾脆轉型,這是一個非常痛苦的過程。

小結

MEMS麥克風未來的市場空間必然更大,其技術要求也會越來越高,在巨頭已經林立的情況下,新興的創業公司如何抓住機會突圍或者分享蛋糕,這是一個痛苦的考驗。到底是頂住壓力直面競爭,還是退縮轉型其他市場,這是經常擺在所有創業者面前現實的問題。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦