search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

智能語音助手背後,哈曼瞄準了麥克風陣列的生意

智能語音助手不是什麼新鮮的事物,但它的載體智能音箱成為智能家居的爆品不過是近兩年的事情,這得益於兩個方面,首先是人工智慧的發展誕生了實際的應用場景,其次則是聲學識別、語音識別等技術的逐漸成熟。

無論是音箱還是其他消費電子產品,凡是涉及到語音交互的環節,都離不開對聲音的採集和提取,具體到智能音箱中,這是一種被稱為「麥克風陣列」的技術,同時幾乎也是Amazon Echo 和 Google Home 此類產品唯一涉及到硬體層面的創新。

剛剛過去的CES ASIA期間,哈曼發布了全新的遠程語音識別解決方案 SONIQUE™,它將提供有別於傳統手動輸入的語音輸入技術,瞄準的正是消費類語音電子產品對於麥克風陣列的需求。

從近場識別到遠場識別

幾年前,語音交互最典型的代表就是以蘋果Siri為代表的智能手機,在這個相對簡單且識別距離較近的場景,麥克風系統可以在低雜訊、無混響、距離聲源很近的情況下獲得符合語音識別需求的聲音信號。

但是一旦麥克風距離較遠,收音環境就會受到大量雜訊、混音甚至反射帶來的干擾,導致對聲音信號採集和提取的準確率大幅下降,從而影響語音識別的準確率。

「iPhone配備了號稱目前世上最好的麥克風,但是如果開揚聲器從2米外去打電話,基本上除了雜訊什麼也聽不見」,哈曼嵌入式音響事業部負責人劉蒼松認為,「當用戶逐漸從手機開始切換到類似Echo等的時候,實際上麥克風的工作環境也變了。」

消費級麥克風陣列的興起伴隨著智能語音助手的大範圍應用,最主要的變化其實是用戶場景的遷移,這也推動了麥克風陣列領域從近場識別到遠場識別的技術大躍進,一旦遠場語音交互成為主流,那將和觸屏的方式產生真正的差異化。

哈曼嵌入式音響事業部副總裁兼總經理---劉蒼松先生

哈曼嵌入式音響事業部負責人劉蒼松向鈦媒體記者介紹,「語音識別從近場識別到遠場識別跨越的難度非常大,比如從識別聲音的距離來看,從2米到3米距離提升50%,但是成本可能增加了兩倍,越往上越成幾何級增長,是不成比例的,就像發燒音箱一樣,10萬的音響可能只比1萬的音響音質提升了一點點。」

哈曼的多種解決方案

麥克風陣列有很好的抑制雜訊和語音增強的能力,又不需要麥克風時刻指向聲源方向,所以它被越來越廣泛地用到智能音箱乃至其他需要語音交互的場景下。

不過從技術角度看,麥克風數量不同導致它所具備的特徵有所差異,也就誕生了多種應用,哈曼嵌入式音響事業部負責人劉蒼松表示,根據特定的用戶需求,SONIQUE™ 可提供三種不同的解決方案。

第一種為雙麥語音解決方案。主要面向以家用電子為主的消費類電子應用,可以靈活地應用於消費類音響,電視機頂盒以及網路路由器等設備,雙麥配置可支持最遠 4 米的高清遠距離拾音需求。

第二種配置為四麥語音解決方案。主要面向高端家用電子產品、企業級應用以及機器人,可支持最遠 6 米的高清遠距離拾音需求。

第三種為七麥語音解決方案。主要面向對性能要求高的企業級應用和機器人。通過搭配系列音效演算法,七麥語音解決方案可支持最遠 8 米的高清遠距離拾音需求。

雙麥、多麥,哪個更主流

談及智能音箱,不得不提 Amazon Echo 和 Google Home 這兩款產品,如果單純從硬體層面來看,二者好像都沒有什麼可炫耀的資本,唯一不同是 Amazon Echo 採用的是6+1環形麥克風陣列,而Google Home 只採用了2個麥克風陣列。

Harman Kardon Invoke

在前不久的微軟Build大會上,微軟發布了與哈曼合作的智能音箱 Harman Kardon Invoke,作為對標亞馬遜和谷歌的產品,Harman Kardon Invoke 同樣可以實現播放音樂、管理日曆和活動、設置提醒、檢查流量等功能,區別在於 Harman Kardon Invoke 採用的是哈曼 SONIQUE™ 七麥的解決方案。

雙麥克和多麥克陣列的一個主要區別,是成本不同。雙麥克風陣列的 Google Home 售價129美元,採用的是6+1環形麥克風陣列 Amazon Echo售價為179.99美元,兩者相差了50美金。

但同時哈曼嵌入式音響事業部負責人劉蒼松也解釋道,「其實成本並不是單純由麥克風的數量決定,實際每個麥克風就一兩塊人民幣,多麥克風陣列的難度在於體系更複雜,需要花費大量時間在材料、工藝、軟體上去調教,是軟硬體一體化的系統工程。」

對於目前的智能語音類產品來說,也不存在哪個更主流的問題,而是更強調應用場景。「雙麥克風陣列產品應用的場景相對簡單,命令也不複雜,對成本要求低,比如電燈開關、窗帘開關,而類似Echo這樣的產品則是對識別的準確性要求高,但在數量上都達不到雙麥克的出貨量」,劉蒼松表示。

做人工智慧設備的耳朵和嘴巴

哈曼主要為汽車市場、大眾消費市場以及專業市場設計、生產和提供各類音響與信息娛樂系統解決方案及軟體服務。哈曼嵌入式音響事業部隸屬於哈曼四大業務群之一的消費類音響,主要為消費類企業用戶提供全方位的音響解決方案,為B2B性質的部門。

哈曼嵌入式音響事業部負責人劉蒼松也表示,「哈曼在麥克風領域有超過60年的歷史,幾十年前唱片音樂流行的時候,世界上一級的錄音室都是哈曼的設備,哈曼現在做智能語音麥克風陣列的技術,是水到渠成自然而然的技術積累而做的一個產品。」

對於在這個領域的定位,哈曼也同樣十分清晰,劉蒼松給鈦媒體記者舉了一個十分形象的例子,「哈曼的角色就像是人工智慧設備的耳朵和嘴巴,當你對智能音箱說『我餓了』,這個聲音會通過麥克風陣列進行降噪並收集,哈曼的解決方案負責收集用戶的輸入結果,主要是前端聲音的採集和反饋時候聲音的表達。」

哈曼的麥克風陣列擔當了智能語音入口的性質,「至於人工智慧如何思考,自然語言理解、搜索結果反饋等下一步的服務提供則是由那些互聯網公司提供。」劉蒼松表示道。

但這個過程中不能忽略的是,語音識別率是在雲端測試得到的結果,因此這兩個系統必須匹配在一起才能得到最好的效果,為此哈曼進行了非常廣泛的合作。

截至目前,SONIQUE™ 遠程語音識別解決方案已經能夠支持開源的主流語音引擎集成,包括亞馬遜 Alexa 以及微軟Cortana,並預計在近期內與更多語音引擎廠商開展合作,列表中的名單包括百度、科大訊飛、蘋果 Siri,並且還在持續增加。(本文首發鈦媒體,記者/李玉鵬)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦