Zi 字媒體

語音交互市場爆發四大客觀障礙待突破

2021/12/25

導讀： 2017年，語音產業結構將按照硬體產品、AI軟體、語音應用Apps、生態系統服務相結合的架構繼續向前發展。預計2450萬台以語音為主要交互方式的智能硬體產品發貨，市場總量將達到3300萬台，市場規模超過200億美元。

OFweek安防網訊根據VoiceLabs發布的《2017年語音報告》（The 2017 Voice Report）。報告對亞馬遜Alexa和谷歌Google Home的開發者和消費者進行了調查，總結了目前的智能語音市場，並對2017年的趨勢做出預測。2017年，語音產業結構將按照硬體產品、AI軟體、語音應用Apps、生態系統服務相結合的架構繼續向前發展。預計2450萬台以語音為主要交互方式的智能硬體產品發貨，市場總量將達到3300萬台，市場規模超過200億美元。而對各種智能語音助手以及語音交互app而言，競爭將更加激烈。

目前，在語音交互相關的領域已經出現了一批玩家和產品，國外的有Google Now、微軟的Cortana（小娜）、Facebook的Message Platform、蘋果的Siri、亞馬遜的Echo、Google Home的智能音箱，國內的科大訊飛、百度的智能機器人（度秘）、搜狗語音、微信的語音功能等，雖然這麼多大牌玩家進入語音交互的領域，但由於技術和社會環境的限制，語音交互還處在起步階段，相關的語音交互技術還無法支持大規模的應用和推廣。

要想讓語音交互流行起來，必須合理解決以下幾點客觀的限制：

1、語音識別技術還處於起步階段。

語音識別技術，也被稱為自動語音識別Automatic Speech Recognition，（ASR），其目標是將人類的語音中的辭彙內容轉換為計算機可讀的輸入，例如按鍵、二進位編碼或者字元序列。語音識別的研究工作可以追溯到20世紀50年代AT＆T貝爾實驗室的Audrey系統，它是第一個可以識別十個英文數字的語音識別系統。並且一些行業巨頭也都是在2010年左右才開始加大對語音技術的投入。各大巨頭各自為戰，語音識別領域裡面還沒有形成統一的行業標準和應用生態。

2、使用場景有限。

語音識別技術對環境要求苛刻；在識別的準確率上受較多因素的影響，比如背景噪音、口音、語速、特定領域的專有名詞等都影響準確率。有一項這樣的測試，有人隨機截取了幾段網路課程用主流的雲端引擎測試識別準確度，基本上準確率在70％左右；然後又截取了一段新聞聯播的音頻，用同樣的雲端引擎做測試，準確率達到了95％左右。由這個測試我們可以清楚的看到客觀因素對語音識別準確率的影響，要知道在這個行業5％的準確率就是可以引起行業變革的。目前的技術先限制導致語音交互體驗的機器感特彆強，缺乏人性化的感知，沒有人喜歡跟呆板的機器一直做交流的。

3、語音交互是非可視化的，非常消耗用戶的注意力，增加記憶負擔。

人在與系統做交互的時候，能記住的信息也就10秒左右。舉一個常用的場景，有時候打銀行的客服電話，你必須集中精力聽語音播報，一旦被打斷就又得從頭聽一遍。

4、用戶習慣還未完全養成。

沒有人願意對著冰冷的機器說話，然後得到毫無感情的甚至是錯誤的回應。用戶對語音交互對象的要求不但是可以聽懂，還應該能人性化的給以回應，人類更期望通過語音達到人人交互的感受，而不是人機交互，這也是為什麼語音交互的普及很大程度上依賴於人工智慧技術的發展。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點

語音交互市場爆發 四大客觀障礙待突破

語音交互市場爆發四大客觀障礙待突破