search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

語音識別:人工智慧時代的基石

「空調空調,請開機」美的IQ智能王空調就會完成開機過程,並告訴你「主人主人,空調已開機」……

「長虹小白,我想看某某電視劇第幾集」,長虹語音控制電視就會直接開始播放相關劇集……

「巴迪巴迪唱兒歌」,360兒童機器人便會立即為孩子播放好聽的兒歌……

伴隨著人工智慧產品不斷走進我們的生活,作為人機自然交互的最重要的基本途徑之一,語音識別技術的發展開始被越來越多的人所關注。縱觀過去的一年,微軟、蘋果、谷歌、科大訊飛、百度、搜狗等國內外巨頭科技企業在語音識別技術上均獲得了不少突破,並同樣成為今年的發展重點之一。

不會思考沒靈性 對速記威脅尚不大

2016年10月份,微軟宣布微軟經過訓練的神經網路已可以像人工一樣識別人類的語音。其讓NIST 2000自動化系統與專業速記員進行了比賽,結果顯示,自動化系統的錯誤率首次低於人工。不少人開始據此斷定速記人員將面臨失業,但果真如此嗎?

「語音與文字的雙向轉換是當下都市工作和生活的一種經常性需求,從聲音到文字是語音轉寫,從文字到聲音是語音合成。科大訊飛深耕智能語音業務多年,目前在語音撰寫上,已經可以達到97%的識別率和準確度,經過測試,的確已經超過了人類速記員的速度和準確度。但是從細節來看,通過大數據和人工智慧實現的語音轉寫替代簡單的人工轉寫是沒有問題的,但是在某些具有專業性特點的場合,語音轉寫從目前來看,還只能作為一項辦公的工具來存在。」科大訊飛相關負責人表示。

簡單來說,具體到速記行業,機器想通過自身的技術升級替換掉速記行業金字塔頂端的10%-20%的人是非常不容易的,因為他們不僅可以記錄,他們還有思想有靈性,可以在記錄的同時對文字內容進行潤色修改等,所以說速記員並不會因為機器轉寫的出現就完全失業的。

97%識別率 國內科技企業的實力與極限

值得注意的是,97%的識別率,正代表著目前國內科技企業在語音識別技術上的實力。

有趣的是,2016年的11月21日至23日,搜狗、百度和科大訊飛三家公司接連召開了三場關於語音識別最新進展的發布會。其中搜狗語音團隊在2016年 11 月 21 日推出了自己的語音實時翻譯技術,包括語音識別和機器翻譯,此外據搜狗給出的預測數據,搜狗語音識別的準確率達到了 97%,支持最快 400 字每秒的聽寫。百度則在2016年 11 月22 日宣布向用戶和開發者開放了情感合成、遠場方案、喚醒二期和長語音方案等四項語音識別技術,並表示百度語音的識別準確率達到了 97%。2016年11 月 23 日的科大訊飛年度發布會上,科大訊飛輪值總裁胡郁表示科大訊飛的語音輸入識別成功率也達到了 97%,即使是離線識別準確率也達到了 95%。

大家的語音識別準確率齊齊達到97%,不少業內人士開始質疑,這是否也意味著97%同時也代表著某種技術發展瓶頸?

對此,科大訊飛相關負責人告訴北京晨報記者,對於97%來說,剩下的3%,則需要克服口音、方言、發音習慣、環境噪音等問題,所以無論是深度神經網路技術還是大數據的支持,都不能使當前的語音識別率達到100%準確,97%可以說是目前的極限。想繼續提升準確率就需要技術巨大的突破,一般說來,新技術提升準確率30%以上才能降低1%的錯誤率。

未來可期 人機語音交互的普及仍需時日

有數據顯示,預計到2020年,全球語音識別的市場規模將從2015年的61.9億美元增長到200億美元,可以說語音識別未來的市場發展十分有看頭。

但是對於大眾消費者來說,大家更關心人機語音交互普及的時代要等到何時才來?

百度首席科學家、深度學習研究院院長吳恩達曾在IT領袖峰會上表示,當識別準確率達到99%的時候將會產生質變,徹底改變人和設備之間的交互方式。

搜狗語音負責人王硯峰則在公開發言中表示什麼時候能爆發主要取決於:一、車聯網以及智能家居等產業的進一步成熟,能給用戶帶來真正的價值,讓用戶在這些產品上產生切實的消費,而不是玩一下就扔,這樣產業和產品的需求就會進一步倒逼技術的進步;二、語音的魯棒性的問題需要進一步解決,比如遠場,雜訊,多說話人等問題,當然這個過程是一個漸進式的;三,自然語言的理解能力也要有更大的提升,機器更加懂得用戶的意圖,才能給用戶帶來更加穩定的體驗,產品才真正的可用。

因此王硯峰認為爆發不僅僅簡單是技術層面的事情,而是從產品設計到技術能力,都要比現在有一個更好的提升。

北京晨報記者 楊琳



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦