search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

AI時代的門票——智能語音交互

AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

還記得2年前,度秘剛發布的時候,心情激動的我沒怎麼思考就洋洋洒洒扯了一通《度秘:你好,521號機器人為您服務》。記得那時才大三,感覺百度發布的度秘機器人好牛逼,天文地理無所不知。但那時的度秘也僅僅是個加強版的微軟小冰,只不過是連接了更多的服務,因為百度在這方面有著天然的優勢。那時的度秘雖然看起來也很全能,但從未自然的融入實際生活場景中,因為究其本質,它是以擬人對話形式整合線下服務與功能。

而如今,親身體驗了這場技術變革帶來的改變,不禁感慨,AI時代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結果,也許機器會直接執行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

新一代交互形式:語音識別

時光飛逝,短短兩年,互聯網行業日新月異,經歷了AR、VR的變革,又見證了阿法狗的崛起。人工智慧這個詞似乎離我們越來越近。通常來講,每一次全新時代的到來,都是因為一個傳統的形式被顛覆。

比如,多年前我們的手機硬體由非智能機變為智能機,交互方式由物理按鍵變為手勢操作。並伴隨著網速的提升,從而由PC互聯網時代逐漸進入移動互聯網時代,而這一次,變革便是從語音識別開始。

艾媒數據的調研結果

可以看出,語音識別高居第一,其次是智能家居。這兩方面都有一個共同點在於:它們都是兩種全新的交互形式。

語音識別意味著將無形的聲音轉化為有形的執行信息,而傳統交互形式是通過文字,或是通過肢體動作來完成命令的執行。

智能家居意味著將家庭場景下的電器通過網路的構建與連接,形成物聯網,將之變得更加自動化,隨用戶的需求而自然切換狀態。

亞馬遜Echo系列產品

而現在,無論是國外的亞馬遜、谷歌還是國內的小米等生產智能硬體的公司,都開始極力打造家庭場景下的人工智慧,而語音,便是這種人工智慧交互形式的突破口。

完整的語音交互過程應該分三個步驟:聽清、聽懂、滿足。

  • 聽清:當用戶的聲音從麥克風輸入時,應有拾音器記錄用戶聲音,並準確的進行識別,將最終結果反饋給AI大腦。而在這個過程中,需要軟硬體以及演算法去處理所有聲音,取其精華,棄其糟粕,最終將真正的指令記錄。
  • 聽懂:當大腦拿到結果后,要對其進行解析,將語音轉為文字,並進行語義分析,同樣需要強大的演算法和機器學習能力,不斷去糾錯。哪些是命令詞,哪些是內容詞,要進行區分,最終普通的一句話要被拆分為命令、內容等相關類型詞。
  • 滿足:當一句簡單的話被AI大腦理解,接下來的就是滿足用戶,用戶如需要查詢,便去告訴他相應內容。用戶如需要執行動作,便去完成整個動作流程。

而事實上,這三個重要步驟,對於一家普通公司,基本是不可能完成的任務。

它要求既要有紮實的語音識別技術,又要有牛逼的語義理解能力,最後還需要有強大的內容數據去做支撐。

也難過,只有百度這樣的超級大廠,才能充分整合資源,將整個語音交互過程都涉及到。

家庭場景下的語音交互

在,如果想要普及一種變革,最好的場景是家庭環境,因為這種場景下,用戶的使用習慣,喜好會徹底的釋放和表達,是一種最自然,無壓力的表現狀態,且這種場景又屬於高頻場景,覆蓋範圍廣。

家庭下的語音喚醒場景請

不僅僅是圖中這些場景,今天在百度的開發者大會會場上見到了各種家庭場景下的硬體設施,當它們一旦搭載了語音交互的系統,便搖身一變,成了具有語音操控的智能家居。

對智能冰箱說:

「宮保雞丁怎麼做」,冰箱上的顯示屏開始播放宮保雞丁教學視頻。

對智能電視說:

「我想看個賽車類電影」,電視上顯示《速度與激情》系列影片。

對智能音箱說:

「我要開party,放個激情澎湃的音樂吧」,音箱播放《Sugar》

………….

智能硬體加上語音交互,已經構建成了物聯網。相信在不久的將來,搭載了語音交互系統的智能家居,都可以聽你的話,你說所說的每個指令,都會直接影響到當前家居的運行狀態。甚至可以對其動作進行組合,形成物聯網+語音交互。

小米智能硬體生態圈

在我看來,最有可能率先實現該場景的就是小米。

小米近幾年基本完成關於智能硬體生態圈的布局,覆蓋了家庭場景下大部分高頻使用的硬體設施,並將其與手機連接在一起,使用戶通過手機可以快速的管理。本次小米電視4的發布,其中一個亮點便是:將家居中的每一個智能硬體部分都和電視,手機控制端進行連接。最終實現最完美的智能家居生活場景:對著電視或遙控器說一聲:關閉空調、開啟吸塵器等一切指令,通過語義識別,連接家居,執行命令一系列動作,將智能貫徹到底。

開放的AI未來,不止於此

曾經VR技術被鼓吹的神乎其神,最終還是因硬體成本居高不下以及體驗難以提升淪為AI的泡影產物。而語音識別不應如此,百度的duer OS提供一整套語音識別的解決方案,給了許多硬體公司產品智能化的希望。

這樣一來,智能硬體的成本便可以達到有效把控。在整個語音交互部分,百度提供現成的SDK,並可以配套終端應用,提供開發套件。無論事實如何,宣傳效果確實達到了。若如此,接下來,語音交互能力便不再是小公司,小產品可望不可即的能力了。而最終市場上經過一批殘酷的淘汰,最終留給用戶的,便是最優秀的軟硬體結合的產物。這無論是對用戶還是整個行業,都是一個良好的發展趨勢。

以一個開發的心態迎接人工智慧時代,科幻電影里的場景,即將到來。這一刻,我想到了《人工智慧》,《機械姬》,《黑客帝國》。

對於未知的好奇心,要遠遠大於恐懼。

#專欄作家#

王偉華,(learnerwwh),一隻略帶文藝情懷的產品汪,擅長社交,資訊領域產品,心理學愛好者,目前正處於知識體系搭建階段。

本文原創發佈於人人都是產品經理,未經許可,不得轉載。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦