search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

谷歌能看懂你的胡言亂語

電影《Her》中,西奧多(Theodore)耳朵里住著一個人工智慧系統薩蔓莎(Samantha),這是蘋果的Siri、亞馬遜的Echo、微軟的小冰和Cortana一直在努力追趕的目標。

目前,在這件事上,谷歌領跑了。

與傳統做法不同,谷歌可以根據你想要的任意一種聲音,即時進行傻瓜式重組——先收集簡單的單詞、短語和音素等素材,再通過複雜精細的軟體運行,就能實現了。

而且,運用現在AI圈最流行的深度學習演算法,整個過程還能全自動化。也就是說,你可以通過這套程序定製化你的語音小助手了。

這就是谷歌Tacotron——一個完全由端到端的文本轉語音合成模型。

Tacotron可以從未聽見過某個詞,卻能彷彿跳舞一般輕鬆掌握複雜的發音,簡直就是語音合成界的歌舞之王弗雷德•阿斯泰爾(Fred Astaire,弗雷德熟悉多種舞蹈動作,無需思考手腳就能運動自如)。

在處理韻律、語義消岐(如:現在時和過去時的「read」發音不同)和類似酒醉后打字的拼寫錯誤(「這真真真的是太太棒了了了」)方面,Tacotron的表現同樣泰然自若,令人稱奇。

谷歌在技術報告中承認,拼接語音合成方面,蘋果Siri其實比Tacotron更自然。但Siri拼接法單調、昂貴,而且用谷歌的話說,Siri涉及「不可靠的設計選擇」。而據熟悉此研究的加州大學聖塔芭芭拉分校自然語言處理專家威廉•王(William Wang)透露,Tacotron正是為了規避這種不可靠性而設計的。王指出,手動編寫一個語音合成器包含「大量非常主觀多變的設計選擇。」

以韻律為例,陳述句

「The quick brown fox jumps over the lazy dog.」

那隻敏捷的棕色狐狸從懶惰的狗身上跳了過去。

和問句

「Does the quick brown fox jump over the lazy dog?」

那隻敏捷的棕色狐狸從懶惰的狗身上跳過去了嗎?

兩句話的自然發音區別歸根結底就是語調的微妙變化。究竟如何將這種變化寫成代碼,編入軟體之中呢?必須有人提前決定——其選擇在某些句子中能夠得出自然的韻律,但同樣的選擇放在其他句子里可能聽起來就有點彆扭了。

我們無法提前預知,也無法解釋發生錯誤的原因,只能在系統多個成分中盡量採用手動編碼。

Tacotron利用深度學習軟體捕獲所有決策過程,並實現其自動化。在自然程度上算不上一流:谷歌自家的技術WaveNet也通過深度學習合成語音,聲稱在質量方面能打敗拼接軟體。但Tacotron的速度勝過WaveNet,原理也更簡單:據王所說,它「使用單一的神經網路結構」處理整個文本到語音的加工過程。因此,在谷歌與日俱增的文本與語音資料庫中,Tacotron更容易訓練。

一如既往,谷歌絕口不談將Tacotron運用到現有產品的任何相關計劃(研究人員沒有回應媒體多次提出的採訪要求,某發言人也拒絕評論)。

但如果將來有一天,酒醉的你發出一條迷糊、語無倫次的消息,就能夠召喚谷歌的自動駕駛汽車,對方還能自然流暢地對話,聽起來絲毫不像機器人,那大概就是Tacotron在發揮作用了。

▼點擊閱讀原文,雜誌買買買不停



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦