search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

蘋果連發三篇機器學習新研究:全是講如何讓Siri更厲害

安妮 編譯整理
量子位 出品 | 公眾號 QbitAI

Siri的本領升級了。

蘋果上月推出的機器學習博客今天連更3篇新文,全部是有關Siri的研究技術。

三篇講了啥?

在這篇題為《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的文章中,蘋果介紹了Siri語音合成技術的演變過程,並對比從iOS 9到即將應用在新版本中iOS 11的聲音變化,詳細說明Siri的進化過程。

另外兩篇分別題為《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》和《Inverse Text Normalization as a Labeling Problem》,一篇提到Siri如何用機器學習格式化地展示日期、時間等的呈現技術,另一篇講解了如何讓Siri支持更多語言。

蘋果機器學習博客地址:

看來為了讓Siri體驗更好,蘋果還是下了不少心思。

下面,量子位挑選《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的關鍵部分翻譯整理,與大家分享Siri說話更自然流利背後付出的苦功夫。

深度學習如何讓Siri更會說話

隱馬爾可夫模型(HMM)通常被用在目標預測的統計模型中,因為它們直接模擬聲音參數的分佈,可以輕鬆利用相對熵(KLD)計算目標損失。

然而,基於深度學習的方法在參數語音合成中表現通常勝過HMM,我們希望將深度學習的優勢轉化到混合單元選擇合成中。

Siri的文本轉語音(TTS)目標是訓練出基於深度學習的統一模型,能夠自動準確預測資料庫中單元目標和級聯損失。

因此,該方法使用深度混合密度網路(MDN)預測特徵值分佈,而沒有用HMM。這裡的MDN結合了傳統的深度神經網路(DNN)與高斯混合模型(GMM)。

傳統的DNN是輸入層和輸出層間有多個隱藏神經元的人造神經網路,可以建立輸入和輸出特徵之間複雜的非線性關係。我們可以通過反向傳播調整網路的權重訓練DNN。

與之相比,GMM使用一組高斯分佈提供給定輸入和輸出數據的概率分佈,並且通常使用期望最大化(EM)方法訓練。MDN通過DNN對輸入和輸出數據的複雜關係建模,輸出概率分佈信息,從而結合了DNN和GMM的優點。

深度混合密度網路,用來指導單元選擇合成語音特徵的均值和方差

在Siri上,我們使用基於MDN的統一目標和連接模型,來預測語音的目標特徵(頻譜、音高和持續時間)分佈,以及單元間的連接成本指導單位搜索。由於MDN的輸出是以高斯概率的形式分佈,我們可以將其作為目標和級聯成本的損失函數(Loss Function)。

無論是在像共振峰等穩定且更新緩慢的語音特徵,還是多變的特徵中,這種做法的優勢均顯而易見。考慮到這種可變性,可以選用深度MDN模型中嵌入的方差調整參數。

由於預測方差與上下文相關,可以將它們看作自動依賴上下文權重的損失。因為我們需要計算特定目標和連接損失,所以這對於提高合成質量非常重要。

在使用深度MDN的基礎上對單位進行評分后,我們用傳統的維特比演算法尋找單位最佳路徑。然後,再用波形相似重疊相加演算法(WSOLA)將各單元連接,找出最優級聯時間,創建平滑連續的合成語音。

最後,附論文鏈接地址:

https://machinelearning.apple.com/2017/08/06/Siri-voices.html#9

論文翻到底還能聽到從iOS 9到11 Siri的聲音對比,iOS 11版的Siri語調自然,口語力驚艷。

加入社群

量子位AI社群7群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot2入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,)對話界面,回復「招聘」兩個字。

量子位 QbitAI

վ'ᴗ' ի 追蹤AI技術和產品新動態



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦