Zi 字媒體

蘋果連發三篇機器學習新研究：全是講如何讓Siri更厲害

2021/12/25

yidianzixun

安妮編譯整理
量子位出品 | 公眾號 QbitAI

Siri的本領升級了。

蘋果上月推出的機器學習博客今天連更3篇新文，全部是有關Siri的研究技術。

三篇講了啥？

在這篇題為《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的文章中，蘋果介紹了Siri語音合成技術的演變過程，並對比從iOS 9到即將應用在新版本中iOS 11的聲音變化，詳細說明Siri的進化過程。

另外兩篇分別題為《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》和《Inverse Text Normalization as a Labeling Problem》，一篇提到Siri如何用機器學習格式化地展示日期、時間等的呈現技術，另一篇講解了如何讓Siri支持更多語言。

蘋果機器學習博客地址：

看來為了讓Siri體驗更好，蘋果還是下了不少心思。

下面，量子位挑選《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的關鍵部分翻譯整理，與大家分享Siri說話更自然流利背後付出的苦功夫。

深度學習如何讓Siri更會說話

隱馬爾可夫模型（HMM）通常被用在目標預測的統計模型中，因為它們直接模擬聲音參數的分佈，可以輕鬆利用相對熵（KLD）計算目標損失。

然而，基於深度學習的方法在參數語音合成中表現通常勝過HMM，我們希望將深度學習的優勢轉化到混合單元選擇合成中。

Siri的文本轉語音（TTS）目標是訓練出基於深度學習的統一模型，能夠自動準確預測資料庫中單元目標和級聯損失。

因此，該方法使用深度混合密度網路(MDN)預測特徵值分佈，而沒有用HMM。這裡的MDN結合了傳統的深度神經網路（DNN）與高斯混合模型(GMM)。

傳統的DNN是輸入層和輸出層間有多個隱藏神經元的人造神經網路，可以建立輸入和輸出特徵之間複雜的非線性關係。我們可以通過反向傳播調整網路的權重訓練DNN。

與之相比，GMM使用一組高斯分佈提供給定輸入和輸出數據的概率分佈，並且通常使用期望最大化（EM）方法訓練。MDN通過DNN對輸入和輸出數據的複雜關係建模，輸出概率分佈信息，從而結合了DNN和GMM的優點。

△ 深度混合密度網路，用來指導單元選擇合成語音特徵的均值和方差

在Siri上，我們使用基於MDN的統一目標和連接模型，來預測語音的目標特徵(頻譜、音高和持續時間)分佈，以及單元間的連接成本指導單位搜索。由於MDN的輸出是以高斯概率的形式分佈，我們可以將其作為目標和級聯成本的損失函數（Loss Function）。

無論是在像共振峰等穩定且更新緩慢的語音特徵，還是多變的特徵中，這種做法的優勢均顯而易見。考慮到這種可變性，可以選用深度MDN模型中嵌入的方差調整參數。

由於預測方差與上下文相關，可以將它們看作自動依賴上下文權重的損失。因為我們需要計算特定目標和連接損失，所以這對於提高合成質量非常重要。

在使用深度MDN的基礎上對單位進行評分后，我們用傳統的維特比演算法尋找單位最佳路徑。然後，再用波形相似重疊相加演算法(WSOLA)將各單元連接，找出最優級聯時間，創建平滑連續的合成語音。

最後，附論文鏈接地址：

https://machinelearning.apple.com/2017/08/06/Siri-voices.html#9

論文翻到底還能聽到從iOS 9到11 Siri的聲音對比，iOS 11版的Siri語調自然，口語力驚艷。

— 完 —

加入社群

量子位AI社群7群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot2入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，)對話界面，回復「招聘」兩個字。

量子位 QbitAI

վ'ᴗ' ի 追蹤AI技術和產品新動態

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點

蘋果連發三篇機器學習新研究：全是講如何讓Siri更厲害

安妮 編譯整理量子位 出品 | 公眾號 QbitAI

△ 深度混合密度網路，用來指導單元選擇合成語音特徵的均值和方差

安妮編譯整理
量子位出品 | 公眾號 QbitAI