3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
安妮 編譯整理量子位 出品 | 公眾號 QbitAISiri的本領升級了。蘋果上月推出的機器學習博客今天連更3篇新文,全部是有關Siri的研究技術。三篇講了啥?在這篇題為《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的文章中,蘋果介紹了Siri語音合成技術的演變過程,並對比從iOS 9到即將應用在新版本中iOS 11的聲音變化,詳細說明Siri的進化過程。另外兩篇分別題為《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》和《Inverse Text Normalization as a Labeling Problem》,一篇提到Siri如何用機器學習格式化地展示日期、時間等的呈現技術,另一篇講解了如何讓Siri支持更多語言。蘋果機器學習博客地址:看來為了讓Siri體驗更好,蘋果還是下了不少心思。下面,量子位挑選《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的關鍵部分翻譯整理,與大家分享Siri說話更自然流利背後付出的苦功夫。深度學習如何讓Siri更會說話隱馬爾可夫模型(HMM)通常被用在目標預測的統計模型中,因為它們直接模擬聲音參數的分佈,可以輕鬆利用相對熵(KLD)計算目標損失。然而,基於深度學習的方法在參數語音合成中表現通常勝過HMM,我們希望將深度學習的優勢轉化到混合單元選擇合成中。Siri的文本轉語音(TTS)目標是訓練出基於深度學習的統一模型,能夠自動準確預測資料庫中單元目標和級聯損失。因此,該方法使用深度混合密度網路(MDN)預測特徵值分佈,而沒有用HMM。這裡的MDN結合了傳統的深度神經網路(DNN)與高斯混合模型(GMM)。傳統的DNN是輸入層和輸出層間有多個隱藏神經元的人造神經網路,可以建立輸入和輸出特徵之間複雜的非線性關係。我們可以通過反向傳播調整網路的權重訓練DNN。與之相比,GMM使用一組高斯分佈提供給定輸入和輸出數據的概率分佈,並且通常使用期望最大化(EM)方法訓練。MDN通過DNN對輸入和輸出數據的複雜關係建模,輸出概率分佈信息,從而結合了DNN和GMM的優點。△ 深度混合密度網路,用來指導單元選擇合成語音特徵的均值和方差在Siri上,我們使用基於MDN的統一目標和連接模型,來預測語音的目標特徵(頻譜、音高和持續時間)分佈,以及單元間的連接成本指導單位搜索。由於MDN的輸出是以高斯概率的形式分佈,我們可以將其作為目標和級聯成本的損失函數(Loss Function)。無論是在像共振峰等穩定且更新緩慢的語音特徵,還是多變的特徵中,這種做法的優勢均顯而易見。考慮到這種可變性,可以選用深度MDN模型中嵌入的方差調整參數。由於預測方差與上下文相關,可以將它們看作自動依賴上下文權重的損失。因為我們需要計算特定目標和連接損失,所以這對於提高合成質量非常重要。在使用深度MDN的基礎上對單位進行評分后,我們用傳統的維特比演算法尋找單位最佳路徑。然後,再用波形相似重疊相加演算法(WSOLA)將各單元連接,找出最優級聯時間,創建平滑連續的合成語音。最後,附論文鏈接地址:https://machinelearning.apple.com/2017/08/06/Siri-voices.html#9論文翻到底還能聽到從iOS 9到11 Siri的聲音對比,iOS 11版的Siri語調自然,口語力驚艷。— 完 —加入社群量子位AI社群7群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot2入群;此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。誠摯招聘量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,)對話界面,回復「招聘」兩個字。量子位 QbitAIվ'ᴗ' ի 追蹤AI技術和產品新動態

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦