Zi 字媒體

從SwiftScribe說起，回顧百度在語音技術的七年積累

2021/12/25

人與機器的自然交互一直是人類孜孜不倦的奮鬥目標。隨著移動互聯網時代的發展，聲音與圖片成為了人機交互更為自然的表達方式。作為最核心的入口，語音技術就成為了科技巨頭們爭相攻下的堡壘。而人工智慧的進步與發展也讓語音技術的識別率突飛猛進，也使其有了產品化的機會。

李彥宏曾在劍橋名家講堂等多個公開場合說過，百度大腦涉及百度最為核心的人工智能內容，具體包括語音、圖像、自然語言理解和用戶畫像等四個核心能力，此外還有機器學習平台；吳恩達也在公開場合演講時表達了同樣的觀點。

3 月 14 日，百度矽谷研究院於推出了一款基於人工智慧的轉錄應用 SwiftScribe 。基於百度於 2015 年年底推出的語音識別產品 Deep Speech 2，其神經網路通過輸入數千小時的標記音頻數據，從中學習特定的單詞與片語。百度推出 SwiftScribe 主要面向經常需要使用轉錄功能的企業及個人，甚於它的使用廣泛性，SwiftScribe認為能夠讓一大批用戶受益，包括醫學健康、法律部門、商業媒體等領域。

語音技術主要分為識別與合成兩大領域，對於百度而言，歷年來的研究院技術突破也讓識別性能有了重大的提升。雷鋒網整理了百度在語音技術的相關研究成果，藉此拋磚引玉，得以一窺百度在語音領域的技術積累。

語音識別

via yuyin.baidu

早在 2010 年，百度開始進行智能語音及相關技術研發，並於同年 10 月在掌上百度上推出語音搜索，當時的宣傳語是這樣說的：「語音搜索就用掌上百度」，這也是第一代基於雲端識別的互聯網應用。

在 2012 年左右，研究者們開始採用 DNN 進行語音識別的相關研究。經過近兩年的發酵，2012 年 11 月百度上線了第一款基於 DNN 的漢語語音搜索系統，這讓百度成為最早採用 DNN 技術進行商業語音服務的公司之一。研究顯示百度在當時就呈現了優秀的語音識別能力，「在安靜情況下，百度的普通話識別率已達到 95% 以上」。

在 2013 年 1 月，李彥宏提出百度成立深度學習研究院，並於同年 4 月設立了矽谷人工智慧實驗室，彼時雷鋒網也做過相關覆蓋與報道。而隔年百度矽谷人工智慧實驗室（SVAIL）正式成立，加上吳恩達的加盟，更多的研究與投入也讓百度開始在語音技術上展露頭角。

根據吳恩達在百度語音開放平台三周年大會上的演講，百度於 2014 年採用 Sequence Discriminative Training（序列區分度訓練），當時的識別準確率為 91.5%。

在同年年底，吳恩達帶領團隊發布了第一代深度語音識別系統 Deep Speech 的研究論文，系統採用了端對端的深度學習技術，也就是說，系統不需要人工設計組件對雜訊、混響或揚聲器波動進行建模，而是直接從語料中進行學習。

團隊採用 7000 小時的乾淨語音語料，通過添加人工噪音的方法生成 10 萬小時的合成語音語料，並在 SWITCHBOARD（沿用近20年的標準語料庫，被視為識別的「試金石」）上獲得了 16.5% 的 WER（詞錯誤率，是一項語音識別的通用評估標準）。當時的實驗顯示，百度的語音識別效果比起谷歌、Bing 與 Apple API 而言優勢明顯。

雷鋒網AI科技評論了解到，近年來在 ImageNet 的競賽中，CNN 的網路結構在不斷加深（比如微軟亞洲研究院的 152 層深度殘差網路），錯誤率則逐步下降。百度通過借鑒這一研究進展，將深度學習在圖像識別領域的進展應用於語音識別，嘗試將 Deep CNN 架構配合 HMM （隱含馬可夫模型）語音識別系統，也呈現出很好的表現。

而 2015 年初基於 LSTM-HMM 的語音識別技術也逐步發展為基於 LSTM-CTC （Connectionist Temporal Classification）的端對端語音識別技術，通過將機器學習領域的 LSTM 建模與 CTC 訓練引入傳統的語音識別框架里，提出了具有創新性的漢字語音識別方法。

2015 年 8 月，百度研究院新增了漢語的識別能力，準確率高達 94%。這也讓端到端的深度學習演算法成為語音識別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會上，吳恩達也在較為嘈雜的情況下，驗證了機器的語音識別已經超過人類；而李彥宏彼時也宣布，百度語音識別的準確率能夠達到 97%。

而在 2015 年年底，百度 SVAIL 推出了Deep Speech 2，它能夠通過深度學習網路識別嘈雜環境下的兩種完全不同的語言——英語與普通話，而端到端的學習能夠使系統處理各種條件下的語音，包括嘈雜環境、口音及區別不同語種。而在 Deep Speech 2 中，百度應用了 HPC 技術識別縮短了訓練時間，使得以往在幾個星期才能完成的實驗只需要幾天就能完成。在基準測試時，系統能夠呈現與人類具有競爭力的結果。（雷鋒網按：HPC 指的是使用多處理器或某一集群中的數台計算機搭建的計算系統與環境，百度所應用的 HPC 技術實際上是 OpenMPI Ring Allreduce的修改版本。）

得益於在語音交互的突破，百度的深度語音識別技術在 2016 年入選 MIT 十大突破技術。

根據研究院的官方消息，百度 SVAIL 已於 2017 年 2 月成功將 HPC 技術移植到深度學習平台，藉此加速 GPU 之間的數據傳輸速率。該演算法以庫和 Tensorflow 補丁的形式向開發者開源，分別為 baidu-allreduce 和 tensorflow-allreduce，目前已在 GitHub 上線。

3 月 14 日，百度矽谷研究院也推出了一款基於 Deep Speech2 的 AI 轉錄應用 SwiftScribe，其神經網路通過輸入數千小時的標記音頻數據，從中學習特定的單詞與片語。

語音合成

via yuyin.baidu

如果說語音識別是讓機器聽懂人類的語言，那麼語音合成便是讓機器開口說話。

語音合成即文本轉換技術（TTS），根據百度官網的介紹，它是「實現人機語音交互，建立一個有聽和講能力的交互系統所必需的關鍵技術，是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的口語輸出的技術」。

早期的語音合成做法是機械地將預先錄製好的聲音拼接在一起，也就是我們經常聽到的拼接式合成（concatenative TTS），採用語音編碼技術存儲合適的語音單元，在合成時通過解碼與波形編輯拼接處理後生成相應的語句，一般合成的內容也比較有限，比如自動報時或報站等相對固定的內容，便適合採用這樣的方法。

而參數合成法（parametric TTS）則相對複雜，涉及對語音信號的分析並提取參數，再由人工控制參數的合成。但實現合成的全過程可謂兼具高難度與強工作量：首先需要涵蓋語音在合成出所有可能出現的聲音；隨後根據文本的內容選擇對應的聲學參數，再實現合成。

在 2015 年，手機百度小說頻道上線了情感語音合成模塊，系統可提供「磁性男聲」的朗讀版本；而百度新聞也支持語音播報。實際上這兩個技術都涉及語音合成技術（TTS）。此外，百度還採用此技術復原了張國榮的聲音，目前可達到接近真人的發聲效果。

百度 SVAIL 在今年正式推出了 Deep Voice，即一個實時語音合成的神經網路系統（Real-Time Neural Text-to-Speech for Production），目前論文已經投遞 ICML 2017。實驗顯示，在同樣的 CPU 與 GPU 上，系統比起谷歌 DeepMind 在去年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

在去年年末的百度語音開放平台三周年大會上，吳恩達就已經表示，「現在百度在語音合成的能力已經達到業界領先的水平。」可見百度在語音合成領域已經是胸有成竹了。

兩大應用方向

目前百度的語音技術分為兩大應用方向：語音識別（及語音喚醒）還有語音合成。

在語音識別領域，結合自然語言處理技術，百度能夠提供高精度的語音識別服務，實現多場景的智能語音交互：

手機百度和百度輸入法自不必說，它們能夠直接通過語音輸入匹配搜索結果，提升輸入效率。
主要合作夥伴：艾米智能行車助手；樂視語音助手；海爾智能家居；陌陌；神武遊戲等。

而百度的語音喚醒則支持自定義設置語音指令，為應用提供流暢對話。比如：

通過百度語音喚醒技術可以喚醒度秘，滿足用戶真人化的需求；
在百度 Carlife 、百度CoDriver 及百度地圖中，語音喚醒技術能夠幫助駕駛員實現撥打電話、播放音樂、導航等多項操作。

在語音合成領域，最典型的例子莫過於人聲朗讀了。

百度地圖利用合成技術生成導航語音，能夠幫助用戶實現流暢的人機交互；
iReader 也採用了百度語音合成技術實現語音朗讀效果，目前支持中文普通話播報、中英文混讀播報，音色支持男聲和女聲。
主要合作夥伴：塔讀文學、AA拼車等。

吳恩達在接受華爾街日報採訪時表示了對語音技術的信心與期待：「至少在，我們會在接下來幾年時間普及語音識別應用，讓人機溝通成為一件非常自然的事。你會很快習慣與機器流暢交流的時光，而忘記以前是如何與機器交互的。」雷鋒網()也相信，百度未來會在語音技術上取得更大突破，並讓人們獲得良好的人機交互體驗。