Zi 字媒體

語音識別距人類只差0.4%？

2021/12/25

新聞背景

日前，美國一家公司宣稱專業速記員在記錄對話時，轉錄詞錯率為5.1%，而該公司最新研發的語音識別系統詞錯率已達到5.5%，超越之前的歷史最佳水平，樹立了新的里程碑。語音識別，是人工智慧領域的核心問題之一，0.4%的差距似乎意味著機器即將比肩人類。

已過「甲子」之年

斯坦福大學的相關研究者在2016年9月發布了一篇名為《2030年的人工智慧與生活》的文章，提到：人工智慧領域正式誕生於1956年夏天，一場由約翰·麥卡錫組織的在美國達特茅斯暑期研究項目的研討會，在多年以後被認定為全球人工智慧研究的起點。

其實，對於人工智慧子項目之一的語音識別來說，它的歷史甚至比60年還要久。

語音識別的研究源頭可追溯至1950年，計算機科學之父阿蘭·圖靈在《思想》（Mind）雜誌上發表了題為「計算的機器和智能」的論文，首次提出了機器智能的概念，論文還提出了一種驗證機器是否有智能的方法：讓人和機器進行交流，如果人無法判斷自己交流的對象是人還是機器，就說明這個機器有智能了，這就是後來鼎鼎有名的人工智慧圖靈測試。

圖靈測試的概念極大影響了人工智慧對於功能的定義，以此為途徑，卡內基梅隆大學的兩位科學家希爾伯特·西蒙和曼紐爾·布盧姆做了大量的前期工作，非常精妙地證明了羅素《數學原理》52道中的38道。西蒙甚至宣稱在10年之內，機器就可以達到和人類智能一樣的高度。

在這一時期，科學家們也將語音識別比作「機器的聽覺系統」，該技術可以讓機器通過識別和理解，把語音信號轉變為相應的文本或命令。1952年，貝爾研究所、Davis等人研製了世界上第一個能識別10個英文數字發音的實驗系統。1960年，英國的Denes等人研製了第一個計算機語音識別系統。

從「模擬」人腦到開創統計方法

當20世紀50年代明確了人工智慧要模擬人類智慧這一大膽目標后，這一領域經歷了近20年的輝煌。研究人員開展了一系列項目，表明計算機能夠完成一系列原本只屬於人類能力範疇之內的任務，例如證明定理、求解微積分、通過規劃來響應命令、履行物理動作，甚至是模擬心理學家心理實驗、作曲家譜曲這樣的活動。

但是，過分簡單的演算法以及計算能力的限制，嚴重阻礙了人們使用人工智慧來解決更加困難和多樣化的問題。

這一階段在人工智慧的細分領域語音識別上，科學家們也走上了同樣的彎路。他們認為，計算機要完成語音識別這類只有人才能做的事情，必須先讓計算機理解自然語言，導致研究局限在人類學習語言的方式上了，即電腦模擬人腦，語言學者參與了大量的研究工作，但最後的成果卻近乎為零。伴隨著對未來繼續努力的失望，人工智慧包括語音識別都於20世紀70年代中期逐漸淡出公眾視野。

轉機出現在統計語言學的創立上。這不得不提一個關鍵性人物——德里克·賈里尼克和他領導的IBM華生實驗室，他們創新的使用統計方法，將當時的語音識別率從70%迅速提升到90%，同時語音識別的規模從幾百個單詞上升到幾萬個單詞，使得語音識別就有了從實驗室走向實際應用的可能。

在賈里尼克之前，科學家們都把語音識別問題的核心歸結為語言學中的規則問題，而賈里尼克將它當作通信問題后，用兩個隱含馬爾可夫模型（聲學模型和語言模型）把語音識別重新概括清楚了。

這個框架結構至今仍對語音識別影響深遠，它不僅從根本上使得語音識別有使用的可能，而且奠定了今天自然語言處理的基礎。賈里尼克後來也因此當選美國工程院院士，並被某雜誌評為20世紀100名發明家之一。

儘管賈里尼克在1972年就提出了新的研究範式，但模擬人腦與統計學的方法之爭，卻持續了近十五年時間，語音識別領域歷經了十五年的新舊交替后，最大的成果其實是在技術的應用及產品化方面出現了進展。

大進步的催化劑

在互聯網大爆發的20世紀90年代，人工智慧的相關研究又一次停滯了。直到21世紀前10年，出現了一系列復興人工智慧研究進程的要素，尤其是下面這些重要的因素和核心技術：

大數據。得益於互聯網、社交媒體、移動設備和廉價的感測器，這個世界產生的數據量急劇增加。大數據是人工智慧發展的助推劑，這是因為有些人工智慧技術使用統計模型來進行數據的概率推算，如語音識別，通過數據的海洋中豐富的語料，使得技術不斷優化。

新演算法。演算法是解決一個設計程序或完成任務的路徑方法。在一個完整的工業界語音識別系統里，最關鍵的是深度學習演算法，還有很多工作是專業領域相關的演算法，以及海量數據收集和工程系統架構的搭建。這些演算法本身很重要，同時也是其他技術的推動者，比如機器學習演算法Google的TensorFlow目前就被開源使用。

可以說，任何技術都有蓄能階段和爆發階段，人工智慧包括語音識別技術的爆發都得益於以上條件。這也不難理解，從語音識別來看，它是需要經驗、數據和用戶反饋共同作用來提升表現的。需要利用用戶的反饋總結出一些特點。

谷歌是最早在全球範圍內大規模使用深度學習演算法的公司，也最早開創了用互聯網思維做語音識別。在這方面，科大訊飛受到谷歌的啟發，迅速跟進成為國內第一個在商用系統里使用深度學習的公司。

現有成績和待解難題一樣多

語音識別技術已經發展了幾十年，因為大數據和深度學習的應用，這一領域的傳統強者成了谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭，據統計，美國至少有26家公司在開發語音識別技術，而則有近50家公司研究這一領域。

儘管谷歌這些巨頭在語音識別技術上的技術積累和先發優勢讓後來者似乎難以望其項背，但因為一些政策和市場方面的原因，當然也有部分原因是中文的複雜程度高於英語，所以國際巨頭的語音識別主要偏向於英語，中文領域的語音智能機會則留給了科大訊飛、百度、搜狗等公司。在國內，這些本土化產品更為用戶所熟知。

中文領域的識別難度在哪裡？舉個簡單的例子，魯迅《孔乙己》中的孔乙己之問：茴香豆的「茴」有幾種寫法？或者一個更有時代感的案例，如何形容物流很快？據說，在漢語里回答這個問題竟然至少有3600種說法，比如第二天就到了、物流很給力、給快遞點贊等不盡其詳。儘管語音識別在近些年來取得了巨大的進步，但其實仍然還有很多的工作要做。

此外，還有確保語音識別能在更為真實生活的環境中良好地工作。這些環境包括具有很多背景雜訊的地方，比如聚會場所或在高速路上駕駛的時候；還有在多人交談環境中將不同的說話人區分開。

還有一個更深層次的難題是，如果需要實現人機對話、人機寫作，不只是需要用機器轉錄來自人類嘴巴的聲音信號，更要理解人們所說的話。

從語音識別來看，下一個前沿是從識別走向理解，真正的人工智慧仍然還在遙遠的地平線上，在機器能理解其所聽到或看到的事物的真正含義之前，還需要很長時間的工作，有很長的路要走。

或許也可以說，我們正在從一個人類必須理解計算機的世界，邁向一個計算機必須理解我們的世界。亞里士多德曾說過，如果機器能幹很多活，豈不能讓人類解放出來，或許這一解放的起點就是「理解」。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點