Zi 字媒體

機器學習原來如此有趣：如何用深度學習進行語音識別

2021/12/25

語音識別正在「入侵」我們的生活。我們的手機、遊戲主機和智能手錶都內置了語音識別。他甚至在自動化我們的房子。只需50美元，你就可以買到一個Amazon Echo Dot，這是一個可以讓你訂外賣、收聽天氣預報、甚至是買垃圾袋的魔術盒，而這一切你只需要大聲說出：

Aleax,給我訂一個pizza!

Echo Dot 在2015年的聖誕假期一經推出就大受歡迎，在亞馬遜上面立刻售罄。

但其實語音識別已經存在很多年了，那為什麼現在才成為主流呢？因為深度識別終於將語音識別在非受控環境下的準確度提高到了一個足以投入實用的高度。

吳恩達教授曾經預言過,當語音識別的準確度從95%提升到99%的時候，它將成為與電腦交互的首要方式。

下面就讓我們來學習與深度學習進行語音室識別吧！

機器學習並不總是一個黑盒

如果你想知道神經機器翻譯是如何工作的，你應該猜到了我們可以簡單地將一些聲音送入神經網路，然後訓練它使之生成文本：

這是使用深度學習進行語音識別的最高追求，但是很遺憾我們現在還沒有完全做到這一點（至少在筆者寫下這一篇文章的時候還沒有–我敢打賭，再過幾年我們可以做到）

一個大問題是語速不同。一個人可能會很快的說出」Hello!」,而另一個人可能非常緩慢的說」heeeelllllllllllllooooo』!』，產生了一個擁有更多數據也更長的聲音文件。這兩個文件都應該被識別為同一個文本–「Hello!」。而事實證明，把各種長度的音頻文件自動對齊到一個固定長度的文本是很難的一件事情。

為了解決這個問題，我們必須使用一些特殊的技巧，並進行一些深度神經網路以外的特殊處理。讓我們看看它是如何工作的吧！

將聲音轉換為比特（Bit）

顯然，語音識別的第一步是–我們需要將聲波輸入到電腦中。

我們應該怎麼將聲波轉換為數字呢？讓我們使用我說的「hello」這個聲音片段舉個例子：

聲波是一維的，它在每個時刻都有一個基於其高度的值。讓我們把聲波的一小部分放大看看：

為了將這個聲波轉換成數字，我們只記錄聲波在等距點的高度：

這被稱為採樣（sampling）。我們每秒讀取數千次，並把聲波在該時間點的高度用一個數字記錄下來。這基本上就是一個未壓縮的 .wav 音頻文件。

「CD 音質」的音頻是以 44.1khz（每秒 44100 個讀數）進行採樣的。但對於語音識別，16khz（每秒 16000 個採樣）的採樣率就足以覆蓋人類語音的頻率範圍了。

讓我們把「Hello」的聲波每秒採樣 16000 次。這是前 100 個採樣：

每個數字代表聲波在一秒鐘的16000分之一處的振幅。

數字採樣小助手

因為聲波採樣只是間歇性的讀取，你可能認為它只是對原始聲波進行粗略的近似估計。我們的讀數之間有間距，所以我們必然會丟失數據，對吧？

但是，由於採樣定理（Nyquist theorem），我們知道我們可以利用數學，從間隔的採樣中完美重建原始聲波——只要我們的採樣頻率比期望得到的最高頻率快至少兩倍就行。

我提這一點，是因為幾乎每個人都會犯這個錯誤，並誤認為使用更高的採樣率總是會獲得更好的音頻質量。其實並不是。

預處理我們的採樣聲音數據

我們現在有一個數列，其中每個數字代表 1/16000 秒的聲波振幅。

我們可以把這些數字輸入到神經網路中，但是試圖直接分析這些採樣來進行語音識別仍然很困難。相反，我們可以通過對音頻數據進行一些預處理來使問題變得更容易。

讓我們開始吧，首先將我們的採樣音頻分成每份 20 毫秒長的音頻塊。這是我們第一個 20 毫秒的音頻（即我們的前 320 個採樣）：

將這些數字繪製為簡單的折線圖，我們就得到了這 20 毫秒內原始聲波的大致形狀：

雖然這段錄音只有 1/50 秒的長度，但即使是這樣短暫的錄音，也是由不同頻率的聲音複雜地組合在一起的。其中有一些低音，一些中音，甚至有幾處高音。但總的來說，就是這些不同頻率的聲音混合在一起，才組成了人類的語音。

為了使這個數據更容易被神經網路處理，我們將把這個複雜的聲波分解成一個個組成部分。我們將分離低音部分，再分離下一個最低音的部分，以此類推。然後將（從低到高）每個頻段（frequency band）中的能量相加，我們就為各個類別的音頻片段創建了一個指紋（fingerprint）。

想象你有一段某人在鋼琴上演奏 C 大調和弦的錄音。這個聲音是由三個音符組合而成的：C、E 和 G。它們混合在一起組成了一個複雜的聲音。我們想把這個複雜的聲音分解成單獨的音符，以此來分辨 C、E 和 G。這和語音識別是一樣的道理。

我們需要傅里葉變換（Fourier Transform）來做到這一點。它將複雜的聲波分解為簡單的聲波。一旦我們有了這些單獨的聲波，我們就將每一份頻段所包含的能量加在一起。

最終得到的結果便是從低音（即低音音符）到高音，每個頻率範圍的重要程度。以每 50hz 為一個頻段的話，我們這 20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的列表：

但是把它們畫成圖表時會更容易理解：

你可以看到，在我們的 20 毫秒聲音片段中有很多低頻能量，然而在更高的頻率中並沒有太多的能量。這是典型「男性」的聲音。

如果我們對每個20毫秒的音頻塊都重複這個過程，我們最後會得到一個頻譜圖（從左到右每一列都是一個29毫秒的音頻塊）

頻譜圖很酷，因為你可以在音頻數據中實實在在地看到音符和其他音高模式。對於神經網路來說，相比於原始聲波，從這種數據中尋找規律要容易得多。因此，這就是我們將要實際輸入到神經網路中去的數據表示方式。

從短音頻中識別字元

現在我們已經讓音頻轉變為一個易於處理的格式了，現在我們將要把它輸入深度神經網路。神經網路的輸入將會是 20 毫秒的音頻塊。對於每個小的音頻切片（audio slice），神經網路都將嘗試找出當前正在說的聲音所對應的字母。

我們將使用一個循環神經網路——即一個擁有記憶，能影響未來預測的神經網路。這是因為它預測的每個字母都應該能夠影響它對下一個字母的預測。例如，如果我們到目前為止已經說了「HEL」，那麼很有可能我們接下來會說「LO」來完成「Hello」。我們不太可能會說「XYZ」之類根本讀不出來的東西。因此，具有先前預測的記憶有助於神經網路對未來進行更準確的預測。

當通過神經網路跑完我們的整個音頻剪輯（一次一塊）之後，我們將最終得到一份映射（mapping），其中標明了每個音頻塊和其最有可能對應的字母。這是我說那句「Hello」所對應的映射的大致圖案：

我們的神經網路正在預測我說的那個詞很有可能是「HHHEE_LL_LLLOOO」。但它同時認為我說的也可能是「HHHUU_LL_LLLOOO」，或者甚至是「AAAUU_LL_LLLOOO」。

我們可以遵循一些步驟來整理這個輸出。首先，我們將用單個字元替換任何重複的字元：

· HHHEE_LL_LLLOOO 變為 HE_L_LO

· HHHUU_LL_LLLOOO 變為 HU_L_LO

· AAAUU_LL_LLLOOO 變為 AU_L_LO

然後，我們將刪除所有空白：

· HE_L_LO 變為 HELLO

· HU_L_LO 變為 HULLO

· AU_L_LO 變為 AULLO

這讓我們得到三種可能的轉寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞，所有這些聲音都類似於「Hello」。因為神經網路每次只預測一個字元，所以它會得出一些純粹表示發音的轉寫。例如，如果你說「He would not go」，它可能會給出一個「He wud net go」的轉寫。

解決問題的訣竅是將這些基於發音的預測與基於書面文本（書籍、新聞文章等）大資料庫的可能性得分相結合。扔掉最不可能的結果，留下最實際的結果。

在我們可能的轉寫「Hello」、「Hullo」和「Aullo」中，顯然「Hello」將更頻繁地出現在文本資料庫中（更不用說在我們原始的基於音頻的訓練數據中了），因此它可能就是正解。所以我們會選擇「Hello」作為我們的最終結果，而不是其他的轉寫。搞定！

稍等一下！

你可能會想「但是如果有人說Hullo」怎麼辦？這個詞的確存在。也許「Hello」是錯誤的轉寫！

當然可能有人實際上說的是「Hullo」而不是「Hello」。但是這樣的語音識別系統（基於美國英語訓練）基本上不會產生「Hullo」這樣的轉寫結果。用戶說「Hullo」，它總是會認為你在說「Hello」，無論你發「U」的聲音有多重。

試試看！如果你的手機被設置為美式英語，嘗試讓你的手機助手識別單詞「Hullo」。這不行！它掀桌子不幹了，它總是會理解為「Hello」。

不識別「Hullo」是一個合理的行為，但有時你會碰到令人討厭的情況：你的手機就是不能理解你說的有效的語句。這就是為什麼這些語音識別模型總是處於再訓練狀態的原因，它們需要更多的數據來修復這些少數情況。

我能建立自己的語音識別系統嗎？

機器學習最酷炫的事情之一就是它有時看起來十分簡單。你得到一堆數據，把它輸入到機器學習演算法當中去，然後就能神奇地得到一個運行在你遊戲本顯卡上的世界級 AI 系統…對吧？

這在某些情況下是真實的，但對於語音識別並不成立。語音識別是一個困難的問題。你得克服幾乎無窮無盡的挑戰：劣質麥克風、背景噪音、混響和回聲、口音差異等等。你的訓練數據需要囊括這所有的一切，才能確保神經網路可以應對它們。

這裡有另外一個例子：你知不知道，當你在一個嘈雜的房間里說話時，你會不自覺地提高你的音調，來蓋過噪音。人類在什麼情況下都可以理解你，但神經網路需要訓練才能處理這種特殊情況。所以你需要人們在噪音中大聲講話的訓練數據！

要構建一個能在 Siri、Google Now! 或 Alexa 等平台上運行的語音識別系統，你將需要大量的訓練數據。如果你不雇上數百人為你錄製的話，它需要的訓練數據比你自己能夠獲得的數據要多得多。由於用戶對低質量語音識別系統的容忍度很低，因此你不能吝嗇。沒有人想要一個只有八成時間有效的語音識別系統。

對於像谷歌或亞馬遜這樣的公司，在現實生活中記錄的成千上萬小時的人聲語音就是黃金。這就是將他們世界級語音識別系統與你自己的系統拉開差距的地方。讓你免費使用 Google Now!或 Siri，或是只要 50 美元購買 Alexa 而沒有訂閱費的意義就是：讓你儘可能多地使用它們。你對這些系統所說的每一句話都會被永遠記錄下來，並用作未來版本語音識別演算法的訓練數據。這才是他們的真實目的！

不相信我？如果你有一部安裝了 Google Now! 的 Android 手機，請點擊這裡收聽你自己對它說過的每一句話：

你可以通過 Alexa 在 Amazon 上找到相同的東西。然而，不幸的是，蘋果並不讓你訪問你的 Siri 語音數據。

因此，如果你正在尋找一個創業的想法，我不建議你嘗試建立自己的語音識別系統來與 Google 競爭。相反，你應該想個辦法，讓人們把自己講了幾個小時的錄音交給你。這種數據可以是你的產品。

新一期的組隊學習即將開始，9月將開始優秀的組長帶隊學習，一個組長2個優秀的助教，錯過就真錯過了，數據君不忽悠。。。

加入數據君高效數據分析社區，2種加人方式：

1：掃碼加入

2、加入方式：

seedata

猶豫的、不懂的、諮詢的不要加，加了也是殭屍，時間寶貴，你我都珍惜

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點