search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

如何使用深度學習重建高解析度音頻?

「機器人圈」導覽:關於高解析度音頻的炫酷想必大家都清楚,那麼管如何構建呢?物理博士Jeffrey Hetherly在受到深度學習成功應用於圖像超解析度的啟發后,開始使用深度神經網路在這一領域探索,下面就和機器人圈一起來學習一下吧。

音頻超解析度旨在重建一個以較低解析度波形作為輸入的高解析度音頻波形。在諸如流式音頻和音頻恢復之類的領域中,這種類型的上採樣存在著若干種潛在應用。一個傳統的解決方案是使用音頻剪輯的資料庫,憑藉相似性指標來填充下採樣波形中的缺失頻率(見本文和本文)。由於受到深度學習成功應用於圖像超解析度的啟發,我最近致力於使用深層神經網路來完成原始音頻波形的上採樣。在制定了幾種方法之後,我把注意力主要集中於實施和自定義最近將發表於2017年國際學習代表會議(ICLR)上的研究論文。

雖然音頻上採樣在大量的領域中都可能是有用的,但我只專註於潛在的IP語音應用程序。我為這個項目選擇的數據集是一個TED演講的集合,大小大約為35 GB。每個講話都位於一個單獨的文件中,比特率為16千比特每秒(kbps),這被認為是高質量的語音音頻。這個數據集主要包含一些非常精彩的英語演講,而這是從大量演講者在面對不同觀眾的演講中挑選出來的。這些TED演講的質量與人們在IP語音對話期間所期望的值近似。

預處理步驟如上圖所示。每個文件的第一個和最後30秒被修剪以便刪除TED演講的開始和結束部分。然後將文件拆分為2秒的剪輯,並以4 kbps的速率創建一個獨立的,4x下採樣的剪輯集合以及一組原始速率為16 kbps的集合。60%的數據集用於訓練,20%用於驗證,20%用於測試。

上圖中列出的訓練工作流程使用數據預處理步驟中的下採樣片段,並將其批量饋入模型(深層神經網路)以更新其權重。具有最低驗證分數的模型(表示為「最佳模型」)被保存以供接下來使用。

在上圖中給出了使用「最佳模型」對音頻文件進行上採樣的過程。該工作流採用整個音頻文件,與預處理步驟類似地將其拼接到剪輯中,將它們依次饋送到經過訓練后的模型中,將高解析度剪輯縫合在一起,並將高解析度文件保存到磁碟中。

模型架構

我所實現的模型架構是U-Net,它使用的是子像素卷積的一維模擬而不是反卷積層。我使用Tensorflow的Python API構建和訓練模型,同時使用Tensorflow的C ++ API實現子像素卷積層。該模型的工作原理如下:

下採樣波形通過八個下採樣塊發送,每個採樣塊都由步幅為2的卷積層組成。在每個層上,濾波器組的數量加倍,使得沿著波形的維度減小了一半,濾波器組的尺寸增加了兩個。

該瓶頸層被構造成與下採樣塊相同,這個下採樣塊與8個上採樣塊相連,而這些塊與下行採樣塊是有殘留連接的。這些殘留連接允許共享從低解析度波形學習到的特徵。

上採樣塊使用子像素卷積,其沿著一個維度重新排列信息以擴展其他維度。

在原始輸入中添加了具有重新排列和重新排序操作的最終卷積層,以便產生上採樣波形。

所使用的損耗函數是輸出波形與原始高解析度波形之間的均方差。

性能

上圖顯示了在10個訓練時期之後,測試樣本的兩項性能指標。左列是頻率與時間的頻譜圖,右邊是波形振幅對時間的曲線。

第一行包含原始高解析度音頻樣本的頻譜圖和波形圖。

中間行包含原始音頻樣本的4x下採樣版本的相似圖。請注意,下採樣頻率圖中缺少3/4的最高頻率。

最後一行包含訓練模型輸出的語譜圖和波形圖。

插入值是兩個量化的性能度量指標:信噪比(SNR)和對數光譜距離(LSD)。較高的SNR值表示更清晰的聲音,而較低的LSD值表示匹配的頻率內容。LSD值顯示神經網路正在嘗試在適當的地方恢復較高的頻率。然而,稍低的SNR值意味著音頻可能不是清晰的。

一篇受到這個架構啟發的論文聲稱對數據進行了400次的訓練,而由於時間限制,我只能訓練10次。較長的訓練周期可能導致重建波形的清晰度提高。你可以在下面聆聽測試集中的示例音頻剪輯。前5秒剪輯是原始音頻16 kbps,第二個是4kbps的下採樣音頻,最後一個是16kbps的重建音頻。

1.從測試集中以16 kbps的隨機剪輯。

2.下採樣版本的上述剪輯。請注意,所有高頻內容都丟失。

3.重建剪輯。大部分高頻內容已經以犧牲清晰度的代價來恢復。

開源貢獻

下採樣音頻的重建可以有各種應用,更令人興奮的是將這些技術應用於其他非音頻信號的可能性。我鼓勵你採用和修改我的github repo提供的代碼,從而對這些代碼進行實驗。

除了提供這些實驗的代碼之外,我還希望為日益增長的應用AI社區提供更多的開源資源。由於子像素卷積層是一種可能對深入學習研究人員和工程師都有用的通用操作,因此我一直在對TensorFlow作出貢獻,並與他們的團隊緊密合作,以便將其整合到代碼庫中。

作者:Jeffrey Hetherly



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦