Zi 字媒體

機器人木琴演奏家Shimon：如何運用深度學習即興創作音樂？

2021/12/25

喬治亞理工大學音樂科技中心（The Georgia Tech Center for Music Technology）由喬治亞理工大學音樂學院教授Gil Weinberg創立，一直以來，它以機器人音樂創作而聞名於世。其開發出的AI和機器人可創作出令人驚嘆的音樂作品，極富創造力和專業精神。

Shimon便是喬治亞音樂科技中心的音樂家之一，它是一隻四臂機器人，會彈奏木琴，並能實時分析音樂，配合人類演奏。不過，雖然Shimon的才華有目共睹，但在此之前，它只會彈奏人類已經寫好的樂譜。現在，Shimon已經能夠運用深度學習來即興獨立創作樂曲了。更加值得一提的是，其創作出的樂曲節奏明晰，相當和諧，讓人驚嘆。如果你有幸聽過Shimon的處女原創作品，你會發現它頗具古典爵士的風味。

Shimon的開發者是Mason Bretan，他是喬治亞理工學院音樂技術中心的一名博士研究所，主攻音樂機器人方向，他致力於將「機器即興演奏、路徑規劃、身體認知」的功能最大化。旋律和和弦由四種基礎旋律組合而成，其通過神經網路譜寫。該神經網路接受過成熟的訓練，已經吸收了將近5000首完整歌曲（包括貝多芬、披頭士樂隊、Lady Gaga、Miles Davis和John Coltrane），以及200萬種樂旨、重複樂段、小樂句和其他的基礎音樂元素。

當Bretan運用了一個節奏更快的基礎旋律，Shimon則創作出了一首截然不同的音樂，風格更加明快。Shimon的第二首原創音樂便誕生了。

需要指出的是，Shimon既沒有將不同的音樂單位機械地結合在一起，也沒有使用某種隨意的音樂生成器，而是運用深度神經網路譜寫出樂曲，這就是Shimon的特別之處。事實上，Shimon所譜寫的每一首音樂，都是其機器學習的成果。它能概括和弦和和聲，並像人類一樣從大局出發，將重點放在樂曲的整體結構上，而不是思考一段譜寫一段，簡單機械地拼湊出下一部分的內容。

Bretan把它叫做「高層次的音樂語義學」。目前來看，Shimon的音樂已經達到了「以假亂真」的境界，我們已經無法判斷出它出自機器人之手。Weinberg用「優美、振奮人心、獨特」來形容Shimon的音樂，我們非常贊同他的評價：它的音樂整體性和和諧度非常高，同時別具一格。

為了了解更多的細節，我們通過email與Bretan和Weinberg進行了交流：

IEEE Spectrum：你們先前上傳了Shimon的演奏視頻，那麼，你們是不是特意選取了Shimon的優秀作品上傳，而稍微遜色的作品，則沒有上傳呢？

Gil Weinberg：

視頻中的音樂是Shimon運用深度學習創作的頭兩首曲子，我們並沒有特意選擇。這兩首曲子是Shimon學習的成果，它所學習到的內容讓它擁有了一個特定的資料庫。你可以想象一下，如果我們讓它學習的是其他的基礎旋律，那Shimon譜寫出來的曲子將會截然不同。

IEEE Spectrum：如果你們只讓Shimon學習一種類型的音樂（比如古典音樂，甚至某位特定作曲家或流派的古典音樂），那Shimon所創作的音樂是不是就能夠可以具有辨識度呢？如果是，可以到達何種程度呢？

Weinberg：

Shimon的音樂和它的訓練內容息息相關，因此，如果我們只訓練它吸收一位作曲家（或一種特定音樂流派）的作品，那麼它創作出的音樂風格將和此位作曲家（或此種音樂流派）非常一致，具有辨識度。不過，影響其作品的還有另外一個重要參數，那就是我們給予它的基礎音樂參數，它能讓Shimon的音樂形成自己的風格。

IEEE Spectrum：為什麼你訓練Shimon同時吸收樂旨、重複樂段、小樂句和其他的基礎音樂元素，和完整樂曲？它是如何將這微觀和宏觀的兩者融合在一起的？

Mason Bretan：

我們想讓神經網路學習重要的結構概念。我們學習寫故事，首先必須理解詞、句、段等結構概念。音樂創作也一樣，我們需要理解樂旨、重複樂段、小樂句、樂章等結構概念。我們鼓勵Shimon學習這些音樂概念，但我們並不是直截了當地告訴它「這是樂旨、這是完整樂曲、這是小樂句」，而是動態地訓練神經網路，讓它能夠重新排列組合基礎音樂單位，在前一個或多個小節的基礎上預測出下一個小節的內容。

IEEE Spectrum：您能詳細地描述下Shimon創作原創音樂的過程嗎？

首先，它需要學習音樂小片段，比如單個或多個節拍，這個步驟叫做「神經嵌入」，這是最重要的一步。在語言習得中，你也許聽說過"詞語矢量（word2ve或word to vector）」。何為「詞語矢量」？通俗來說，就是讓神經網路學習詞語概念（比如「好」、「很好」、「愉快」、「精彩」等表達相同語義的詞）。音樂創作中也有一個與此類似的過程，神經網路需要學習音樂小片段，並需知曉攜帶這些片段的載體。

第二步，它需要學習音樂小片段的排列方式，並作出預測。我們需要訓練神經網路在已有的音樂小節的基礎上，預測出下一個小節。確切來說，這和一般的機器人強化學習不太一樣。一般來說，機器人要解決問題，學習的是一系列分離的動作。但Shimon的學習方式則是持續的，它連續不斷地預測排列方式，一直處於參數更新的狀態之中。舉個例子，如果給出一個排列組合「1, 2, 1, 2, 1, 2, 1」，並讓Shimon預測數字「2」，那麼在訓練過程中，其預測的結果離「2」越遠，其更新參數的強度就越大。因此，只要開始訓練，Shimon就處於預測狀態之中。這樣連續不斷下去，最終一首曲子便作成了。

IEEE Spectrum：Shimon有自己的創作風格嗎？它創作的音樂和人類創作的音樂有何不同？

Weinberg：

機器人音樂創作的基本原理就是結合人類欣賞熱愛的音樂（運用機器聽覺和機器學習）和新的音樂演奏和思考方式（運用人類不使用的演算法）。深度學習架構旨在捕捉被人類使用的音樂概念和模式。我們可以在原有的演算法上加上以機器為基礎的數學排列，這樣一來，便能生成新奇的音樂。因此，Shimon的音樂聽起來「優美、振奮人心、而獨特」。

IEEE Spectrum：除了音樂創作，這種學習和即興創作技術還有什麼其他的實際應用嗎？

Weinberg：

我們正在將之運用在LSTM（長短時記憶）網路和單位選擇方法上，這兩種方法類似於「即興創作」，都可以應用於語言建模和語言生成領域。

IEEE Spectrum：那麼，你們接下來的計劃是什麼？

Weinberg：

現在，我們已經開始計劃運用深度學習來讓機器人學習人類的音樂表演方式，而不僅僅是學習符號記法。這樣一來，機器人不僅能學習音樂符號，也能通過控制微型計時、接合、聲調等參數，掌握演奏音樂的方式，因此，其創作的音樂會更豐富、讓人印象更加深刻。

Bretan：

接下來我的重點將轉到機器人與人類的差別中來。Shimon有四隻手臂，那麼相比於兩隻手臂、十根手指的人類，其創作的音樂有何不同？四肢手臂又是如何影響音樂創作的呢？這個問題，我們還有待研究。

Via: IEEE Spectrum

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點