search
越來越像人類的 AI 會不會是未來的「終結者」?

越來越像人類的 AI 會不會是未來的「終結者」?

「有人模仿我的臉,有人模仿我的面。」

這本來是汪涵調侃自己大眾臉的一句廣告詞,可如今真的能通過技術創造出假的「你」。

華盛頓大學的研究人員開發出新的演算法,可以把一段音頻通過剪輯,移植到另一段視頻上。視頻中人說話時嘴唇的動作幾乎和聲音完美對應,可以達到以假亂真的效果。

視頻中左邊是原版的視頻。右邊是經過演算法合成的新視頻,用的還是左邊視頻中的聲音,但圖像是全新生成的。

換句話說,通過這項技術,我們將來看到的視頻中,這些人可能並沒有在這個場合說過這些話。這項技術是將人說話的聲音轉化為對應嘴型,然後將其移植到一個現有的視頻素材中,生成一段全新的視頻。如果仔細看的話,能夠發現右邊視頻中歐巴馬嘴巴的動作有一點模糊,因為嘴部是 AI 生成的圖像。

之所以用歐巴馬作為測試對象,是因為他的視頻在網上有較多的素材,機器學習會更容易實現。據研究人員透露,整個學習過程需要用 17 個小時的視頻作為訓練素材。將來視頻素材的長度有希望壓縮到 1 個小時。

擬人形象的「恐怖谷」理論

我們都看過一些口型對不上的視頻,比如雙簧表演。當聲音發出時牙齒、下巴沒有跟著同步移動,人們就會馬上感覺到是假的,會有一種滑稽的感覺。而這種現象放在電影中,就成了很多動畫作品的難題。

這就是「恐怖谷」理論。

  • 一個形象與人的相似度較低時,比如 50%-60%,人們對它會有一定的好感度,像一些卡通人物。
  • 這個形象與人相似度極高,比如蠟像,接近 99%,也會讓人產生好感。
  • 如果它大部分形象像人,有些部分又不像,相似度在 80%-90% 徘徊,就會讓人產生厭惡,甚至恐怖的感覺,比如電影中的殭屍。

《玩具總動員》中的胡迪也被視為恐怖谷的例子

在進行音頻-視頻合成時,如果嘴部動作和聲音對不上號,就會出現音畫不同步的現象,人們會很明顯察覺是假視頻。深度學習的演算法需要有大量數據做支撐,而網上已經有大量採訪、影視節目和其他來源的數百萬小時的視頻。有這些視頻作為機器學習的素材,就可以生成一個較為完美的音畫同步視頻。

AI 在計算機視覺上的應用

關於 AI 演算法在計算機視覺領域的應用,已經有不少的例子。比如前段時間在國外很火的FaceApp,照片上的人經過處理後會露出「迷人」的微笑。這背後就使用了卷積神經網路技術,它會分析圖片中人的膚色、臉型等相關信息,然後通過演算法對嘴部肌肉走向進行重新繪製。

華盛頓大學研發團隊表示,他們希望通過這項技術來改進視頻聊天工具的體驗。用戶可以用自己之前的視頻訓練軟體,然後當需要與人交談時,就可以通過聲音自動生成視頻。我們都知道視頻聊天時所需要傳輸的數據比音頻聊天多,在網路條件不好的情況下,軟體通常會自動切斷聊天。只傳輸音頻可以節省流量,這樣在網路連接不穩定時也能自動生成視頻。

聽別人說話時,看著嘴部動作會更容易理解語言的表達內容,有些懂唇語的人甚至在不聽聲音的情況下也能理解語言。在一些環境不允許的情況下,這項技術能讓只有聲音的視頻會議更順暢地進行。我們甚至能通過這個技術與一些故去的人對話。

有人擔心這樣的工具會被用於製造有誤導性的視頻素材,導致假新聞泛濫。因為從技術上講,完全可以把任何人的聲音安插到其他人的臉上。研發團隊表示他們已經有意識地不去把一個人的話放在另一個人臉上。通過逆向推導,他們還可以開發出識別一個視頻是否真實的演算法。

是我的聲音,但不是我說的

你可能覺得聲音可以辨識,如果音頻和視頻不是同一個人很容易就能發現。但根據 Adobe 的另一項技術,聲音也可以被「創造」。

在 2016 年 Adobe Max 大會上,開發人員展示了一款代號為 Project VoCo 的軟體。它和之前的音頻編輯軟體不同,你可以在一段聲音里直接插入和改動某幾個單詞。理論上只要有約 20 分鐘的錄音,Project VoCo 就可以理解一個人聲音的構成並進行複製。也就是說利用它可以生成一段你從未說過,但確實是你聲音的話。

沒錯,AI 的模仿能力已經超乎你的想象,《終結者》中高度模擬的機器人正在一步步實現。可能又會有人喊著「機器人毀滅人類」的擔憂來發聲,還有「人工智慧該不該有自我意識」的討論...

現在考慮這些還為時尚早。這種對技術進步的「提前憂慮」毫無必要,否則和把共享腳踏車扔到河底的摩的司機有何區別?只要技術的初衷不是惡意,就不應該在它正發展進行遏制。管控應該隨著技術的進步跟進,而不是預防。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23295次喜歡
留言回覆
回覆
精彩推薦