Zi 字媒體

2017-07-25T20:27:27+00:00

耳聽為虛，眼見為實。現在，科技早已顛覆這一說法。實實在在的視頻擺在那裡，也可能是一個「假視頻」。美國華盛頓大學的一項新研究表明，基於現有公開的 Obama 音頻和視頻片段，人工智慧（AI）軟體可生成了高度逼真的假視頻。論文地址：在數據等多個領域能夠做到「正直」的人工智慧，也開始學會造假了。AI造假1.0：「照騙」今年3月，牛津大學的研究人員開發了一種AI系統，可以把靜態的圖片變成動態的視頻，甚至可以讓圖片里的人開口說話。他們使用一個人的圖片和音頻片段，來創建這段視頻。論文地址：在這個系統中，研究人員使用圖片識別，來確認人物的面孔。然後，AI系統操縱靜態圖片中人的口型，使其讓真實人物一樣說話。該系統適用於前所未有的面孔和音頻，也就是說，這些面孔即使沒有作為訓練數據出現的話，也可以使用這個系統，合成」假視頻」的效果。人工智慧專家Alex Champandard表示，雖然這些系統目前專註於改變口型，但在未來將可以改變面部表情和姿勢。他還表示，人們很快將無法分清哪些視頻是偽造的，哪些是真實的。另外，由於人工智慧工具讓這個過程變得快速、簡單，製作的門檻也就大大降低了，最後任何人都可以作出這樣的視頻。AI造假2.0：「視頻騙」此前，華盛頓大學的計算機科學家曾表示，通過分析從網上搜集的人物影像，無論是諸如施瓦辛格的名人，還是小布希/歐巴馬這樣的公眾人物，都可生成和他們極其相似的數字模型。這項技術由華盛頓大學SUPASORN SUWAJANAKORN等三人共同發明，他們坦言，之所以選用歐巴馬做研究範例，是因為他的高清視頻資源獲取非常容易，並且不受版許可權制。研究團隊用神經網路程序分析了視頻中的數百萬幀影像，以確定歐巴馬臉部的變化，比如：嘴唇、牙齒、嘴角以及下巴周邊的皺紋。神經網路程序學習了口型和各種聲音之間的聯繫。研究人員採集了音頻片段（原始音頻文件），再把口型和新的音頻文件剪輯匹配，再嫁接到新視頻。研究小組表示，他們並沒有塑造人物情緒，所以合成的新視頻並不完美，有時本該隨意的氛圍，歐巴馬錶情顯得過於嚴肅。不過他們也會嘗試，神經網路學習從音頻文件中預測人物情緒，從而產生相應的視覺效果。信任危機今年早些時候，法國音樂家弗朗索瓦絲·哈迪出現在一段YouTube視頻中。畫面之外的拍攝者問她，為什麼川普總統要指使他的新聞發言人肖恩·斯派塞，在總統就職典禮的觀禮人數問題上說謊。斯派塞只是給出了「另一種事實」。整個視頻看上去有些奇怪，特別是因為現年73歲的弗朗索瓦絲·哈迪看上去只有20歲，而且她的嗓音實際上來自於川普的顧問凱莉婭妮.康威（Kellyanne Conway）。這段視頻名為「替代面孔1.1版本」，由德國藝術家馬里奧·基林格曼尼（Mario Klingemann）創作。但是，這段視頻並不是基林格曼尼使用編輯軟體反覆調整后得來的，而是在一台台式電腦上使用生成式對抗網路(GAN)，花了幾天時間就製作完成了。自從伊恩·古德費洛（Ian Goodfellow）在14年發表了論文 Generative Adversarial Nets 以來，生成式對抗網路 GAN 廣受關注，加上學界大牛Yann Lecun 在 Quora 答題時曾說，他最激動的深度學習進展是生成式對抗網路，使得 GAN 成為近年來在機器學習領域的新寵。GAN 啟發自博弈論中的二人零和博弈（two-player game），GAN 模型中的兩位博弈方分別由生成式模型（generative model）和判別式模型（discriminative model）充當。生成模型 G 捕捉樣本數據的分佈，用服從某一分佈（均勻分佈，高斯分佈等）的雜訊 z 生成一個類似真實訓練數據的樣本，追求效果是越像真實樣本越好；判別模型 D 是一個二分類器，估計一個樣本來自於訓練數據（而非生成數據）的概率，如果樣本來自於真實的訓練數據，D 輸出大概率，否則，D 輸出小概率。可以做如下類比：生成網路 G 好比假幣製造團伙，專門製造假幣，判別網路 D 好比警察，專門檢測使用的貨幣是真幣還是假幣，G 的目標是想方設法生成和真幣一樣的貨幣，使得 D 判別不出來，D 的目標是想方設法檢測出來 G 生成的假幣。如圖所示：基林格曼尼的實驗預示著真實和謊言之間又開闢出了一個新型戰場。近年來，由於所謂的「假新聞」的傳播，文字信息的可信度正在受到衝擊。但圖像和聲音記錄依然在很大程度上保持了固有的可信度。然而，現在以GAN為代表的機器學習技術正在不斷動搖著這個可靠性。不同的造假「成本」一、音頻比較容易偽造通常，電腦通過連接許多預先錄製好的短小音頻片段創造句子，合成語音。蘋果的電子助手Siri的語音就是這樣產生的。但是，像這樣的電子語音卻受限於預先儲存的語音片段的範圍。只有在表達某些特定範圍內的短語的時候，才會聽起來非常逼真。生成式語音卻與此不同。通過使用神經網路，獲取待模擬音源的數據特質，接著就可以通過任何語言內容直接重構這些特質。這種技術不是以秒，而是以毫秒級為單位，模擬說話方式的轉變。想讓川普或者任何其他公眾人物說出給定內容，只要把他的演講錄音導入語音計算軟體，並告訴這個已經訓練的軟體你想讓這個人說出的話即可。過去幾年，DeepMind、百度深度學習研究院、蒙特利爾學習演算法研究所 (MILA)，都按照這樣的方式，發布了自己高度還原的文本—語音轉換程序。二、生成圖像則難得多「生成式對抗網路」（GAN ）的機器學習方式是伊恩·古德費洛Ian Goodfellow在2014年提出的，當時他是在深度學習之父約書亞·本吉奧Yoshua Bengio手下讀博的學生。伊恩·古德費洛Ian Goodfellow古德費洛發現雖然深度學習能讓機器很好地辨別各種類型的數據——例如區分一張貓照片和一張狗照片。但讓軟體按照這個去生成貓或者狗的照片，則根本一塌糊塗。對電腦來說就算從資料庫里學習了大量的訓練圖片，要生成一張有意義的照片也是困難重重。於是古德費洛採用了另外一個類似的概念博弈。他不再嘗試讓計算機一蹴而就，直接生成什麼有用的東西，而是用另一個agent——一個對抗者，對生成器的輸出進行評判，按照和訓練數據集中已有的真實照片的相似度，給出具體的評分來自數據集還是來自生成器的判斷。生成器根據辨別器的反饋，不斷進行修正逐步生成越來越像真實的圖像。談未來：顛覆與警惕古德費洛現在就職於 Google BrainGoogle 內部的人工智慧研究部門。他預測在三年內，可能就會出現幾乎可以以假亂真的 AI 生成視頻。也許其他專家預期的時間會比他的長，但業內基本認為這只是一個時間問題。「我們認為人工智慧將永遠改變我們對於哪些證據是可以信任的看法」古德費洛表示。對於飛速發展的人工智慧技術，在7月15日出席全美州長會議時，特斯拉CEO馬斯克又重新強調了人工智慧「是人類文明面臨的最大威脅」，並呼籲政府迅速而堅決地進行干預，監督這項技術的發展。馬斯克所最擔心的，就是前文提到的這類技術，人工智慧被拿來傷害人類。「它們可以散布假新聞，利用假的電子郵件賬號發布虛假新聞稿，從而挑起戰爭。」他說，「筆比刀更厲害。」除此之外，他還擔心人工智慧可能造成的失業與社會隱患。「機器人可以做任何東西，無一例外。」更多精彩，點擊下面圖片一分鐘看懂A.I企業簡史《區塊鏈產業白皮書》完整版

本文由yidianzixun提供原文連結

一點資訊

寫了 5860316篇文章，獲得 23313次喜歡

精彩推薦

推薦搜尋

Zi 字媒體

查看更多推薦