3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
耳聽為虛,眼見為實。現在,科技早已顛覆這一說法。實實在在的視頻擺在那裡,也可能是一個「假視頻」。美國華盛頓大學的一項新研究表明,基於現有公開的 Obama 音頻和視頻片段,人工智慧(AI)軟體可生成了高度逼真的假視頻。論文地址:在數據等多個領域能夠做到「正直」的人工智慧,也開始學會造假了。AI造假1.0:「照騙」今年3月,牛津大學的研究人員開發了一種AI系統,可以把靜態的圖片變成動態的視頻,甚至可以讓圖片里的人開口說話。他們使用一個人的圖片和音頻片段,來創建這段視頻。論文地址:在這個系統中,研究人員使用圖片識別,來確認人物的面孔。然後,AI系統操縱靜態圖片中人的口型,使其讓真實人物一樣說話。該系統適用於前所未有的面孔和音頻,也就是說,這些面孔即使沒有作為訓練數據出現的話,也可以使用這個系統,合成」假視頻」的效果。人工智慧專家Alex Champandard表示,雖然這些系統目前專註於改變口型,但在未來將可以改變面部表情和姿勢。他還表示,人們很快將無法分清哪些視頻是偽造的,哪些是真實的。另外,由於人工智慧工具讓這個過程變得快速、簡單,製作的門檻也就大大降低了,最後任何人都可以作出這樣的視頻。AI造假2.0:「視頻騙」此前,華盛頓大學的計算機科學家曾表示,通過分析從網上搜集的人物影像,無論是諸如施瓦辛格的名人,還是小布希/歐巴馬這樣的公眾人物,都可生成和他們極其相似的數字模型。這項技術由華盛頓大學SUPASORN SUWAJANAKORN等三人共同發明,他們坦言,之所以選用歐巴馬做研究範例,是因為他的高清視頻資源獲取非常容易,並且不受版許可權制。研究團隊用神經網路程序分析了視頻中的數百萬幀影像,以確定歐巴馬臉部的變化,比如:嘴唇、牙齒、嘴角以及下巴周邊的皺紋。神經網路程序學習了口型和各種聲音之間的聯繫。研究人員採集了音頻片段(原始音頻文件),再把口型和新的音頻文件剪輯匹配,再嫁接到新視頻。研究小組表示,他們並沒有塑造人物情緒,所以合成的新視頻並不完美,有時本該隨意的氛圍,歐巴馬錶情顯得過於嚴肅。不過他們也會嘗試,神經網路學習從音頻文件中預測人物情緒,從而產生相應的視覺效果。信任危機今年早些時候,法國音樂家弗朗索瓦絲·哈迪出現在一段YouTube視頻中。畫面之外的拍攝者問她,為什麼川普總統要指使他的新聞發言人肖恩·斯派塞,在總統就職典禮的觀禮人數問題上說謊。斯派塞只是給出了「另一種事實」。整個視頻看上去有些奇怪,特別是因為現年73歲的弗朗索瓦絲·哈迪看上去只有20歲,而且她的嗓音實際上來自於川普的顧問凱莉婭妮.康威(Kellyanne Conway)。這段視頻名為「替代面孔1.1版本」,由德國藝術家馬里奧·基林格曼尼(Mario Klingemann)創作。但是,這段視頻並不是基林格曼尼使用編輯軟體反覆調整后得來的,而是在一台台式電腦上使用生成式對抗網路(GAN),花了幾天時間就製作完成了。自從伊恩·古德費洛(Ian Goodfellow) 在14年發表了論文 Generative Adversarial Nets 以來,生成式對抗網路 GAN 廣受關注,加上學界大牛Yann Lecun 在 Quora 答題時曾說,他最激動的深度學習進展是生成式對抗網路,使得 GAN 成為近年來在機器學習領域的新寵。GAN 啟發自博弈論中的二人零和博弈(two-player game),GAN 模型中的兩位博弈方分別由生成式模型(generative model)和判別式模型(discriminative model)充當。生成模型 G 捕捉樣本數據的分佈,用服從某一分佈(均勻分佈,高斯分佈等)的雜訊 z 生成一個類似真實訓練數據的樣本,追求效果是越像真實樣本越好;判別模型 D 是一個二分類器,估計一個樣本來自於訓練數據(而非生成數據)的概率,如果樣本來自於真實的訓練數據,D 輸出大概率,否則,D 輸出小概率。可以做如下類比:生成網路 G 好比假幣製造團伙,專門製造假幣,判別網路 D 好比警察,專門檢測使用的貨幣是真幣還是假幣,G 的目標是想方設法生成和真幣一樣的貨幣,使得 D 判別不出來,D 的目標是想方設法檢測出來 G 生成的假幣。如圖所示:基林格曼尼的實驗預示著真實和謊言之間又開闢出了一個新型戰場。近年來,由於所謂的「假新聞」的傳播,文字信息的可信度正在受到衝擊。但圖像和聲音記錄依然在很大程度上保持了固有的可信度。然而,現在以GAN為代表的機器學習技術正在不斷動搖著這個可靠性。不同的造假「成本」一、音頻比較容易偽造通常,電腦通過連接許多預先錄製好的短小音頻片段創造句子,合成語音。蘋果的電子助手Siri的語音就是這樣產生的。但是,像這樣的電子語音卻受限於預先儲存的語音片段的範圍。只有在表達某些特定範圍內的短語的時候,才會聽起來非常逼真。生成式語音卻與此不同。通過使用神經網路,獲取待模擬音源的數據特質,接著就可以通過任何語言內容直接重構這些特質。這種技術不是以秒,而是以毫秒級為單位,模擬說話方式的轉變。想讓川普或者任何其他公眾人物說出給定內容,只要把他的演講錄音導入語音計算軟體,並告訴這個已經訓練的軟體你想讓這個人說出的話即可。過去幾年,DeepMind、百度深度學習研究院、蒙特利爾學習演算法研究所 (MILA),都按照這樣的方式,發布了自己高度還原的文本—語音轉換程序。二、生成圖像則難得多「生成式對抗網路」(GAN )的機器學習方式是伊恩·古德費洛Ian Goodfellow在2014年提出的,當時他是在深度學習之父約書亞·本吉奧Yoshua Bengio手下讀博的學生。伊恩·古德費洛Ian Goodfellow古德費洛發現雖然深度學習能讓機器很好地辨別各種類型的數據——例如區分一張貓照片和一張狗照片。但讓軟體按照這個去生成貓或者狗的照片,則根本一塌糊塗。對電腦來說就算從資料庫里學習了大量的訓練圖片,要生成一張有意義的照片也是困難重重。於是古德費洛採用了另外一個類似的概念博弈。他不再嘗試讓計算機一蹴而就,直接生成什麼有用的東西,而是用另一個agent——一個對抗者,對生成器的輸出進行評判,按照和訓練數據集中已有的真實照片的相似度,給出具體的評分來自數據集還是來自生成器的判斷。生成器根據辨別器的反饋,不斷進行修正逐步生成越來越像真實的圖像。談未來:顛覆與警惕古德費洛現在就職於 Google BrainGoogle 內部的人工智慧研究部門。他預測在三年內,可能就會出現幾乎可以以假亂真的 AI 生成視頻。也許其他專家預期的時間會比他的長,但業內基本認為這只是一個時間問題。「我們認為人工智慧將永遠改變我們對於哪些證據是可以信任的看法」 古德費洛表示。對於飛速發展的人工智慧技術,在7月15日出席全美州長會議時,特斯拉CEO馬斯克又重新強調了人工智慧「是人類文明面臨的最大威脅」,並呼籲政府迅速而堅決地進行干預,監督這項技術的發展。馬斯克所最擔心的,就是前文提到的這類技術,人工智慧被拿來傷害人類。「它們可以散布假新聞,利用假的電子郵件賬號發布虛假新聞稿,從而挑起戰爭。」他說,「筆比刀更厲害。」除此之外,他還擔心人工智慧可能造成的失業與社會隱患。「機器人可以做任何東西,無一例外。」更多精彩,點擊下面圖片 一分鐘看懂A.I企業簡史 《區塊鏈產業白皮書》完整版

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦