search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

不是標題黨!AI可能真的要代替插畫師了...

編者按:本文來源於知乎專欄「AI Insight」,作者何之源 ;36氪經授權發布。

事先聲明,這篇文章的標題絕不是在聳人聽聞。事情的起因是在朋友圈看到同學在轉發一篇論文,名字叫《Create Anime Characters with A.I. !》(論文地址),打開一看,論文主要是通過各式屬性生成二次元人物的頭像,使用的方法是cGAN,效果非常impressive。

下圖左側為通過屬性blonde hair, twin tails, blush, smile, ribbon, red eyes生成的人物,右側是通過屬性silver hair, long hair, blush, smile, open mouth, blue eyes生成的人物,都表現得非常自然,完全看不出是機器自動生成的:

模型生成的隨機樣本:

固定cGAN雜訊部分生成的樣本,此時人物具有不同的屬性,但是面部細節和面朝的角度基本一致:

更加令人興奮的是,作者搭建了一個網站,任何人都能隨時利用訓練好的模型生成圖像,進行實驗!網站的地址為:

MakeGirls.moe

打開網站后需要等待進度條載入完畢,這個時候是在下載模型:

這裡的按鈕的含義都比較簡單,總的來說我們要先選定一些屬性(完全隨機也是可以的),然後點擊左側的generate按鈕生成:

完全隨機生成的結果,看起來非常好:

選擇發色(Hair Color)為金色(Blonde),髮型(Hair Style)為雙馬尾(Twin Tail),點擊生成,效果同樣很贊!如下圖:

技術細節

我之前也寫過兩篇文章,一篇介紹了GAN的原理(GAN學習指南:從原理入門到製作生成Demo),一篇介紹了cGAN的原理(通過文字描述來生成二次元妹子!聊聊conditional GAN與txt2img模型),這兩篇文章都是以生成二次元人物來舉例,但是生成的結果都比較差,只能看出大概的雛形。今天的這篇論文大的技術框架還是cGAN,只是對原來的生成過程做了兩方面的改進,一是使用更加乾淨、質量更高的資料庫,二是GAN結構的改進,下面就分別進行說明。

改進一:更高質量的圖像庫

之前使用的訓練數據集大多數是使用爬蟲從Danbooru或Safebooru這類網站爬下來的,這類網站的圖片大多由用戶自行上傳,因此質量、畫風參差不齊,同時還有不同的背景。這篇文章的數據來源於getchu,這本身是一個遊戲網站,但是在網站上有大量的人物立繪,圖像質量高,基本出於專業畫師之手,同時背景統一:

除了圖像外,為了訓練cGAN,還需要圖像的屬性,如頭髮顏色、眼睛的顏色等。作者使用Illustration2Vec,一個預訓練的CNN模型來產生這些標籤

此外,作者採取了和原始的GAN不同的結構和訓練方法。總的訓練框架來自於DRAGAN(arxiv),經過實驗發現這種訓練方法收斂更快並且能產生更穩定的結果。

生成器G的結構類似於SRResNet(arxiv):

判別器也要做一點改動,因為人物的屬性相當於是一種多分類問題,所以要把最後的Softmax改成多個Sigmoid:

詳細的訓練和參數設定可以參照原論文。

雖然大多數的圖像樣本都比較好,但作者也提出了該模型的一些缺點。由於訓練數據中各個屬性的分佈不均勻,通過某些罕見的屬性組合生成出的圖片會發生模式崩壞。比如屬性帽子(hat)、眼鏡(glasses),不僅比較複雜,而且在訓練樣本中比較少見,如果把這些屬性組合到一起,生成的圖片的質量就比較差。

如下圖,左側為aqua hair, long hair, drill hair, open mouth, glasses, aqua eyes對應的樣本,右側為orange hair, ponytail, hat, glasses, red eyes, orange eyes對應的樣本,相比使用常見屬性生成的圖片,這些圖片的質量略差:

總結

這項工作確實令人印象深刻,生成的圖片質量非常之高,個人認為如果加以完善,完全可以在某種程度上替代掉插畫師的一部分工作。最後附上文中提到的一些資源:

網站(已有訓練好的模型,打開就可以嘗試生成)

論文地址

Github(目前只有網站的js源碼,看介紹訓練模型的代碼會在近期放出)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦