Zi 字媒體

不是標題黨！AI可能真的要代替插畫師了...

2021/12/25

編者按：本文來源於知乎專欄「AI Insight」，作者何之源；36氪經授權發布。

事先聲明，這篇文章的標題絕不是在聳人聽聞。事情的起因是在朋友圈看到同學在轉發一篇論文，名字叫《Create Anime Characters with A.I. !》（論文地址），打開一看，論文主要是通過各式屬性生成二次元人物的頭像，使用的方法是cGAN，效果非常impressive。

下圖左側為通過屬性blonde hair, twin tails, blush, smile, ribbon, red eyes生成的人物，右側是通過屬性silver hair, long hair, blush, smile, open mouth, blue eyes生成的人物，都表現得非常自然，完全看不出是機器自動生成的：

模型生成的隨機樣本：

固定cGAN雜訊部分生成的樣本，此時人物具有不同的屬性，但是面部細節和面朝的角度基本一致：

更加令人興奮的是，作者搭建了一個網站，任何人都能隨時利用訓練好的模型生成圖像，進行實驗！網站的地址為：

MakeGirls.moe

。

打開網站后需要等待進度條載入完畢，這個時候是在下載模型：

這裡的按鈕的含義都比較簡單，總的來說我們要先選定一些屬性（完全隨機也是可以的），然後點擊左側的generate按鈕生成：

完全隨機生成的結果，看起來非常好：

選擇發色（Hair Color）為金色（Blonde），髮型（Hair Style）為雙馬尾（Twin Tail），點擊生成，效果同樣很贊！如下圖：

技術細節

我之前也寫過兩篇文章，一篇介紹了GAN的原理（GAN學習指南：從原理入門到製作生成Demo），一篇介紹了cGAN的原理（通過文字描述來生成二次元妹子！聊聊conditional GAN與txt2img模型），這兩篇文章都是以生成二次元人物來舉例，但是生成的結果都比較差，只能看出大概的雛形。今天的這篇論文大的技術框架還是cGAN，只是對原來的生成過程做了兩方面的改進，一是使用更加乾淨、質量更高的資料庫，二是GAN結構的改進，下面就分別進行說明。

改進一：更高質量的圖像庫

之前使用的訓練數據集大多數是使用爬蟲從Danbooru或Safebooru這類網站爬下來的，這類網站的圖片大多由用戶自行上傳，因此質量、畫風參差不齊，同時還有不同的背景。這篇文章的數據來源於getchu，這本身是一個遊戲網站，但是在網站上有大量的人物立繪，圖像質量高，基本出於專業畫師之手，同時背景統一：

除了圖像外，為了訓練cGAN，還需要圖像的屬性，如頭髮顏色、眼睛的顏色等。作者使用Illustration2Vec，一個預訓練的CNN模型來產生這些標籤

此外，作者採取了和原始的GAN不同的結構和訓練方法。總的訓練框架來自於DRAGAN（arxiv），經過實驗發現這種訓練方法收斂更快並且能產生更穩定的結果。

生成器G的結構類似於SRResNet（arxiv）：

判別器也要做一點改動，因為人物的屬性相當於是一種多分類問題，所以要把最後的Softmax改成多個Sigmoid：

詳細的訓練和參數設定可以參照原論文。

雖然大多數的圖像樣本都比較好，但作者也提出了該模型的一些缺點。由於訓練數據中各個屬性的分佈不均勻，通過某些罕見的屬性組合生成出的圖片會發生模式崩壞。比如屬性帽子(hat)、眼鏡(glasses)，不僅比較複雜，而且在訓練樣本中比較少見，如果把這些屬性組合到一起，生成的圖片的質量就比較差。

如下圖，左側為aqua hair, long hair, drill hair, open mouth, glasses, aqua eyes對應的樣本，右側為orange hair, ponytail, hat, glasses, red eyes, orange eyes對應的樣本，相比使用常見屬性生成的圖片，這些圖片的質量略差：

總結

這項工作確實令人印象深刻，生成的圖片質量非常之高，個人認為如果加以完善，完全可以在某種程度上替代掉插畫師的一部分工作。最後附上文中提到的一些資源：

網站（已有訓練好的模型，打開就可以嘗試生成）

論文地址

Github（目前只有網站的js源碼，看介紹訓練模型的代碼會在近期放出）

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點