還記得英偉達(dá)去年推出的StyleGAN嗎?全新的生成器架構(gòu)讓這個“新一代GAN”生成的人臉真實到可怕?,F(xiàn)在,StyleGAN已經(jīng)開源,包括源代碼和官方TensorFlow實現(xiàn),附有詳細(xì)使用說明。多說一句,還請謹(jǐn)慎使用,不要讓StyleGAN成為第二個DeepFake。
還記得英偉達(dá)震撼世人的新一代GAN嗎?
以假亂真的精細(xì)人臉生成,令不少研究人員都驚呼:已經(jīng)無法分辨虛擬和現(xiàn)實!
上述人臉全部由計算機生成,StyleGAN的全新風(fēng)格遷移生成器架構(gòu)能控制發(fā)色、眼睛大小等臉部特征。來源:github.com/NVlabs/stylegan
現(xiàn)在,這個StyleGAN已經(jīng)開源,而且附上官方TensorFlow實現(xiàn)(點擊“閱讀原文”了解更多)。
論文、源代碼、高清Flickr人臉圖像數(shù)據(jù)集等所有的材料都公布了出來,非商業(yè)使用的情況下,這些素材任你使用和修改(Flickr人臉數(shù)據(jù)集參考另外的開源協(xié)議)。
Github庫里還包含了一個基礎(chǔ)的預(yù)訓(xùn)練StyleGAN生成器 pretrained_example.py,下載后使用相關(guān)Python代碼,就可以直接用來生成圖像了。
另一個更高級的樣例是 generate_figures.py,這個腳本是用來生成論文中風(fēng)格變換/混合、鼻子大小和發(fā)色調(diào)整等功能。
更詳細(xì)的使用說明請參考Github庫(點擊“閱讀原文”訪問)。
不過,需要提前說明的是,要生成1024*1024分辨率的圖像,如果使用英偉達(dá)Tesla V100 GPU做訓(xùn)練,硬件配置和訓(xùn)練時間如下:
“使用較少的GPU可能無法實現(xiàn)與論文同樣的效果——如果你想跟我們的技術(shù)一較高下,我們強烈推薦你使用同樣數(shù)量的GPU?!?
開源StyleGAN,莫非還有一絲賣顯卡的因素(誤)。
新一代StyleGAN:圖像逼真到可怕,能生成世界萬物
基于GAN的架構(gòu)一個又一個推出,要是你一時間想不起來StyleGAN也沒關(guān)系,多上幾張圖有助于你回憶:
這個模型并不完美,但確實有效,而且不僅僅可用于人類,還能用于汽車、貓、風(fēng)景圖像的生成。
英偉達(dá)研究人員在論文中寫道,他們提出的新架構(gòu)可以完成自動學(xué)習(xí),無監(jiān)督地分離高級屬性(例如在人臉上訓(xùn)練時的姿勢和身份),以及生成圖像中的隨機變化,并且可以對合成進(jìn)行更直觀且特定于比例的控制。
換句話說,這種新一代GAN在生成和混合圖像,特別是人臉圖像時,可以更好地感知圖像之間有意義的變化,并且在各種尺度上針對這些變化做出引導(dǎo)。
例如,在上面的動圖中,其實面部已經(jīng)完全變了,但“源”和“樣式”的明顯標(biāo)記顯然都得到了保留。為什么會這樣?請注意,所有這些都是完全可變的,這里說的變量不僅僅是A + B = C,而且A和B的所有方面都可以存在/不存在,具體取決于設(shè)置的調(diào)整方式。
而StyleGAN之所以強大,就在于它使用了基于風(fēng)格遷移的全新生成器架構(gòu):
傳統(tǒng)生成器架構(gòu)和基于風(fēng)格的生成器架構(gòu)對比
在傳統(tǒng)方式中,隱碼(latent code)是通過輸入層提供給生成器的,即前饋網(wǎng)絡(luò)的第一層(圖1a)。而英偉達(dá)團隊完全省略了輸入層,從一個學(xué)習(xí)的常量(learned constant)開始,從而脫離了傳統(tǒng)的設(shè)計(圖1b,右)。在輸入隱空間Z中,給定一個隱碼z,一個非線性網(wǎng)絡(luò) f:Z→W首先生成w∈W(圖1b,左)。
英偉達(dá)團隊的生成器架構(gòu)可以通過對樣式進(jìn)行特定尺度的修改來控制圖像合成??梢詫⒂成渚W(wǎng)絡(luò)和仿射變換看作是一種從學(xué)習(xí)分布(learned distribution)中為每種樣式繪制樣本的方法,而將合成網(wǎng)絡(luò)看作是一種基于樣式集合生成新圖像的方法。修改樣式的特定子集可能只會影響圖像的某些方面。
負(fù)責(zé)任地使用,避免成為又一個“DeepFake”
之前,大多數(shù)研究都集中在如何提高“換臉”技術(shù)上,也就是如何讓計算機生成超逼真的人臉。
誰料,這種技術(shù)發(fā)展的濫用造成了反效果,也即所謂的“DeepFake”?,F(xiàn)在,DeepFake已被用于指代所有看起來或聽起來像真的一樣的假視頻或假音頻。
去年底,Idiap 生物識別安全和隱私小組負(fù)責(zé)人 (注:Idiap研究所是瑞士的一家半私人非營利性研究機構(gòu),隸屬于洛桑聯(lián)邦理工學(xué)院和日內(nèi)瓦大學(xué),進(jìn)行語音、計算機視覺、信息檢索、生物認(rèn)證、多模式交互和機器學(xué)習(xí)等領(lǐng)域的研究)、瑞士生物識別研究和測試中心主任 Sébastien Marcel 和他的同事、Idiap 研究所博士后 Pavel Korshunov 共同撰寫了論文,首次對人臉識別方法檢測 DeepFake 的效果進(jìn)行了較為全面的測評。
他們經(jīng)過一系列實驗發(fā)現(xiàn),當(dāng)前已有的先進(jìn)人臉識別模型和檢測方法,在面對 DeepFake 時基本可以說是束手無策——性能最優(yōu)的圖像分類模型 VGG 和基于 Facenet 的算法,分辨真假視頻錯誤率高達(dá) 95%;基于唇形的檢測方法,也基本檢測不出視頻中人物說話和口型是否一致。
Pavel Korshunov 和 Sébastien Marcel 指出,隨著換臉技術(shù)的不斷發(fā)展,更加逼真的 DeepFake 視頻,將對人臉識別技術(shù)構(gòu)成更大的挑戰(zhàn)。
“在 DeepFake 方法和檢測算法之間的一場新的軍備競賽可能已經(jīng)開始了?!?
StyleGAN的開源,無疑也會增強DeepFake的制作。因此,谷歌大腦研究員Eric Jang呼吁,請負(fù)責(zé)任地使用!
原文標(biāo)題:英偉達(dá)“AI假臉王”開源:新一代GAN攻破幾乎所有人臉識別系統(tǒng)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。