8x福利精品第一导航,国产在线播放微拍视频,国产jk好大好硬的视频,久久天天丁香婷婷中文字幕

  • 服務熱線:13728883399
  • wangyp@shangeai.com

AI技術干貨 | 超長綜述讓你走近深度人臉識別

時間:2018-05-09 12:23:58點擊:492次

來源:人工智能前沿講習班 作者: 葛政

相信做機器學習或深度學習的同學們回家總會有這樣一個煩惱:親朋好友詢問你從事什么工作的時候,如何通俗地解釋能避免尷尬?

我嘗試過很多名詞來形容自己的工作:機器學習,深度學習,算法工程師/研究員,搞計算機的,程序員...這些詞要么自己覺得不滿意,要么對方聽不懂。經歷無數次失敗溝通,最后總結了一個簡單實用的答案:“做人臉識別的”。

今天出這篇人臉識別,是基于我過去三個月在人臉識別方向小小的探索,希望能為非技術從業(yè)者提供人臉識別的基本概念(第一部分),以及為人臉識別愛好者和入門人員提供儲備知識和實驗數據參考(第二、第三部分),也歡迎專業(yè)人士提供寶貴的交流意見。

本文將從接下來三個方面介紹人臉識別,讀者可根據自身需求選擇性閱讀:

  • Chapter 1:人臉識別是什么?怎么識別?
  • Chapter 2:科研領域近期進展
  • Chapter 3:實驗及細節(jié)

Chapter 1

人臉識別是什么

人臉識別問題宏觀上分為兩類:1. 人臉驗證(又叫人臉比對)2. 人臉識別。

人臉驗證做的是 1 比 1 的比對,即判斷兩張圖片里的人是否為同一人。最常見的應用場景便是人臉解鎖,終端設備(如手機)只需將用戶事先注冊的照片與臨場采集的照片做對比,判斷是否為同一人,即可完成身份驗證。

人臉識別做的是 1 比 N 的比對,即判斷系統(tǒng)當前見到的人,為事先見過的眾多人中的哪一個。比如疑犯追蹤,小區(qū)門禁,會場簽到,以及新零售概念里的客戶識別。

人臉識別,怎么識別

這部分只想闡明一個核心思想:不同人臉由不同特征組成。

理解這個思想,首先需要引入的的是“特征”的概念。先看下面這個例子:

假設這 5 個特征足夠形容一張人臉,那每張人臉都可表示為這 5 個特征的組合:

(特征1,特征2,特征3,特征4,特征5)

一位雙眼皮,挺鼻梁,藍眼睛,白皮膚,瓜子臉的歐美系小鮮肉即可用特征表示為(見表格加粗項):

(1,1,0,1,0)

那么遍歷上面這張?zhí)卣鞅砀褚还部梢源韽埐煌哪槨?2 張臉可遠遠不夠覆蓋 70 多億的人口。為了讓不同特征組成的人臉能覆蓋足夠多人臉,我們需要擴充上面那張?zhí)卣鞅?。擴張?zhí)卣鞅砜梢詮男?、列兩個角度展開。

列的角度很簡單,只需要增加特征數量:(特征6.臉型,特征7.兩眼之間距離,特征8.嘴唇厚薄...)實際應用中通常應用 128,256,512 或者 1024 個不同特征,這么多特征從哪來,該不會人為一個一個去設計吧?這個問題在后面會解答。

經過這樣的擴充,特征空間便會變得無限大。擴充后特征空間里的一張臉可能表示為:

(0, 1, 0.3, 0.5, 0.1, 2, 2.3, 1.75,...)

之前提出的問題:用于表示人臉的大量特征從哪來?這便是深度學習(深度神經網絡)發(fā)揮作用的地方。它通過在千萬甚至億級別的人臉數據庫上學習訓練后,會自動總結出最適合于計算機理解和區(qū)分的人臉特征。

算法工程師通常需要一定的可視化手段才能知道機器到底學習到了哪些利于區(qū)分不同人的特征,當然這部分不是本節(jié)重點。

闡明了不同人臉由不同特征組成后,我們便有了足夠的知識來分析人臉識別,到底怎么識別。

現在考慮最簡單最理想的情況,用于區(qū)分不同人的特征只有兩個:特征1和特征2。那么每一張臉都可以表示為一個坐標(特征1,特征2),即特征空間(這個例子里是二維空間)內的一個點。

人臉識別基于一個默認成立的假設:同一個人在不同照片里的臉,在特征空間里非常接近。

為什么這個假設默認成立,設想一下,一個棕色頭發(fā)的人,在不同光照,遮擋,角度條件下,發(fā)色看起來雖然有輕微的區(qū)別,但依然與真實顏色非常接近,反應在發(fā)色的特征值上,可能是 0 到 0.1 之間的浮動。

深度學習的另一任務和挑戰(zhàn)便是在各種極端復雜的環(huán)境條件下,精確的識別各個特征。

上圖是在熊本做大規(guī)模人臉數據集去噪演講時用的 PPT,三張山下智久的照片經過神經網絡提取出 128 維的特征后,變成了 3 個在 128 維空間中的點(紅色),石原里美的特征點為綠色。

這張 PPT 想表達同樣的意思:同一人的不通照片提取出的特征,在特征空間里距離很近,不同人的臉在特征空間里相距較遠。

再來考慮人臉識別領域的兩個問題:人臉驗證和人臉識別。

人臉驗證

比如 FaceID 人臉解鎖,iPhone 事先存了一張用戶的照片(需要用戶注冊),這張照片變成了轉換成了一連串特征數值(即特征空間里的一個點),用戶解鎖時,手機只需要對比當前采集到的臉和事先注冊的臉在特征空間里的幾何距離,如果距離足夠近,則判斷為同一人,如果距離不夠近,則解鎖失敗。距離閾值的設定,則是算法工程師通過大量實驗得到的。

人臉識別

同樣考慮一個場景,人臉考勤。公司 X 有員工 A,B,C,公司會要求三名員工在入職的時候各提供一張個人照片用于注冊在公司系統(tǒng)里,靜靜地躺在特征空間中。

第二天早上員工 A 上班打卡時,將臉對準考勤機器,系統(tǒng)會把當前員工 A 的臉放到特征空間里,與之前特征空間里注冊好的臉一一對比,發(fā)現注冊的臉中距離當前采集到的臉最近的特征臉是員工 A,打卡完畢。

知道了人臉識別的基本原理,便能看清它的技術局限。下圖展示了一些容易識別失敗的案例:

在光照較差,遮擋,形變(大笑),側臉等諸多條件下,神經網絡很難提取出與“標準臉”相似的特征,異常臉在特征空間里落到錯誤的位置,導致識別和驗證失敗。這是現代人臉識別系統(tǒng)的局限,一定程度上也是深度學習(深度神經網絡)的局限。

面對這種局限,通常采取三種應對措施,使人臉識別系統(tǒng)能正常運作:

1. 工程角度:研發(fā)質量模型,對檢測到人臉質量進行評價,質量較差則不識別/檢驗。

2. 應用角度:施加場景限制,比如刷臉解鎖,人臉閘機,會場簽到時,都要求用戶在良好的光照條件下正對攝像頭,以避免采集到質量差的圖片。

3. 算法角度:提升人臉識別模型性能,在訓練數據里添加更多復雜場景和質量的照片,以增強模型的抗干擾能力。

Chapter 2

這部分將從兩個思路跟進現代人臉識別算法:

思路1:Metric Learning: Contrastive Loss, Triplet loss 及相關 sampling method。

思路2:Margin Based Classification: 包含 Softmax with Center loss, Sphereface, NormFace, AM-softmax (CosFace) 和 ArcFace.

關鍵字:DeepID2, Facenet, Center loss, Triplet loss, Contrastive Loss, Sampling method, Sphereface, Additive Margin Softmax (CosFace), ArcFace.

思路1:Metric Learning

Contrastive Loss

基于深度學習的人臉識別領域最先應用 Metric Learning 思想之一的便是DeepID2 [2]了,同 Chapter 1 的思想,“特征”在這篇文章中被稱為“DeepID Vector”。

DeepID2 在同一個網絡同時訓練 Verification 和 Classification(即有兩個監(jiān)督信號)。其中 Verification Loss 便在特征層引入了 Contrastive Loss。

Triplet Loss from FaceNet

Triplet Loss 的思想也很簡單,輸入不再是 Image Pair,而是三張圖片(Triplet),分別為 Anchor Face,Negative Face 和 Positive Face。Anchor 與 Positive Face 為同一人,與 Negative Face 為不同人。那么 Triplet Loss 的損失即可表示為:

直觀解釋為:在特征空間里 Anchor 與 Positive 的距離要小于 Anchor 與 Negative 的距離超過一個 Margin Alpha。

有了良好的人臉特征空間,人臉問題便轉換成了 Chapter 1 末尾形容的那樣簡單直觀。附上一張我制作的 Contrastive Loss 和 Triplet Loss 的 PPT:

Metric Learning 的問題

基于 Contrastive Loss 和 Triplet Loss 的 Metric Learning 符合人的認知規(guī)律,在實際應用中也取得了不錯的效果,但是它有非常致命的兩個問題,使應用它們的時候猶如 pain in the ass。

1. 模型需要很很很很很很很很很很很很很很長時間才能擬合(months mentioned in FaceNet paper),Contrastive Loss 和 Triplet Loss 的訓練樣本都基于 pair 或者 triplet 的,可能的樣本數是 O (N2) 或者 O (N3) 的。

2. 模型好壞很依賴訓練數據的 Sample 方式,理想的 Sample 方式不僅能提升算法最后的性能,更能略微加快訓練速度。

關于這兩個問題也有很多學者進行了后續(xù)研究,下面的內容作為 Metric Learning 的延伸閱讀,不會很詳細。

Metric Learning 延伸閱讀

1. Deep Face Recognition [3]

為了加速 Triplet Loss 的訓練,這篇文章先用傳統(tǒng)的 softmax 訓練人臉識別模型,因為 Classficiation 信號的強監(jiān)督特性,模型會很快擬合(通常小于 2 天,快的話幾個小時)。

之后移除頂層的 Classificiation Layer,用 Triplet Loss 對模型進行特征層 finetune,取得了不錯的效果。此外這篇論文還發(fā)布了人臉數據集 VGG-Face。

2. In Defense of the Triplet Loss for Person Re-Identification [4]

這篇文章提出了三個非常有意思的觀點:

  • 作者說實驗中,平方后的歐幾里得距離(Squared Euclidean Distance)表現不如開方后的真實歐幾里得距離(Non-squared Euclidean Distance),直白來說就是把下圖公式中的平方摘掉。
  • 提出了 Soft-Margin 損失公式替代原始的 Triplet Loss 表達式。
  • 引進了 Batch Hard Sampling。

3. Sampling Matters in Deep Embedding Learning [5]

這篇文章提出了兩個有價值的點:

  • 從導函數角度解釋了為什么第 2 點中提到的 Non-squared Distance 比 Squared-distance 好,并在這個 insight 基礎上提出了 Margin Based Loss(本質還是 Triplet Loss 的 variant,見下圖,圖片取自原文)。
  • 提出了 Distance Weighted Sampling。文章說 FaceNet 中的 Semi-hard Sampling,Deep Face Recognition [3] 中的 Random Hard 和 [4] 中提到的 Batch Hard 都不能輕易取到會產生大梯度(大 loss,即對模型訓練有幫助的 triplets),然后從統(tǒng)計學的視角使用了 Distance Weighted Sampling Method。

4. 我的實驗感想

  • 2、3 點中提到的方式在試驗中都應用過,直觀感受是 Soft-Margin 和Margin Based Loss 都比原始的 Triplet Loss 好用,但是 Margin Based Loss 實驗中更優(yōu)越。
  • Distance Weighted Sampling Method 沒有明顯提升。

延伸閱讀中有提到大家感興趣的論文,可參考 reference 查看原文。最后,值得注意的是,Triplet Loss 在行人重識別領域也取得了不錯的效果,雖然很可能未來會被 Margin Based Classfication 打敗。

思路2:Margin Based Classification

顧名思義,Margin Based Classficiation 不像在 feature 層直接計算損失的 Metric Learning 那樣,對 feature 加直觀的強限制,而是依然把人臉識別當 classification 任務進行訓練,通過對 softmax 公式的改造,間接實現了對 feature 層施加 margin 的限制,使網絡最后得到的 feature 更 discriminative。

這部分先從 Sphereface [6] 說起。

Sphereface

先跟隨作者的 insight 理下思路(圖截自原文):

圖 (a) 是用原始 softmax 損失函數訓練出來的特征,圖 (b) 是歸一化的特征。不難發(fā)現在 softmax 的特征從角度上來看有 latent 分布。

那么為何不直接去優(yōu)化角度呢?如果把分類層的權重歸一化,并且不考慮偏置的話,就得到了改進后的損失函數:

不難看出,對于特征 x_i,該損失函數優(yōu)化的方向是使得其向該類別 y_i 中心靠近,并且遠離其他的類別中心。這個目標跟人臉識別目標是一致的,最小化類內距離并且最大化類間距離。

然而為了保證人臉比對的正確性,還要保證最大類內距離還要小于最小類間距離。上面的損失函數并不能保證這一點。所以作者引入了 margin 的思想,這跟 Triples Loss 里面引入 Margin Alpha 的思想是一致的。

那么作者是如何進一步改進上式,引入 margin 的呢?

上式紅框中是樣本特征與類中心的余弦值,我們的目標是縮小樣本特征與類中心的角度,即增大這個值。換句話說,如果這個值越小,損失函數值越大,即我們對偏離優(yōu)化目標的懲罰越大。

也就是說,這樣就能進一步的縮小類內距離和增大類間距離,達到我們的目標?;谶@樣的思想最終的損失函數為如下:

原始的 cos(θ) 被換成了 phi(θ),phi(θ) 的最簡單形式其實是 cos(mθ),之所以在原文中變得復雜,只是為了將定義域擴展到 [0,2π] 上,并保證在定義域內單調遞減。

而這個 m 便是增加的 margin 系數。當 m=1 時,phi(θ) 等于 cos(θ),當 m>1 時,phi 變小,損失變大。超參 m 控制著懲罰力度,m 越大,懲罰力度越大。

為計算方便,m 一般設為整數。作者從數學上證明了,m>=3 就能保證最大類內距離小于最小類間距離。實現的時候使用倍角公式。

Normface

我在 MNIST 數據集上做過實驗,以下圖片分別為 m=1 和 m=4 時的特征可視化,注意坐標的尺度,就能驗證上述觀點。

然而特征的長度在我們使用模型的時候是沒有幫助的。這就造成了 training 跟 test 之間目標不一致,按照 Normface 作者原話說就是存在一個 gap。

于是 Normface 的核心思想就出來了:為何在訓練的時候不把特征也做歸一化處理?相應的損失函數如下:

其中 W 是歸一化的權重,f_i 是歸一化的特征,兩個點積就是角度余弦值。參數 s 的引入是因為數學上的性質,保證了梯度大小的合理性,原文中有比較直觀的解釋,這里不是重點。

如果沒有 s 訓練將無法收斂。關于 s 的設置,可以把它設為可學習的參數。但是作者更推薦把它當做超參數,其值根據分類類別多少有相應的推薦值,這部分原文 appendix 里有公式。

AM-softmax [11] / CosFace [12]

這兩篇文章是同一個東西。Normface 用特征歸一化解決了 Sphereface 訓練和測試不一致的問題。但是卻沒有了 margin 的意味。AM-softmax 可以說是在 Normface 的基礎上引入了 margin。直接上損失函數:

其中這里的權重和特征都是歸一化的。

直觀上來看,cos(θ)-m 比 cos(θ) 更小,所以損失函數值比 Normface 里的更大,因此有了 margin 的感覺。

m 是一個超參數,控制懲罰的力度,m 越大,懲罰越強。作者推薦 m=0.35。這里引入 margin 的方式比 Sphereface 中的‘溫柔’,不僅容易復現,沒有很多調參的 tricks,效果也很好。

ArcFace [13]

與 AM-softmax 相比,區(qū)別在于 Arcface 引入 margin 的方式不同,損失函數:

乍一看是不是和 AM-softmax一樣?注意 m 是在余弦里面。文章指出基于上式優(yōu)化得到的特征間的 boundary 更為優(yōu)越,具有更強的幾何解釋。

然而這樣引入 margin 是否會有問題?仔細想 cos(θ+m) 是否一定比 cos(θ) 小?

Margin based classification 延伸閱讀

1. A discriminative feature learning approach for deep face recognition [14]

提出了 center loss,加權整合進原始的 softmax loss。通過維護一個歐式空間類中心,縮小類內距離,增強特征的 discriminative power。

2. Large-margin softmax loss for convolutional neural networks [10]

Sphereface 作者的前一篇文章,未歸一化權重,在 softmax loss 中引入了 margin。里面也涉及到 Sphereface 的訓練細節(jié)。

注:思路二由陳超撰寫

Chapter 3

基于前兩章的知識,我在 lfw 上取得了 99.47% 的結果,這個結果訓練在 Vggface2 上,未與 lfw 去重,也沒經歷很痛苦的調參過程,算是 AM-softmax 損失函數直接帶來的收益吧。

過程中踩了很多坑,這一章將把前段時間的實驗結果和心得做一個整理,此外也將回答絕大部分工程師在做人臉識別時最關心的一些問題。やりましょう!

項目地址:

https://github.com/Joker316701882/Additive-Margin-Softmax

包含代碼可以復現所有實驗結果

一個標準的人臉識別系統(tǒng)包含這幾個環(huán)節(jié):人臉檢測及特征點檢測->人臉對齊->人臉識別。

人臉檢測 & Landmark檢測

目前最流行的人臉及 Landmark 檢測是 MTCNN [7],但是 MTCNN 一方面偶爾檢測不到 face,一方面 Landmark 檢測不夠精準。這兩點都會給后續(xù)的對齊和識別帶來不利影響。

另外在 COCO Loss [8] 論文里提到:好的檢測和對齊方法,僅用 softmax 就能達到 99.75%,秒殺目前大多數最新論文的結果。COCO Loss 的 Github issue [16] 里提到了更多細節(jié)。

此外,因為 alignment 算法性能的區(qū)別,2017 年及以后的論文更加注重相對實驗結果的比較,以排除 alignment 算法引入的優(yōu)劣勢,方便更直觀比較各家的人臉識別算法,lfw 上輕松能達到 99% 以上也是現在更傾向于采用相對結果的原因。

人臉對齊

人臉對齊做的是將檢測到的臉和 Landmark 通過幾何變換,將五官變換到圖中相對固定的位置,提供較強的先驗。

廣泛使用的對齊方法為 Similarity Transformation。更多對其變換方法和實驗可以參考這篇知乎文章 [17]。

作者代碼實現:

https://github.com/Joker316701882/Additive-Margin-Softmax/blob/master/align/align_lfw.py

值得探討的一個問題是:人臉檢測和對齊真的有必要嗎?現實應用中常出現人臉 Landmark 無法檢測的情況,沒有 Landmark 就無法使用 Similarity Transoformation。

針對這個問題也有相關研究,通過使用 Spatial Transform Network [9] “讓網絡自己學習 alignment”,論文參考 End-to-End Spatial Transform Face Detection and Recognition。這方面的研究進展還不充分,所以實際系統(tǒng)中多數情況下還是使用了 detection->alignment 這套流程。

人臉識別

可以說人臉識別的項目中絕大部分問題都是人臉檢測和對齊的問題。識別模型之間的差距倒沒有那么明顯。不過訓練 AM-softmax 過程中依然碰到了些值得注意的問題。

Spheraface 里提出的 Resface20,AM-softmax 中也同樣使用,一模一樣復現情況下在 lfw 上只能達到 94%。

TensorFlow 中能擬合的情況為如下配置:

Adam, no weight decay, use batch normalization.

對應原文配置:

Momentum, weight decay, no batch normalization.

以及在實驗中發(fā)現的: 除了 Adam 以外的任何一個 optimizer 都達不到理想效果,這可能是不同框架底層實現有所區(qū)別的原因,Sphereface,、AM-softmax都是基于 Caffe,本文所有實驗全使用 TensorFlow,結論有區(qū)別也算正常。

另一點,Sandberg FaceNet 中的 resnet-inception-v1 搬過來套用 AM-softmax 在 lfw 上的結果達不到 97%,這是過程中不太理解的點。

從其他論文里看,如果 loss 選的沒問題,那諸如 resnet-inception,不同深度的 Resnet,甚至 Mobile-net,Squeezenet 等結構的表現也不該有明顯差距(AM-softmax 的情況下至少也該達到99%)。

此外,直接套用 Arcface 也無法擬合,需要進一步實驗。

最后,關于 Sandberg 的 code 中一個值得關注的點,他將 train_op 定義在了 facenet.train() 函數里,仔細閱讀這個函數會發(fā)現,Sandberg 的代碼中所有網絡參數并不是采用每次更新梯度后的值,而是采用滑動平均值作為網絡實際的參數值。

如果想正常使用網絡參數和 batch norm,而不是用滑動平均參數和全程開著“is_training”,只需要將 facenet.train() 函數替換成普通的 Optimizer,然后將 batch_norm的“is_training”交給 placeholder 處理,詳細可以參考我的 AM-softmax 實現。

感謝大家堅持閱讀到最后,以 TensorBoard 的 plot 作為結尾吧!

作者葛政,早稻田大學碩士生,研究方向為深度學習、計算機視覺,個人博客Xraft.Lab

參考文獻

[1] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In Proc. CVPR, 2015.

[2] Y. Sun, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. CoRR, abs/1406.4773, 2014.

[3] O. M. Parkhi, A. Vedaldi, and A. Zisserman. Deep face recognition. In BMVC, 2015

[4] A. Hermans, L. Beyer, and B. Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017

[5] Wu, C. Manmatha, R. Smola, A. J. and Krahenb uhl, P. 2017. Sampling matters in deep embedding learning. arXiv preprint arXiv:1706.07567

[6] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017

[7] Zhang, K., Zhang, Z., Li, Z., Qiao, Y.: Joint face detection and alignment using multi-task cascaded convolutional networks. arXiv preprint, 2016

[8] Yu Liu, Hongyang Li, and Xiaogang Wang. 2017. Learning Deep Features via Congenerous Cosine Loss for Person Recognition. arXiv preprint arXiv:1702.06890, 2017

[9] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015.

[10] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, 2016.

[11] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. In arXiv:1801.05599, 2018.

[12] CosFace: Large Margin Cosine Loss for Deep Face Recognition

[13] Deng, J., Guo, J., Zafeiriou, S.: Arcface: Additive angular margin loss for deep face recognition. In: Arxiv preprint. 2018

[14] Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In ECCV, 2016.

[15] Y. Liu, H. Li, and X. Wang. Rethinking feature discrimination and polymerization for large-scale recognition. arXiv:1710.00870, 2017.

[16] https://github.com/sciencefans/coco_loss/issues/9

[17] https://zhuanlan.zhihu.com/p/29515986

來源:人工智能前沿講習班

  • 標簽: