些年得益于網(wǎng)絡(luò)架構(gòu)、訓(xùn)練策略以及人臉數(shù)據(jù)的發(fā)展,人臉識別技術(shù)取得了巨大的提升,越來越多地被推廣到安防領(lǐng)域,延伸出考勤機、門禁機等多種產(chǎn)品,產(chǎn)品系列達(dá)20多種類型,可以全面覆蓋煤礦、樓宇、銀行、軍隊、社會福利保障、電子商務(wù)及安全防務(wù)等領(lǐng)域,人臉識別的全面應(yīng)用時代已經(jīng)到來。
然而,現(xiàn)有方法主要關(guān)注自然環(huán)境下的人臉識別,其訓(xùn)練數(shù)據(jù)大都從網(wǎng)絡(luò)上收集而來,一般只包含中等量級的人數(shù)(約10萬人),但每類平均樣本數(shù)很多(多于20個)。然而,實際應(yīng)用中的人臉識別系統(tǒng)通常只能獲取2張圖像,一張證件照,一張現(xiàn)場照。同時,系統(tǒng)需要面對的人臉個體數(shù)量可達(dá)到上百萬甚至是千萬級。因此,實際中人臉數(shù)據(jù)庫通常具有海量類別,但每類只有2個樣本,一般被稱之為大規(guī)模雙樣本問題。
現(xiàn)有方法在訓(xùn)練這種數(shù)據(jù)時會遇到巨大的挑戰(zhàn),例如類內(nèi)變化不足使得訓(xùn)練難以收斂以及海量樣本數(shù)對計算設(shè)備的極端要求。為此,中國科學(xué)院自動化研究所針對真實場景下的人證核驗問題,提出了基于深度學(xué)習(xí)的大規(guī)模雙樣本學(xué)習(xí)方法,解決了雙樣本數(shù)據(jù)帶來的類內(nèi)變化不足問題和海量樣本數(shù)計算壓力大的問題。
目前,深度學(xué)習(xí)在人臉識別界具有統(tǒng)治地位,基于分類的訓(xùn)練方法是主流,其將每個人當(dāng)作獨立的類別,并使用softmax進(jìn)行分類訓(xùn)練。近兩年SphereFace,CosFace以及InsightFace進(jìn)一步引入了邊界裕量(margin)來提高識別網(wǎng)絡(luò)的可擴展性,在公開測試集上取得了領(lǐng)先性能。然而,softmax的計算消耗與類別數(shù)直接相關(guān)。在實際應(yīng)用中,百萬類甚至千萬類的分類會對訓(xùn)練平臺產(chǎn)生極大壓力,普通訓(xùn)練平臺(如8卡TITANX)甚至無法訓(xùn)練,給主流方法的應(yīng)用帶來了困難。
自動化所朱翔昱、雷震等研究人員提出的大規(guī)模雙樣本學(xué)習(xí)方法包括兩個方面,一是提出了一種分類-驗證-分類(CVC)的訓(xùn)練策略來逐步提高實際場景中的性能,二是針對大規(guī)模分類問題提出了DP-softmax使得深度學(xué)習(xí)在超大規(guī)模類別的分類上具有可擴展性。
在分類-驗證-分類(CVC)訓(xùn)練策略中,研究人員將整個訓(xùn)練過程分為三個階段。第一個階段為Pre-learning(ClassificaTIon),首先在網(wǎng)圖人臉數(shù)據(jù)庫上訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)模型,以得到一個較好的初始人臉識別性能。第二階段為Transfer Learning (VerificaTIon),使用基于度量學(xué)習(xí)的人臉驗證方法如triplet loss在大規(guī)模雙樣本數(shù)據(jù)上進(jìn)行微調(diào),將人臉知識從自然環(huán)境遷移到人證場景下。第三階段為Fine-grained Learning (ClassificaTIon),構(gòu)建了一個特殊的分類層DP-softmax對百萬級類別進(jìn)行分類,最終達(dá)到人證場景下的最優(yōu)性能。
DP-softmax極大降低了大規(guī)模分類的計算需求,首先通過CVC策略中第二階段的模型對訓(xùn)練數(shù)據(jù)抽取特征并構(gòu)建每個類別的類別模板(prototype),生成所有類別的類別模板庫。在訓(xùn)練過程中,針對當(dāng)前mini-batch中的樣本選擇與他們最相似的少量類別模板構(gòu)建臨時分類層來完成本次分類訓(xùn)練。整個過程可以在不影響訓(xùn)練效果的前提下,極大降低大規(guī)模分類的計算需求。研究人員對提出的方法進(jìn)行了充分的實驗,表明在IvS場景下,該方法相比現(xiàn)有方法有了明顯提升。