近日,據報道,日本專門生產超逼真面具的公司REAL-f正受到科技、娛樂以及汽車等行業(yè)的青睞。這家公司利用樹脂和塑料制作面具,可以精確地復制人的面部表情,成本約為30萬日元。
REAL-f公司創(chuàng)始人北川修三是在印刷廠工作時想到這個創(chuàng)意的,他花了兩年時間開發(fā),將面部數據從高質量照片轉換為3D面具的方法,并于2011年開始銷售面具。REAL-f公司表示:“之前是用黑白照片,后來發(fā)展到彩色照片,現在,我們要讓大家進入3D立體時代?!痹谥谱髅婢咧?公司的專家們會使用精密的拍攝工具從各個不同角度拍攝顧客想要的面孔,然后通過電腦將照片素材整合成3D圖像,最后再使用“人體影印機”將人臉圖像印制到特定的材料上,整個制作過程大概需要花費兩周的時間,制成效果能以假亂真,異常逼真。
這種面具有個明顯的用例,就是使用它們來進行人臉識別測試。一家日本汽車公司訂購了沉睡表情的面具,以改進其面部識別技術,用以訓練其檢測司機打瞌睡的行為。蘋果也用同樣的高仿真面具,測試利用Face ID登錄iPhone X功能。
以上的應用有個共通屬性,那就是它們都屬于人臉識別。而傳統(tǒng)的人臉識別實際上屬于圖像處理加機器學習,就是從圖像找出人臉區(qū)域,從人臉區(qū)域回歸出人臉形狀(特征點),再通過特征點計算出特征值,對比時通過對兩者的特征值進行一系列的運算得出相似度,其中的轉變過程非常復雜,實際操作的對象就是圖片像素點的灰度值,收到了圖片影響較多,如光線較強,背景復雜程度,遮擋、眼鏡、胡子以及角度,夜里攝像頭無法照亮面部時,也無法使用。
一、人臉識別技術概述
人臉識別是指利用分析比較人臉視覺特征信息進行身份鑒別的計算機技術,其可以定義為:輸入查詢場景中的靜止圖像或者視頻,使用人臉數據庫識別或驗證場景中的一個人或者多個人,通常也被稱為面部識別、人像識別。人臉識別具有非強制性、非接觸性、并發(fā)性等特點,因此研究者在上世紀六、七十年代就開始了人臉識別技術的研究。進入九十年代后,隨著高性能計算機的發(fā)展,人臉識別技術獲得了重大突破。
美國國家標準技術局(NIST)舉辦的FRVT2006(Face RecognitionVendor Test 2006)通過大規(guī)模的人臉數據庫測試表明,人臉識別技術的識別精度要比FRVT2002至少提高了一個數量級。部分識別算法的精度超過了人類的平均水平。對于高分辨率、高質量的正面人臉的識別率達到100%。
二、人臉識別技術的難點
雖然人臉識別技術經歷了較長的研究階段,但至今還是被認為是生物特征識別技術中較為困難的研究課題之一,其原因在于:
1.背景環(huán)境的復雜多樣
在進行人臉識別前需要先對監(jiān)控場景中的人臉進行定位,即人臉檢測。人臉檢測的正確與否直接影響人臉識別性能。當監(jiān)控場景的背景較為復雜時,人臉檢測率也會隨之降低,因此能夠適應復雜背景環(huán)境的人臉檢測算法是人臉識別技術的難點之一。
2. 光照條件的復雜多變
在智能視頻監(jiān)控系統(tǒng)的實際應用中,會由于監(jiān)控環(huán)境光線的變化造成檢測到的人臉圖像存在不同的陰暗變化,不同光照條件下人臉識別雖然在性能上比FRVT2002有顯著提高,但是還沒在根本上克服光照對識別率的影響。
3. 人臉表情的多樣性
在實際應用過程中,人臉的表情隨時都可能發(fā)生變化。當人的表情發(fā)生變化時,可能會引起人臉輪廓以及紋理的變化,同時由于面部肌肉的牽引,面部的特征點的位置也會隨之改變。不同的表情引起面部的變化都不同,此外,不同的人的相同表情影響也不相同,因此很難用統(tǒng)一的標準來精確劃分各種表情對不同人的影響。
4.采集人臉的角度多樣性
人臉的角度多樣性主要是指由于拍攝角度的不同導致檢測到的人臉圖像的旋轉,包括平面旋轉和深度旋轉。表情變化對人臉圖像的影響相同,拍攝角度的變化同樣會導致人臉輪廓的變化,除此之外,由于角度的變化,可能會導致人臉的部分特征無法被正確提取,進一步導致人臉的錯誤識別。
5.遮擋問題
即使是非人為故意遮擋,在實際應用時檢測到的人臉圖像也經常會出現如帽子、眼鏡等遮擋物,除了這些,胡子以及劉海的變化也直接影響人臉的特征提取,當人臉圖像發(fā)生遮擋時,人臉的很多信息會丟失,導致人臉識別算法出錯或失效。
三、目前國內人臉識別現狀
目前國內做圖像識別、人臉識別和視頻識別的公司很多,但是真正脫穎而出的企業(yè)卻極少,像是曠世科技Face++、商湯科技、極鏈科技Video++等,都是經過多年的技術積累,才有了現在的成果。以視頻識別最為突出的極鏈科技Video++為例,Video++作為一家以AI產品技術為核心,驅動文娛新經濟發(fā)展人工智能科技公司,公司對于人臉識別和視頻識別都有豐富的技術積累。
從技術層面出發(fā),在視頻識別過程中,Video++首先是對視頻做一個鏡頭分割,在鏡頭片斷里面做后續(xù)所有的識別檢測工作。完成鏡頭分割之后進入到內容提取,對于人臉識別來說內容提取主要是兩個步驟,一個人臉檢測框的獲取,另外一個是人臉的id識別。人臉檢測框主要是兩個步驟,一個是人臉檢測,一個人臉跟蹤。檢測和跟蹤有不同的特性,人臉檢測速度比較慢,準確率比較高。由于跟蹤用到了前后之間相互的運動關系,它的速度比較快,但是它的準確率相對于檢測比較低。既要兼顧到準確率,同時又要兼顧到速度的要求。
就是說一開始對人臉在全局范圍內做一個檢測。檢測完之后做跟蹤,跟蹤過程當中需要用人臉檢測對它進行一個校正。因為跟蹤算法乳化性不太高,有時候會有一個偏移。怎么用人臉檢測算法對它進行一個校正呢?在跟蹤框周圍小區(qū)域里面做一個局部檢測,由于區(qū)域比較小檢測開銷就比較小。它的速度保證比較快,但是它的準確率又比跟蹤輸出的人臉框要高一些,在這個過程當中我們就可以用檢測跟蹤相結合的方式來提高準確率,同時又保證算法的速度不受影響。在過程之后我們就進行人臉的對齊,做完人臉對齊下面一個重要的步驟就是質量的評估。
對采集到的序列進行質量評估,質量評估過程當中,找到質量比較好的那些采量。把那些質量比較差的采量進行丟棄。通過這一方法保留下來比較好的采樣,對質量差的數據進行丟棄。這樣就保證了很多噪聲的干擾得到了一個去除。在質量評估之后對質量比較好的采樣進行提取,然后進行特征比對。
由于在整個采樣序列上每一個幀它都會有一個識別結果,這些識別結果怎么進行一個融合,這里面可能會有一些噪聲,去除后有一些識別錯誤的結果,這就需要涉及一個識別結果的融合機制。最后通過融合機制得到最終的一個識別結果。
在過去的五年里,計算機視覺飛速發(fā)展,使得許多基本的人臉識別任務比以往任何時候都更加精確和普遍,以至于亞馬遜、谷歌、IBM和微軟等科技巨頭都將其作為現成的商品出售。然而,讓機器去識別視頻中正在發(fā)生的事情,卻具有無限的挑戰(zhàn)性,因為你不僅要在一張圖片中處理對象、面孔和風景,還要處理時間、動作、事情和觀點。好消息是,同樣的發(fā)展也促進了當前圖像識別的繁榮,即更好、更多的訓練數據和更快、更便宜的計算能力——也促進了計算機視覺在視頻上的應用。