唐文斌,男,出生于浙江紹興,初中還未畢業(yè)就“毛遂自薦”進(jìn)入紹興一中高中部,先后獲得全國信息學(xué)奧林匹克聯(lián)賽一等獎(jiǎng)、全國信息學(xué)奧林匹克競(jìng)賽金獎(jiǎng)等大獎(jiǎng)。高二時(shí),被保送清華大學(xué)。清華大學(xué)計(jì)算機(jī)系研究生,曠視科技聯(lián)合創(chuàng)始人兼CTO 。北京市海淀區(qū)十大杰出青年 ,全國青少年信息學(xué)奧林匹克競(jìng)賽、首屆“Yao Award”金牌獲得者。
2011年10月,唐文斌與兩位同學(xué)(印奇和楊沐)共同創(chuàng)立北京曠視科技有限公司。
2009 首屆“Yao Award”金牌(由圖靈獎(jiǎng)得主姚期智先生設(shè)立,每年金牌一名) 。
2012 創(chuàng)業(yè)家“克萊斯勒杯”黑馬大賽 年度總冠軍 。
2012 清華大學(xué)“挑戰(zhàn)杯”科技創(chuàng)新競(jìng)賽特等獎(jiǎng) 。
2016年,唐文斌被北京市海淀區(qū)團(tuán)委評(píng)為海淀區(qū)十大杰出青年 。
去年,曠視科技Face++創(chuàng)始人兼CTO唐文斌接受了新智元專訪,談了曠視科技Face++的商業(yè)模式、公司定位以及人才和發(fā)展觀。
“沒有什么技術(shù)是不能被取代的。”唐文斌說:“算法也好,技術(shù)也好,都是手段,最后能夠提供出去的是產(chǎn)品價(jià)值。”這位三十剛出頭的曠視科技Face++聯(lián)合創(chuàng)始人,對(duì)這家中國人臉識(shí)別獨(dú)角獸有著很清晰的定位:“曠視不是一家技術(shù)公司,曠視是一家產(chǎn)品公司,是一家以人工智能技術(shù)為核心的產(chǎn)品公司。”他認(rèn)為客戶最終一定是為產(chǎn)品價(jià)值買單。曠視的團(tuán)隊(duì)人數(shù)從去年到現(xiàn)在翻了一番,增長(zhǎng)到600多人,其中擴(kuò)張速度最快、人數(shù)也最多的就是產(chǎn)品部門。
相比曠視更常出現(xiàn)在人們視野中的另一位聯(lián)合創(chuàng)始人印奇,唐文斌說他們的搭配是“印奇仰望星空,我腳踏實(shí)地”,更加側(cè)重工程的他關(guān)注如何選擇場(chǎng)景結(jié)合技術(shù),給用戶帶來最大增值,“不是nice to have,而是must have”。他認(rèn)為曠視工程團(tuán)隊(duì)要做的事情是把算法邊界內(nèi)能夠自動(dòng)化的任務(wù)全部交給機(jī)器去完成。他在尋找的也是復(fù)合型AI產(chǎn)品經(jīng)理,以及能夠隨時(shí)轉(zhuǎn)變?yōu)閞esearcher,時(shí)刻想著如何把research沒有價(jià)值的工作砍掉的懂算法、懂編程、更懂體系結(jié)構(gòu)的全棧AI工程師。
新智元:目前在人工智能領(lǐng)域尤其是深度學(xué)習(xí)技術(shù)落地,你認(rèn)為真正的壁壘在哪里?
唐文斌:我認(rèn)為深度學(xué)習(xí)技術(shù)的落地,核心的一個(gè)關(guān)鍵詞是“結(jié)合”。我們有一些很好的算法,比以前的性能提高了很多,但一定要找到合適的場(chǎng)景,把算法用進(jìn)去解決問題,給用戶帶來明確的價(jià)值,這些價(jià)值不是“nice to have”,而是“must have”。
我們內(nèi)部有個(gè)說法,叫“用戶價(jià)值增量”——當(dāng)你把技術(shù)用在場(chǎng)景中后,給用戶帶來的價(jià)值和用他原來的方式相比增量有多大,如果很大,那么這就是一個(gè)非常好的場(chǎng)景,如果增量只有一點(diǎn),說明這要么不重要,要么你沒有看清本質(zhì)。以人臉識(shí)別為例,就是要不斷去思考,人臉識(shí)別到底是在哪些場(chǎng)景下,給誰、通過什么樣的方式,帶來了多大的價(jià)值。
賣技術(shù)的話,今天你能賣,明天他也能賣,所以一定要做深,深入行業(yè),把產(chǎn)品做好,形成完整的一套業(yè)務(wù)服務(wù),這并不是從用戶價(jià)值的角度去思考,而是公司生存的角度。極端一點(diǎn)說,我認(rèn)為沒有哪家公司是無法取代的,客戶為什么選擇你而是不選擇另一家,一定因?yàn)槟憬o他帶來的價(jià)值更大,他買單的是你產(chǎn)品的價(jià)值。
新智元:曠視如何找到這種技術(shù)跟場(chǎng)景價(jià)值增量高的結(jié)合點(diǎn)?
唐文斌:我們經(jīng)歷了好幾個(gè)階段。最早的時(shí)候,作為一家純技術(shù)公司,我們做了一個(gè)面向開發(fā)者的開放平臺(tái),叫Face++,通過API的方式提供互聯(lián)網(wǎng)服務(wù),美圖秀秀、快手等APP都用了我們的技術(shù)。第二個(gè)階段,我們開始關(guān)注技術(shù)到底在哪些場(chǎng)景下能給客戶帶來重要的價(jià)值——去尋找那些用戶需求感知非常強(qiáng)烈的場(chǎng)景。我們找了很多,最終決定在兩個(gè)場(chǎng)景進(jìn)行業(yè)務(wù)的深入。
第一個(gè)是互聯(lián)網(wǎng)金融,通過人臉識(shí)別進(jìn)行遠(yuǎn)程身份認(rèn)證,把線下業(yè)務(wù)線上轉(zhuǎn)化,讓用戶有更便捷的體驗(yàn),銀行這邊也實(shí)現(xiàn)了安全,這個(gè)增量是非常大的。第二個(gè)場(chǎng)景是安防,現(xiàn)在有大量的安防數(shù)據(jù),人根本看不過來,而用機(jī)器去看,可以識(shí)別里面每一個(gè)人是誰,還可以識(shí)別逃犯,根據(jù)觀察到的人物行為模式進(jìn)行預(yù)警,這是原本做不到的事情,這個(gè)業(yè)務(wù)價(jià)值增量也是巨大的。
同樣一個(gè)技術(shù),比如人臉?biāo)阉?或者叫圖像搜索),你既可以用在搜索視頻看哪個(gè)影星出現(xiàn)在哪些電影片段中,也可以檢索監(jiān)控?cái)z像頭視頻,在后面一個(gè)場(chǎng)景你可以解決老人、小孩走失的問題。所以,我們?cè)谶@兩種場(chǎng)景下,一定選擇后者,因?yàn)楹笳邇r(jià)值更大。
新智元:曠視現(xiàn)在的人臉識(shí)別做到什么程度了?
唐文斌:這個(gè)要取決于具體的場(chǎng)景和數(shù)據(jù)庫。在不同的場(chǎng)景下需求是不一樣的,比如說用人臉識(shí)別來做開門,員工走過來門就開了,這種個(gè)場(chǎng)景下要求召回率非常高,每個(gè)人都得識(shí)別出來,并且速度要非常快。我們給阿里集團(tuán)做刷臉門禁,阿里現(xiàn)在幾萬人,基本上一天可以識(shí)別幾十萬次,大概誤報(bào)1~2次。
在安防場(chǎng)景下,數(shù)據(jù)庫會(huì)大很多,公安識(shí)別嫌疑人的訴求,最重要的一點(diǎn)就是不能老喊“狼來了”,這就要求識(shí)別出的盡量都是對(duì)的,我們一般會(huì)控制一個(gè)誤報(bào)率?,F(xiàn)在我們?cè)诎卜缊?chǎng)景下識(shí)別嫌疑人,基本上路過的嫌疑人都能夠識(shí)別出來,并且誤報(bào)不會(huì)超過30%。目前業(yè)界還沒有一個(gè)基準(zhǔn),但我們參加了很多樓宇、安防競(jìng)賽,都是業(yè)界的最高水平。
現(xiàn)在經(jīng)常聽到99.9%,這只是在某個(gè)數(shù)據(jù)集上的表現(xiàn),真正現(xiàn)實(shí)的問題和場(chǎng)景要比測(cè)試數(shù)據(jù)集難太多太多。其實(shí)最早是我們引領(lǐng)了刷benchmark這個(gè)風(fēng)潮,后來我們又不怎么刷了。我們最早刷LFW,已經(jīng)基本刷到頂了,最后即使出錯(cuò),感覺好像也不是本質(zhì)問題,所以我們就沒有去管這個(gè)事情了。但現(xiàn)在大家還很瘋狂地在刷99.9%后面的位數(shù),這沒有任何意義,LFW只有6000對(duì)數(shù)據(jù),那個(gè)數(shù)據(jù)集早就已經(jīng)過擬合了。我認(rèn)為大家要更關(guān)注的點(diǎn),應(yīng)該是更結(jié)合實(shí)際場(chǎng)景去解決問題。
新智元:曠視現(xiàn)在很多行業(yè)落地都跟政府有著很強(qiáng)的相關(guān)性,ToG是否是人工智能發(fā)展的一個(gè)重要方向?這是否是曠視發(fā)展的一個(gè)重要方向?
唐文斌:面向政府絕對(duì)會(huì)是人工智能發(fā)展落地的一個(gè)新方向。就像我剛才說的,我們要做什么,不做什么,選擇的邏輯是用戶價(jià)值,圖像識(shí)別或者人臉識(shí)別對(duì)于城市治理和公共安全能夠帶來非常大的價(jià)值增量,我們是非常愿意去做的。政府現(xiàn)在是我們最大客戶之一。當(dāng)然,政府也非常支持現(xiàn)在的人工智能產(chǎn)業(yè)發(fā)展,在這種需求里面也給我們提供了很多的機(jī)會(huì)。
Research負(fù)責(zé)尋找算法之外的東西。邊界里面的全部通過工程實(shí)現(xiàn)自動(dòng)化。
新智元:曠視的核心優(yōu)勢(shì)是什么?
唐文斌:深度學(xué)習(xí)有三個(gè)核心要素,算法、數(shù)據(jù)和系統(tǒng),這三者是相乘關(guān)系——你有一個(gè)好的算法,用有很多數(shù)據(jù)去催它,當(dāng)數(shù)據(jù)變多、算法變復(fù)雜后,還需要有一套很好的底層架構(gòu)和引擎來支撐。
從算法的角度講,我們請(qǐng)來了孫劍老師,希望孫劍老師帶著同學(xué)們?cè)诂F(xiàn)有算法基礎(chǔ)上找到新的東西。算法就像人的智商,數(shù)據(jù)就像人的見識(shí),見識(shí)決定了你能走到多高,而智商決定了你能走多遠(yuǎn),兩件事情都非常重要。我們的研究團(tuán)隊(duì)其實(shí)就在智商這個(gè)方向上探索。而數(shù)據(jù)是一個(gè)更產(chǎn)品或者更工程的事情,我們需要在產(chǎn)品中設(shè)計(jì)一個(gè)好的方式,形成數(shù)據(jù)的循環(huán),讓產(chǎn)品中的數(shù)據(jù)回來,不斷加深算法的訓(xùn)練,讓它變成更強(qiáng)的算法。
我們也非常重視系統(tǒng)的建設(shè),我們有自己研發(fā)的MegBrain深度學(xué)習(xí)引擎和Brain++平臺(tái)。如果說研究的價(jià)值在于去探索邊界之外的東西,那邊界之內(nèi)的,比如網(wǎng)絡(luò)結(jié)構(gòu)的搜索,都應(yīng)該用機(jī)器來完成。我們的產(chǎn)品中常常會(huì)有的定制算法的需求,很多時(shí)候大框架都差不多,數(shù)據(jù)工程師把數(shù)據(jù)整理和準(zhǔn)備好以后,就直接用系統(tǒng)把各種類型的模型都嘗試一遍,最后挑選出一個(gè)不錯(cuò)的。
新智元:你提到了數(shù)據(jù)工程師,現(xiàn)在曠視在數(shù)據(jù)方面投入多少?有多少人標(biāo)注數(shù)據(jù)?
唐文斌:全職標(biāo)注的大約有300人,不算在600多人的團(tuán)隊(duì)里面。我們還有很多工作是外包完成。我們內(nèi)部有標(biāo)注的數(shù)據(jù)庫是PB級(jí)別。
新智元:你曾在清華擔(dān)任科協(xié)主席,也帶過中國奧林匹克信息學(xué)競(jìng)賽團(tuán)隊(duì),可以說你是曠視最開始的首席人才官。你認(rèn)為目前人工智能人才應(yīng)該有什么樣的特點(diǎn)?曠視在選擇的時(shí)候看重什么特質(zhì)?
唐文斌:我覺得人才的類型是很多樣的,每一種類型的人才都是人才,光會(huì)寫paper的人才也是人才,雖然價(jià)值沒有那么大。在現(xiàn)在的人工智能發(fā)展態(tài)勢(shì)下,我們最需要的是復(fù)合型人才。做產(chǎn)品的時(shí)候會(huì)有產(chǎn)品經(jīng)理,但人工智能場(chǎng)景下的產(chǎn)品經(jīng)理需要更加復(fù)合。
我們團(tuán)隊(duì)最早的一位同學(xué),員工工號(hào)No. 5的“卿爺”,我們現(xiàn)在提供給小米、VIVO人臉解鎖的產(chǎn)品線都是他帶著團(tuán)隊(duì)來做的,他需要有什么樣的能力?第一,懂算法,不一定要懂算法具體是怎么做的,但一定要懂算法的邊界在哪里——堅(jiān)信這件事情一定能做到,但同時(shí)也要了解現(xiàn)在的算法有些東西是真的做不到。第二,有很好的工程判斷力,用算法的方式是從本質(zhì)去解決問題,而有些東西你會(huì)通過工程的方法去“不本質(zhì)的解決”,倒推出一個(gè)一個(gè)設(shè)計(jì)。第三,也是更為重要的,需要不斷從用戶的需求、用戶的場(chǎng)景、用戶的價(jià)值角度出發(fā)思考問題。這樣一個(gè)產(chǎn)品經(jīng)理,他需要比以往的產(chǎn)品經(jīng)理有更多工程上sense,更多算法上的sense。
從工程師的角度來講,我們有一個(gè)詞,叫“全棧AI工程師”,我們希望這位同學(xué)不僅數(shù)學(xué)好,懂算法,編程很強(qiáng),還非常懂系統(tǒng);算法編程都很懂才能做引擎,懂體系結(jié)構(gòu)你的引擎才能在不同的平臺(tái)上都跑得很好很快。這樣的人非常難找,但也是最強(qiáng)的。比如說我們做Brain++平臺(tái)的那幫人,他們提供的是訓(xùn)練平臺(tái),給到研究人員使用,他們知道Research是怎么使用這些東西,他們自己也隨時(shí)都能轉(zhuǎn)變?yōu)镽esearcher。同時(shí),他們考慮Researcher做的哪些事情是沒有價(jià)值的,要把它工程化、系統(tǒng)化,最終的目標(biāo)是消滅Researcher——所有在邊界范圍內(nèi)的Research都由系統(tǒng)來完成,而Research真正要做的事情是突破邊界,探索邊界之外的東西。
曠視在選擇人才的時(shí)候也是按照這個(gè)標(biāo)準(zhǔn)。如果有這樣的人,我們特別特別希望你能夠加入我們,我們團(tuán)隊(duì)里有很多這樣的人,你跟他們?cè)谝黄鹨欢〞?huì)非常愉快。其次,我們也很看重學(xué)習(xí)能力,現(xiàn)在領(lǐng)域發(fā)展很快,你需要非常快速地跟上節(jié)奏去嘗試你的新想法,所以學(xué)習(xí)能力和動(dòng)手速度非常重要。我們也有實(shí)習(xí)生項(xiàng)目,總之歡迎你來,孫劍老師帶你飛對(duì)吧(笑)。
新智元:曠視的算法、軟件如何與硬件相結(jié)合?
唐文斌:我們有自己的深度學(xué)習(xí)引擎MegBrain,這個(gè)引擎在不同的品牌上做了非常多的底層優(yōu)化,能夠跑得非???。我們最近做的一款智能相機(jī)產(chǎn)品,這個(gè)相機(jī)是業(yè)界第一款全幀率、全畫幅(1080P)智能人像抓拍機(jī)。
全幀率的意思就是說,每秒30幀,每幀都去抓取,在業(yè)界這個(gè)指標(biāo)是最高的。有的嫌疑人員有很強(qiáng)的反偵察意識(shí),一看到攝像頭會(huì)馬上低頭,如果相機(jī)不能以非??斓乃俣茸龀鼋厝?可能只有100毫秒,一兩幀之后這人就消失了。同時(shí),每一幀都檢測(cè),也能確??偸悄茏サ劫|(zhì)量最好的一幀,為后續(xù)應(yīng)用服務(wù)。以往的相機(jī)在畫面中抓拍做檢測(cè),基本上最多只能抓拍畫面中10到20個(gè)人,再多就抓不到了,因?yàn)橛?jì)算量不行。我們可以做到128張人臉,很大的人流也能跟蹤得很好。
我們用的是自己設(shè)計(jì)的FPGA芯片,在算法層面也做了很大升級(jí)。硬件也好,算法也好,引擎也好,這幾個(gè)東西是要聯(lián)合優(yōu)化的。這也是自己做引擎的廠家好的地方,我的引擎可以根據(jù)算法的需求去調(diào)整。
新智元:未來1年曠視會(huì)怎樣?未來3~5年呢?
唐文斌:我們分幾個(gè)組,研究院大概10%~15%的力量可能在解決2~5年的問題,更多的人在解決一年以內(nèi)的問題,因?yàn)閯?chuàng)業(yè)公司要?jiǎng)?wù)實(shí)聚焦。在介紹產(chǎn)品時(shí)候也講過,比如說我們?yōu)槭裁醋鱿鄼C(jī),并不是因?yàn)橛X得相機(jī)賺錢,而是我們想當(dāng)視頻大數(shù)據(jù)平臺(tái),發(fā)現(xiàn)源頭數(shù)據(jù)不好,后面再怎么分析也沒用,所以我們要在源頭上通過自己的方式把質(zhì)量控制好,讓后面的分析能力能夠更強(qiáng),形成端到端的解決方案和業(yè)務(wù)價(jià)值。
我們希望未來一年左右,在金融和安防這兩個(gè)場(chǎng)景下能夠站深、站穩(wěn),希望在這兩個(gè)行業(yè)形成全系列的產(chǎn)品,端到端的解決方案,給用戶一套完整的價(jià)值鏈條。我們內(nèi)部有個(gè)說法是“4+2+X”,在微型場(chǎng)景下,把臉人車文字這4個(gè)要素識(shí)別做好,再后希望能夠形成機(jī)器人的手和腿,做一些限定場(chǎng)景的機(jī)器人應(yīng)用。“X”是指通過Brain++這個(gè)平臺(tái)快速做技術(shù)的定制,讓這個(gè)場(chǎng)景真正的能夠形成一個(gè)完整的產(chǎn)品鏈。但真真實(shí)實(shí)地講,領(lǐng)域發(fā)展這么快,未來3~5年,我真的不知道!
11月8日,在新智元 AI World 2017 世界人工智能大會(huì)上,曠視科技首席科學(xué)家、曠視研究院院長(zhǎng)孫劍博士將發(fā)表演講,聚焦人臉識(shí)別等視覺前沿技術(shù)和問題,為我們帶來計(jì)算機(jī)視覺最新技術(shù)和應(yīng)用的精彩分享。
孫劍博士目前在曠視科技(Face++)擔(dān)任首席科學(xué)家、曠視研究院院長(zhǎng)。2003年畢業(yè)于西安交通大學(xué)人工智能與機(jī)器人研究所,畢業(yè)后加入微軟亞洲研究院 ( Microsoft Research Asia),任職首席研究員。自2002年以來在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五個(gè)頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,兩次獲得 CVPR Best Paper Award (2009, 2016)。孫劍博士于2010被美國權(quán)威技術(shù)期刊 MIT Technology Review 評(píng)選為“全球35歲以下杰出青年創(chuàng)新者”。
孫劍博士帶領(lǐng)的團(tuán)隊(duì)于2015年獲得圖像識(shí)別國際大賽五項(xiàng)冠軍 ( ImageNet分類,檢測(cè)和定位,MS COCO 檢測(cè)和分割),其團(tuán)隊(duì)開發(fā)出來的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測(cè)”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時(shí)孫劍帶領(lǐng)的團(tuán)隊(duì)的研究成果也廣泛被應(yīng)用在微軟 Windows, Office, Bing, Azure, Surface, Xbox 等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團(tuán)隊(duì)推進(jìn)計(jì)算機(jī)視覺技術(shù)的進(jìn)步和探索其在工業(yè)和商業(yè)上的實(shí)踐。