根據(jù)音樂信號(hào)預(yù)測(cè)身體的運(yùn)動(dòng)是一個(gè)極具挑戰(zhàn)性的計(jì)算問題。來自Facebook、斯坦福大學(xué)和華盛頓大學(xué)的研究人員開發(fā)了一種基于深度學(xué)習(xí)的方法,該方法可以將樂器的聲音轉(zhuǎn)換成對(duì)骨骼關(guān)鍵點(diǎn)的預(yù)測(cè),并可以用于制作動(dòng)畫角色。
鋼琴家在彈奏鋼琴曲時(shí),他們的身體會(huì)對(duì)音樂產(chǎn)生反應(yīng)。他們的手指在琴鍵上敲擊,他們揮動(dòng)手臂在不同的八度音階上演奏。小提琴演奏者用一只手在琴弦上拉弓,另一只手的手指輕觸或撥動(dòng)琴弦。弓法越快,產(chǎn)生音樂節(jié)奏也越快。
一個(gè)有趣的問題是:身體的運(yùn)動(dòng)可以通過音樂信號(hào)進(jìn)行計(jì)算預(yù)測(cè)嗎?這是一個(gè)極具挑戰(zhàn)性的計(jì)算問題。我們需要有一套很好的訓(xùn)練視頻,需要能夠準(zhǔn)確地預(yù)測(cè)這些視頻中的身體姿勢(shì),然后建立一個(gè)能夠找到音樂和身體之間的相關(guān)性的算法,以進(jìn)一步預(yù)測(cè)運(yùn)動(dòng)。
來自Facebook、斯坦福大學(xué)和華盛頓大學(xué)的研究人員開發(fā)了一種基于深度學(xué)習(xí)的方法,該方法可以將樂器的聲音轉(zhuǎn)換成對(duì)骨骼關(guān)鍵點(diǎn)的預(yù)測(cè),并可以用于制作動(dòng)畫角色。
受唇語(yǔ)預(yù)測(cè)和視頻對(duì)象檢測(cè)啟發(fā)
人體動(dòng)力學(xué)是很復(fù)雜的,尤其是考慮到學(xué)習(xí)音頻相關(guān)性所需要的質(zhì)量。傳統(tǒng)上,通過視頻序列(而不是音頻)來預(yù)測(cè)人體自然運(yùn)動(dòng)的最優(yōu)方法是采用實(shí)驗(yàn)室狀態(tài)下拍攝的動(dòng)作捕捉序列。在我們的場(chǎng)景中,我們需要帶一位鋼琴家到實(shí)驗(yàn)室,在他們的手指和身體關(guān)節(jié)處安裝傳感器,然后請(qǐng)他們演奏幾個(gè)小時(shí)。
這種方法在實(shí)踐中很難執(zhí)行,也不容易推廣。如果我們能夠利用優(yōu)秀鋼琴家演奏的公開視頻,我們就有可能在數(shù)據(jù)上實(shí)現(xiàn)更高程度的多樣性。但直到最近,從視頻中準(zhǔn)確地估計(jì)身體姿勢(shì)才成為可能。今年出現(xiàn)了幾種方法,可以讓我們從“自然狀態(tài)下”的數(shù)據(jù)中學(xué)習(xí)。
此外,有一些方法顯示出預(yù)測(cè)唇語(yǔ)的顯著結(jié)果。也就是說,給定一個(gè)人說話的音頻,他們可以預(yù)測(cè)出這個(gè)人說話時(shí)嘴唇的運(yùn)動(dòng)。
這兩個(gè)方向取得的進(jìn)步啟發(fā)了我們,我們?cè)噲D去解決僅僅從音樂中預(yù)測(cè)身體和手指運(yùn)動(dòng)的挑戰(zhàn)。這篇論文的目標(biāo)是探索是否有可能,以及我們是否能從音頻中創(chuàng)造出自然和符合邏輯的身體運(yùn)動(dòng)。注意,我們沒有使用MIDI文件之類的信息,而是試圖了解鋼琴琴鍵和音樂之間的關(guān)系。我們專注于創(chuàng)造一個(gè)能像鋼琴家那樣運(yùn)動(dòng)他的手和手指的角色(avatar)。
我們考慮了兩組數(shù)據(jù),鋼琴和小提琴獨(dú)奏(如圖3)。我們分別收集了這兩類音樂的視頻,通過視頻每一幀里的上半身和手指來處理視頻。每一幀共50個(gè)關(guān)鍵點(diǎn),其中21個(gè)點(diǎn)表示每只手的手指,8個(gè)點(diǎn)表示上半身。
圖3:訓(xùn)練數(shù)據(jù)
除了預(yù)測(cè)點(diǎn)之外,我們的另一個(gè)目標(biāo)是通過動(dòng)畫形象的方式來可視化這些點(diǎn),讓動(dòng)畫人物根據(jù)給定的音頻輸入自主活動(dòng)。為了解決這個(gè)問題,我們提出兩個(gè)步驟。首先,構(gòu)建一個(gè)長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò),學(xué)習(xí)音頻特征和身體骨架界標(biāo)(body skeleton landmarks)之間的相關(guān)性。其次,我們使用預(yù)測(cè)的landmark自動(dòng)給一個(gè)動(dòng)畫形象賦予生命。最后的輸出是能根據(jù)音頻輸入活動(dòng)的動(dòng)畫人物。
關(guān)鍵點(diǎn)估計(jì)
我們對(duì)兩種關(guān)鍵點(diǎn)感興趣:身體和手指。通常情況下,由于相機(jī)、燈光和快速運(yùn)動(dòng)產(chǎn)生的巨大變化,在自然的視頻中估計(jì)關(guān)鍵點(diǎn)的估計(jì)是具有挑戰(zhàn)性的。不過,最近出現(xiàn)了許多方法可以更好地處理自然的視頻。
我們獲取相對(duì)精確的關(guān)鍵點(diǎn)的過程如下:
我們首先通過三個(gè)庫(kù)來運(yùn)行視頻:提供臉部、身體和手的關(guān)鍵點(diǎn)的OpenPose,MaskRCNN,以及人臉識(shí)別算法DeepFace。這三個(gè)庫(kù)在基準(zhǔn)測(cè)試上表現(xiàn)很好,但是在我們的視頻中,它們?cè)谀承蠒?huì)失敗。
圖4:在預(yù)處理步驟中自動(dòng)刪除的關(guān)鍵點(diǎn)檢測(cè)器的失敗案例
從音頻到身體關(guān)鍵點(diǎn)的預(yù)測(cè)
我們的目標(biāo)是學(xué)習(xí)音頻特征和身體運(yùn)動(dòng)之間的關(guān)聯(lián)性。為此,我們構(gòu)建了一個(gè)LSTM(長(zhǎng)短期記憶)網(wǎng)絡(luò)。架構(gòu)如圖5所示:
圖5:關(guān)鍵點(diǎn)預(yù)測(cè)LSTM的架構(gòu)。表示音頻特征,表示相應(yīng)的關(guān)鍵點(diǎn)。
我們選擇使用具有時(shí)間延遲的單向的單層LSTM。表示在特定時(shí)間i的音頻MFCC,表示身體關(guān)鍵點(diǎn)的PCA系數(shù),m表示memory。我們還添加了一個(gè)完全連接層“fc”,發(fā)現(xiàn)它可以提高性能。
我們進(jìn)行了300 epochs的訓(xùn)練。該網(wǎng)絡(luò)在Caffe2上實(shí)現(xiàn),并使用ADAM優(yōu)化器。輸入和輸出都是通過減去平均值并除以方差而歸一化的。
圖6:第一個(gè)PCA mode(piano)
從身體關(guān)鍵點(diǎn)到動(dòng)畫形象
當(dāng)身體的關(guān)鍵點(diǎn)預(yù)估出來后,我們用一個(gè)動(dòng)畫形象來使用這些點(diǎn)。我們使用ARkit構(gòu)建了一個(gè)增強(qiáng)現(xiàn)實(shí)應(yīng)用程序,它可以在手機(jī)上實(shí)時(shí)運(yùn)行。給定一系列2D預(yù)測(cè)點(diǎn)和身體的動(dòng)畫化身,動(dòng)作便被應(yīng)用到化身上。我們使用的化身是帶有人體骨骼裝置的3D人體模型。
實(shí)驗(yàn)
評(píng)估:
我們?cè)诰W(wǎng)絡(luò)中嘗試了不同的參數(shù)選擇,并在表1和表2中提供了比較。為了找到最優(yōu)參數(shù),我們進(jìn)行了超參數(shù)搜索。表中的誤差以像素表示,越低越好。
為了獲得好的結(jié)果,過濾掉訓(xùn)練數(shù)據(jù)中的所有糟糕的幀(錯(cuò)誤的骨架、錯(cuò)誤的人體檢測(cè)、錯(cuò)誤的人體識(shí)別)是很重要的??梢钥吹?只要過濾掉壞數(shù)據(jù),誤差就會(huì)顯著減少。
通過使用較少的PCA系數(shù),可以更好地適應(yīng)訓(xùn)練數(shù)據(jù),但測(cè)試誤差大于使用較多的系數(shù)。在我們的案例中,使用dropout并不能改善結(jié)果。時(shí)間延遲有助于改善結(jié)果。
結(jié)果:
圖8和圖9給出了有代表性的結(jié)果。我們展示了不同身體姿勢(shì)的預(yù)測(cè)關(guān)鍵點(diǎn),以及上下文的原始框架。對(duì)于關(guān)鍵點(diǎn),我們將它們疊加在groud truth點(diǎn)上進(jìn)行視覺對(duì)比。注意,我們并不期望這些點(diǎn)能完全一致,但是手指和手可以產(chǎn)生類似的令人滿意的運(yùn)動(dòng),這是本文的目標(biāo)。
圖8
圖9
在我們的案例中,groud truth是2D身體姿勢(shì)檢測(cè)器的結(jié)果,這可能是錯(cuò)誤的。最后,我們?cè)趫D12中展示了失敗案例,第一行是鋼琴的,第二行是小提琴的。這些失敗案例表明我們的系統(tǒng)有局限性:目前我們的系統(tǒng)是訓(xùn)練2D的姿勢(shì),而訓(xùn)練視頻中的實(shí)際姿勢(shì)是3D的。因此,被遮擋和看不見的點(diǎn)不能很好地預(yù)測(cè)。在視頻的高速度和高頻率部分,身體姿態(tài)檢測(cè)器可能會(huì)產(chǎn)生錯(cuò)誤,運(yùn)動(dòng)模糊也是如此。
原文標(biāo)題:神“樂”馬良:AI直接將音頻轉(zhuǎn)換成動(dòng)畫
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。