真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

3D human pose estimation in video with temporal convolutions and semi-supervised training 論文理解

寫在前面

Facebook 開源的VideoPose3D模型致力于實現(xiàn)準(zhǔn)確的人體骨骼3D重建。其效果令人驚嘆,只需要使用手機相機就可以實現(xiàn)相似的效果。

而一旦技術(shù)成熟,這種人體骨骼的三維重建在很多領(lǐng)域?qū)a(chǎn)生顛覆性的應(yīng)用。

成都創(chuàng)新互聯(lián)公司2013年成立,先為雙江等服務(wù)建站,雙江等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為雙江企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

但是到目前為止,該技術(shù)還是有很多不足,其中制約該技術(shù)商業(yè)化運用的一個最大難點在于源碼理解困難,模型是純純黑盒。因此本文將嘗試?yán)斫庠撜撐牡膶崿F(xiàn)方法。

介紹

論文一開始就闡述了核心技術(shù),即使用2D關(guān)鍵點預(yù)測3D姿勢,最后再將3D姿勢反向投影回原先的2D關(guān)鍵點(半監(jiān)督方法)。

并且作者聲稱在2D關(guān)鍵點預(yù)測3D時使用了時間卷積架構(gòu)(temporal convolutions),讓模型可以一次看見多個幀,從而提升3D姿態(tài)估計的準(zhǔn)確性。

并且作者還介紹了一個基于半監(jiān)督學(xué)習(xí)的技術(shù)方法,以提高標(biāo)記 3D 真實姿態(tài)數(shù)據(jù)的的準(zhǔn)確性。

這里的幾個關(guān)鍵詞分別是:

2D關(guān)鍵點: 通過基于2D圖像檢測技術(shù)獲取的人體2D關(guān)鍵點。相關(guān)的技術(shù)庫主要有:Detectron,Openpose 等。

需要注意的是,這種技術(shù)僅檢測在圖片的2D坐標(biāo)系內(nèi)出現(xiàn)的人體骨骼關(guān)鍵點,并不包含深度信息(也就是第三軸),因此無法建立3D模型。

3D姿勢: 相對于上文的2D關(guān)鍵點,3D姿勢也可以說成是3D關(guān)鍵點,VideoPose3D模型通過獲取的2D關(guān)鍵點為這些關(guān)鍵點添加了深度信息,從而建立了3D模型。這也是這個模型的魅力所在。

將3D姿勢反向投影回原先的2D關(guān)鍵點,監(jiān)督學(xué)習(xí)的技術(shù)方法:這兩個關(guān)鍵詞說的其實是一個技術(shù)。即在大量的未標(biāo)記視頻中(例如油管視頻),通過2D關(guān)鍵點檢測技術(shù)生成2D關(guān)鍵點之后,應(yīng)用VideoPose3D生成3D關(guān)鍵點,,之后,再將生成的3D關(guān)鍵點投影回原來的2D空間中,這時就會發(fā)現(xiàn),你有兩套2D關(guān)鍵點了,一套是通過2D關(guān)鍵點檢測技術(shù)生成的2D關(guān)鍵點,另一套是3D關(guān)鍵點投影回來的2D關(guān)鍵點。然后就可以通過計算這兩套關(guān)鍵點之間的誤差來評價生成的3D模型的效果了。因此被稱為半監(jiān)督學(xué)習(xí)的技術(shù)方法。而且作者借鑒了對抗神經(jīng)網(wǎng)絡(luò)(GAN)的理念,在兩套關(guān)鍵點差異過大時對模型予以懲罰,從而可以大量生成標(biāo)記數(shù)據(jù)集,,,這真是挺強的。這個技術(shù)的理解難點在于將3D姿勢反向投影回2D,因為由VideoPose3D模型預(yù)測出來的3D關(guān)鍵點僅僅是各個關(guān)節(jié)的相對位置,而不包含當(dāng)前世界場景下的絕對位置(也就是說,你不知道人物在視頻中的移動軌跡),所以如果想要將3D關(guān)鍵點反向投影回2D的話,必須要獲得人物的身體中心(或者原點)的移動軌跡,然后再將3D關(guān)鍵點投影上去。為此,作者還專門寫了一個軌跡模型(Trajectory model)用于預(yù)測人體在3D空間內(nèi)的軌跡。但是作者沒有細(xì)說軌跡模型的實現(xiàn)方法。

時間卷積架構(gòu)(temporal convolutions):

作者們利用了卷積神經(jīng)網(wǎng)絡(luò)的特性,讓模型可以一次'看見'時間軸上的先后的多個動作(視頻的幀),從而更好地估計3D姿態(tài)。這也是我認(rèn)為本文的第二大創(chuàng)新點。
試想,讓你只看一張圖片就估計一個物體(人)的3D姿勢,和讓你包含了一個人連續(xù)動作的多個圖片來估計3D姿勢,可能后者會來得更準(zhǔn)確一些。


當(dāng)前標(biāo)題:3D human pose estimation in video with temporal convolutions and semi-supervised training 論文理解
網(wǎng)站路徑:http://weahome.cn/article/dsoggch.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部