CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計框架HoT
AIGC動態(tài)歡迎閱讀
原標題:CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計框架HoT
關(guān)鍵字:模型,姿態(tài),冗余,序列,視頻
文章來源:機器之心
內(nèi)容字數(shù):9248字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部目前,Video Pose Transformer(VPT)在基于視頻的三維人體姿態(tài)估計領(lǐng)域取得了最領(lǐng)先的性能。近年來,這些 VPT 的計算量變得越來越大,這些巨大的計算量同時也限制了這個領(lǐng)域的進一步發(fā)展,對那些計算資源不足的研究者十分不友好。例如,訓練一個 243 幀的 VPT 模型通常需要花費好幾天的時間,嚴重拖慢了研究的進度,并成為了該領(lǐng)域亟待解決的一大痛點。
那么,該如何有效地提升 VPT 的效率同時幾乎不損失精度呢?
來自北京大學的團隊提出了一種基于沙漏 Tokenizer 的高效三維人體姿態(tài)估計框架HoT,用來解決現(xiàn)有視頻姿態(tài) Transformer(Video Pose Transformer,VPT)高計算需求的問題。該框架可以即插即用無縫地集成到 MHFormer,MixSTE,MotionBERT 等模型中,降低模型近 40% 的計算量而不損失精度,代碼已開源。標題:Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
論文地址:https
原文鏈接:CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計框架HoT
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺