ICLR 2024 Oral:長(zhǎng)視頻中噪聲關(guān)聯(lián)學(xué)習(xí),單卡訓(xùn)練僅需1天

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 Oral:長(zhǎng)視頻中噪聲關(guān)聯(lián)學(xué)習(xí),單卡訓(xùn)練僅需1天
關(guān)鍵字:視頻,片段,文本,標(biāo)題,噪聲
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8058字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
作者:林義杰在 2024 世界經(jīng)濟(jì)論壇的一次會(huì)談中,圖靈獎(jiǎng)得主 Yann LeCun 提出用來(lái)處理視頻的模型應(yīng)該學(xué)會(huì)在抽象的表征空間中進(jìn)行預(yù)測(cè),而不是具體的像素空間 [1]。借助文本信息的多模態(tài)視頻表征學(xué)習(xí)可抽取利于視頻理解或內(nèi)容生成的特征,正是促進(jìn)該過(guò)程的關(guān)鍵技術(shù)。
然而,當(dāng)下視頻與文本描述間廣泛存在的噪聲關(guān)聯(lián)現(xiàn)象嚴(yán)重阻礙了視頻表征學(xué)習(xí)。因此本文中,研究者基于最優(yōu)傳輸理論,提出魯棒的長(zhǎng)視頻學(xué)習(xí)方案以應(yīng)對(duì)該挑戰(zhàn)。該論文被機(jī)器學(xué)習(xí)頂會(huì)ICLR 2024接收為了 Oral。論文題目:Multi-granularity Correspondence Learning from Long-term Noisy Videos
論文地址:https://openreview.net/pdf?id=9Cu8MRmhq2
項(xiàng)目地址:https://lin-yijie.github.io/projects/Norton
代碼地址:https://github.com/XLearning-SCU/2024-ICLR-Norton
背景與挑戰(zhàn)
視頻表征學(xué)習(xí)是多模態(tài)研究中最熱門(mén)的問(wèn)題之一。大規(guī)模
原文鏈接:ICLR 2024 Oral:長(zhǎng)視頻中噪聲關(guān)聯(lián)學(xué)習(xí),單卡訓(xùn)練僅需1天
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)