ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習(xí)零樣本圖像匹配大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習(xí)零樣本圖像匹配大模型
關(guān)鍵字:模型,視頻,性能,圖像,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5706字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部圖像匹配是計(jì)算機(jī)視覺的一項(xiàng)基礎(chǔ)任務(wù),其目標(biāo)在于估計(jì)兩張圖像之間的像素對(duì)應(yīng)關(guān)系。圖像匹配是眾多視覺應(yīng)用如三維重建、視覺定位和神經(jīng)渲染(neural rendering)等的基礎(chǔ)和前置步驟,其精確度和效率對(duì)于后續(xù)處理十分重要。
傳統(tǒng)算法(SIFT)在面臨長(zhǎng)基線或極端天氣等復(fù)雜場(chǎng)景時(shí),其匹配的準(zhǔn)確度和密度往往有限。為了解決這些問題,近年來,基于深度學(xué)習(xí)的匹配模型逐漸流行。然而,由于缺乏大規(guī)模且多樣化的具有真值標(biāo)簽的訓(xùn)練數(shù)據(jù),目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分別訓(xùn)練室內(nèi)和室外兩個(gè)模型。這種針對(duì)特定場(chǎng)景的訓(xùn)練限制了模型對(duì) zero-shot 場(chǎng)景的泛化,無法擴(kuò)展至未知場(chǎng)景中。此外,現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往依賴于 RGBD 掃描或 SfM+MVS 進(jìn)行重建,其效率和適用性有限,無法有效地?cái)U(kuò)展數(shù)據(jù)并用于模型訓(xùn)練。
為了解決基于深度學(xué)習(xí)方法泛化性的問題,來自廈門大學(xué)、Intel、大疆的研究者們提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一個(gè)可
原文鏈接:ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習(xí)零樣本圖像匹配大模型
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)