理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
AIGC動態(tài)歡迎閱讀
原標(biāo)題:理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
關(guān)鍵字:場景,模塊,猩猩,論文,任務(wù)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
「自動駕駛新青年講座」由智猩猩企劃,致力于邀請全球知名高校、頂尖研究機(jī)構(gòu)以及優(yōu)秀企業(yè)的新青年,主講在環(huán)境感知、精準(zhǔn)定位、決策規(guī)劃、控制執(zhí)行等自動駕駛關(guān)鍵技術(shù)上的最新研究成果和開發(fā)實踐。在自動駕駛領(lǐng)域里,針對3D場景的正確理解是非常重要的。目前對于室內(nèi)場景采用3D密集字幕生成取得了很好的進(jìn)展,在室外場景中卻存在很大的局限性,不僅因為室內(nèi)、外場景之間存在域差距,還因為當(dāng)前缺乏針對室外場景的具有全面框-字幕對標(biāo)注的數(shù)據(jù)。
基于當(dāng)前問題,理想汽車聯(lián)合中科院自動化所等研究人員提出一種室外3D密集描述任務(wù)TOD3Cap。該任務(wù)輸入為LiDAR點云和全景相機(jī)組拍攝的一組RGB圖像,期望輸出為一組帶字幕的物體框。與TOD3Cap相關(guān)的論文收錄于ECCV 2024上.為了解決這一任務(wù),該團(tuán)隊提出了TOD3Cap網(wǎng)絡(luò),利用BEV表示生成物體框提議,集成了Relation Q-Former和LLaMA-Adapter生成這些物體的豐富字幕。同時,還引入了TOD3Cap數(shù)據(jù)集,這是目前用于室外場景中3D密集字幕的最大的數(shù)據(jù)集,包含850個場景中64.3K個室外物體的2.3M個描述。軌跡規(guī)劃是自動駕駛的核心模塊
原文鏈接:理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。