OpenEMMA – 德克薩斯聯(lián)合多倫多等大學(xué)開源的端到端自動(dòng)駕駛多模態(tài)模型
OpenEMMA是什么
OpenEMMA是由德州農(nóng)工大學(xué)、密歇根大學(xué)和多倫多大合開發(fā)的開源端到端自動(dòng)駕駛多模態(tài)模型框架。該框架基于預(yù)訓(xùn)練的多模態(tài)大型語言模型(MLLMs),能夠高效處理視覺數(shù)據(jù)并進(jìn)行復(fù)雜的駕駛場景推理。通過采用鏈?zhǔn)剿季S推理方法,OpenEMMA顯著提升了模型在軌跡規(guī)劃和感知任務(wù)中的性能,同時(shí)結(jié)合了經(jīng)過優(yōu)化的YOLO模型,以提高3D邊界框預(yù)測的精度。OpenEMMA為研究和開發(fā)提供了一個(gè)強(qiáng)大的平臺(tái),助力自動(dòng)駕駛技術(shù)的前沿發(fā)展。
OpenEMMA的主要功能
- 端到端軌跡規(guī)劃:該框架可以直接從傳感器輸入中學(xué)習(xí)駕駛行為,實(shí)現(xiàn)從感知到?jīng)Q策的全面優(yōu)化,完全無需符號(hào)化接口。
- 多模態(tài)數(shù)據(jù)處理:OpenEMMA處理來自前向攝像頭的圖像和文本歷史的ego車輛狀態(tài),將駕駛?cè)蝿?wù)轉(zhuǎn)化為視覺問答(VQA)問題進(jìn)行解決。
- 鏈?zhǔn)剿季S推理:框架采用鏈?zhǔn)剿季S推理過程,指導(dǎo)模型生成關(guān)于關(guān)鍵對(duì)象的詳細(xì)描述、行為分析及元駕駛決策。
- 3D對(duì)象檢測:通過集成優(yōu)化后的YOLO模型,OpenEMMA能夠精確識(shí)別3D空間中的對(duì)象,從而提升對(duì)象檢測的準(zhǔn)確性。
- 人類可讀輸出:基于預(yù)存世界知識(shí)的MLLM,OpenEMMA能夠?yàn)閳鼍袄斫獾雀兄蝿?wù)生成可解釋、易于理解的輸出結(jié)果。
OpenEMMA的技術(shù)原理
- 預(yù)訓(xùn)練的MLLMs:利用預(yù)訓(xùn)練的多模態(tài)大型語言模型,OpenEMMA能夠有效處理復(fù)雜的視覺數(shù)據(jù)并推理駕駛場景。
- 鏈?zhǔn)剿季S推理過程:基于鏈?zhǔn)剿季S推理,模型可以生成速度向量和曲率向量,這些向量用于計(jì)算車輛的未來行駛軌跡。
- 速度和曲率向量:在獲取速度和曲率向量后,模型將整合每個(gè)時(shí)間步的航向角,然后計(jì)算速度的x和y分量,最后通過積分速度分量來計(jì)算最終的行駛軌跡。
- 對(duì)象檢測增強(qiáng):為克服MLLM在空間推理上的局限,框架集成了專門用于3D邊界框預(yù)測的YOLO模型。
- 端到端規(guī)劃與推理:OpenEMMA采用基于指令的方法,指導(dǎo)MLLM生成易于理解的知識(shí),將軌跡生成任務(wù)分解為人類可解釋的組成部分,以反映真實(shí)的駕駛過程。
OpenEMMA的項(xiàng)目地址
- GitHub倉庫:https://github.com/taco-group/OpenEMMA
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.15208
OpenEMMA的應(yīng)用場景
- 城市道路駕駛:在復(fù)雜的城市交通中,OpenEMMA能夠處理多變的交通信號(hào)、行人、自行車及其他車輛,為自動(dòng)駕駛車輛提供實(shí)時(shí)的決策支持與軌跡規(guī)劃。
- 高速公路駕駛:在高速公路上,該框架可處理高速行駛中的車輛,支持車道保持、超車和避障等操作決策。
- 停車和低速駕駛:在停車場或低速環(huán)境中,OpenEMMA幫助自動(dòng)駕駛車輛執(zhí)行精確的停車操作,能夠有效避免障礙物,在狹小空間中靈活導(dǎo)航。
- 夜間駕駛:在低光照條件下,OpenEMMA仍能正常工作,提供夜間駕駛的決策支持,包括對(duì)象檢測和軌跡規(guī)劃。
- 復(fù)雜天氣條件:在雨、霧等惡劣天氣下,OpenEMMA能夠輔助自動(dòng)駕駛車輛確保安全行駛,減少天氣對(duì)駕駛的影響。
常見問題
- OpenEMMA的主要優(yōu)勢是什么? OpenEMMA通過鏈?zhǔn)剿季S推理和多模態(tài)數(shù)據(jù)處理,顯著提高了自動(dòng)駕駛?cè)蝿?wù)的準(zhǔn)確性和效率。
- 如何獲取OpenEMMA? 用戶可以通過訪問GitHub倉庫下載和使用OpenEMMA。
- OpenEMMA適用于哪些類型的車輛? OpenEMMA可應(yīng)用于各種自動(dòng)駕駛車輛,特別是在城市、高速公路和復(fù)雜環(huán)境中表現(xiàn)優(yōu)異。
- OpenEMMA的技術(shù)支持如何獲取? 用戶可以在GitHub倉庫中查找相關(guān)文檔,也可以通過社區(qū)論壇與其他開發(fā)者交流獲取支持。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...