NVIDIA Research 研究科學家李柏依:探索基于多模態(tài)LLM 的自動駕駛智能體 | 公開課預告
AIGC動態(tài)歡迎閱讀
原標題:NVIDIA Research 研究科學家李柏依:探索基于多模態(tài)LLM 的自動駕駛智能體 | 公開課預告
關鍵字:解讀,智能,場景,能力,環(huán)境
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
讓自動駕駛系統(tǒng)適應新環(huán)境和不同地區(qū)的習慣和法規(guī)是自動駕駛領域長期面臨的挑戰(zhàn)。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環(huán)境的駕駛策略和指令,為駕駛員和自動駕駛汽車提供多語言和地區(qū)交通規(guī)則的實時指導,幫助他們更輕松地在陌生的地方導航。此外,LLaDA 還能幫助自動駕駛汽車重新規(guī)劃出與當?shù)丨h(huán)境更加匹配的軌跡,調(diào)整自動駕駛汽車的規(guī)劃策略。相關論文成果收錄于CVPR 2024。然而,LLaDA 無法實現(xiàn)場景的自動識別,且對場景描述的質(zhì)量有著較高要求。盡管 GPT-4V 能夠提供這種描述,但是卻不夠準確。為此,NVIDIA Research 提出一個創(chuàng)新的自動化視頻字幕生成框架 Wolf。Wolf 采用專家混合方法,利用視覺語言模型(VLMs)的互補優(yōu)勢,能夠提升自動駕駛智能體的場景理解能力。此外,LLaDA 通常是與用戶直接交互,并主要處理文本信息。相比之下,自動駕駛系統(tǒng)則需要提供具體的位置和軌跡規(guī)劃信息?;谶@些差異,NVIDIA Research 團隊專為自動駕駛領域設計出一種多模態(tài)大型語言模型(MM-LLM)TOKEN。T
原文鏈接:NVIDIA Research 研究科學家李柏依:探索基于多模態(tài)LLM 的自動駕駛智能體 | 公開課預告
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: