用多模態(tài)LLM做自動駕駛決策器,可解釋性有了!比純端到端更擅長處理特殊場景,來自商湯
AIGC動態(tài)歡迎閱讀
原標題:用多模態(tài)LLM做自動駕駛決策器,可解釋性有了!比純端到端更擅長處理特殊場景,來自商湯
關(guān)鍵字:模型,商湯,系統(tǒng),車輛,解釋性
文章來源:量子位
內(nèi)容字數(shù):7248字
內(nèi)容摘要:
豐色 曹原 發(fā)自 凹非寺量子位 | 公眾號 QbitAI用多模態(tài)大模型做自動駕駛的決策器,效果居然這么好?
來自商湯的最新自動駕駛大模型DriveMLM,直接在閉環(huán)測試最權(quán)威榜單CARLA上取得了SOTA成績——
跑分比基線Apollo還要高4.7,令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。
對于該模型,我們只需將圖像、激光雷達信息、交通規(guī)則甚至是乘客需求“一股腦”丟給它,它就能給出駕駛方案——直接能夠控制車輛的那種,并告訴你為什么要這么開。
這不僅讓駕駛邏輯可控、過程具備可解釋性,且更擅長解決特殊和復雜情況。
像什么給緊急車輛讓行?小case:
你說你著急能不能超車?它也能靈活處理(a為超車成功,b為車道不空,拒絕超車):
簡直不要太驚艷~
具體怎么實現(xiàn),我們扒開論文來看。
多模態(tài)LLM自動駕駛難題目前,自動駕駛系統(tǒng)主要有兩種方案,模塊化和端到端。
模塊化方案顧名思義,把自動駕駛?cè)蝿?wù)拆解為感知、定位和規(guī)控三個模塊,各模塊各自完成任務(wù),最后輸出車輛控制信號。
而端到端則是一個整體的模型,包含了上述感知、定位等等所有模塊的功能, 最后同樣輸出車輛控制信號。
但這兩種方案,各有各的缺點
原文鏈接:用多模態(tài)LLM做自動駕駛決策器,可解釋性有了!比純端到端更擅長處理特殊場景,來自商湯
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破