商湯“日日新”:原生融合大模型引領AI 2.0新紀元
本文總結了新智元報道中關于商湯科技“日日新”原生融合大模型的要點,該模型在多模態領域取得突破性進展,引領AI邁向“大一統”時代。
原生融合多模態:AI 2.0的必由之路
文章指出,大模型發展瓶頸在于單一模態處理能力的局限性。商湯“日日新”通過原生融合多模態技術,實現了單一模型同時處理文本、圖像、視頻等多種信息,突破了傳統多模態模型分立的現狀,讓AI具備“看”和“想”的能力,從而解決更復雜的問題。
“日日新”的驚艷表現:多場景應用
文章列舉了“日日新”在多個場景的實際應用,例如:識別各種手寫體詩歌并翻譯;批改作業,精準指出錯誤并舉一反三;分析繪畫作品特點并提出改進建議;識別圖像中的歷史人物和典故;分析游戲截圖并推斷電腦配置;理解表情包含義等。這些例子展示了“日日新”強大的跨模態理解和分析能力。
技術突破:融合模態數據合成與融合任務增強訓練
商湯“日日新”的成功,得益于兩項關鍵技術:融合模態數據合成和融合任務增強訓練。面對數據匱乏的挑戰,商湯通過逆渲染、基于混合語義的圖像生成等方法合成大量融合模態數據,構建了圖文模態之間的交互橋梁。此外,通過構建一系列跨模態任務(涵蓋交互、多模態文檔分析、場景理解等),進行增強訓練,提升了模型對多模態信息整合理解分析的能力,并形成了對業務場景有效的響應能力。
成本優勢與未來展望
文章強調,商湯“日日新”的原生融合多模態技術路線,在訓練成本方面具有顯著優勢,僅比同量級LLM增加約20%。這得益于多階段訓練的策略,將語言模型和多模態模型的訓練合并在了一起。未來,商湯將繼續探索融合模態技術,拓展其在辦公、金融、自動駕駛、城市治理等領域的應用,并進一步探索世界模型的可能性。
雙料冠軍:實力認證
文章最后指出,“日日新”融合大模型在SuperCLUE 2024年度榜單中,以68.3高分與DeepSeek V3并列國內榜首,并在OpenCompass多模態評測中力壓GPT-4o,獲得雙料冠軍,展現了其在語言和多模態領域的領先地位。
總而言之,商湯“日日新”原生融合大模型的成功,標志著AI 2.0時代多模態融合技術取得重大突破,為未來AI發展提供了新的方向和可能性。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。