JanusFlow:顛覆視覺理解與生成的1.3B大模型
將兩種架構(gòu)融合在一起
原標(biāo)題:DeepSeek等團(tuán)隊(duì)新作JanusFlow: 1.3B大模型統(tǒng)一視覺理解和生成
文章來源:量子位
內(nèi)容字?jǐn)?shù):5423字
JanusFlow:統(tǒng)一視覺理解與生成的多模態(tài)模型
在多模態(tài)AI領(lǐng)域,JanusFlow模型的提出為視覺理解與生成任務(wù)的有效統(tǒng)一提供了新的思路。該模型由DeepSeek、北大、香港大學(xué)及清華大學(xué)的團(tuán)隊(duì)合作研發(fā),基于預(yù)訓(xùn)練視覺編碼器與多模態(tài)語言模型(MLLM)相結(jié)合的方法,展示了在視覺理解和生成任務(wù)上超越現(xiàn)有同規(guī)模模型的潛力。
1. 模型架構(gòu)
JanusFlow通過將理解框架和生成框架直接融合,實(shí)現(xiàn)了端到端的訓(xùn)練。其核心設(shè)計(jì)包括:
- 采用解耦的視覺編碼器,分別優(yōu)化理解與生成能力。
- 利用理解端編碼器對(duì)生成端特征進(jìn)行表征對(duì)齊,提升訓(xùn)練效率。
2. 關(guān)鍵組件
在基礎(chǔ)的1.3B規(guī)模LLM上,JanusFlow引入了以下組件:
- 視覺理解編碼器:使用SigLIP將輸入圖片轉(zhuǎn)換為視覺嵌入,專注于視覺理解。
- 視覺生成編解碼器:基于SDXL-VAE的輕量級(jí)模塊,編碼器和解碼器均采用雙層ConvNeXt Block處理特征。
- 注意力機(jī)制:統(tǒng)一采用因果注意力處理理解與生成任務(wù),提高模型效率。
3. 訓(xùn)練策略
JanusFlow的訓(xùn)練分為三個(gè)階段:Adaptation、Pre-Training和Supervised Fine-Tuning。為了平衡理解與生成能力,預(yù)訓(xùn)練階段采用非對(duì)稱數(shù)據(jù)配比策略(理解:生成=2:8)。
4. 解耦與表征對(duì)齊
通過解耦理解與生成的視覺編碼器,JanusFlow能夠有效緩解在視覺編碼層面的沖突。利用REPA方法進(jìn)行表征對(duì)齊,進(jìn)一步提升生成任務(wù)的收斂效率。
5. 消融實(shí)驗(yàn)
團(tuán)隊(duì)進(jìn)行了六組對(duì)照實(shí)驗(yàn),驗(yàn)證了模型各組件的有效性。實(shí)驗(yàn)結(jié)果表明,采用解耦編碼器并使用SigLIP作為理解模塊能夠顯著提升模型在理解和生成任務(wù)上的性能。
6. 實(shí)驗(yàn)結(jié)果與評(píng)價(jià)
JanusFlow在多個(gè)評(píng)測(cè)標(biāo)準(zhǔn)上均取得了優(yōu)異成績(jī),超越了一些同規(guī)模的純理解模型和生成模型,展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。該模型成功構(gòu)建了一個(gè)統(tǒng)一的視覺理解與生成框架,具有簡(jiǎn)潔的架構(gòu)設(shè)計(jì)。
總結(jié)
JanusFlow通過融合自回歸LLM與Rectified Flow,顯著提升了多模態(tài)任務(wù)的整體表現(xiàn),為未來的多模態(tài)AI研究提供了新的方向。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破