震撼發(fā)布!PaliGemma二代——視覺語言全能王引領(lǐng)多項(xiàng)任務(wù)SOTA新紀(jì)元!
原標(biāo)題:DeepMind悄悄發(fā)布PaliGemma二代,最易微調(diào)「視覺語言全能王」來了,多項(xiàng)任務(wù)登頂SOTA
文章來源:新智元
內(nèi)容字?jǐn)?shù):5540字
新智元報(bào)道:PaliGemma 2模型的創(chuàng)新與應(yīng)用
根據(jù)新智元的報(bào)道,谷歌悄然發(fā)布了PaliGemma 2模型,在多個(gè)任務(wù)上取得了行業(yè)領(lǐng)先的成績(jī)。該模型在圖像描述、樂譜識(shí)別和醫(yī)學(xué)圖像報(bào)告生成等領(lǐng)域表現(xiàn)突出,提供了多種尺寸和分辨率的版本,以滿足不同任務(wù)的需求。
1. PaliGemma 2的性能提升
PaliGemma 2在PaliGemma的基礎(chǔ)上進(jìn)行了顯著改進(jìn),增強(qiáng)了視覺能力并簡(jiǎn)化了微調(diào)過程。技術(shù)報(bào)告指出,該模型能夠生成詳細(xì)、上下文相關(guān)的圖像描述,超越簡(jiǎn)單的對(duì)象識(shí)別。其在化學(xué)式識(shí)別、樂譜識(shí)別和放射學(xué)報(bào)告生成等方面的性能得到了提升。
2. 模型架構(gòu)與訓(xùn)練階段
研究人員遵循與PaliGemma相同的建模和訓(xùn)練設(shè)置,進(jìn)行三階段的預(yù)訓(xùn)練。第一階段結(jié)合了預(yù)訓(xùn)練的視覺編碼器和Gemma 2模型權(quán)重,第二階段則針對(duì)不同分辨率的數(shù)據(jù)進(jìn)行微調(diào),第三階段則將模型微調(diào)至目標(biāo)任務(wù)。這種分階段的訓(xùn)練方式確保了模型在各類任務(wù)中的高效性。
3. 多任務(wù)性能測(cè)試
在文本檢測(cè)、表格結(jié)構(gòu)識(shí)別和樂譜識(shí)別等多項(xiàng)任務(wù)中,PaliGemma 2表現(xiàn)出色。尤其在高級(jí)光學(xué)字符識(shí)別(OCR)任務(wù)中,模型在896像素分辨率下的性能超越了其他先進(jìn)模型,展示了其多功能性和在預(yù)訓(xùn)練階段的優(yōu)勢(shì)。
4. 量化與推理速度
研究還對(duì)PaliGemma 2的推理速度進(jìn)行了評(píng)估,使用CPU進(jìn)行推理的性能表現(xiàn)良好。同時(shí),在量化實(shí)驗(yàn)中,從32位浮點(diǎn)轉(zhuǎn)換到16位浮點(diǎn)的過程并未顯著影響模型性能,證明了模型在資源使用方面的高效性。
總結(jié)
PaliGemma 2模型通過一系列創(chuàng)新和優(yōu)化,提升了視覺語言模型的性能,適應(yīng)了多種任務(wù)需求。其在醫(yī)學(xué)圖像、樂譜識(shí)別及圖像描述等領(lǐng)域的應(yīng)用潛力巨大,為進(jìn)一步的研究和開發(fā)奠定了基礎(chǔ)。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。