震撼發布！PaliGemma二代——視覺語言全能王引領多項任務SOTA新紀元！

原標題：DeepMind悄悄發布PaliGemma二代，最易微調「視覺語言全能王」來了，多項任務登頂SOTA
文章來源：新智元
內容字數：5540字

根據新智元的報道，谷歌悄然發布了PaliGemma 2模型，在多個任務上取得了行業領先的成績。該模型在圖像描述、樂譜識別和醫學圖像報告生成等領域表現突出，提供了多種尺寸和分辨率的版本，以滿足不同任務的需求。

PaliGemma 2在PaliGemma的基礎上進行了顯著改進，增強了視覺能力并簡化了微調過程。技術報告指出，該模型能夠生成詳細、上下文相關的圖像描述，超越簡單的對象識別。其在化學式識別、樂譜識別和放射學報告生成等方面的性能得到了提升。

研究人員遵循與PaliGemma相同的建模和訓練設置，進行三階段的預訓練。第一階段結合了預訓練的視覺編碼器和Gemma 2模型權重，第二階段則針對不同分辨率的數據進行微調，第三階段則將模型微調至目標任務。這種分階段的訓練方式確保了模型在各類任務中的高效性。

在文本檢測、表格結構識別和樂譜識別等多項任務中，PaliGemma 2表現出色。尤其在高級光學字符識別（OCR）任務中，模型在896像素分辨率下的性能超越了其他先進模型，展示了其多功能性和在預訓練階段的優勢。

研究還對PaliGemma 2的推理速度進行了評估，使用CPU進行推理的性能表現良好。同時，在量化實驗中，從32位浮點轉換到16位浮點的過程并未顯著影響模型性能，證明了模型在資源使用方面的高效性。

PaliGemma 2模型通過一系列創新和優化，提升了視覺語言模型的性能，適應了多種任務需求。其在醫學圖像、樂譜識別及圖像描述等領域的應用潛力巨大，為進一步的研究和開發奠定了基礎。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...