<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Ovis2

        AI工具3個月前更新 AI工具集
        1,141 0 0

        Ovis2 – 阿里國際推出的多模態(tài)大語言系列模型

        Ovis2 是阿里巴巴國際團(tuán)隊最新推出的多模態(tài)大型語言模型,旨在通過結(jié)構(gòu)化嵌入對齊技術(shù)有效解決視覺與文本之間的差異。Ovis2 在前一代 Ovis 模型的基礎(chǔ)上進(jìn)行了優(yōu)化,增強(qiáng)了小規(guī)模模型的性能密度,并通過指令微調(diào)和偏好學(xué)習(xí)顯著提升了思維鏈(CoT)推理能力。

        Ovis2是什么

        Ovis2 是阿里巴巴國際團(tuán)隊研發(fā)的新一代多模態(tài)大型語言模型。它采用結(jié)構(gòu)化嵌入對齊的方法,有效解決了視覺和文本模態(tài)之間的差異,并在 Ovis 系列架構(gòu)的基礎(chǔ)上進(jìn)行了強(qiáng)化,特別提升了小規(guī)模模型在能力密度方面的表現(xiàn)。Ovis2 具備指令微調(diào)和偏好學(xué)習(xí)的特性,從而顯著提升了思維鏈(CoT)推理能力。此外,Ovis2 還引入了視頻處理和多圖像處理能力,增強(qiáng)了對多語言的支持以及在復(fù)雜場景下的光學(xué)字符識別(OCR)能力。該系列模型分為六個不同的參數(shù)規(guī)模,包括1B、2B、4B、8B、16B 和 34B,均在 OpenCompass 多模態(tài)評測中表現(xiàn)優(yōu)異,特別是在數(shù)學(xué)推理和視頻理解方面。Ovis2 的開源為多模態(tài)大模型的研究和應(yīng)用開辟了新的方向和工具。

        Ovis2

        Ovis2的主要功能

        • 多模態(tài)理解與生成:能夠處理文本、圖像和視頻等多種輸入模態(tài),生成高質(zhì)量的文本輸出,支持在復(fù)雜場景中的視覺和語言任務(wù)。
        • 推理能力增強(qiáng):借助思維鏈(CoT)推理能力的提升,解決復(fù)雜的邏輯和數(shù)學(xué)問題,并提供逐步推理的解決方案。
        • 視頻與多圖像處理:具備視頻理解能力,能夠選擇關(guān)鍵幀并處理多圖像輸入,從而應(yīng)對跨幀的復(fù)雜視覺信息。
        • 多語言支持及OCR功能:支持多種語言的文本處理,可以從復(fù)雜的視覺元素(如表格和圖表)中提取結(jié)構(gòu)化數(shù)據(jù)。
        • 小模型優(yōu)化:通過優(yōu)化訓(xùn)練策略,使小規(guī)模模型具備更高的能力密度,以滿足多樣化的應(yīng)用需求。

        Ovis2的技術(shù)原理

        • 結(jié)構(gòu)化嵌入對齊:利用視覺tokenizer將圖像切割成若干圖像塊(patch),提取特征后將其映射為“視覺單詞”,進(jìn)而形成概率化的視覺token。視覺token與文本token共同輸入到大語言模型(LLM),實現(xiàn)模態(tài)間的結(jié)構(gòu)化對齊。
        • 四階段訓(xùn)練策略
          • 第一階段:凍結(jié)大語言模型,專注于視覺模塊的訓(xùn)練,以學(xué)習(xí)視覺特征與嵌入之間的轉(zhuǎn)化。
          • 第二階段:進(jìn)一步訓(xùn)練視覺模塊,增強(qiáng)其對高分辨率圖像的理解及多語言O(shè)CR能力。
          • 第三階段:使用對話形式的視覺數(shù)據(jù),使視覺嵌入與大語言模型的對話格式對齊。
          • 第四階段:進(jìn)行多模態(tài)指令訓(xùn)練和偏好學(xué)習(xí),提升模型對用戶指令的遵循能力及輸出質(zhì)量。
        • 視頻理解提升:利用MDP3算法(基于幀與文本的相關(guān)性、組合多樣性和序列性)進(jìn)行關(guān)鍵幀選擇,從而提升視頻理解的效果。
        • 基于Transformer架構(gòu):結(jié)合強(qiáng)大的視覺編碼器(如ViT)和語言模型(如Qwen),實現(xiàn)高效的多模態(tài)融合與生成。

        Ovis2的項目地址

        Ovis2的應(yīng)用場景

        • 研究人員與開發(fā)者:從事人工智能和多模態(tài)技術(shù)研究的專業(yè)人士,以及需要開發(fā)智能應(yīng)用的開發(fā)者,能夠進(jìn)行模型優(yōu)化、算法改進(jìn)或開發(fā)多模態(tài)應(yīng)用。
        • 內(nèi)容創(chuàng)作者:新聞媒體、廣告和營銷行業(yè)的從業(yè)者,能夠快速生成圖片或視頻的描述、文案和標(biāo)題,從而提升創(chuàng)作效率。
        • 教育工作者與學(xué)生:教師可以生成圖片或視頻的解釋性文字,幫助學(xué)生理解復(fù)雜內(nèi)容;學(xué)生則可以通過視覺問答功能解決學(xué)習(xí)中的疑難問題。
        • 企業(yè)用戶:在金融、法律、醫(yī)療等行業(yè)工作的人員,可以處理復(fù)雜的文檔、圖像或視頻數(shù)據(jù),提取關(guān)鍵信息,輔助決策。
        • 普通用戶與技術(shù)愛好者:對人工智能感興趣的人群,能夠進(jìn)行簡單的多模態(tài)任務(wù),例如生成圖片描述或進(jìn)行視覺問答,探索技術(shù)在日常生活中的應(yīng)用。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av无码日韩av无码网站冲| 亚洲Av无码精品色午夜 | 桃子视频在线观看高清免费视频| 亚洲精品国产va在线观看蜜芽| 久久精品国产亚洲AV未满十八| 精品国产免费观看久久久| 亚洲人妖女同在线播放| 欧美a级成人网站免费| 亚洲深深色噜噜狠狠网站| 91嫩草国产在线观看免费| 亚洲一区在线视频| 精品国产精品久久一区免费式| 亚洲欧洲国产综合AV无码久久| 大学生美女毛片免费视频| 精品亚洲av无码一区二区柚蜜| 国产免费拔擦拔擦8x| 人成免费在线视频| 亚洲精品乱码久久久久久蜜桃图片 | 亚洲日本久久久午夜精品| 免费影院未满十八勿进网站| 2017亚洲男人天堂一| 韩国日本好看电影免费看| 黄色免费网址在线观看| 中文字幕亚洲一区二区三区| 久久国产精品免费看| 亚洲制服丝袜精品久久| 国产大片91精品免费看3 | 久久亚洲精品11p| 亚洲精品国产V片在线观看 | 亚洲综合另类小说色区| 亚洲电影免费在线观看| 亚洲情A成黄在线观看动漫软件| 国产高清视频在线免费观看| 久久WWW免费人成—看片| 亚洲黄网站wwwwww| 日韩免费在线观看| 免费看无码特级毛片| 亚洲专区一路线二| 亚洲伊人久久成综合人影院| 2019中文字幕免费电影在线播放 | 亚洲国产精品特色大片观看完整版 |