<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Infinity-MM

        AI工具10個月前發布 AI工具集
        1,203 0 0

        Infinity-MM是智源研究院推出的一個規模龐大的多模態指令數據集,擁有4300萬條樣本,總數據量達到10TB。經過嚴格的質量篩選與去重,Infinity-MM保證了數據的高質量與多樣性,這為提升開源視覺-語言模型(VLMs)的性能提供了堅實基礎。同時,智源還開發了基于開源VLMs的合成數據生成技術,進一步擴展了數據集的規模和多樣性。這一數據集支持智源成功訓練了一個20億參數的多模態模型Aquila-VL-2B,并在多個基準測試中取得了卓越的成績。

        Infinity-MM是什么

        Infinity-MM是智源研究院推出的一個千萬級多模態指令數據集,包含4300萬條樣本,數據量高達10TB。數據集經過嚴格的質量過濾和去重,確保了數據的高質量和多樣性,旨在提升開源視覺-語言模型(VLMs)的性能。智源還推出了基于開源VLMs的合成數據生成方法,進一步擴展了數據集的規模和多樣性。基于Infinity-MM,智源成功訓練了20億參數的多模態模型Aquila-VL-2B,在同規模模型中取得了最先進的性能。

        Infinity-MM

        Infinity-MM的主要功能

        • 提升開源模型性能:Infinity-MM通過提供大規模和高質量的指令數據,顯著提升開源視覺-語言模型(VLMs)的性能,使其接近或達到閉源模型的水平。
        • 數據集構建:該數據集包含4300萬條經過嚴格篩選和去重的多模態樣本,涵蓋視覺問答、文字識別、文檔分析、數學推理等多種類型。
        • 合成數據生成:基于開源VLMs和詳細的圖像注釋,生成與圖像內容緊密相關的多樣化指令,擴充數據集的規模和多樣性。
        • 模型訓練與評估:Infinity-MM數據集被用于訓練20億參數的VLM模型Aquila-VL-2B,該模型在多個基準測試中展現了卓越的性能。
        • 推動多模態研究:基于提供的大規模高質量數據集,促進多模態AI領域的研究和應用發展。

        Infinity-MM的技術原理

        • 數據收集與預處理:Infinity-MM的數據源自多個公開數據集,經過去重和質量過濾,確保數據集的高質量和多樣性。
        • 合成數據生成方法
          • 圖像和指令標記系統:利用開源識別模型(如RAM++)對圖片進行自動標注,提取關鍵信息,形成圖像的語義基礎。
          • 指令標簽體系:設計了一個指令標簽體系,涵蓋不同層次和種類的指令。
          • 圖片與指令標簽對應關系建立:統計圖片標簽與指令標簽之間的對應關系,快速檢索匹配的指令任務標簽。
        • 問題生成與過濾:指示模型根據圖片和指令類型生成具體問題,并進行合理性判斷。
        • 答案生成與過濾:在生成問題后,進一步生成相應的指令回答,并嚴格過濾以確保與圖片內容或任務的匹配性。
        • 分階段訓練策略:Aquila-VL-2B模型采用分階段訓練方法,逐步提升模型對視覺信息的理解和處理能力。
        • 多模態架構:Aquila-VL-2B模型基于LLaVA-OneVision架構,結合文本塔(Qwen2.5-1.5B-instruct)和視覺塔(Siglip400m)。
        • 訓練效率提升:智源自研的FlagScale框架對模型訓練進行適配,提高訓練效率,達到了原版基于DeepSpeed訓練代碼的1.7倍。

        Infinity-MM的項目地址

        Infinity-MM的應用場景

        • 視覺問答(Visual Question Answering, VQA):基于圖像和相關問題的數據對,訓練模型理解并回答關于圖像內容的問題。
        • 圖像字幕生成(Image Captioning):為圖像生成描述性文本,廣泛應用于社交媒體、內容管理和圖像檢索等領域。
        • 文檔理解和分析(Document Understanding and Analysis):提取和理解文檔中的視覺和文本信息,適用于自動化辦公、智能文檔處理和信息提取。
        • 數學和邏輯推理(Mathematical and Logical Reasoning):訓練模型解決數學問題和邏輯推理任務,對教育技術、自動化測試和智能輔導系統非常有用。
        • 多模態交互系統(Multimodal Interaction Systems):結合視覺和語言信息,提高人機交互的自然性和效率,適用于智能助手和客戶服務機器人。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产亚洲综合成人91精品| 亚洲午夜福利精品久久 | 亚洲AⅤ无码一区二区三区在线 | 久久亚洲国产中v天仙www| 免费视频成人国产精品网站| 免费人成视网站在线观看不卡| 老子影院午夜伦不卡亚洲| 尤物永久免费AV无码网站| 亚洲成av人片在www鸭子| 亚洲国产aⅴ综合网| 国产AV无码专区亚洲精品| 中文字幕免费在线看电影大全 | 国产无遮挡吃胸膜奶免费看视频 | 免费无码黄动漫在线观看| 亚洲第一AV网站| 日韩精品内射视频免费观看| www.亚洲色图| 在线观看免费播放av片| 亚洲手机中文字幕| 免费爱爱的视频太爽了| 午夜在线免费视频 | 亚洲综合激情五月色一区| 99re在线精品视频免费| 亚洲a级在线观看| 少妇亚洲免费精品| 亚洲成人免费在线| 欧美激情综合亚洲一二区| 在线日韩日本国产亚洲| EEUSS影院WWW在线观看免费 | 亚洲精品国产品国语在线| 亚洲免费在线视频播放| 日韩在线视精品在亚洲| 亚洲AV日韩AV高潮无码专区| 免费理论片51人人看电影| 两个人日本WWW免费版| 亚洲人成毛片线播放| 亚洲偷自拍拍综合网| 天天影院成人免费观看| 一级毛片免费在线播放| 四虎永久成人免费| 99re热精品视频国产免费|