<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

        AIGC動態7個月前發布 量子位
        323 0 0

        推理次數\x26gt;30時,模型表現趨于穩定

        多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

        原標題:多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學
        文章來源:量子位
        內容字數:5636字

        淘天集團發布中文視覺問答基準Chinese SimpleVQA,OpenAI o1視覺能力最強

        淘天集團未來生活實驗室近日發布了首個面向事實知識的中文視覺問答基準Chinese SimpleVQA,并對多個視覺大模型進行了評測。該基準包含2200個高質量問答對,涵蓋8個主要話題和56個子話題,旨在系統性地衡量視覺大模型在各個領域的視覺識別能力和知識水平。評測結果顯示,OpenAI的o1-preview模型表現最佳,但在知識擴展方面,所有模型都面臨挑戰,普遍存在“過于自信”的問題。

        1. Chinese SimpleVQA:一個嚴謹的中文視覺問答基準

        Chinese SimpleVQA 的構建過程十分嚴謹,包含自動化問答對生成和多輪質量控制兩個階段。首先,研究人員從收集圖文對,并通過對象識別、知識問題生成和合并問答三個步驟自動生成問答對。隨后,經過自動驗證、難度篩選和人工驗證三個步驟的嚴格篩選,最終保留了1100幅圖片和2200個問答對。數據脫敏也確保了數據的安全性和可靠性。該基準具有多跳評估、多樣性、高質量、靜態一致性和易于評估五大特點。

        2. 評測結果:o1-preview表現最佳,但模型普遍“過于自信”

        研究團隊對13個閉源模型和21個開源模型進行了評測。結果顯示,o1-preview在圖像主體識別和知識擴展問題上均表現最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。在注重中文能力的模型中,Qwen-VL系列表現最為突出。然而,評測也揭示了模型的幾個不足:知識擴展難于主體識別,模型規模與知識能力正相關,以及普遍存在的“幻覺”問題,即模型傾向于自信地提供錯誤信息。

        3. 模型能力分析:知識深度和能力邊界

        評測結果還分析了模型在不同知識領域的表現和出錯時機。結果表明,模型在現代建筑、工程技術和科學等主題上表現優異,但在其他主題上稍遜一籌。大部分模型主要出錯于知識擴展階段,而部分模型則在圖像識別階段就表現不佳。此外,模型的準確性隨推理次數增加而提高,但在超過30次嘗試后趨于穩定,這表明模型的知識能力存在邊界。

        4. Chinese SimpleVQA 的意義和未來展望

        Chinese SimpleVQA 的發布為中文視覺問答領域提供了一個重要的基準,有助于推動多模態大模型的研發和評估。其嚴謹的構建流程和全面的評測結果,為研究人員提供了寶貴的資源和參考,有助于更好地理解和改進視覺大模型的知識能力和可靠性。未來,該基準有望進一步完善和擴展,涵蓋更多領域和更復雜的場景,從而更好地促進多模態大模型技術的進步。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一级做a爱片特黄在线观看免费看| 久久久青草青青国产亚洲免观| 亚洲中文久久精品无码| 亚洲爆乳少妇无码激情| 国产无人区码卡二卡三卡免费 | 黄色大片免费网站| 午夜a级成人免费毛片| 亚洲精品国产福利在线观看| 99视频在线免费| 亚洲综合成人网在线观看| 一级毛片全部免费播放| 亚洲VA成无码人在线观看天堂| 国产免费区在线观看十分钟| 国产成人精品日本亚洲专区61| 91精品视频在线免费观看| 亚洲精品国产手机| 亚洲国产成人VA在线观看| 成年女人A毛片免费视频| 亚洲国产精品无码中文字| 久久久免费精品re6| 国产成人人综合亚洲欧美丁香花| 无码欧精品亚洲日韩一区夜夜嗨 | 国产成人免费爽爽爽视频| 亚洲噜噜噜噜噜影院在线播放| 曰批视频免费30分钟成人| 国产免费人成视频尤勿视频| 亚洲综合色区中文字幕| 日本xxwwxxww在线视频免费| 女人裸身j部免费视频无遮挡| 国产成人精品曰本亚洲79ren| 男人的天堂网免费网站| 亚洲人色大成年网站在线观看| 中文字幕亚洲激情| 亚洲AV网站在线观看| 国内免费高清在线观看| 中文字幕亚洲免费无线观看日本| 永久免费无码网站在线观看个| 国产亚洲成av片在线观看 | 国产亚洲福利精品一区| 国产中文字幕免费观看| 在线成人精品国产区免费|