趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
關(guān)鍵字:數(shù)據(jù),視覺,指令,模型,樣本
文章來源:機器之心
內(nèi)容字?jǐn)?shù):3623字
內(nèi)容摘要:
機器之心報道
機器之心編輯部去年 4 月,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)研究者共同發(fā)布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結(jié)果。10 月,LLaVA-1.5 重磅發(fā)布,通過對原始 LLaVA 的簡單修改,在 11 個基準(zhǔn)上刷新了 SOTA。
現(xiàn)在,研究團隊宣布推出 LLaVA-1.6,主要改進(jìn)了模型在推理、OCR 和世界知識方面的性能。LLaVA-1.6 甚至在多項基準(zhǔn)測試中超越了 Gemini Pro。demo 地址:https://llava.hliu.cc/
項目地址:https://github.com/haotian-liu/LLaVA
與 LLaVA-1.5 相比,LLaVA-1.6 有如下幾個改進(jìn):
將輸入圖像分辨率提升 4 倍,支持三種寬高比,最高可達(dá) 672×672、336×1344、1344×336 分辨率。這使得 LLaVA-1.6 能夠掌握更多的視覺細(xì)節(jié)。
通過改進(jìn)的視覺指令調(diào)整數(shù)據(jù)混合,
原文鏈接:趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺