HuggingFace教你怎樣做出SOTA視覺模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:HuggingFace教你怎樣做出SOTA視覺模型
關(guān)鍵字:模型,數(shù)據(jù),視覺,架構(gòu),經(jīng)驗(yàn)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5508字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先進(jìn)的多模態(tài)大模型接連炸場(chǎng)。
其他從業(yè)者在震撼之余,也再次開始思考怎么追趕這些超級(jí)模型了。
剛好在這時(shí),HuggingFace和法國(guó)索邦大學(xué)的一篇論文,總結(jié)出了構(gòu)建視覺大模型的關(guān)鍵經(jīng)驗(yàn),給開發(fā)者指明了一條路。
這些經(jīng)驗(yàn)涵蓋了模型架構(gòu)選擇、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)等多個(gè)方面,作者在多方比較之后給出了詳盡的總結(jié),核心要點(diǎn)包括這些內(nèi)容:
想把視覺大模型搞好,架構(gòu)的選擇很重要。
語(yǔ)言模型對(duì)整體表現(xiàn)的影響,比視覺模塊更大。
采用分階段預(yù)訓(xùn)練策略,更有利于構(gòu)建模型能力。
訓(xùn)練數(shù)據(jù)應(yīng)包含多種類型,并注意之間的比例平衡。
可以說(shuō),HF能夠打造出同規(guī)模SOTA的視覺模型Idefics2,背后依靠的都是這些經(jīng)驗(yàn)。
Idefics2基于Mistral-7B打造,整體擁有8B的參數(shù)量,可以準(zhǔn)確識(shí)別出手寫字體。
專業(yè)人士評(píng)價(jià)稱,這是一篇很好的調(diào)查報(bào)告,對(duì)視覺模型開發(fā)者很有幫助,不過(guò)同時(shí)也提醒說(shuō)不要當(dāng)成萬(wàn)金油來(lái)看。
當(dāng)然也有人打趣說(shuō),什么架構(gòu)數(shù)據(jù)都是浮云,有GPU才是最關(guān)鍵的。
倒也有些道理,不過(guò)玩笑歸玩笑,還是來(lái)看
原文鏈接:HuggingFace教你怎樣做出SOTA視覺模型
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破
相關(guān)文章
