70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評(píng)估
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評(píng)估
關(guān)鍵字:模型,數(shù)據(jù),問(wèn)題,質(zhì)量,報(bào)告
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
今年6月,大模型公司Imbue預(yù)訓(xùn)練了一個(gè)70B參數(shù)的模型,并在多選推理基準(zhǔn)上進(jìn)行了微調(diào)。在這些基準(zhǔn)上,Imbue微調(diào)的模型超越了GPT-4o zero-shot表現(xiàn)(該模型未在這些基準(zhǔn)上進(jìn)行微調(diào))。Imbue的微調(diào)模型,基于2萬(wàn)億個(gè)Token進(jìn)行預(yù)訓(xùn)練,其性能也接近于在超過(guò)7倍數(shù)據(jù)量上預(yù)訓(xùn)練的Llama3 70B微調(diào)模型的性能。
由于他們?cè)跊](méi)有使用思維鏈的情況下評(píng)估了GPT-4o zero-shot的性能,因此上文指出的性能表現(xiàn)并不代表它在這些數(shù)據(jù)集上能達(dá)到的最佳成績(jī)。然而,這是與微調(diào)后的70B模型評(píng)估最直接的對(duì)比,這些評(píng)估同樣不包括思維鏈。
通過(guò)使用他們提出的超參數(shù)優(yōu)化器CARBS,他們?cè)谑状螄L試時(shí)將該系統(tǒng)規(guī)模擴(kuò)展到70B參數(shù),同時(shí)保持訓(xùn)練過(guò)程中的最小不穩(wěn)定性,并未出現(xiàn)損失激增的情況。這涉及到訓(xùn)練數(shù)千個(gè)密集型Transformer模型,具有分組查詢注意力、SwiGLU激活、RMS歸一化和自定義詞元分詞器,并在一系列較小規(guī)模的范圍內(nèi)訓(xùn)練。
為了方便其他團(tuán)隊(duì)進(jìn)行訓(xùn)練、擴(kuò)展和評(píng)估針對(duì)各自研究和產(chǎn)品目標(biāo)的模型,他們正在發(fā)布促進(jìn)這項(xiàng)工作的工具。
本文中,他們要分享的是用于模型評(píng)估的數(shù)據(jù)集,包
原文鏈接:70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評(píng)估
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: