突破性微調(diào)技術(shù):8B小模型挑戰(zhàn)GPT-4o,科學(xué)問(wèn)題準(zhǔn)確率飆升28%!

原標(biāo)題:清華UCSD提出全新微調(diào)方法,8B小模型媲美GPT-4o!科學(xué)問(wèn)題正確率提高28%
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6020字
1. 引言
最近,來(lái)自加州大學(xué)圣地亞哥分校(UCSD)和清華大學(xué)的研究團(tuán)隊(duì)提出了一種新的微調(diào)方法,使得一個(gè)僅有80億參數(shù)的小型模型在科學(xué)問(wèn)題上能夠與GPT-4o相媲美。這一研究挑戰(zhàn)了AI開(kāi)發(fā)中“更大模型必然更好”的傳統(tǒng)觀念,強(qiáng)調(diào)了模型在使用外部工具和依賴內(nèi)部知識(shí)之間進(jìn)行合理選擇的重要性。
2. 微調(diào)方法概述
該微調(diào)方法由兩部分組成:世界知識(shí)蒸餾(WKD)和工具使用適應(yīng)(TUA)。在WKD中,模型通過(guò)學(xué)習(xí)使用工具生成的解答來(lái)積累特定領(lǐng)域的知識(shí)。TUA則幫助模型根據(jù)問(wèn)題的復(fù)雜性判斷是否使用工具,提升了模型的效率和準(zhǔn)確性。
3. 實(shí)驗(yàn)與評(píng)估
研究團(tuán)隊(duì)使用Llama-3.1-8B-Instruct作為基礎(chǔ)模型,評(píng)估了多種開(kāi)源和閉源模型的表現(xiàn)。通過(guò)使用現(xiàn)有的MATH和SciBench數(shù)據(jù)集以及自定義的科學(xué)數(shù)據(jù)集(Mujoco、偏微分方程、氣候科學(xué)和流行病學(xué)),研究人員檢驗(yàn)了微調(diào)方法的有效性。
4. 研究成果
結(jié)果顯示,微調(diào)后的模型在測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了28.18%的答案準(zhǔn)確率提升和13.89%的工具使用精度提高。與未微調(diào)的基礎(chǔ)模型相比,微調(diào)方法在自定義數(shù)據(jù)集上表現(xiàn)顯著優(yōu)于所有基準(zhǔn)模型。
5. 結(jié)論
這一研究表明,教會(huì)AI在使用外部工具和依賴內(nèi)部知識(shí)之間進(jìn)行判斷,可能比單純?cè)黾佑?jì)算能力更為重要。未來(lái)的AI研究應(yīng)更注重模型的智能決策能力,以提高其在科學(xué)問(wèn)題解決中的效率和準(zhǔn)確性。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)