AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了
關(guān)鍵字:模型,數(shù)學(xué),數(shù)據(jù),路徑,研究人員
文章來源:量子位
內(nèi)容字?jǐn)?shù):3203字
內(nèi)容摘要:
魚羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI把AlphaGo的核心算法用在大模型上,“高考”成績(jī)直接提升了20多分。
在MATH數(shù)據(jù)集上,甚至讓7B模型得分超過了GPT-4。
一項(xiàng)來自阿里的新研究引發(fā)關(guān)注:
研究人員用蒙特卡洛樹搜索(MCTS)給大語言模型來了把性能增強(qiáng),無需人工標(biāo)注解題步驟,也能生成高質(zhì)量數(shù)據(jù),有效提升大模型的數(shù)學(xué)成績(jī)。
論文發(fā)布,讓不少網(wǎng)友重新關(guān)注到了蒙特卡洛樹搜索這個(gè)在前大模型時(shí)代的明星算法。
有人直言:
蒙特卡洛樹搜索+LLM是通往超級(jí)智能之路。
因?yàn)椤皹渌阉鞅旧砀咏祟愃季S”。
用蒙特卡洛樹搜索增強(qiáng)大模型具體來說,阿里的研究人員提出了一種名為AlphaMath的方法,用大語言模型+MCTS來自動(dòng)生成數(shù)學(xué)推理數(shù)據(jù),并提升大模型在完成數(shù)學(xué)推理任務(wù)時(shí)的性能表現(xiàn)。
嗯,名字就很有蒙特卡洛樹搜索內(nèi)味兒了。
這里有個(gè)前情提要:
思維鏈(CoT)、思維程序(PoT)等方法已經(jīng)被證明能夠有效提高大模型的數(shù)學(xué)能力,但問題在于,它們都需要人類手動(dòng)喂詳細(xì)的解題步驟,即訓(xùn)練當(dāng)中需要用到人工標(biāo)注的高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)。
AlphaMath的一個(gè)核心目的就在于,在這個(gè)步驟中去人工化
原文鏈接:AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破