浙大發(fā)布Agent學(xué)習(xí)框架,13B 模型達(dá)到 ChatGPT 水平!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:浙大發(fā)布Agent學(xué)習(xí)框架,13B 模型達(dá)到 ChatGPT 水平!
關(guān)鍵字:模型,數(shù)據(jù),工具,任務(wù),智能
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):6431字
內(nèi)容摘要:
?夕小瑤科技說(shuō) 原創(chuàng)作者 | 小戲、Python2023 年下半年,AI Agent 正式開(kāi)啟「大模型下半場(chǎng)」。
自“人工智能”這門(mén)學(xué)科創(chuàng)立之初,一種可以“觀察世界”-“思考推理”-“做出行動(dòng)”-“反思學(xué)習(xí)”的人造代理就是構(gòu)建通用人工智能的終極目標(biāo)之一。而基于大模型的 AI Agent 借助大模型強(qiáng)大的推理判斷能力,為 AI Agent 的發(fā)展開(kāi)啟了一扇新的大門(mén)。
以 LangChain 的底層思想 ReACT 為例,大模型 Agent 在與外部環(huán)境互動(dòng)時(shí),經(jīng)歷“思考”-“行動(dòng)”-“觀察”三個(gè)步驟,通過(guò)將“行動(dòng)”與“推理”結(jié)合,賦予大模型解決實(shí)際問(wèn)題的能力。
但是,半年過(guò)去,直接使用類(lèi)似 GPT-4 等閉源模型通過(guò) Prompt 的方式構(gòu)建 Agent 的思路盡管成績(jī)斐然,但是不可避免的我們對(duì)這類(lèi) Agent 的掌控性往往并不高,一些結(jié)果不具有可解釋性甚至不可復(fù)現(xiàn)。因此,一些工作開(kāi)始在開(kāi)源模型的基礎(chǔ)上使用軌跡數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),以使得 Agent 具備更強(qiáng)的解決問(wèn)題的能力。
然而,微調(diào)這種思路面對(duì)著兩大挑戰(zhàn),首先,微調(diào)需要數(shù)據(jù),數(shù)據(jù)不可能完全由人工生成,那么不可避免的 Agent 進(jìn)行
原文鏈接:浙大發(fā)布Agent學(xué)習(xí)框架,13B 模型達(dá)到 ChatGPT 水平!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI應(yīng)用開(kāi)發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。