某機(jī)構(gòu):JSON 輸出會(huì)讓 AI 變笨!大佬:是你們太菜了
不是大模型效果不行,是你的 prompt 水平不太行
原標(biāo)題:某機(jī)構(gòu):JSON 輸出會(huì)讓 AI 變笨!大佬:是你們太菜了
文章來(lái)源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):8505字
大模型結(jié)構(gòu)化輸出:Prompt設(shè)計(jì)才是關(guān)鍵
近期,一篇關(guān)于大模型結(jié)構(gòu)化輸出(如JSON)導(dǎo)致模型“降智”的論文引發(fā)熱議。然而,一篇名為“Say What You Mean”的博文對(duì)此結(jié)論提出了強(qiáng)烈的質(zhì)疑,并通過(guò)實(shí)驗(yàn)結(jié)果有力地反駁了論文的觀點(diǎn)。
1. 論文結(jié)論與爭(zhēng)議
論文“Speak Freely”聲稱(chēng),類(lèi)似JSON的結(jié)構(gòu)化輸出指令會(huì)降低大模型的準(zhǔn)確率,在某些任務(wù)中甚至低于10%。這一結(jié)論在學(xué)術(shù)界引發(fā)了廣泛的爭(zhēng)議。
2. 博文反駁:Prompt設(shè)計(jì)是關(guān)鍵
博文作者Will Kurt認(rèn)為,論文實(shí)驗(yàn)中最大的問(wèn)題在于使用了不同的Prompt來(lái)測(cè)試結(jié)構(gòu)化和非結(jié)構(gòu)化輸出,導(dǎo)致實(shí)驗(yàn)結(jié)果不具有可比性。論文中用于結(jié)構(gòu)化輸出的Prompt信息不足,缺乏對(duì)JSON結(jié)構(gòu)的明確定義和示例,導(dǎo)致模型無(wú)法理解預(yù)期輸出格式。
3. 改進(jìn)Prompt:清晰、完整、示例化
Will Kurt對(duì)論文中的Prompt進(jìn)行了改進(jìn),使其包含以下關(guān)鍵信息:明確的指令格式、與任務(wù)匹配的正確結(jié)構(gòu)示例,以及一個(gè)空的“assistant”P(pán)rompt來(lái)引導(dǎo)模型以期望的結(jié)構(gòu)開(kāi)始生成輸出。他還定義了自己的結(jié)構(gòu),并使用Pydantic模型限制推理步驟和答案長(zhǎng)度,確保Prompt與結(jié)構(gòu)匹配。
4. 實(shí)驗(yàn)任務(wù):Last Letter
實(shí)驗(yàn)任務(wù)為“Last Letter”,要求模型將四個(gè)名字的最后一個(gè)字母連接起來(lái)。論文中該任務(wù)的結(jié)構(gòu)化輸出準(zhǔn)確率低于10%,而非結(jié)構(gòu)化輸出準(zhǔn)確率約為70%。
5. 重新評(píng)估:結(jié)構(gòu)化輸出表現(xiàn)優(yōu)異
Will Kurt使用改進(jìn)后的Prompt重新進(jìn)行了實(shí)驗(yàn),結(jié)果顯示結(jié)構(gòu)化JSON輸出的準(zhǔn)確率達(dá)到了77%,顯著高于論文中報(bào)告的結(jié)果,也高于非結(jié)構(gòu)化輸出的準(zhǔn)確率。這有力地證明了,并非結(jié)構(gòu)化輸出本身導(dǎo)致模型“降智”,而是Prompt設(shè)計(jì)的問(wèn)題。
6. 解析器問(wèn)題:AI解析器并非完美
論文中使用了名為“Perfect Text Parser”(實(shí)際上并非完美)的AI解析器來(lái)處理非結(jié)構(gòu)化輸出。Will Kurt發(fā)現(xiàn),簡(jiǎn)單的正則表達(dá)式足以解析大部分正確輸出,并且其效果甚至優(yōu)于AI解析器。這說(shuō)明,論文對(duì)解析器的依賴(lài)過(guò)于復(fù)雜,也掩蓋了結(jié)構(gòu)化輸出的優(yōu)勢(shì)。
7. 結(jié)構(gòu)化輸出的真正意義
博文強(qiáng)調(diào),結(jié)構(gòu)化輸出并非僅僅指JSON、YAML等格式,而是指能夠方便解析和處理的任何自定義結(jié)構(gòu)。通過(guò)定義清晰的結(jié)構(gòu)和編寫(xiě)合適的解析器,可以有效地提高模型的輸出質(zhì)量和效率,避免了對(duì)AI解析器的依賴(lài)。
8. 結(jié)論:結(jié)構(gòu)化輸出并非“降智”元兇
最終,博文通過(guò)改進(jìn)Prompt和完善實(shí)驗(yàn)設(shè)計(jì),證明了結(jié)構(gòu)化輸出本身不會(huì)降低大模型的性能。相反,在合適的Prompt和解析器下,結(jié)構(gòu)化輸出甚至能夠提高模型的準(zhǔn)確率和效率。因此,論文“Speak Freely”的結(jié)論是由于不完善的實(shí)驗(yàn)設(shè)計(jì)和對(duì)結(jié)構(gòu)化輸出的誤解造成的。
聯(lián)系作者
文章來(lái)源:大數(shù)據(jù)文摘
作者微信:
作者簡(jiǎn)介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化