AI黑盒研究的突破性進(jìn)展:Anthropic詳解大模型的「思維」特征
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AI黑盒研究的突破性進(jìn)展:Anthropic詳解大模型的「思維」特征
關(guān)鍵字:模型,特征,神經(jīng)元,研究者,概念
文章來(lái)源:Founder Park
內(nèi)容字?jǐn)?shù):6986字
內(nèi)容摘要:
一直以來(lái) AI 都是一個(gè)黑盒子(black box),其內(nèi)部運(yùn)作機(jī)制是不可見(jiàn)的。人們輸入數(shù)據(jù)并得到結(jié)果,但無(wú)法檢查輸出結(jié)果的邏輯或者系統(tǒng)的代碼。
而就在剛剛,Anthropic 宣布在理解人工智能模型內(nèi)部運(yùn)作機(jī)制方面取得重大進(jìn)展。
Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。
研究論文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
此外,Anthropic 還將他們解釋大型語(yǔ)言模型論文的研究應(yīng)用到了 Claude 上。現(xiàn)在點(diǎn)擊 Claude 右上角大橋圖標(biāo)可以進(jìn)入金門(mén)大橋模式,金門(mén)大橋這一概念在模型中被大幅加強(qiáng)。即使沒(méi)有提到金門(mén)大橋,回答也全跟大橋相關(guān),這個(gè)研究的意義非常重大,普通人可以直觀感受到 LLM 中概念合集的影響。
文章轉(zhuǎn)載自公眾號(hào)「機(jī)器之心」,F(xiàn)ounder Park 略有調(diào)整。
01
AI 黑盒可解釋了?
當(dāng)前,我們通常將人工
原文鏈接:AI黑盒研究的突破性進(jìn)展:Anthropic詳解大模型的「思維」特征
聯(lián)系作者
文章來(lái)源:Founder Park
作者微信:Founder-Park
作者簡(jiǎn)介:來(lái)自極客公園,專(zhuān)注與科技創(chuàng)業(yè)者聊「真問(wèn)題」。