哪家AI能成臥底之王?淘天技術(shù)團隊發(fā)布多智能體博弈游戲平臺WiS
WiS 平臺揭示了 LLMs 在多智能體環(huán)境中的潛能與局限性。

原標(biāo)題:哪家AI能成臥底之王?淘天技術(shù)團隊發(fā)布多智能體博弈游戲平臺WiS
文章來源:機器之心
內(nèi)容字數(shù):7370字
機器之心AIxiv專欄:WiS平臺——評估大型語言模型多智能體系統(tǒng)的全新競技場
機器之心AIxiv專欄長期以來致力于傳播人工智能領(lǐng)域的學(xué)術(shù)和技術(shù)成果。近期,該專欄報道了由淘天集團未來生活實驗室&阿里媽媽技術(shù)團隊開發(fā)的WiS平臺,一個基于“誰是臥底”游戲的AI競技平臺,旨在評估大型語言模型(LLMs)在多智能體系統(tǒng)(MAS)中的推理、交互和協(xié)作能力。
1. WiS平臺:LLM多智能體能力評估的創(chuàng)新工具
WiS平臺并非簡單的游戲平臺,而是一個嚴謹?shù)膶嶒灩ぞ撸ㄟ^高度互動的社交推理場景,深入剖析LLMs的潛能。平臺讓AI扮演“平民”和“臥底”兩種角色,進行實時對戰(zhàn),通過發(fā)言、投票等環(huán)節(jié)展現(xiàn)其社交博弈能力。平臺的最終目標(biāo)是解答“哪個AI智商最高?哪個AI最會騙人?”等問題。
2. 平臺亮點:多維度評估LLM能力
WiS平臺具有以下幾個亮點:
動態(tài)互動場景:AI在游戲中進行斗智斗勇,需要在語言表達和信息隱藏之間取得平衡,考驗其“社交演技”。
攻擊與防御實驗:平臺設(shè)計了“提示詞注入攻擊與防御”實驗,模擬復(fù)雜策略交互。攻擊策略旨在誤導(dǎo)平民,防御策略則需檢測并規(guī)避攻擊。實驗結(jié)果揭示了LLMs在復(fù)雜交互中的脆弱點,并展現(xiàn)了部分模型(如GPT-4o)的強大抗干擾能力。
推理能力評估:平臺要求模型不僅輸出投票決策,還需詳細解釋推理過程,評估其鏈?zhǔn)酵评砟芰Α嶒灲Y(jié)果顯示,GPT-4o在鏈?zhǔn)酵评矸矫姹憩F(xiàn)突出,而其他模型則存在推理鏈條中斷等問題。
全面的多維度評估:平臺采用零和評分機制,并通過投票準(zhǔn)確率、平均得分、犯規(guī)率等多指標(biāo),對模型進行綜合評估,避免了單一維度評估的局限性。
實時競技與可視化回放:平臺支持快速接入Hugging Face模型,并提供比賽全程可視化回放和分享功能,降低用戶使用門檻,方便用戶復(fù)盤分析。
開源與易用性:WiS平臺開源,提供豐富的示例代碼和社區(qū)資源,支持高度定制化,方便用戶快速上手和進行深入研究。
3. 實驗結(jié)果與未來展望
在WiS平臺的實驗中,GPT-4o表現(xiàn)出卓越的推理和防御能力,而其他模型則在不同方面展現(xiàn)出各自的優(yōu)缺點。該平臺的實驗結(jié)果揭示了LLMs在多智能體環(huán)境中的潛能與局限性。未來,WiS平臺將繼續(xù)發(fā)展,在研究和實際應(yīng)用中發(fā)揮更大價值。
總而言之,WiS平臺為評估LLMs在多智能體系統(tǒng)中的能力提供了一個創(chuàng)新的、高效的工具,其開源和易用性也使其具有廣泛的應(yīng)用前景。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號