国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<li id="oaguy"></li>

<strike id="oaguy"></strike>

<tr id="oaguy"></tr>

<center id="oaguy"></center>

哪家AI能成臥底之王？淘天技術(shù)團隊發(fā)布多智能體博弈游戲平臺WiS

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

533 0 0

WiS 平臺揭示了 LLMs 在多智能體環(huán)境中的潛能與局限性。

哪家AI能成臥底之王？淘天技術(shù)團隊發(fā)布多智能體博弈游戲平臺WiS

原標(biāo)題：哪家AI能成臥底之王？淘天技術(shù)團隊發(fā)布多智能體博弈游戲平臺WiS
文章來源：機器之心
內(nèi)容字數(shù)：7370字

機器之心AIxiv專欄：WiS平臺——評估大型語言模型多智能體系統(tǒng)的全新競技場

機器之心AIxiv專欄長期以來致力于傳播人工智能領(lǐng)域的學(xué)術(shù)和技術(shù)成果。近期，該專欄報道了由淘天集團未來生活實驗室&阿里媽媽技術(shù)團隊開發(fā)的WiS平臺，一個基于“誰是臥底”游戲的AI競技平臺，旨在評估大型語言模型(LLMs)在多智能體系統(tǒng)(MAS)中的推理、交互和協(xié)作能力。

1. WiS平臺：LLM多智能體能力評估的創(chuàng)新工具

WiS平臺并非簡單的游戲平臺，而是一個嚴謹?shù)膶嶒灩ぞ撸ㄟ^高度互動的社交推理場景，深入剖析LLMs的潛能。平臺讓AI扮演“平民”和“臥底”兩種角色，進行實時對戰(zhàn)，通過發(fā)言、投票等環(huán)節(jié)展現(xiàn)其社交博弈能力。平臺的最終目標(biāo)是解答“哪個AI智商最高？哪個AI最會騙人？”等問題。

2. 平臺亮點：多維度評估LLM能力

WiS平臺具有以下幾個亮點：

動態(tài)互動場景：AI在游戲中進行斗智斗勇，需要在語言表達和信息隱藏之間取得平衡，考驗其“社交演技”。
攻擊與防御實驗：平臺設(shè)計了“提示詞注入攻擊與防御”實驗，模擬復(fù)雜策略交互。攻擊策略旨在誤導(dǎo)平民，防御策略則需檢測并規(guī)避攻擊。實驗結(jié)果揭示了LLMs在復(fù)雜交互中的脆弱點，并展現(xiàn)了部分模型（如GPT-4o）的強大抗干擾能力。
推理能力評估：平臺要求模型不僅輸出投票決策，還需詳細解釋推理過程，評估其鏈?zhǔn)酵评砟芰Α嶒灲Y(jié)果顯示，GPT-4o在鏈?zhǔn)酵评矸矫姹憩F(xiàn)突出，而其他模型則存在推理鏈條中斷等問題。
全面的多維度評估：平臺采用零和評分機制，并通過投票準(zhǔn)確率、平均得分、犯規(guī)率等多指標(biāo)，對模型進行綜合評估，避免了單一維度評估的局限性。
實時競技與可視化回放：平臺支持快速接入Hugging Face模型，并提供比賽全程可視化回放和分享功能，降低用戶使用門檻，方便用戶復(fù)盤分析。
開源與易用性：WiS平臺開源，提供豐富的示例代碼和社區(qū)資源，支持高度定制化，方便用戶快速上手和進行深入研究。

3. 實驗結(jié)果與未來展望

在WiS平臺的實驗中，GPT-4o表現(xiàn)出卓越的推理和防御能力，而其他模型則在不同方面展現(xiàn)出各自的優(yōu)缺點。該平臺的實驗結(jié)果揭示了LLMs在多智能體環(huán)境中的潛能與局限性。未來，WiS平臺將繼續(xù)發(fā)展，在研究和實際應(yīng)用中發(fā)揮更大價值。

總而言之，WiS平臺為評估LLMs在多智能體系統(tǒng)中的能力提供了一個創(chuàng)新的、高效的工具，其開源和易用性也使其具有廣泛的應(yīng)用前景。