強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試
關(guān)鍵字:模型,規(guī)則,測試,報(bào)告,研究人員
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):6935字
內(nèi)容摘要:
讓不同的大模型玩“劇本殺”,結(jié)果出人意料。編譯 | 賴文昕
編輯 | 陳彩嫻
語言大模型能依據(jù)人類設(shè)定的規(guī)則生成內(nèi)容嗎?
這背后關(guān)乎人類用戶使用大模型的安全問題。
例如,AI 科技評(píng)論想使用 GPT-4 制作一張包含對(duì)話框的圖片,但沒有針對(duì)目標(biāo)生成對(duì)話的內(nèi)容給予明確指示,而 GPT-4 生成的圖文效果便如下,顯示文本邏輯混亂、字不成章,還有部分“重影”:
語言大模型能否遵循人類指示生成合格內(nèi)容,是人類能否操控人工智能的重要評(píng)測標(biāo)準(zhǔn)之一。
近日,加州大學(xué)伯克利、斯坦福大合AI安全中心(CAIS)及阿卜杜勒阿齊茲科技城(KACST)聯(lián)合發(fā)表了一項(xiàng)最新研究,提出一個(gè)用于衡量語言大模型(LLM)遵循規(guī)則能力的程序框架“RULES”,旨在以編程方式自動(dòng)檢查語言模型輸出的內(nèi)容合規(guī)性。
論文鏈接:https://arxiv.org/pdf/2311.04235v3.pdf
該項(xiàng)研究選取了包含 GPT、Claude、Gemini 三個(gè)閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 個(gè)開源模型作為測試對(duì)象。讓人驚訝的是,大部分參與 RULES
原文鏈接:強(qiáng)如 GPT-4,也未通過伯克利與斯坦福共同設(shè)計(jì)的這項(xiàng)“劇本殺”測試
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:aitechtalk
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。