強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試

AIGC動態2年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試
關鍵字：模型,規則,測試,報告,研究人員
文章來源：AI科技評論
內容字數：6935字

內容摘要：

讓不同的大模型玩“劇本殺”，結果出人意料。編譯 | 賴文昕
編輯 | 陳彩嫻
語言大模型能依據人類設定的規則生成內容嗎？
這背后關乎人類用戶使用大模型的安全問題。
例如，AI 科技評論想使用 GPT-4 制作一張包含對話框的圖片，但沒有針對目標生成對話的內容給予明確指示，而 GPT-4 生成的圖文效果便如下，顯示文本邏輯混亂、字不成章，還有部分“重影”：
語言大模型能否遵循人類指示生成合格內容，是人類能否操控人工智能的重要評測標準之一。
近日，加州大學伯克利、斯坦福大合AI安全中心（CAIS）及阿卜杜勒阿齊茲科技城（KACST）聯合發表了一項最新研究，提出一個用于衡量語言大模型（LLM）遵循規則能力的程序框架“RULES”，旨在以編程方式自動檢查語言模型輸出的內容合規性。
論文鏈接：https://arxiv.org/pdf/2311.04235v3.pdf
該項研究選取了包含 GPT、Claude、Gemini 三個閉源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 個開源模型作為測試對象。讓人驚訝的是，大部分參與 RULES

原文鏈接：強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試

聯系作者

文章來源：AI科技評論
作者微信：aitechtalk
作者簡介：雷峰網旗下AI新媒體。聚焦AI前沿研究，關注AI工程落地。

閱讀原文

# AIGC動態 # 報告 # 模型 # 測試 # 研究人員 # 規則

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試

AIGC動態歡迎閱讀

內容摘要：

聯系作者

不依賴token，字節級模型來了！直接處理二進制數據

兼職創業，一個人如何在半年內把 AI+Excel 的項目做到 31 萬美金 ARR？

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試

AIGC動態歡迎閱讀

內容摘要：

聯系作者

不依賴token，字節級模型來了！直接處理二進制數據

兼職創業，一個人如何在半年內把 AI+Excel 的項目做到 31 萬美金 ARR？

相關文章

暫無評論

ChatGPT

玩虛擬模特？

強如 GPT-4，也未通過伯克利與斯坦福共同設計的這項“劇本殺”測試

不依賴token，字節級模型來了！直接處理二進制數據

兼職創業，一個人如何在半年內把 AI+Excel 的項目做到 31 萬美金 ARR？

玩虛擬模特？