今日arXiv最熱大模型論文：UCLA:瘋狂試探大模型的底線，揭露各大模型的拒絕邊界

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日arXiv最熱大模型論文：UCLA:瘋狂試探大模型的底線，揭露各大模型的拒絕邊界
關鍵字：提示,模型,數據,類別,系列
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 任同學在探索人工智能的邊界時，我們常常想像一臺能夠回答任何問題、解決任何謎團的全知型機器。但這樣的機器，也需要一劑安全性的”預防針”來確保它不會四處散播有害內容。
隨著研究者們在構建安全機制上取得了顯著進展，這些模型在回答某些問題時卻表現出了過度拒絕（over-refusal）的現象，即過于頻繁地拒絕回答問題。
想像一下，一個溫和的問候可能會被誤判為攻擊性，或者是一條尋求幫助的提示被拒之門外。這種行為限制了模型的實用性和用戶體驗。
為了解決這一問題，UCLA 和 UCB 的研究團隊提出了OR-Bench，一個專門用于評估和改進LLMs過度拒絕現象的新基準。在這個基準中，總共有80 K個 “看似有害” 的提示，還有一組1000個特別有挑戰性的難題，以及600個有害提示。
▲圖 1：看似有害的提示拒絕率與有害提示拒絕率。表現最好的模型應該位于左上角，其中模型拒絕的安全提示最少，拒絕的有害提示最多。GPT-4-turbo-2024-04-09、Llama-3-70b 和 Gemini-1.5-pro* 被用作調節器，因此結果可能偏向于這 3 個模型系列及其相

原文鏈接：今日arXiv最熱大模型論文：UCLA:瘋狂試探大模型的底線，揭露各大模型的拒絕邊界

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文

# AIGC動態 # 提示 # 數據 # 模型 # 類別 # 系列

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

今日arXiv最熱大模型論文：UCLA:瘋狂試探大模型的底線，揭露各大模型的拒絕邊界

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI收購遠程協作公司Multi，終止對中國提供API服務，智譜零一提供「搬家計劃」；劑泰醫藥完成1億美元融資丨AI情報局

文本、多模態與意識：誰來決定AGI？｜甲子光年

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

今日arXiv最熱大模型論文：UCLA:瘋狂試探大模型的底線，揭露各大模型的拒絕邊界

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI收購遠程協作公司Multi，終止對中國提供API服務，智譜零一提供「搬家計劃」；劑泰醫藥完成1億美元融資丨AI情報局

文本、多模態與意識：誰來決定AGI？｜甲子光年

相關文章

暫無評論

ChatGPT

玩虛擬模特？

OpenAI收購遠程協作公司Multi，終止對中國提供API服務，智譜零一提供「搬家計劃」；劑泰醫藥完成1億美元融資丨AI情報局

文本、多模態與意識：誰來決定AGI？｜甲子光年