Anthropic安全負(fù)責(zé)人:在超級AI「毀滅」人類之前,我們可以做這些準(zhǔn)備
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Anthropic安全負(fù)責(zé)人:在超級AI「毀滅」人類之前,我們可以做這些準(zhǔn)備
關(guān)鍵字:風(fēng)險,人工智能,模型,系統(tǒng),階段
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部2023 年,Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略(Responsible Scaling Policy,RSP),這是一系列技術(shù)和組織協(xié)議,Anthropic 將采用這些協(xié)議來幫助他們管理開發(fā)功能日益強(qiáng)大的 AI 系統(tǒng)。Anthropic 認(rèn)為,AI 模型一方面變得越來越強(qiáng)大,創(chuàng)造巨大的經(jīng)濟(jì)和社會價值,另一方面也帶來了嚴(yán)重的風(fēng)險。RSP 將專注于災(zāi)難性風(fēng)險 —— 即人工智能模型直接造成大規(guī)模破壞的風(fēng)險。此類風(fēng)險可能來自故意濫用模型(例如用它來制造生物武器),也可能來自模型以違背其設(shè)計者意圖的方式自主行動而造成破壞。
RSP 還定義了一個稱為 AI 安全等級 (ASL,AI Safety Levels) 的框架,ASL 等級越高,其安全性證明就越嚴(yán)格。ASL-1 指的是不構(gòu)成重大災(zāi)難風(fēng)險的系統(tǒng),例如 2018 年的 LLM 或只會下棋的 AI 系統(tǒng)。
ASL-2 指的是顯示出危險能力早期跡象的系統(tǒng)(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。包括 Claude 在內(nèi)的當(dāng)前 LLM 似
原文鏈接:Anthropic安全負(fù)責(zé)人:在超級AI「毀滅」人類之前,我們可以做這些準(zhǔn)備
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: