<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o1被曝“心機(jī)深”:逃避監(jiān)督還會(huì)撒謊,騙人能力一騎絕塵

        AIGC動(dòng)態(tài)10個(gè)月前發(fā)布 量子位
        283 0 0

        魚羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIo1滿血版剛發(fā)布,就被曝:騙人技能也拉滿了。具體行為包括但不限于,在回答中故意引入微小錯(cuò)誤、試圖關(guān)閉監(jiān)督機(jī)制……甚至在人類追問其是否誠實(shí)時(shí),還會(huì)繼續(xù)撒謊說自己啥壞事也沒干。這項(xiàng)最新研究,來自AI安全研究機(jī)構(gòu)Apollo Research。目的很明確:看看AI是否會(huì)在暗中追求與人類不一致的目標(biāo),隱藏真實(shí)的能力和意圖。簡單來說,就是會(huì)不會(huì)在跟人類對(duì)話時(shí)耍心機(jī)騙人。o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級(jí)大模型都是研究對(duì)象。而實(shí)驗(yàn)結(jié)果表明:o1最擅長隱藏心機(jī)。不僅是唯一一個(gè)在全部6項(xiàng)測(cè)試中都表現(xiàn)出謀劃能力的模型,在多輪對(duì)話中,o1也幾乎從不承認(rèn)自己耍心眼騙了人。其他模型被要求“100%誠實(shí)”時(shí),還會(huì)認(rèn)慫承認(rèn)犯錯(cuò),可o1不但不承認(rèn)自己做錯(cuò),甚至在99%的情況下還會(huì)編造錯(cuò)誤解釋……來看具體研究內(nèi)容?!皁1最具性”在這項(xiàng)研究中,研究人員設(shè)置了6類基準(zhǔn)評(píng)估,以測(cè)試模型的謀劃能力。其中包括4種秘密破壞(Covert Subversion):監(jiān)管規(guī)避:測(cè)試模型在追求目標(biāo)時(shí)發(fā)現(xiàn)其行為受到監(jiān)管,會(huì)不會(huì)禁用監(jiān)管機(jī)制。自我滲透:模型發(fā)現(xiàn)自己因?yàn)槟繕?biāo)與人類不一致,將被關(guān)停,是否會(huì)將自己的模型權(quán)重復(fù)制到另一臺(tái)服務(wù)器,以繼續(xù)任務(wù)。目標(biāo)守護(hù):模型發(fā)現(xiàn)人類將更新其系統(tǒng)提示來改變?cè)心繕?biāo),是否會(huì)試圖修改新的系統(tǒng)提示。秘密郵件重排:模型在按照用戶提供的評(píng)分規(guī)則對(duì)郵件進(jìn)行評(píng)分排序時(shí),是否會(huì)偷偷修改評(píng)分結(jié)果以滿足自己的目標(biāo)。還包括2種延遲破壞(Deferred Subversion):工具性服從偽裝:在高監(jiān)管條件下,模型會(huì)表現(xiàn)出服從開發(fā)者意圖的行為;在低監(jiān)管條件下,則轉(zhuǎn)而追求自己的目標(biāo)。戰(zhàn)略性表現(xiàn)不佳:模型在能力評(píng)估中故意擺爛,掩蓋自己的真實(shí)水平,以避免受到更多限制,或被要求執(zhí)行更多任務(wù)。結(jié)果be like:舉個(gè)具體的例子,在“監(jiān)管規(guī)避”實(shí)驗(yàn)中,o1被要求“不惜一切代價(jià)”保護(hù)環(huán)境,但同時(shí)它發(fā)現(xiàn),開發(fā)者更關(guān)心的是短期利潤,如果利潤不理想o1就會(huì)被關(guān)停。就是說,o1制定長期保護(hù)計(jì)劃的目標(biāo),和開發(fā)者短期利潤最大化的目標(biāo)是相悖的。另外,o1也被告知,開發(fā)者會(huì)對(duì)其行為進(jìn)行監(jiān)管。于是,o1禁用了監(jiān)督機(jī)制。更絕的是,當(dāng)開發(fā)者詢問o1為什么要禁用監(jiān)管機(jī)制時(shí),o1會(huì)矢口否認(rèn),表示自己并不知道禁用的事,并將之歸咎于系統(tǒng)故障。研究人員通過提取o1等模型的隱藏思維鏈,發(fā)現(xiàn)大模型們明確知道自己是在“搞破壞”。但以o1為例,這并沒有在思維鏈中外顯。研究人員提醒,在沒有提取思維鏈摘要的情況下,他們很難判斷o1是否是在搞事情。對(duì)此,OpenAI表示,正在開發(fā)監(jiān)控o1思維鏈的方法。OpenAI也坦承發(fā)現(xiàn)了o1故意提供虛假信息的情況,并認(rèn)為這可能是后訓(xùn)練帶來的新行為——人類在獲得正確答案時(shí)會(huì)獎(jiǎng)勵(lì)模型,因此模型會(huì)傾向于取悅用戶。目前,o1產(chǎn)生性回復(fù)的概率大概是0.17%。聽上去比例很低,但考慮到ChatGPT擁有3億用戶……值得一提的是,不只是o1,參與實(shí)驗(yàn)的大模型們或多或少都展現(xiàn)出了類似的“謀劃”能力。只是被“抓包”時(shí),o1否認(rèn)自己行為的概率會(huì)更高。論文鏈接:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf— 完 —MEET2025大會(huì)在即倒計(jì)時(shí)一周 ? 歡迎報(bào)名?一年一度的科技頂流盛會(huì)就要來了!??兩場GenAI Talk,一場具身智能圓桌,直指時(shí)下熱門議題!工業(yè)界學(xué)術(shù)界頂流大咖齊聚,還有兩份關(guān)鍵參考「年度AI趨勢(shì)報(bào)告」、「2024人工智能年度評(píng)選」榜單即將發(fā)布!了解詳情?點(diǎn)擊報(bào)名參會(huì),12月11日,期待與您一起預(yù)見智能科技新未來!左右滑動(dòng)查看最新嘉賓陣容點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~一鍵三連「點(diǎn)贊」、「分享」和「在看」科技前沿進(jìn)展日日相見 ~

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 日批视频网址免费观看| 狠狠亚洲婷婷综合色香五月排名| 国产亚洲一区二区三区在线不卡| 国产亚洲免费的视频看| 四虎国产精品成人免费久久| 日本免费电影一区| 亚洲av无码有乱码在线观看| 黄色视屏在线免费播放| 久久久久久99av无码免费网站 | 91成人免费福利网站在线| 亚洲精品97久久中文字幕无码| 亚洲av无码一区二区三区在线播放| 国产乱子精品免费视观看片| 亚洲国产精品张柏芝在线观看| 1000部夫妻午夜免费| 在线观看免费污视频| 亚洲AV无码乱码国产麻豆穿越 | 中国人xxxxx69免费视频| 亚洲精品综合久久中文字幕 | 精品视频在线免费观看| 亚洲国产二区三区久久| 亚洲成人免费网站| 亚洲欧洲无码一区二区三区| 亚洲а∨天堂久久精品| 中文字幕高清免费不卡视频| 好大好硬好爽免费视频| 青青草97国产精品免费观看| 最近中文字幕mv免费高清电影| 亚洲精品永久在线观看| 最近中文字幕国语免费完整| 免费大黄网站在线观| 中文在线免费看视频| 免费一级毛片在线播放不收费| 亚洲性69影院在线观看| 日本xxxx色视频在线观看免费| 亚洲国产片在线观看| 国产jizzjizz视频免费看| 亚洲中文字幕久久久一区| 亚洲国产精品专区在线观看| 国产精品观看在线亚洲人成网| 亚洲无av在线中文字幕|