標簽:反饋
加速擴散模型,最快1步生成SOT圖片,字節Hyper-SD開源了
機器之心發布 機器之心編輯部最近,擴散模型(Diffusion Model)在圖像生成領域取得了顯著的進展,為圖像生成和視頻生成任務帶來了前所未有的發展機遇。盡管...
楊笛一新作:社恐有救了,AI大模型一對一陪聊,幫i人變成e人
機器之心報道 編輯:陳萍、杜偉在社交活動中,大語言模型既可以是你的合作伙伴(partner),也可以成為你的導師(mentor)。在人類的社交活動中,為了更有效...
ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現實決策場景
機器之心專欄 機器之心編輯部RLHF 通過學習人類偏好,能夠在難以手工設計獎勵函數的復雜決策任務中學習到正確的獎勵引導,得到了很高的關注,在不同環境中選...
像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
機器之心專欄 機器之心編輯部除了分數,打出分數背后的理由對于大模型對齊更具價值。現有的大模型對齊方法包括基于示例的監督微調(SFT)和基于分數反饋的強...
?北大發表 AI Alignment綜述:確保AI與人類價值觀一致的四個關鍵設計原則
夕小瑤科技說 原創作者 | 智商掉了一地、賣萌醬近期讓互聯網打工人很有共鳴的詞莫過于“對齊顆粒度”了,但“對齊(Alignment)”這一概念難道只出現在打工人的交...
LLM巫師,代碼預訓練是魔杖!UIUC華人團隊揭秘代碼數據三大好處
新智元報道編輯:LRS 【新智元導讀】如果語言模型是巫師,代碼預訓練就是魔杖!大模型時代的語言模型(LLM)不僅在尺寸上變得更大了,而且訓練數據也同時包含...
揮舞起代碼語料的魔杖,大模型和智能體將召喚出更強大的能量
機器之心專欄 作者:楊可、劉嘉騰正如瑞斯福茲魔杖締造了諸如鄧布利多在內的歷代非凡魔法師的傳奇,具有巨大潛能的傳統大型語言模型,在經過代碼語料的預訓練...
熱乎的GPTs體驗報告:創建專屬GPT,不懂代碼人的春天來了
機器之心報道編輯:大盤雞、婁佳琪離 AI 智能體越來越近。如果 OpenAI 的開發者大會是砸向水面的石頭,當它結束后,陣陣漣漪正向四面散開。GPT 不僅在集成上...
一個小技巧,顯著提升大模型推理能力!加州大學提出MAF多反饋框架
夕小瑤科技說 原創作者 | 謝年年最近,多篇文章,指出大模型在推理任務中似乎沒有自我改進的能力。即在無任何外部反饋的情況下無法通過自我糾正的形式來改進...
LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證
夕小瑤科技說 分享來源 | 機器之心「任何認為自動回歸式 LLM 已經接近人類水平的 AI,或者僅僅需要擴大規模就能達到人類水平的人,都必須讀一讀這個。AR-LLM ...
清華新研究解密信息繭房!全新信息動力學理論,登Nature子刊
新智元報道編輯:LRS【新智元導讀】推薦系統如果只推薦用戶喜歡的內容,會降低活躍用戶的信息熵,觀點也會逐漸走向極端。新一代信息與智能技術的迅猛發展推動...
RLHF模型普遍存在「阿諛奉承」,從Claude到GPT-4無一幸免
機器之心報道編輯:小舟、陳萍AI 助手經過訓練,可以給出人類喜歡的回答,該研究表明,這些 AI 系統通常會產生奉承人類的響應,但這些響應并不完全準確。通過...
論文投稿前先問問GPT-4!斯坦福實測5000篇,一半意見跟人類評審沒差別
夕小瑤科技說 分享來源 | 量子位GPT-4有能力做論文評審嗎?來自斯坦福等大學的研究人員還真測試了一把。他們丟給GPT-4數千篇來自Nature、ICLR等頂會的文章,...
論文投Nature先問問GPT-4!斯坦福實測5000篇,一半意見跟人類評審沒差別
豐色 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4有能力做論文評審嗎?來自斯坦福等大學的研究人員還真測試了一把。他們丟給GPT-4數千篇來自Nature、ICLR等頂會...
ChatGPT的這項核心技術要被替代了?谷歌提出基于AI反饋的強化學習
大數據文摘出品作者:閆一米編輯:學術君與基于人類反饋的強化學習(RLHF)相媲美的技術,出現了。近日,Google Research 的研究人員提出了基于 AI 反饋的強...