也許是時候尋找新的方法了?
原標題:Andrej Karpathy:神奇大模型不存在的,只是對人類標注的拙劣模仿
文章來源:機器之心
內容字數:3034字
人工智能的智能成分與RLHF的局限性
近日,OpenAI創始成員Andrej Karpathy對人工智能的「智能」成分提出質疑,引發廣泛討論。他認為,當前人們對向人工智能提出問題的理解過于夸張,實際上,人工智能主要是模仿人工標注數據的語言模型。以下是文章的主要觀點:
- 人工智能的訓練機制
- RLHF的實際意義
- 對RLHF的質疑
- 新的獎勵機制探索
Karpathy指出,人工智能通過模仿曾經在互聯網上被人類標注的數據進行訓練,因此,與其說是在詢問人工智能,不如說是在詢問互聯網的平均數據標注者。這意味著,當用戶詢問某個問題時,得到的答案往往是基于歷史數據的簡單匯總。
關于強化學習與人類反饋(RLHF),Karpathy認為這種方法僅能將模型性能提升到人類的整體水平,而非超越人類。他表示,RLHF的實用性體現在模型的判別能力上,而非生成能力。換句話說,模型更擅長于判斷,而不是創造。
Karpathy曾與他人質疑RLHF的有效性,指出如果將RLHF應用于AlphaGo,可能無法取得成功。他強調,RLHF并不具備強大的強化學習特性,更多的是依賴于人類的主觀反饋。
鑒于RLHF的局限性,Karpathy對OpenAI提出的基于規則的獎勵(RBR)方法表示關注。RBR不僅限于安全訓練,還可以適應各種任務,明確規則可以定義所需行為,這或許為大模型的性能提升提供了新的思路。
綜上所述,Karpathy對當前人工智能的發展提出了深刻的反思,尤其是在智能成分和訓練機制方面。他的觀點提示我們在使用人工智能時,應更加關注其實際能力和局限性,而非盲目追求所謂的「超人」表現。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...