ChatGPT一：開源語言大模型的沖擊

AIGC動態(tài)2年前 (2023)發(fā)布人工智能學(xué)家

ChatGPT一周年：開源語言大模型的沖擊

AIGC動態(tài)歡迎閱讀

原標(biāo)題：ChatGPT一：開源語言大模型的沖擊
關(guān)鍵字：報告,模型,數(shù)據(jù),任務(wù),性能
文章來源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：17360字

內(nèi)容摘要：

自2022年末發(fā)布后，ChatGPT給人工智能的研究和商業(yè)領(lǐng)域帶來了巨大變革。通過有監(jiān)督微調(diào)和人類反饋的強(qiáng)化學(xué)習(xí)，模型可以回答人類問題，并在廣泛的任務(wù)范圍內(nèi)遵循指令。在獲得這一成功之后，人們對LLM的興趣不斷增加，新的LLM在學(xué)術(shù)界和工業(yè)界不斷涌現(xiàn)，其中包括許多專注于LLM的初創(chuàng)公司。
盡管閉源LLM（如OpenAI的GPT、Anthropic的Claude）通常優(yōu)于其對應(yīng)的開源模型，但后者的進(jìn)展十分迅速，并且聲稱在某些任務(wù)上取得了與ChatGPT相當(dāng)甚至更好的表現(xiàn)。這不僅深刻影響了語言大模型的研究，同時還具有非凡的商業(yè)價值。在ChatGPT發(fā)布一之際，本文旨在提供開源LLM這一成功的全面綜述，并全面調(diào)研了開源LLM聲稱已達(dá)到或超過ChatGPT水平的任務(wù)。
注：本文最新版本更新至12月5日，暫未收錄近期發(fā)布的首個開源MoE大模型Mixtral（8x7B），據(jù)稱已達(dá)到甚至超越了LLaMA2（70B）和GPT-3.5的水平。（以下內(nèi)容由OneFlow編譯發(fā)布，轉(zhuǎn)載請聯(lián)系授權(quán)。原文：https://arxiv.org/pdf/2311.16989.pdf）來源：OneFlow
作者：H

原文鏈接：ChatGPT一：開源語言大模型的沖擊