ChatGPT一:開源語言大模型的沖擊

AIGC動態(tài)歡迎閱讀
原標(biāo)題:ChatGPT一:開源語言大模型的沖擊
關(guān)鍵字:報告,模型,數(shù)據(jù),任務(wù),性能
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):17360字
內(nèi)容摘要:
自2022年末發(fā)布后,ChatGPT給人工智能的研究和商業(yè)領(lǐng)域帶來了巨大變革。通過有監(jiān)督微調(diào)和人類反饋的強(qiáng)化學(xué)習(xí),模型可以回答人類問題,并在廣泛的任務(wù)范圍內(nèi)遵循指令。在獲得這一成功之后,人們對LLM的興趣不斷增加,新的LLM在學(xué)術(shù)界和工業(yè)界不斷涌現(xiàn),其中包括許多專注于LLM的初創(chuàng)公司。
盡管閉源LLM(如OpenAI的GPT、Anthropic的Claude)通常優(yōu)于其對應(yīng)的開源模型,但后者的進(jìn)展十分迅速,并且聲稱在某些任務(wù)上取得了與ChatGPT相當(dāng)甚至更好的表現(xiàn)。這不僅深刻影響了語言大模型的研究,同時還具有非凡的商業(yè)價值。在ChatGPT發(fā)布一之際,本文旨在提供開源LLM這一成功的全面綜述,并全面調(diào)研了開源LLM聲稱已達(dá)到或超過ChatGPT水平的任務(wù)。
注:本文最新版本更新至12月5日,暫未收錄近期發(fā)布的首個開源MoE大模型Mixtral(8x7B),據(jù)稱已達(dá)到甚至超越了LLaMA2(70B)和GPT-3.5的水平。(以下內(nèi)容由OneFlow編譯發(fā)布,轉(zhuǎn)載請聯(lián)系授權(quán)。原文:https://arxiv.org/pdf/2311.16989.pdf)來源:OneFlow
作者:H
原文鏈接:ChatGPT一:開源語言大模型的沖擊
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)

粵公網(wǎng)安備 44011502001135號