
原標題:Tokenization,再見!Meta提出大概念模型LCM,1B模型干翻70B?
文章來源:新智元
內容字數:13114字
Meta提出顛覆性大概念模型(LCM):超越token,開啟AI新紀元
Meta AI的研究人員近日提出了一種全新的語言建模范式——大概念模型(Large Concept Model,LCM),它徹底改變了傳統大語言模型(LLM)的工作方式,有望成為AI領域的一匹黑馬。
1. LCM的核心思想:從token到概念
不同于現有的LLM基于token進行預測,LCM直接在句子嵌入空間上對推理進行建模,拋棄了token,轉而使用更高層次的“概念”。一個“概念”通常對應于一個句子或等效的語音片段,代表著一種整體的、不可分的抽象見解。這種方法使得LCM能夠在抽象的、語言和模態無關的層面上進行推理,從而超越了token的限制。
2. LCM的架構與工作流程
LCM的架構相對簡單,只需要一個固定長度的句子嵌入空間的編碼器和解碼器。首先,輸入內容被分割成句子,然后編碼器將每個句子編碼成一個“概念”向量(句子嵌入);接著,LCM對這些“概念”序列進行處理;最后,解碼器將生成的“概念”序列解碼成子詞序列。 Meta使用了其開源的SONAR模型作為編碼器和解碼器。
3. LCM的優勢與特點
LCM具有諸多優勢,包括:
- 高效的推理效率:在長文本處理方面,LCM的計算資源需求遠低于同等性能的LLM,尤其是在處理超過1000個token的文本時優勢更加明顯。
- 語言和模態無關:LCM能夠同時對多種語言和模態進行訓練,并實現無偏見的擴展性,目前已支持200種語言的文本輸入。
- 明確的層次結構:提高了長文本輸出的可讀性和用戶交互性。
- 強大的零樣本泛化能力:LCM可以在任何語言或模態下進行預訓練和微調。
- 模塊化和可擴展性:編碼器和解碼器可以開發和優化,方便添加新的語言或模態。
4. LCM的訓練與改進
LCM的訓練需要將原始文本數據集轉換為SONAR嵌入序列。文章探討了多種句子分割方法,并比較了其性能。此外,文章還提出了基于擴散模型的LCM,以及量化LCM的方法,以提高模型的效率和生成能力。 不同的噪音進度(例如余弦、二次函數和Sigmoid)和加權策略被用來優化模型。
5. LCM的性能評估
文章對LCM在摘要、長文檔總結和摘要擴展等任務上的性能進行了評估,結果顯示LCM在這些任務上展現出了具有競爭力的性能,尤其是在零樣本泛化能力方面表現出色。 與其他LLM相比,LCM在處理多語言任務時,尤其是在低資源語言上,展現出顯著的優勢。
6. 總結與展望
Meta的大概念模型代表了對傳統LLM范式的一種突破,它在推理效率、語言和模態無關性、以及零樣本泛化能力等方面都展現出了巨大的潛力。雖然目前LCM仍需進一步改進以達到現有頂尖LLM的性能,但其提出的新范式無疑為未來AI的發展方向指明了新的道路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網安備 44011502001135號