時隔6年,谷歌BERT終于有替代品了!更快更準更長,還不炒作GenAI
真正有用的主力模型。

原標題:時隔6年,谷歌BERT終于有替代品了!更快更準更長,還不炒作GenAI
文章來源:機器之心
內(nèi)容字數(shù):9380字
ModernBERT:BERT的六年后繼任者,高效且強大的編碼器模型
本文總結(jié)了機器之心對ModernBERT的報道,該模型被譽為BERT的六年后繼任者,在速度和準確率方面均有顯著提升,是真正有用的主力模型。
1. ModernBERT的優(yōu)勢與意義
ModernBERT由Answer.AI、英偉達等發(fā)布,包含139M和395M兩個版本。它在速度和準確率上超越了BERT及其同類模型,上下文長度增加到8k個token,是首個在大量代碼數(shù)據(jù)上訓練的僅編碼器模型。不同于近期流行的僅解碼器生成式AI模型,ModernBERT專注于檢索、分類等實用任務(wù),更快速、準確、高效,且成本更低。
2. 僅編碼器模型的價值
盡管生成式AI(GenAI)模型如GPT系列風靡一時,但僅編碼器模型在許多實際應(yīng)用中仍然扮演著關(guān)鍵角色。它們輸出數(shù)值列表(嵌入向量),直接編碼答案,效率高且易于部署,尤其在內(nèi)容推薦等領(lǐng)域應(yīng)用廣泛。與僅解碼器模型相比,僅編碼器模型能雙向查看token,在特定任務(wù)中效率更高。
3. ModernBERT的性能提升
ModernBERT在GLUE等基準測試中超越了DeBERTaV3等領(lǐng)先模型,速度提升高達4倍,尤其在長上下文推理方面優(yōu)勢明顯。在代碼檢索任務(wù)中,ModernBERT的性能更是獨樹一幟,得益于其在大量代碼數(shù)據(jù)上的訓練。
4. ModernBERT的技術(shù)創(chuàng)新
ModernBERT的改進源于多個方面:
- 現(xiàn)代化的Transformer架構(gòu):采用RoPE位置編碼、GeGLU激活函數(shù)等改進,提升模型效率。
- 全局和局部注意力機制:結(jié)合全局和局部注意力,高效處理長輸入序列。
- Unpadding和序列Packing:避免填充token帶來的計算浪費,進一步提升效率。
- 多樣化的訓練數(shù)據(jù):包含網(wǎng)頁文檔、代碼和科學文章等多種數(shù)據(jù)來源,提升模型泛化能力。
- 三段式訓練流程:分階段訓練,兼顧短長上下文處理能力。
- 權(quán)重初始化技巧:利用ModernBERT-base的權(quán)重初始化ModernBERT-large,加快訓練速度。
5. 結(jié)論
ModernBERT作為一款高效、強大的僅編碼器模型,為BERT提供了急需的升級,證明了僅編碼器模型在現(xiàn)代方法的改進下仍能保持強大的性能,并具有極具吸引力的尺寸/性能比。它為需要高效、可靠且低成本的模型的應(yīng)用提供了理想選擇。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號