Jamba是AI21 Labs推出的首款基于Mamba架構的高性能大語言模型,結合了Mamba結構化狀態空間模型(SSM)與傳統Transformer結構,具備高質量輸出、高吞吐量和低內存占用等顯著優點。該模型提供256K的上下文窗口,使其在處理長文本時更為高效,同時以開放權重形式發布,遵循Apache 2.0開源許可,鼓勵社區進行研究和優化。
Jamba是什么
Jamba是AI21 Labs研發的首個基于Mamba架構的生產級大語言模型。與大多數依賴Transformer結構的模型(如GPT、Gemini和Llama)不同,Jamba將Mamba結構化狀態空間模型(SSM)與傳統Transformer架構相結合,旨在提升模型的性能與效率。其256K的上下文窗口配置顯著提高了長文本處理的吞吐量與效率。
目前,Jamba以開放權重形式發布,遵循Apache 2.0開源許可,鼓勵廣大研究者和開發者進行探索與改進。AI21 Labs預計將在未來幾周推出經過微調并具備更好安全性的版本。
Jamba的官網入口
- 官方項目主頁:https://www.ai21.com/jamba
- 官方博客介紹:https://www.ai21.com/blog/announcing-jamba
- Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1
Jamba的主要特性
- SSM-Transformer混合架構:Jamba是第一款將Mamba SSM(結構化狀態空間模型)與Transformer架構相結合的生產級模型,該創新混合架構旨在提升模型性能與效率。
- 大容量上下文窗口:Jamba具備256K的上下文窗口,使其能夠處理更長的文本序列,適用于復雜的自然語言處理任務。
- 高吞吐量:與同類Mixtral 8x7B模型相比,Jamba在處理長上下文時實現了3倍的吞吐量提升,能更高效處理大量數據。
- 單GPU大容量處理:Jamba能夠在單個GPU上處理高達140K的上下文,顯著提高了模型的可訪問性與部署靈活性。
- 開放權重許可:Jamba的權重以Apache 2.0許可發布,為研究者和開發者提供了使用、修改和優化模型的權限,促進技術共享與創新。
- NVIDIA API集成:Jamba將作為NVIDIA NIM推理微服務在NVIDIA API目錄中提供,幫助企業開發者輕松部署Jamba模型。
- 優化的MoE層:Jamba在混合結構中采用MoE(混合專家)層,僅在推理時激活部分參數,提高了模型的運行效率與性能。
Jamba的技術架構
Jamba的架構采用塊和層次的方法,使其能夠成功整合Mamba SSM與Transformer兩種架構。每個Jamba塊包含一個注意力層或Mamba層,后接多層感知器(MLP),從而在八層中形成一個Transformer層的比例。
此外,Jamba利用MoE增加模型總參數量,同時在推理中簡化活躍參數的使用,從而在計算需求不增加的情況下提升模型容量。AI21 Labs優化了MoE層及專家數量,以最大限度提升單個80GB GPU上的模型質量與吞吐量。
Jamba的性能對比
根據AI21 Labs的報告,Jamba模型在多項基準測試(如HellaSwag、ArcChallenge、MLLU等)中表現出色,在語言理解、科學推理和常識推理等多種任務上,Jamba與同類模型(如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B)相比,表現不相上下,甚至超越部分模型。