AIGC動態歡迎閱讀
原標題:阿里開源110B大模型!超越LLama3!
關鍵字:模型,參數,語言,基礎,系列
文章來源:算法邦
內容字數:1872字
內容摘要:
4月26日晚間,阿里正式發布了110B的千問1.5開源大模型。
110B是中文開源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表現效果好于LLama3 70B和Mixtral-8x22B。近期開源社區陸續出現了千億參數規模以上的大模型,這些模型都在各項評測中取得杰出的成績。本周,我們開源1100億參數的Qwen1.5系列首個千億參數模型Qwen1.5-110B,該模型在基礎能力評估中與Meta-Llama3-70B相媲美,在Chat評估中表現出色,包括MT-Bench和AlpacaEval 2.0。
模型特性 Qwen1.5-110B與其他Qwen1.5模型相似,采用了相同的Transformer解碼器架構。它包含了分組查詢注意力(GQA),在模型推理時更加高效。該模型支持32K tokens的上下文長度,同時它仍然是多語言的,支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。
模型效果
我們對基礎語言模型進行了一系列評估,并與最近的SOTA語言模型Meta-Llama3-70B以及Mixtral-8x22B進行了比較。上述結果顯示,新的110B模型在基礎能力方
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...