性能強,成本低,運行快!最強開源大模型出現(xiàn),超越ChatGPT和Llama!
AIGC動態(tài)歡迎閱讀
原標題:性能強,成本低,運行快!最強開源大模型出現(xiàn),超越ChatGPT和Llama!
關(guān)鍵字:模型,效率,任務(wù),基準,性能
文章來源:夕小瑤科技說
內(nèi)容字數(shù):3485字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 蛋糕大數(shù)據(jù)人工智能公司 Databricks放大招了!3月27日,該公司開源了通用大模型 DBRX,并聲稱該模型是迄今為止全球最強大的開源大型語言模型,比 Meta 的 Llama 2 更為強大。
Databricks CEO&創(chuàng)始人 Ali Ghodsi表示,DBRX不僅在測試中超過了所有先前的開源模型,而且該模型本身是一個專家混合模型(MoE),大致上擁有兩倍的計算能力(132B),但成本只有Llama2-70B的一半(36B),這使得它既聰明又廉價。并且DBRX的運行速度接近于Llama2-70B的兩倍。
DBRX 是在 12 萬億 Token 的文本和代碼上預(yù)訓(xùn)練的 16×12B MoE LLM,它支持的最大上下文長度為 32k Tokens,并使用了DBRX 使用旋轉(zhuǎn)位置編碼 (RoPE)、門控線性單元 (GLU) 和分組查詢注意力 (GQA) 等技術(shù)來提高模型質(zhì)量,Hugging Face 工程師 Vaibhav Srivastav 用狂野表示他對DBRX性能的震撼!
知名的機器學(xué)習(xí)專家、著名書籍《The Hundred-Page Machine
原文鏈接:性能強,成本低,運行快!最強開源大模型出現(xiàn),超越ChatGPT和Llama!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189