標簽:參數
被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線
領先 Mistral,對標 Mistral,超越 Mistral。作者丨王悅 編輯丨陳彩嫻 大約 1 個月前,馬斯克所創辦的 xAI 團隊宣布開源 Grok-1——一個參數量為 3140 億的 MoE...
Mistral AI 引領AI新紀元:發布1760億參數巨模型Mixtral 8x22B
點擊上方藍字關注我們“Mistral AI 公司宣布推出其最新的大型語言模型 Mixtral 8x22B,擁有1760億參數和65,000個token的上下文長度,通過開源和寬松的Apache 2...
微軟前全球副總裁入局AGI:左手效率神器、右手AI開放世界,實測好用!
微軟大牛下場創業,“鐵人四項”進擊AGI。 作者|三北 編輯|漠影 大模型進入創業爆發期,來自全球大廠的離職AI大牛成為一大主力軍,近期圈內熱門的階躍星辰是一...
超越GPT-4,斯坦福團隊手機可跑的大模型火了,一夜下載量超2k
機器之心報道 機器之心編輯部在大模型落地應用的過程中,端側 AI 是非常重要的一個方向。 近日,斯坦福大學研究人員推出的 Octopus v2 火了,受到了開發者社...
從啥也不會到DeepSpeed————一篇大模型分布式訓練的學習過程總結
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,愛詩科技創始人王長虎,啟明創投合伙人周志峰,Open-Sora開發團隊潞晨科技創始人尤洋,「...
國內首個開源千億參數MoE大模型來了!性能超Grok-1,單張GPU可跑
APUS-xDAN-4.0(MoE)參數規模1360億,可在消費級顯卡4090上運行。 作者|程茜 編輯|心緣 智東西4月2日報道,今天,全球移動互聯網公司APUS與大模型創企新旦智...
每個問題的答案都是貝葉斯模型比較,假設競爭
來源:CreateAMind Bayesian model reduction https://arxiv.org/pdf/1805.07092.pdf 具身智能系列文章 事實上,人們常說,每個問題的答案都是貝葉斯模型比較...
告別微軟,姜大昕帶領這支精英團隊攀登Scaling Law,萬億參數模型已有預覽版
機器之心原創 作者:張倩攀登 Scaling Law,打造萬億參數大模型,前微軟 NLP 大牛姜大昕披露創業路線圖。前段時間,OpenAI 科學家 Jason Wei 的一份作息時間...
開源大模型王座再易主,1320億參數DBRX上線,基礎、微調模型都有
機器之心報道 編輯:澤南、陳萍「太狂野了」。這是迄今為止最強大的開源大語言模型,超越了 Llama 2、Mistral 和馬斯克剛剛開源的 Grok-1。本周三,大數據人...
全球最強開源模型一夜易主,1320億參數推理飆升2倍!
新智元報道編輯:編輯部 【新智元導讀】就在剛剛,全球最強開源大模型王座易主,創業公司Databricks發布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大...
3140參數Grok-1推理加速3.8倍,PyTorch+HuggingFace版來了
明敏 發自 凹非寺量子位 | 公眾號 QbitAI馬斯克說到做到開源Grok-1,開源社區一片狂喜。 但基于Grok-1做改動or商用,都還有點難題: Grok-1使用Rust+JAX構建...
模型合并就進化,直接拿下SOTA!Transformer作者創業新成果火了
豐色 發自 凹非寺量子位 | 公眾號 QbitAI把Huggingface上的現成模型拿來“攢一攢”—— 直接就能組合出新的強大模型?! 日本大模型公司sakana.ai腦洞大開(正是“...
哈工深提出基于聯邦學習的大模型指令微調
夕小瑤科技說 原創作者 | 松果引言:面對數據匱乏與隱私挑戰的聯邦指令調整在當今大語言模型(LLMs)發展中,指令調整被證明對于生成與人類對齊的響應至關重...
階躍星辰發布 Step 通用大模型:多模態、MoE、萬億模型參數
3 月 23 日,國內通用大模型創業公司階躍星辰在 2024 全球開發者先鋒大會上發布了公司的通用大模型產品。 階躍星辰創始人、CEO 姜大昕博士在大會開幕式上對外...
如何從頭開始編寫LoRA代碼,這有一份教程
選自 lightning.ai 作者:Sebastian Raschka 機器之心編譯 編輯:陳萍作者表示:在各種有效的 LLM 微調方法中,LoRA 仍然是他的首選。LoRA(Low-Rank Adaptat...
粵公網安備 44011502001135號