標簽：參數

被低估的面壁：打造出不輸 OpenAI 的 Scaling Law 曲線

領先 Mistral，對標 Mistral，超越 Mistral。作者丨王悅編輯丨陳彩嫻大約 1 個月前，馬斯克所創辦的 xAI 團隊宣布開源 Grok-1——一個參數量為 3140 億的 MoE...

閱讀原文

AIGC動態

2年前 (2024)

Mistral AI 引領AI新紀元：發布1760億參數巨模型Mixtral 8x22B

點擊上方藍字關注我們“Mistral AI 公司宣布推出其最新的大型語言模型 Mixtral 8x22B，擁有1760億參數和65,000個token的上下文長度，通過開源和寬松的Apache 2...

閱讀原文

AIGC動態

2年前 (2024)

微軟前全球副總裁入局AGI：左手效率神器、右手AI開放世界，實測好用！

微軟大牛下場創業，“鐵人四項”進擊AGI。作者|三北編輯|漠影大模型進入創業爆發期，來自全球大廠的離職AI大牛成為一大主力軍，近期圈內熱門的階躍星辰是一...

閱讀原文

AIGC動態

2年前 (2024)

超越GPT-4，斯坦福團隊手機可跑的大模型火了，一夜下載量超2k

機器之心報道機器之心編輯部在大模型落地應用的過程中，端側 AI 是非常重要的一個方向。近日，斯坦福大學研究人員推出的 Octopus v2 火了，受到了開發者社...

閱讀原文

AIGC動態

2年前 (2024)

從啥也不會到DeepSpeed————一篇大模型分布式訓練的學習過程總結

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會，愛詩科技創始人王長虎，啟明創投合伙人周志峰，Open-Sora開發團隊潞晨科技創始人尤洋，「...

閱讀原文

AIGC動態

2年前 (2024)

國內首個開源千億參數MoE大模型來了！性能超Grok-1，單張GPU可跑

APUS-xDAN-4.0（MoE）參數規模1360億，可在消費級顯卡4090上運行。作者|程茜編輯|心緣智東西4月2日報道，今天，全球移動互聯網公司APUS與大模型創企新旦智...

閱讀原文

AIGC動態

2年前 (2024)

每個問題的答案都是貝葉斯模型比較，假設競爭

來源：CreateAMind Bayesian model reduction https://arxiv.org/pdf/1805.07092.pdf 具身智能系列文章事實上，人們常說，每個問題的答案都是貝葉斯模型比較...

閱讀原文

AIGC動態

2年前 (2024)

告別微軟，姜大昕帶領這支精英團隊攀登Scaling Law，萬億參數模型已有預覽版

機器之心原創作者：張倩攀登 Scaling Law，打造萬億參數大模型，前微軟 NLP 大牛姜大昕披露創業路線圖。前段時間，OpenAI 科學家 Jason Wei 的一份作息時間...

閱讀原文

AIGC動態

2年前 (2024)

開源大模型王座再易主，1320億參數DBRX上線，基礎、微調模型都有

機器之心報道編輯：澤南、陳萍「太狂野了」。這是迄今為止最強大的開源大語言模型，超越了 Llama 2、Mistral 和馬斯克剛剛開源的 Grok-1。本周三，大數據人...

閱讀原文

AIGC動態

2年前 (2024)

全球最強開源模型一夜易主，1320億參數推理飆升2倍！

新智元報道編輯：編輯部【新智元導讀】就在剛剛，全球最強開源大模型王座易主，創業公司Databricks發布的DBRX，超越了Llama 2、Mixtral和Grok-1。MoE又立大...

閱讀原文

AIGC動態

2年前 (2024)

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

明敏發自凹非寺量子位 | 公眾號 QbitAI馬斯克說到做到開源Grok-1，開源社區一片狂喜。但基于Grok-1做改動or商用，都還有點難題： Grok-1使用Rust+JAX構建...

閱讀原文

AIGC動態

2年前 (2024)

模型合并就進化，直接拿下SOTA！Transformer作者創業新成果火了

豐色發自凹非寺量子位 | 公眾號 QbitAI把Huggingface上的現成模型拿來“攢一攢”—— 直接就能組合出新的強大模型？！日本大模型公司sakana.ai腦洞大開（正是“...

閱讀原文

AIGC動態

2年前 (2024)

哈工深提出基于聯邦學習的大模型指令微調

夕小瑤科技說原創作者 | 松果引言：面對數據匱乏與隱私挑戰的聯邦指令調整在當今大語言模型（LLMs）發展中，指令調整被證明對于生成與人類對齊的響應至關重...

閱讀原文

AIGC動態

2年前 (2024)

階躍星辰發布 Step 通用大模型：多模態、MoE、萬億模型參數

3 月 23 日，國內通用大模型創業公司階躍星辰在 2024 全球開發者先鋒大會上發布了公司的通用大模型產品。階躍星辰創始人、CEO 姜大昕博士在大會開幕式上對外...

閱讀原文

AIGC動態

2年前 (2024)

如何從頭開始編寫LoRA代碼，這有一份教程

選自 lightning.ai 作者：Sebastian Raschka 機器之心編譯編輯：陳萍作者表示：在各種有效的 LLM 微調方法中，LoRA 仍然是他的首選。LoRA（Low-Rank Adaptat...

閱讀原文

AIGC動態

2年前 (2024)

1…7 8910 11…16