標簽:參數

大模型也有小偷?為保護你的參數,上交大給大模型制作「人類可讀指紋」

機器之心專欄 機器之心編輯部將不同的基模型象征為不同品種的狗,其中相同的「狗形指紋」表明它們源自同一個基模型。 大模型的預訓練需要耗費巨量的計算資源...
閱讀原文

2B參數性能超Mistral-7B:面壁智能多模態端側模型開源

機器之心報道 編輯:澤南千元機也能本地運行。在大模型不斷向著大體量方向前進的同時,最近一段時間,人們在優化和部署方面也取得了成果。 2 月 1 日,面壁智...
閱讀原文

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

機器之心專欄 機器之心編輯部對于大型視覺語言模型(LVLM)而言,擴展模型可以有效提高模型性能。然而,擴大參數規模會顯著增加訓練和推理成本,因為計算中每...
閱讀原文

編程能力超GPT-4,羊駝代碼版“超大杯”來了,小扎還親自劇透Llama3

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI羊駝家族的“最強開源代碼模型”,迎來了它的“超大杯”—— 就在今天凌晨,Meta宣布推出Code Llama的70B版本。 在HumanE...
閱讀原文

Meta官方的Prompt工程指南:Llama 2這樣用更高效

機器之心報道 編輯:小舟隨著大型語言模型(LLM)技術日漸成熟,提示工程(Prompt Engineering)變得越來越重要。一些研究機構發布了 LLM 提示工程指南,包括...
閱讀原文

小米新一代Kaldi團隊論文解讀:新型自動語音識別 (ASR) 模型Zipformer誕生之路|ICLR 2024 Oral

機器之心專欄 作者:新一代 Kaldi 團隊近日,小米集團新一代 Kaldi 團隊關于語音識別聲學模型的論文《Zipformer: A faster and better encoder for automatic...
閱讀原文

大模型專家混合MoE模型詳解

本文轉載自公眾號:青稞AI,原作者:Miller@知乎。Mixtral 8x7B 的推出(參見公告[1]和模型卡片[2]在開放 AI 領域引發了廣泛關注,特別是對于專家混合(Mixtu...
閱讀原文

大模型訓練loss突刺原因和解決辦法

直播預告 | 今晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環端到端自動...
閱讀原文

被OpenAI、Mistral AI帶火的MoE是怎么回事?一文貫通專家混合架構部署

選自 HuggingFace 博客 編譯:趙陽本文將介紹 MoE 的構建模塊、訓練方法以及在使用它們進行推理時需要考慮的權衡因素。專家混合 (MoE) 是 LLM 中常用的一種技...
閱讀原文

超過ConvNeXt,CSWin等!上海交大提出Transformer架構新SOTA:SeTformer!

直播預告 | 1月22日晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環端到...
閱讀原文

蘋果 Vision Pro 正式開啟預定,我們找到了這些關鍵參數

蘋果 Vision Pro 正式開啟預定,我們找到了這些關鍵參數 , 發表于2024-01-1922:18 , ,…
閱讀原文

AI視頻可控性高能進化!復刻《黑客帝國》經典鏡頭只需筆刷

西風 發自 凹非寺量子位 | 公眾號 QbitAI5個筆刷,對著一張圖一頓刷刷刷刷刷,原本靜止的小鳥們就各自運動了起來: Gen-2“運動筆刷”(Motion Brush)官宣再進...
閱讀原文

三個臭皮匠頂個諸葛亮?可能是真的,已證實混合多個小模型性能比肩GPT3.5

機器之心報道 編輯:rome對模型參數量的迷信、執念也許可以放下了,混合多個小模型也是未來構造對話型 AI 的一個光明的方向。 在對話型人工智能(AI)研究中...
閱讀原文

獨家|非 Transformer 開源大模型 RWKV 元始智能已完成種子輪融資

訓練出千億模型依然是 RWKV 當下最能證明自己的事情。作者丨張 進 編輯丨陳彩嫻 AI科技評論獨家獲悉,開源LLM RWKV背后的元始智能,種子輪融資已于1月16日走...
閱讀原文

Stability AI發布全新代碼模型Stable Code 3B!媲美70億Code Llama,沒GPU也能跑

新智元報道編輯:潤 alan 【新智元導讀】今天,Stability AI發布了Stable Code 3B,在圖片生成之外的戰場上,Stability也開始發力了今天,Stability AI發布了...
閱讀原文
1101112131416