標簽:吞吐量

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

AlphaFold3重磅開源,諾獎級AI顛覆世界!GitHub斬獲1.8k星,本地即可部署

新智元報道編輯:靜音 【新智元導讀】六個月的爭議后,諾獎級AI AlphaFold3開源了。這個在蛋白質結構預測領域掀起波瀾的AI——期待它的開源推動更多科學家的大...
閱讀原文

專家模型不要專家并行!微軟開源MoE新路徑

新智元報道編輯:alan 【新智元導讀】近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。繼Phi家族之后,微軟...
閱讀原文

vLLM vs TensorRT-LLM 性能對比測試,基于0910較新版本

大會預告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導顧家遠,騰訊優圖實驗室天衍研究中心負責人吳賢,銀河通用機器人合伙人...
閱讀原文

北大林宙辰團隊全新混合序列建模架構MixCon:性能遠超Mamba

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

三個程序員奮戰三天重寫推理堆棧,Grok-2 mini直接提速兩倍,馬斯克親發賀電

機器之心報道 機器之心編輯部一直在用 Grok-2 的用戶可能察覺到,這兩天,它好像變快了:上周,xAI 發布了 Grok-2 聊天機器人,并在 X 平臺上以每月 8 美元的...
閱讀原文

要想賺錢,AI模型該大該?。抠Z揚清:論AI模型經濟學的技巧

賣模型就像感恩節賣火雞,快才能賺錢。作者丨劉潔 編輯丨岑峰 最近的AI社區,關于模型規模的討論有些活躍。 一方面,此前在大模型開發奉為“圣經”的Scaling La...
閱讀原文

賈揚清點贊:3K star量的SGLang上新,加速Llama 405B推理秒殺vLLM、TensorRT-LLM

機器之心報道 編輯:張倩用來運行 Llama 3 405B 優勢明顯。 最近,Meta 開源了最新的 405B 模型(Llama 3.1 405B),把開源模型的性能拉到了新高度。由于模型...
閱讀原文

拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。 來自韓國科學技術研究院、LG和DeepMind的研究人員,提出了一種新的...
閱讀原文

Transformer并非萬能:Jamba在效率和吞吐量上大幅超越

點擊上方藍字關注我們“AI21 Labs推出Jamba,一種結合SSM與transformers的新AI模型,旨在提高處理長上下文的效率。Jamba在特定推理任務上超越傳統模型,盡管在...
閱讀原文

Mamba架構第一次做大!混合Transformer,打敗Transformer

豐色 發自 凹非寺量子位 | 公眾號 QbitAI精彩精彩,第一個把爆火Mamba架構真正擴展到足夠大的工作來了。 520億參數,還是Mamba+Transformer混合架構。 它的名...
閱讀原文

Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量

機器之心報道 編輯:小舟Mamba 時代來了? 自 2017 年開創性研究論文《Attention is All You Need》問世以來,transformer 架構就一直主導著生成式人工智能領...
閱讀原文

Mamba超強進化體一舉顛覆Transformer!單張A100跑140K上下文

新智元報道編輯:編輯部 【新智元導讀】52B的生產級Mamba大模型來了!這個超強變體Jamba剛剛打破世界紀錄,它能正面硬剛Transformer,256K超長上下文窗口,吞...
閱讀原文

業界首次!搭載英偉達GPU,50倍性能提升!Zilliz發布Milvus 2.4向量數據庫

在上周在美國硅谷圣何塞召開的NVIDIA GTC大會上,Zilliz[1] 發布了 Milvus 2.4 [2]版本。這是一款革命性的向量數據庫系統,它在業界首次采用了英偉達 GPU 的...
閱讀原文

比GPT-4快18倍,世界最快大模型Groq登場!每秒500 token破紀錄,自研LPU是英偉達GPU 10倍

新智元報道編輯:桃子 好困 【新智元導讀】卷瘋了!世界最快的大模型Groq一夜之間爆火,能夠每秒輸出近500個token。如此神速的響應,背后全憑自研的LPU。一覺...
閱讀原文
12