標簽:架構
黑匣子被打開了!能玩的Transformer可視化解釋工具,本地運行GPT-2、還可實時推理
機器之心報道 編輯:杜偉、大盤雞都 2024 年,還有人不了解 Transformer 工作原理嗎?快來試一試這個交互式工具吧。2017 年,谷歌在論文《Attention is all y...
2.5天完成1年的MD計算?DeepMind團隊基于歐幾里得Transformer的新計算方法
將 ScienceAI設為星標 第一時間掌握 新鮮的 AI for Science 資訊編輯 | 蘿卜皮 近年來,基于從頭算參考計算的機器學習力場 (MLFF) 的開發取得了巨大進展。雖...
10.98 萬元的吉利銀河 E5,就是一輛「小極氪」
在剛剛過去的周末里,吉利搞了個大新聞:吉利銀河 E5 上市,10.98 萬元起。 要注意的是,這是算上了限時優惠的價格,只有在 10 月 1 日前下定的用戶,才能獲...
鋒行致遠孫唐:存算大模型加速系統
生成式AI時代,大模型及AIGC的快速發展推動著計算需求的高速增長。 從服務器到邊緣,再到AI手機、AI PC、AIoT、智能汽車,各個領域的AI芯片玩家都面臨著新的...
阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規律
機器之心報道 編輯:陳陳、杜偉你規定路線,Tora 來生成相應軌跡的視頻。目前,擴散模型能夠生成多樣化且高質量的圖像或視頻。此前,視頻擴散模型采用 U-Net ...
DeepMind研究成本大起底,一篇ICML論文燒掉1290萬美元
新智元報道編輯:喬楊 【新智元導讀】DeepMind最近被ICML 2024接收的一篇論文,完完全全暴露了他們背靠谷歌的「豪橫」。一篇文章預估了這項研究所需的算力和...
合合信息研發總監常揚:大模型RAG技術架構與應用實踐 | 公開課預告
隨著大語言模型的興起,其在處理自然語言任務上展現出了強大的能力,但也逐漸暴露出一些問題。大語言模型雖然能夠生成連貫且富有邏輯的文本,但在某些情況下...
Llama 4訓練已開啟!Meta科學家最新采訪,揭秘Llama 3.1是如何煉成的
新智元報道編輯:喬楊 【新智元導讀】最近,Latent Space發布的播客節目中請來了Meta的AI科學家Thomas Scialom。他在節目中揭秘了Llama 3.1的一些研發思路,...
視頻生成產品 PixVerse 版本大更新!支持一鍵生成5段、最長 40S 連續視頻
今年6 月份起,視頻生成賽道持續涌現新的產品,從可靈到 Luma、Runway Gen3,模型能力和產品化效果越來越卷。 7 月 24 日,愛詩科技正式發布視頻生成產品 Pix...
挑戰Scaling Law,Meta發布移動端350M小模型MobileLLM,性能比肩7B LLaMA-v2
新智元報道編輯:喬楊 【新智元導讀】Scaling Law還沒走到盡頭,「小模型」逐漸成為科技巨頭們的追趕趨勢。Meta最近發布的MobileLLM系列,規模甚至降低到了1B...
前谷歌科學家Yi Tay「LLM演義」系列博客第一彈:BERT為何匿跡江湖?
新智元報道編輯:庸庸 喬楊 【新智元導讀】前谷歌科學家Yi Tay重磅推出「LLM時代的模型架構」系列博客,首篇博文的話題關于:基于encoder-only架構的BERT是如...
Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
西風 發自 凹非寺量子位 | 公眾號 QbitAI“歐洲OpenAI”和“Transformer挑戰者”強強聯合了! Mistral AI剛剛推出了其第一個基于Mamba2架構的開源模型——Codestral...
原作親自下場!Mistral首款開源7B Mamba模型「埃及艷后」效果驚艷
新智元報道編輯:編輯部 【新智元導讀】最近,7B小模型又成為了AI巨頭們競相追趕的潮流。繼谷歌的Gemma2 7B后,Mistral今天又發布了兩個7B模型,分別是針對ST...
Mistral AI兩:7B數學推理專用、Mamba2架構代碼大模型
機器之心報道 機器之心編輯部網友很好奇,Mathstral能不能搞定「9.11和9.9誰大」這一問題。昨天,AI圈竟然被「9.11和9.9誰大」這樣簡單的問題攻陷了,包括Ope...