標簽:狀態
一文看懂Mamba,Transformer最強競爭者
機器之心報道 編輯:PandaMamba 雖好,但發展尚早。深度學習架構有很多,但近些年最成功的莫過于 Transformer,其已經在多個應用領域確立了自己的主導地位。 ...
大模型對語言有自己的理解!MIT論文揭示大模型“思維過程” | ICML 24
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型對現實世界,可以形成自己的理解! MIT的一項研究發現,隨著模型能力越強,它對現實的理解可能不僅是簡單模...
蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI蘋果團隊,又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。 這套Benchmark創新性地采用了場景化測...
對吳恩達 workflow 概念產品化的思考
大模型時代最火AI芯片峰會來啦!!9月6-7日,由芯東西聯合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群等7大板塊。目前,AMD人...
一文讀懂強化學習的 Q 學習算法
大數據文摘受權轉載自數據派THU 作者:陳之炎????本文介紹一篇收錄在《IEEE TRANSACTIONS ON INFORMATION THEORY》的論文。強化學習中的價值學習算法是一類重...
超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT
作者 | 趙明華 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構,用機器學習模型取代 RNN 的隱藏狀態。 圖 1 所有序列建模層都可以表示...
新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI新架構,再次向Transformer發起挑戰! 核心思想:將RNN中的隱藏狀態換成可學習的模型。 甚至在測試時都可以學習,所...
大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
新智元報道編輯:編輯部 【新智元導讀】超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模...
經典綜述:能原理——統一的大腦理論
導語自由能原理被認為是“自達爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發解釋智能體更新認知、探索和改變世界的機制,被認為有可能成為智能的第...
Q*項目公開發布!研究團隊并非OpenAI
昆侖萬維 投稿量子位 | 公眾號 QbitAIQ*項目公開發布,可讓小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力。 自去年11月伴隨著OpenAI內訌,其神秘Q...
今日arXiv最熱大模型論文:清華大學:一個簡單縮放讓大模型利用長上下文能力提升15.2%
夕小瑤科技說 原創作者 | 謝年年 不知道大家發現沒有,一些大模型的提示技巧總是習慣將一些重要指令或信息放在提示的開頭或者結尾。 這是因為LLMs在處理上下...
GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界
新智元報道編輯:桃子喬楊 【新智元導讀】大模型是世界模型嗎?UA微軟等機構最新研究發現,GPT-4在復雜環境的模擬中,準確率甚至不及60%。對此,LeCun激動地...
ACL 2024論文蓋棺定論:大語言模型≠世界模擬器,Yann LeCun:太對了
機器之心報道 機器之心編輯部如果 GPT-4 在模擬基于常識任務的狀態變化時準確率都只有約 60%,那么我們還要考慮將大語言模型作為世界模擬器來使用嗎?最近兩...
Mamba-2:超越 Transformer 的新架構,訓練效率大幅提升!
機器之心報道 來源:機器學習算法與Python學習自 2017 年被提出以來,Transformer 已經成為 AI 大模型的主流架構,一直穩居語言建模方面 C 位。 但隨著模型規...
再戰Transformer!原作者帶隊的Mamba 2來了,新架構訓練效率大幅提升
機器之心報道 機器之心編輯部自 2017 年被提出以來,Transformer 已經成為 AI 大模型的主流架構,一直穩居語言建模方面 C 位。 但隨著模型規模的擴展和需要處...