標(biāo)簽:狀態(tài)
新架構(gòu)Mamba更新二代!作者:別爭了,數(shù)學(xué)上Transformer和SSM是一回事
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAITransformer挑戰(zhàn)者、新架構(gòu)Mamba,剛剛更新了第二代: Mamba-2,狀態(tài)空間擴(kuò)大8倍,訓(xùn)練速度提高50%! 更重要的是,團(tuán)...
能原理:生命、意識(shí)與智能的統(tǒng)一原理 | 追問觀察
來源:集智俱樂部 作者:牟牧云 審校:張江 封面:Myriam Wares 自由能原理被認(rèn)為是“自達(dá)爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發(fā)解釋智能體...
2D頭像生成3D虛擬人開視頻會(huì),谷歌新作讓人難繃
機(jī)器之心報(bào)道 編輯:澤南、亞鸝未來人與人的交流,難道是這個(gè)樣?開視頻遠(yuǎn)程會(huì)議的時(shí)候,很多人都不喜歡打開攝像頭。即使開了,在界面上大家也都被框在不同的...
今日arXiv最熱NLP大模型論文:清華大學(xué)提出IFT對(duì)齊算法,打破SFT與RLHF局限性
夕小瑤科技說 原創(chuàng)作者 | 謝年年 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)...
今日arXiv最熱大模型論文:Agent也瘋狂!FoA方法對(duì)智能體做樹結(jié)構(gòu)搜索,超越ToT
夕小瑤科技說 原創(chuàng)作者 | 謝年年大模型agents包攬了從理解問題、規(guī)劃任務(wù)、記憶輸入輸出、精準(zhǔn)調(diào)用工具,執(zhí)行任務(wù)解決問題的全過程,更厲害的是,它們還有自...
今日arXiv最熱NLP大模型論文:微軟發(fā)布可視思維鏈VoT,提高大模型空間想象力
夕小瑤科技說 原創(chuàng)作者 | 芒果 引言:思維可視化技術(shù)的探索此項(xiàng)研究提出了一種名為思維可視化(VoT)的技術(shù),旨在通過可視化大型語言模型(LLMs)的推理過程來增...
DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
機(jī)器之心專欄 機(jī)器之心編輯部近期,來自華為諾亞方舟實(shí)驗(yàn)室的研究者提出了 DenseSSM,用于增強(qiáng) SSM 中各層間隱藏信息的流動(dòng)。通過將淺層隱藏狀態(tài)有選擇地整合...
AI也來打摜蛋,難道人工智能也能當(dāng)領(lǐng)導(dǎo)?
夕小瑤科技說 原創(chuàng)作者 | 松果、Python引言:探索AI在復(fù)雜卡牌游戲中的決策能力在人工智能(AI)的研究領(lǐng)域中,游戲被視為現(xiàn)實(shí)世界的簡化模型,常常是研究的...
LeCun怒斥Sora是世界模型,自回歸LLM太簡化了
機(jī)器之心報(bào)道 編輯:陳萍LeCun 對(duì)「世界模型」給出了最新定義。最近幾天,Sora 成為了全世界關(guān)注的焦點(diǎn)。與之相關(guān)的一切,都被放大到極致。 Sora 如此出圈,...
長文綜述:大腦中的熵、能、對(duì)稱性和動(dòng)力學(xué)|新春特輯
導(dǎo)語我們的大腦在一定程度上是貝葉斯推理系統(tǒng),生成內(nèi)部模型對(duì)外部世界作出預(yù)測(cè),然后將預(yù)測(cè)與感官輸入不斷地進(jìn)行對(duì)比,形成預(yù)測(cè)誤差并更新內(nèi)部模型。2022年...
大模型訓(xùn)練loss突刺原因和解決辦法
直播預(yù)告 | 今晚7點(diǎn),「自動(dòng)駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學(xué)MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環(huán)端到端自動(dòng)...
有生計(jì)算,AGI之路,徹底改變具身、主動(dòng)智能和認(rèn)知研究的長期未來
來源:CreateAMind 摘要(3萬字長文) 這篇綜述激發(fā)并綜合了神經(jīng)科學(xué)啟發(fā)的人工智能和仿生計(jì)算在人類計(jì)算方面的研究成果。具體來說,我們從感知行為的理論基礎(chǔ)...
Transformer竟是無限狀態(tài)RNN?
夕小瑤科技說 原創(chuàng)作者 | 付奶茶、python近期,Transformer再度成為學(xué)術(shù)界的熱門話題! Meta的一項(xiàng)最新研究帶來了一個(gè)新的發(fā)現(xiàn):在某些情況下,'Transformer...
性能大漲20%!中科大「狀態(tài)序列頻域預(yù)測(cè)」方法:表征學(xué)習(xí)樣本效率max|NeurIPS 2023 Spotlight
新智元報(bào)道編輯:LRS 好困 【新智元導(dǎo)讀】SPF算法是一種基于狀態(tài)序列頻域預(yù)測(cè)的表征學(xué)習(xí)方法,利用狀態(tài)序列的頻域分布來顯式提取狀態(tài)序列數(shù)據(jù)中的趨勢(shì)性和規(guī)...