標簽:序列

李航:關于大模型的思考及研究熱點

來源:圖靈人工智能本文闡述李航老師對 LLM 的一些看法,主要觀點如下:ChatGPT 的突破主要在于規模帶來的質變和模型調教方式的發明。LLM 融合了實現人工智能...
閱讀原文

基于Transformer和注意力的可解釋核苷酸語言模型,用于pegRNA優化設計

將 ScienceAI設為星標第一時間掌握新鮮的 AI for Science 資訊編輯 | 紫羅基因編輯是一種新興的、比較精確的能對生物體基因組特定目標基因進行修飾的一種基因...
閱讀原文

比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了

機器之心報道編輯:杜偉、澤南本文探索了 Monarch Mixer (M2) ,這是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率...
閱讀原文

Nature | 30多年前的斷言被打破了?大模型具備了人類水平的系統泛化能力

機器之心報道機器之心編輯部我們知道,人類具有「舉一反三」的能力,即學習一個新概念后立即就能用它來理解相關用法。例如,當小朋友知道如何「跳」,他們就...
閱讀原文

Transformer王者歸來!無需修改任何模塊,時序預測全面領先

新智元報道編輯:好困【新智元導讀】最近,來自清華大學和螞蟻集團的研究人員重新審視Transformer結構在時序分析中的應用,提出一個全新的反轉視角——無需修改...
閱讀原文

LLM 的推理優化技術縱覽

作者簡介作者:紫氣東來原文:https://zhuanlan.zhihu.com/p/642412124轉載者:楊夕【LLMs九層妖塔】: https://github.com/km1994/LLMsNineStoryDemonTower推...
閱讀原文

字節跳動李航:對語言大模型的若干觀察和思考

機器之心專欄作者:ByteDance Research負責人李航本文闡述筆者對 LLM 的一些看法,主要觀點如下:ChatGPT 的突破主要在于規模帶來的質變和模型調教方式的發明...
閱讀原文

別再「浪費」GPU了,FlashAttention重磅升級,實現長文本推理速度8倍提升

機器之心報道機器之心編輯部處理小說、法律文件等長文本是大模型的一個重要應用方向,但也面臨速度上的挑戰。FlashAttention 作者 Tri Dao 等人提出的「Flash...
閱讀原文

用暫停token重新訓練大模型,AI學會三思而后行

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI讓ChatGPT給出答案之前多想想步驟,就能提高準確率。那么能不能省去提示詞,直接把這種能力內化在大模型里呢?CMU與...
閱讀原文

?將專家知識與深度學習結合,清華團隊開發DeepSEED進行高效啟動子設計

將 ScienceAI設為星標第一時間掌握新鮮的 AI for Science 資訊編輯 | 蘿卜皮設計具有所需特性的啟動子在合成生物學中至關重要。人類專家擅長識別小樣本中的強...
閱讀原文

計算力學:量化涌現的又一條路徑

導語因果涌現一直關注的一個核心問題,是量化復雜系統的涌現現象。從生命游戲的斑圖,到大腦產生意識,我們希望不只是停留在定性的討論上,而是能夠定量刻畫...
閱讀原文

基于牛頓求根法,新算法實現并行訓練和評估RNN,帶來超10倍增速

機器之心報道編輯:Panda W人們普遍認為 RNN 是無法并行化的,因為其本質上的序列特性:其狀態依賴于前一狀態。這使得人們難以用長序列來訓練 RNN。近日,一...
閱讀原文

利用進化擴散進行蛋白生成,微軟開源新型蛋白質生成AI框架EvoDiff

將 ScienceAI設為星標第一時間掌握新鮮的 AI for Science 資訊編輯| 紫羅進化產生了多種功能蛋白,可以精確調節細胞過程。近年來出現了深度生成模型,旨在從...
閱讀原文

頂尖科學家如何玩轉AI?DeepSpeed4Science:利用先進的AI系統優化技術實現科學發現

新智元報道編輯:LRS 好困【新智元導讀】AI助力科學發現,DeepSpeed4Science計劃引領新時代技術突破!在接下來的十年中,深度學習可能會徹底改變自然科學,增...
閱讀原文

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等開源高效內存管理機制PagedAttention

新智元報道編輯:LRS【新智元導讀】吞吐量上不去有可能是內存背鍋!無需修改模型架構,減少內存浪費就能提高吞吐量!?雖然大型語言模型(LLM)的性能表現足夠...
閱讀原文
1891011