標簽：長上

谷歌Gemini 1.5技術(shù)報告：輕松證明奧數(shù)題，F(xiàn)lash版比GPT-4 Turbo快5倍

機器之心報道編輯：澤南谷歌表示，Gemini 1.5 相比 Claude 3.0和 GPT-4 Turbo 實現(xiàn)了代際提升。今年 2 月，谷歌上線了多模態(tài)大模型 Gemini1.5，通過工程和...

閱讀原文

AIGC動態(tài)

1年前 (2024)

Meta無限長文本大模型來了：參數(shù)僅7B，已開源

機器之心報道編輯：澤南、陳萍谷歌之后，Meta 也來卷無限長上下文。Transformers 的二次復(fù)雜度和弱長度外推限制了它們擴展到長序列的能力，雖然存在線性注意...

閱讀原文

AIGC動態(tài)

1年前 (2024)

Transformer并非萬能：Jamba在效率和吞吐量上大幅超越

點擊上方藍字關(guān)注我們“AI21 Labs推出Jamba，一種結(jié)合SSM與transformers的新AI模型，旨在提高處理長上下文的效率。Jamba在特定推理任務(wù)上超越傳統(tǒng)模型，盡管在...

閱讀原文

AIGC動態(tài)

1年前 (2024)

Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量

機器之心報道編輯：小舟Mamba 時代來了？自 2017 年開創(chuàng)性研究論文《Attention is All You Need》問世以來，transformer 架構(gòu)就一直主導(dǎo)著生成式人工智能領(lǐng)...

閱讀原文

AIGC動態(tài)

1年前 (2024)

馬斯克大模型Grok1.5來了：推理能力大升級，支持128k上下文

機器之心報道編輯：澤南馬斯克搞大模型，速度也奇快。 Grok 1 開源才剛有 10 天，Grok 1.5 就來了。本周五早上，馬斯克旗下的人工智能公司 xAI 正式推出了 G...

閱讀原文

AIGC動態(tài)

1年前 (2024)

Mamba超強進化體一舉顛覆Transformer！單張A100跑140K上下文

新智元報道編輯：編輯部【新智元導(dǎo)讀】52B的生產(chǎn)級Mamba大模型來了！這個超強變體Jamba剛剛打破世界紀錄，它能正面硬剛Transformer，256K超長上下文窗口，吞...

閱讀原文

AIGC動態(tài)

1年前 (2024)

LLM代理操作系統(tǒng)

點擊上方藍字關(guān)注我們“Rutgers University的研究團隊提出了AIOS，一種創(chuàng)新的大型語言模型（LLM）代理操作系統(tǒng)，旨在解決智能代理在資源調(diào)度、上下文維護和異...

閱讀原文

AIGC動態(tài)

1年前 (2024)

今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發(fā)布，無需訓(xùn)練

夕小瑤科技說原創(chuàng)作者 | 芒果引言：大語言模型的長上下文理解能力在當今的人工智能領(lǐng)域，大語言模型（Large Language Models，簡稱LLMs）的長上下文理解能...

閱讀原文

AIGC動態(tài)

1年前 (2024)

谷歌10M上下文窗口正在RAG？被Sora奪走風(fēng)頭的Gemini被低估了？

機器之心報道機器之心編輯部RAG 還有存在的必要嗎？要說最近最郁悶的公司，谷歌肯定算得上一個：自家的 Gemini 1.5 剛剛發(fā)布，就被 OpenAI 的 Sora 搶盡了風(fēng)...

閱讀原文

AIGC動態(tài)

1年前 (2024)

符堯大佬一作發(fā)文，僅改訓(xùn)練數(shù)據(jù)，就讓LLaMa-2上下文長度擴展20倍！

夕小瑤科技說原創(chuàng)作者 | Tscom、Python引言：探索語言模型的長上下文能力近日，谷歌推出了Gemini Pro 1.5，將上下文窗口長度擴展到100萬個tokens，目前領(lǐng)先...

閱讀原文

AIGC動態(tài)

1年前 (2024)

港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投現(xiàn)階段，上下文窗口長度基本上成為了評估LLM能力的硬性指標，上下文的長度越長，代表大模型能夠接受的用戶要求越復(fù)雜，近期Ope...

閱讀原文

AIGC動態(tài)

1年前 (2024)

今日arXiv最熱NLP大模型論文：清華提出LongAlign，打破長上下文對齊瓶頸，數(shù)據(jù)、訓(xùn)練策略、評估基準一網(wǎng)打盡

夕小瑤科技說原創(chuàng)編輯 | 謝年年隨著LLMs的發(fā)展，其支持的上下文長度越來越長。僅一年時間，GPT-4就從一開始的4K、8K拓展到了128k。 128k什么概念？相當于一...

閱讀原文

AIGC動態(tài)

1年前 (2024)

面向超長上下文，大語言模型如何優(yōu)化架構(gòu)，這篇綜述一網(wǎng)打盡了

機器之心報道編輯：rome rome作者重點關(guān)注了基于 Transformer 的 LLM 模型體系結(jié)構(gòu)在從預(yù)訓(xùn)練到推理的所有階段中優(yōu)化長上下文能力的進展。 ChatGPT 的誕生，...

閱讀原文

AIGC動態(tài)

1年前 (2024)

PyTorch官方認可！斯坦福博士新作：長上下文LLM推理速度提8倍

豐色發(fā)自凹非寺量子位 | 公眾號 QbitAI這兩天，F(xiàn)lashAttention團隊推出了新作：一種給Transformer架構(gòu)大模型推理加速的新方法，最高可提速8倍。該方法尤其...

閱讀原文

AIGC動態(tài)

2年前 (2023)

「Meta版ChatGPT」背后的技術(shù)：想讓基礎(chǔ)LLM更好地處理長上下文，只需持續(xù)預(yù)訓(xùn)練

機器之心報道編輯：Panda W在處理長上下文方面，LLaMA 一直力有不足，而通過持續(xù)預(yù)訓(xùn)練和其它一些方法改進，Meta 的這項研究成功讓 LLM 具備了有效理解上下文...

閱讀原文

AIGC動態(tài)

2年前 (2023)

123