標(biāo)簽:參數(shù)

一條磁力鏈接席卷AI圈,87GB種子直接開源8x7B MoE模型

機(jī)器之心報(bào)道機(jī)器之心編輯部「高端」的開源,往往采用最樸素的發(fā)布方式。昨天,Mistral AI 在 X 平臺(tái)甩出一條磁力鏈接,宣布了新的開源動(dòng)作。沒有長(zhǎng)篇官方博...
閱讀原文

大道至簡(jiǎn)?ETH研究團(tuán)隊(duì)提出簡(jiǎn)化版Transformer模型,綜合效率明顯提升

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投?2023年,Transformer已經(jīng)成為人工智能領(lǐng)域中最受歡迎的基礎(chǔ)模型,如今火熱的大型語(yǔ)言模型,多模態(tài)大模型均由不同類型的Transfo...
閱讀原文

H100最強(qiáng)競(jìng)品正式發(fā)布!推理快1.6倍,內(nèi)存高達(dá)192GB,來(lái)自AMD

豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI這一夜,AI科技圈熱鬧非凡:谷歌搬出“蓄謀已久”的大殺器Gemini,號(hào)稱直接掀翻GPT-4;另一邊,芯片商AMD也按耐不住,...
閱讀原文

秒殺700億Llama 2!最新國(guó)產(chǎn)大模型亮相,無(wú)需申請(qǐng)即可免費(fèi)商用,背后公司來(lái)自私募巨頭

豐色 發(fā)自 凹非寺量子位 | 公眾號(hào)QbitAI國(guó)產(chǎn)大模型剛剛出了一位全新選手:參數(shù)670億的DeepSeek。它在近20個(gè)中英文的公開評(píng)測(cè)榜單上直接超越了同量級(jí)、700億的...
閱讀原文

不是大模型全局微調(diào)不起,只是LoRA更有性價(jià)比,教程已經(jīng)準(zhǔn)備好了

選自 Sebastian Raschka 博客機(jī)器之心編譯編輯:佳琪這是作者 Sebastian Raschka 經(jīng)過(guò)數(shù)百次實(shí)驗(yàn)得出的經(jīng)驗(yàn),值得一讀。增加數(shù)據(jù)量和模型的參數(shù)量是公認(rèn)的提...
閱讀原文

手機(jī)上0.2秒出圖、當(dāng)前速度之最,谷歌打造超快擴(kuò)散模型MobileDiffusion

機(jī)器之心專欄機(jī)器之心編輯部在手機(jī)等移動(dòng)端側(cè)運(yùn)行 Stable Diffusion 等文生圖生成式 AI 大模型已經(jīng)成為業(yè)界追逐的熱點(diǎn)之一,其中生成速度是主要的制約因素。...
閱讀原文

通義千問(wèn)爆甩開源全家桶!最強(qiáng)720億參數(shù)超車Llama 2,新上視覺模型看圖直出代碼

新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】通義千問(wèn)開源全家桶正式上線!業(yè)界最強(qiáng)72B模型直接超越開源標(biāo)桿Llama 2-70B,還有1.8B模型、音頻大模型全部開源,阿里...
閱讀原文

最新千億大模型免費(fèi)商用:1026億參數(shù),無(wú)需授權(quán)!誠(chéng)邀開發(fā)者共同訓(xùn)練

明敏 金磊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI開源大模型這個(gè)圈子,真是卷到不行——國(guó)內(nèi)最新紀(jì)錄來(lái)了,直奔千億量級(jí),達(dá)到1026億。千億參數(shù)、全面開源、無(wú)需授...
閱讀原文

首個(gè)全面開源的千億模型來(lái)了!源2.0全家桶擊破算力限制,代碼數(shù)學(xué)強(qiáng)到發(fā)指

新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】昨天,浪潮信息發(fā)布源2.0基礎(chǔ)大模型,并一口氣開源了1026億、518億、21億三個(gè)大模型!而在編程、推理、邏輯這些老大難...
閱讀原文

OpenAI文件驚人曝出,Q*疑能加密!AI背著人類在編程,網(wǎng)友:三個(gè)月接近AGI

新智元報(bào)道編輯:Aeneas alan【新智元導(dǎo)讀】OpenAI員工曾在Altman被解雇的前一天發(fā)帖:AI正在自己編程!這一帖子被挖出后,更多內(nèi)幕文件被曝出,表示Q*已經(jīng)破...
閱讀原文

簡(jiǎn)化版Transformer來(lái)了,網(wǎng)友:年度論文

機(jī)器之心報(bào)道機(jī)器之心編輯部從大模型的根源開始優(yōu)化。Transformer 架構(gòu)可以說(shuō)是近期深度學(xué)習(xí)領(lǐng)域許多成功案例背后的主力軍。構(gòu)建深度 Transformer 架構(gòu)的一種...
閱讀原文

李沐大模型公司細(xì)節(jié)曝光,項(xiàng)目GitHub空倉(cāng)標(biāo)星超500

衡宇 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIAI大神李沐大模型創(chuàng)業(yè)方向,終于“水落石出”:利用大模型能力,做游戲引擎,且是面向4A游戲。關(guān)于4A游戲這個(gè)概念,目...
閱讀原文

清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!

夕小瑤科技說(shuō) 原創(chuàng)作者 | 智商掉了一地、Python現(xiàn)在有很多關(guān)于大型語(yǔ)言模型(LLM)的研究,都圍繞著如何高效微調(diào)展開。微調(diào)是利用模型在大規(guī)模通用數(shù)據(jù)上學(xué)到...
閱讀原文

OpenAI內(nèi)斗時(shí),Karpathy在錄視頻:《大型語(yǔ)言模型入門》上線

機(jī)器之心報(bào)道編輯:杜偉趕緊學(xué)習(xí)起來(lái)吧!OpenAI 的風(fēng)波暫時(shí)告一段落,員工也忙著「干活了」。年初回歸 OpenAI 的 Andrej Karpathy 最近做了一場(chǎng)關(guān)于大型語(yǔ)言...
閱讀原文

大模型掃盲系列——初識(shí)大模型

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)據(jù)派THU作者:金一鳴編輯:黃繼彥近年來(lái),隨著計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的快速發(fā)展,深度學(xué)習(xí)在各個(gè)領(lǐng)域取得了顯著的成果。為了提高模型的性...
閱讀原文
11213141516