標簽:專家

評測超Llama2,混合專家模型(MoE)會是大模型新方向嗎?

混合專家模型(MoE)成為最近關注的熱點。 先是 Reddit 上一篇關于 GPT-4 結構的猜測帖,暗示了 GPT-4 可能是由 16 個子模塊組成的專家模型(MoE)的混合體。...
閱讀原文

8x7B開源MoE擊敗Llama 2逼近GPT-4!歐版OpenAI震驚AI界,22人公司半年估值20億

新智元報道編輯:編輯部【新智元導讀】前幾日,一條MoE的磁力鏈接引爆AI圈。剛剛出爐的基準測試中,8*7B的小模型直接碾壓了Llama 2 70B!網友直呼這是初創公...
閱讀原文

深度揭秘爆火MoE!GPT-4關鍵架構,成開源模型逆襲锏

新智元報道編輯:編輯部【新智元導讀】上周末,Mistral甩出的開源MoE大模型,震驚了整個開源社區。MoE究竟是什么?它又是如何提升了大語言模型的性能?Mistra...
閱讀原文

一條磁力鏈接席卷AI圈,87GB種子直接開源8x7B MoE模型

機器之心報道機器之心編輯部「高端」的開源,往往采用最樸素的發布方式。昨天,Mistral AI 在 X 平臺甩出一條磁力鏈接,宣布了新的開源動作。沒有長篇官方博...
閱讀原文

首個開源MoE大模型發布!7Bx8個專家,離GPT-4最近的一集

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI“取消今晚所有計劃!”,許多AI開發者決定不睡了。只因首個開源MoE大模型剛剛由Mistral AI發布。MoE架構全稱專家混合...
閱讀原文

瀾碼科技創始人、CEO周?。簩<抑R的數字化是AI Agent落地的制勝之匙|甲子引力

Agent出現后,人機交互會發生變化。11月30日至12月1日,由中國科技產業智庫「甲子光年」主辦的「致追風趕月的你」2023甲子引力年終盛典在北京順利舉行!百余...
閱讀原文

DeepMind最新研究:這個AI Agent,幾分鐘學會人類專家行為,登上Nature子刊

只需要幾分鐘,就可以成功模仿專家行為,并記住所有學過的知識,Google DeepMind 研發的 AI Agent,登上了 Nature 子刊。據介紹,在 3D 模擬中,該智能體能夠...
閱讀原文

北大具身智能新成果:無需訓練,聽指令就能靈活走位

北大前沿計算研究中心 投稿量子位 | 公眾號 QbitAI北京大學董豪團隊具身導航最新成果來了:無需額外建圖和訓練,只需說出導航指令,如:Walk forward across ...
閱讀原文

8張3090,1天壓縮萬億參數大模型!3.2TB驟降至160GB,壓縮率高達20倍

新智元報道編輯:好困【新智元導讀】最近,來自ISTA的研究人員提出了一種全新的模型量化方法QMoE,可以將1.6萬億個參數的SwitchTransformer壓縮到160GB以下(...
閱讀原文

將混合專家推向極限:只需更新0.32%的參數就能完成模型微調

機器之心報道編輯:Panda W微調無需更新全部模型參數,這種方法只需更新不到 1% 的參數。眾所周知,大模型的訓練成本很高,但其實對預訓練后的模型進行微調也...
閱讀原文
1345677,822