無問芯穹夏立雪:目標(biāo)將大模型算力成本壓縮四個(gè)數(shù)量級,為算力市場帶來增量
AIGC動態(tài)歡迎閱讀
原標(biāo)題:無問芯穹夏立雪:目標(biāo)將大模型算力成本壓縮四個(gè)數(shù)量級,為算力市場帶來增量
關(guān)鍵字:模型,芯片,騰訊,中間層,機(jī)器
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):15188字
內(nèi)容摘要:
機(jī)器之心原創(chuàng)
作者:姜菁玲算力不足仍然是制約通用人工智能發(fā)展的重要因素。GPU Utils 今年 8 月的一份數(shù)據(jù)顯示,全球目前 H100 等效算力的供給缺口達(dá)到 43 萬張。在解決算力不足的問題上,除了搶購和囤積英偉達(dá),更多的方案正在浮出水面。
清華系創(chuàng)業(yè)公司無問芯穹,是這個(gè)賽道上的一個(gè)答題者。
不久前,機(jī)器之心介紹了來自無問芯穹(Infinigence AI)、清華大學(xué)和上海交通大學(xué)的聯(lián)合團(tuán)隊(duì)所提出的一種新方法 FlashDecoding++。這項(xiàng)工作不僅能將 GPU 推理提速 2-4 倍,還能同時(shí)支持 NVIDIA 和 AMD 的 GPU。相較于 FlashDecoding,這項(xiàng)工作在 NVIDIA A100 實(shí)現(xiàn)了推理平均加速 37% ,在 AMD MI210 上實(shí)現(xiàn) 300%+ 的性能提升。
基于這項(xiàng)工作,無問芯穹所研發(fā)的 Infini-ACC 大模型計(jì)算優(yōu)化引擎通過對模型、系統(tǒng)以及硬件層面的系統(tǒng)優(yōu)化,能夠推動實(shí)現(xiàn)大模型推理速度提升 10 倍,模型存儲空間降低 10 倍,部署時(shí)間降至小時(shí)級。
無問芯穹依托計(jì)算加速的核心優(yōu)勢,幫助現(xiàn)有的算力方提高算力性能與性價(jià)比。并在核心優(yōu)勢基
原文鏈接:無問芯穹夏立雪:目標(biāo)將大模型算力成本壓縮四個(gè)數(shù)量級,為算力市場帶來增量
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺