大模型終端部署新趨勢:硬件直接支持混合矩陣乘法
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型終端部署新趨勢:硬件直接支持混合矩陣乘法
關(guān)鍵字:模型,乘法,精度,硬件,數(shù)據(jù)類型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能領(lǐng)域,模型參數(shù)的增多往往意味著性能的提升。但隨著模型規(guī)模的擴(kuò)大,其對終端設(shè)備的算力與內(nèi)存需求也日益增加。低比特量化技術(shù),由于可以大幅降低存儲和計(jì)算成本并提升推理效率,已成為實(shí)現(xiàn)大模型在資源受限設(shè)備上高效運(yùn)行的關(guān)鍵技術(shù)之一。然而,如果硬件設(shè)備不支持低比特量化后的數(shù)據(jù)模式,那么低比特量化的優(yōu)勢將無法發(fā)揮。
為了解決這一問題,微軟亞洲研究院推出了全新的數(shù)據(jù)編譯器 Ladder 和算法 T-MAC,使當(dāng)前只支持對稱精度計(jì)算的硬件能夠直接運(yùn)行混合精度矩陣乘法。測試結(jié)果表明,Ladder 在支持 GPU 原本不支持的自定義數(shù)據(jù)類型方面,最高提速可達(dá) 14.6 倍;T-MAC 在搭載了最新高通 Snapdragon X Elite 芯片組的 Surface AI
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: