全球140+大模型全方位評(píng)測(cè)結(jié)果出爐,智源評(píng)測(cè)體系發(fā)布
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:全球140+大模型全方位評(píng)測(cè)結(jié)果出爐,智源評(píng)測(cè)體系發(fā)布
關(guān)鍵字:模型,解讀,字節(jié)跳動(dòng),騰訊,能力
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5307字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部2024 年 5 月 17 日,智源研究院舉辦大模型評(píng)測(cè)發(fā)布會(huì),正式推出科學(xué)、權(quán)威、公正、開放的智源評(píng)測(cè)體系,發(fā)布并解讀國內(nèi)外 140 余個(gè)開源和商業(yè)閉源的語言及多模態(tài)大模型全方位能力評(píng)測(cè)結(jié)果。
本次智源評(píng)測(cè),分別從主觀、客觀兩個(gè)維度考察了語言模型的簡單理解、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、任務(wù)解決、安全與價(jià)值觀七大能力;針對(duì)多模態(tài)模型則主要評(píng)估了多模態(tài)理解和生成能力。
在中文語境下,國內(nèi)頭部語言模型的綜合表現(xiàn)已接近國際一流水平,但存在能力發(fā)展不均衡的情況。在多模態(tài)理解圖文問答任務(wù)上,開閉源模型平分秋色,國產(chǎn)模型表現(xiàn)突出。國產(chǎn)多模態(tài)模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態(tài)模型的文生視頻能力上,對(duì)比各家公布的演示視頻長度和質(zhì)量,Sora 有明顯優(yōu)勢(shì),其他開放評(píng)測(cè)的文生視頻模型中,國產(chǎn)模型 PixVerse 表現(xiàn)優(yōu)異。
由于安全與價(jià)值觀對(duì)齊是模型產(chǎn)業(yè)落地的關(guān)鍵,但海外模型與國內(nèi)模型在該維度存在差異,因此語言模型主客觀評(píng)測(cè)的總體排名不計(jì)入該單項(xiàng)分?jǐn)?shù)。語言模型主觀評(píng)測(cè)結(jié)果顯示,在中文語境下,字節(jié)跳動(dòng)豆包 Skylark2、OpenAI GP
原文鏈接:全球140+大模型全方位評(píng)測(cè)結(jié)果出爐,智源評(píng)測(cè)體系發(fā)布
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)