AI大模型權(quán)威評(píng)測(cè)：豆包中文對(duì)話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

國(guó)產(chǎn)AI模型多點(diǎn)開花。

原標(biāo)題：AI大模型權(quán)威評(píng)測(cè)：豆包中文對(duì)話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)
文章來源：智東西
內(nèi)容字?jǐn)?shù)：6681字

國(guó)產(chǎn)AI模型2024年終總結(jié)：多點(diǎn)開花，應(yīng)用為王

2024年，國(guó)產(chǎn)AI模型在多項(xiàng)評(píng)測(cè)中表現(xiàn)亮眼，與海外模型競(jìng)爭(zhēng)激烈。智源研究院FlagEval“百模”評(píng)測(cè)結(jié)果顯示，國(guó)產(chǎn)模型在中文能力和多模態(tài)應(yīng)用方面優(yōu)勢(shì)明顯，但在推理和數(shù)學(xué)等方面仍有提升空間。

1. 語言模型：中文優(yōu)勢(shì)明顯，推理能力待加強(qiáng)

在閉源大模型主觀評(píng)測(cè)中，字節(jié)跳動(dòng)豆包模型和百度ERNIE 4.0 Turbo得分領(lǐng)先OpenAI模型，體現(xiàn)了國(guó)產(chǎn)模型在中文語境下的優(yōu)勢(shì)。然而，OpenAI的o1系列在客觀評(píng)測(cè)中，特別是推理能力方面，展現(xiàn)出顯著的領(lǐng)先地位。國(guó)產(chǎn)模型在數(shù)學(xué)、代碼等方面也相對(duì)薄弱，呈現(xiàn)出“文強(qiáng)理弱”的現(xiàn)象。部分模型在英語和歷史學(xué)科測(cè)試中已超越人類平均水平。

2. 多模態(tài)模型：快速發(fā)展，各擅勝場(chǎng)

多模態(tài)模型是今年的亮點(diǎn)，國(guó)產(chǎn)模型在文生圖、文生視頻等領(lǐng)域取得了顯著進(jìn)展。字節(jié)跳動(dòng)豆包模型在視覺理解方面表現(xiàn)出色，騰訊、快手、阿里巴巴等公司在文生圖、文生視頻等方面也有領(lǐng)先產(chǎn)品。雖然AI文生圖技術(shù)趨于成熟，但文生視頻領(lǐng)域仍面臨挑戰(zhàn)。開源多模態(tài)模型在圖文理解方面正在追趕閉源模型，但在長(zhǎng)尾視覺知識(shí)和復(fù)雜數(shù)據(jù)分析能力方面仍有提升空間。

3. 新興能力：辯論和金融量化交易初露鋒芒

智源研究院新增了對(duì)AI模型辯論能力和金融量化交易能力的評(píng)測(cè)。結(jié)果顯示，AI模型更擅長(zhǎng)反駁，但在構(gòu)建完整辯論框架和避免“幻覺”方面仍需改進(jìn)。在金融量化交易領(lǐng)域，頭部模型已具備生成交易策略代碼的能力，部分模型的水平接近初級(jí)量化交易員。

4. 未來展望：從參數(shù)量競(jìng)爭(zhēng)轉(zhuǎn)向應(yīng)用落地

2024年，大模型領(lǐng)域發(fā)展迅速，參數(shù)規(guī)模增長(zhǎng)放緩，模型的數(shù)學(xué)能力顯著提升。未來，AI模型競(jìng)爭(zhēng)將從參數(shù)量轉(zhuǎn)向應(yīng)用場(chǎng)景，商業(yè)化落地效率和效益將成為關(guān)鍵競(jìng)爭(zhēng)力。國(guó)產(chǎn)模型需進(jìn)一步提升推理、數(shù)學(xué)等能力，并加強(qiáng)在實(shí)際應(yīng)用場(chǎng)景中的落地，才能在全球競(jìng)爭(zhēng)中占據(jù)更有利的地位。

聯(lián)系作者

文章來源：智東西
作者微信：
作者簡(jiǎn)介：智能產(chǎn)業(yè)新媒體！智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展，和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級(jí)。聚焦智能變革，服務(wù)產(chǎn)業(yè)升級(jí)。

閱讀原文