國產AI模型多點開花。
國產AI模型2024年終總結:多點開花,應用為王
2024年,國產AI模型在多項評測中表現亮眼,與海外模型競爭激烈。智源研究院FlagEval“百模”評測結果顯示,國產模型在中文能力和多模態應用方面優勢明顯,但在推理和數學等方面仍有提升空間。
1. 語言模型:中文優勢明顯,推理能力待加強
在閉源大模型主觀評測中,字節跳動豆包模型和百度ERNIE 4.0 Turbo得分領先OpenAI模型,體現了國產模型在中文語境下的優勢。然而,OpenAI的o1系列在客觀評測中,特別是推理能力方面,展現出顯著的領先地位。國產模型在數學、代碼等方面也相對薄弱,呈現出“文強理弱”的現象。部分模型在英語和歷史學科測試中已超越人類平均水平。
2. 多模態模型:快速發展,各擅勝場
多模態模型是今年的亮點,國產模型在文生圖、文生視頻等領域取得了顯著進展。字節跳動豆包模型在視覺理解方面表現出色,騰訊、快手、阿里巴巴等公司在文生圖、文生視頻等方面也有領先產品。雖然AI文生圖技術趨于成熟,但文生視頻領域仍面臨挑戰。開源多模態模型在圖文理解方面正在追趕閉源模型,但在長尾視覺知識和復雜數據分析能力方面仍有提升空間。
3. 新興能力:辯論和金融量化交易初露鋒芒
智源研究院新增了對AI模型辯論能力和金融量化交易能力的評測。結果顯示,AI模型更擅長反駁,但在構建完整辯論框架和避免“幻覺”方面仍需改進。在金融量化交易領域,頭部模型已具備生成交易策略代碼的能力,部分模型的水平接近初級量化交易員。
4. 未來展望:從參數量競爭轉向應用落地
2024年,大模型領域發展迅速,參數規模增長放緩,模型的數學能力顯著提升。未來,AI模型競爭將從參數量轉向應用場景,商業化落地效率和效益將成為關鍵競爭力。國產模型需進一步提升推理、數學等能力,并加強在實際應用場景中的落地,才能在全球競爭中占據更有利的地位。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。