中電信AI大模型TeleChat-12B評(píng)測(cè)：使用3T tokens預(yù)訓(xùn)練，已開(kāi)源！

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：中電信AI大模型TeleChat-12B評(píng)測(cè)：使用3T tokens預(yù)訓(xùn)練，已開(kāi)源！
關(guān)鍵字：模型,數(shù)據(jù),代碼,方面,指令
文章來(lái)源：算法邦
內(nèi)容字?jǐn)?shù)：6572字

內(nèi)容摘要：

直播預(yù)告 | 5月14日晚7點(diǎn)，「智猩猩、AI新青年講座」第235講正式開(kāi)講，慕尼黑工業(yè)大學(xué)視覺(jué)實(shí)驗(yàn)室陳振宇博士將直播講解《三維室內(nèi)場(chǎng)景紋理圖生成》歡迎掃名~01前言2月份的時(shí)候評(píng)測(cè)過(guò)TeleChat-7B大模型，見(jiàn)星辰AI大模型TeleChat-7B評(píng)測(cè)。最近中電信 AI 科技有限公司針對(duì)TeleChat-7B進(jìn)行了性能升級(jí)，并開(kāi)源了一個(gè)更大的模型TeleChat-12B，受邀對(duì)這個(gè)大模型進(jìn)行新的評(píng)測(cè)。本文主要關(guān)注TeleChat-7B在做一些文學(xué)創(chuàng)作和代碼生成方面相比于TeleChat-7B的提升。TeleChat-7B不僅在模型結(jié)構(gòu)上有所微調(diào)，而且相比于TeleChat-7B的1.5T Tokens，TeleChat-12B使用了3T Tokens進(jìn)行預(yù)訓(xùn)練，取得了更好的性能結(jié)果。下面紅框部分是TeleChat-12B相比于TeleChat-7B在通用能力，推理和代碼能力，語(yǔ)言理解能力等維度的數(shù)據(jù)集上的性能提升：
在這里插入圖片描述
02TeleChat-12B相比于TeleChat-7B的差異點(diǎn)TeleChat-12B和TeleChat-7B均開(kāi)源在https://gith

原文鏈接：中電信AI大模型TeleChat-12B評(píng)測(cè)：使用3T tokens預(yù)訓(xùn)練，已開(kāi)源！