中電信AI大模型TeleChat-12B評(píng)測(cè):使用3T tokens預(yù)訓(xùn)練,已開(kāi)源!

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:中電信AI大模型TeleChat-12B評(píng)測(cè):使用3T tokens預(yù)訓(xùn)練,已開(kāi)源!
關(guān)鍵字:模型,數(shù)據(jù),代碼,方面,指令
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):6572字
內(nèi)容摘要:
直播預(yù)告 | 5月14日晚7點(diǎn),「智猩猩、AI新青年講座」第235講正式開(kāi)講,慕尼黑工業(yè)大學(xué)視覺(jué)實(shí)驗(yàn)室陳振宇博士將直播講解《三維室內(nèi)場(chǎng)景紋理圖生成》歡迎掃名~01前言2月份的時(shí)候評(píng)測(cè)過(guò)TeleChat-7B大模型,見(jiàn)星辰AI大模型TeleChat-7B評(píng)測(cè)。最近中電信 AI 科技有限公司針對(duì)TeleChat-7B進(jìn)行了性能升級(jí),并開(kāi)源了一個(gè)更大的模型TeleChat-12B,受邀對(duì)這個(gè)大模型進(jìn)行新的評(píng)測(cè)。本文主要關(guān)注TeleChat-7B在做一些文學(xué)創(chuàng)作和代碼生成方面相比于TeleChat-7B的提升。TeleChat-7B不僅在模型結(jié)構(gòu)上有所微調(diào),而且相比于TeleChat-7B的1.5T Tokens,TeleChat-12B使用了3T Tokens進(jìn)行預(yù)訓(xùn)練,取得了更好的性能結(jié)果。下面紅框部分是TeleChat-12B相比于TeleChat-7B在通用能力,推理和代碼能力,語(yǔ)言理解能力等維度的數(shù)據(jù)集上的性能提升:
在這里插入圖片描述
02TeleChat-12B相比于TeleChat-7B的差異點(diǎn)TeleChat-12B和TeleChat-7B均開(kāi)源在https://gith
原文鏈接:中電信AI大模型TeleChat-12B評(píng)測(cè):使用3T tokens預(yù)訓(xùn)練,已開(kāi)源!
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號(hào)