CPM-Bee大模型官網(wǎng),百億參數(shù)的開源中英文雙語基座大模型
CPM-Bee是一個開源的雙語預訓練語言模型,參數(shù)量為10B,擁有十余種原生能力和強大的通用語言能力,并支持結構化輸入和輸出。它是CPM-Live直播訓練過程中的第二個里程碑。訓練過程是低成本和環(huán)境友好的。我們將發(fā)布各種壓縮版本以適應不同的硬件配置。CPM-Bee采用了開放的許可協(xié)議,發(fā)布后的模型和代碼將完全開放。
CPM-Bee大模型官網(wǎng): https://live.openbmb.org/models/bee
Github地址: https://github.com/OpenBMB/CPM-Bee
Hugging Face地址: https://huggingface.co/openbmb/cpm-bee-10b
? CPM-Bee商用申請通道?發(fā)送申請郵件至 cpm@modelbest.cn 獲取授權證書
自OpenBMB開源社區(qū)成立以來,我們就堅定不移地踐行“讓大模型飛入千家萬戶”的理念,開發(fā)模型全流程加速系統(tǒng)以高效支持大模型的預訓練、微調(diào)、應用和推理,并發(fā)起?百億大模型訓練直播項目CPM-Live。
終于!CPM-Live 第二階段的進度條終于拉到了100%,我們迎來了CPM-Live第二個里程碑:CPM-Bee 開源發(fā)布!

??模型介紹
CPM-Bee是一個完全開源、允許商用的百億參數(shù)中英文基座模型,也是CPM-Live訓練的第二個里程碑。它采用Transformer自回歸架構(auto-regressive),在超萬億(trillion)高質量語料上進行預訓練,擁有強大的基礎能力。開發(fā)者和研究者可以在CPM-Bee基座模型的基礎上在各類場景進行適配來以創(chuàng)建特定領域的應用模型。
- ??開源可商用:OpenBMB始終秉承“讓大模型飛入千家萬戶”的開源精神,CPM-Bee基座模型將完全開源并且可商用,以推動大模型領域的發(fā)展。我們鼓勵全球范圍內(nèi)的科研機構、企業(yè)和個人開發(fā)者在遵守開源許可協(xié)議的前提下,地在CPM-Bee基座模型上進行創(chuàng)新。
- ??中英雙語性能優(yōu)異: CPM-Bee基座模型在預訓練語料上進行了嚴格的篩選和配比,同時在中英雙語上具有亮眼表現(xiàn),具體可參見評測任務和結果。
- ??超大規(guī)模高質量語料: CPM-Bee基座模型在超萬億語料進行訓練,是開源社區(qū)內(nèi)經(jīng)過語料最多的模型之一。同時,我們對預訓練語料進行了嚴格的篩選、清洗和后處理以確保質量。
?OpenBMB大模型系統(tǒng)生態(tài)支持: OpenBMB大模型系統(tǒng)在高性能預訓練、適配、壓縮、部署、工具開發(fā)了一系列工具,CPM-Bee基座模型將配套所有的工具腳本,高效支持開發(fā)者進行進階使用。
- ??對話和工具使用能力: 結合OpenBMB在指令微調(diào)和工具學習的探索,我們在CPM-Bee基座模型的基礎上進行微調(diào),訓練出了具有強大對話和工具使用能力的實例模型,API和內(nèi)測將于近期開放。
Read this in?English.
說明:CPM-Bee是一個基座模型,即從零開始通過預訓練得來。我們鼓勵用戶在自己的場景和數(shù)據(jù)上適配/微調(diào)/對齊后再進行使用。例如,WebCPM?以CPM-Bee為基座,在人類網(wǎng)絡檢索的序列化數(shù)據(jù)上進行適配,獲得了復雜問答和上網(wǎng)檢索的能力。后續(xù)我們將會發(fā)布更多在CPM-Bee基座模型基礎上適配的模型。
本倉庫主要提供 CPM-Bee 基座模型
數(shù)據(jù)評估
本站OpenI提供的CPM-Bee都來源于網(wǎng)絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 6月 15日 下午5:17收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進行刪除,OpenI不承擔任何責任。