国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

開源1.6B小模型「小狐貍」,表現(xiàn)超同類模型Qwen和Gemma

AIGC動態(tài)10個月前發(fā)布 智猩猩GenAI
591 0 0

最近,世界模型(World Models)似乎成為了 AI 領域最熱門的研究方向。自從 Chatgpt 誕生以來,LLM(大語言模型)的參數(shù)量似乎就成為了各個公司的競賽指標。GPT-1 參數(shù)量為 1.17 億(117M),而它的 GPT-4 參數(shù)量已經(jīng)刷新到了 1.8 萬億(1800B)。像其他 LLM 模型例如 Bloom(1760 億,176B)和 Chinchilla(700 億,70B)的參數(shù)量也在不斷飆升。參數(shù)的數(shù)量直接影響了模型的性能和能力,更多的參數(shù)意味著模型能夠處理更復雜的語言模式,理解更豐富的上下文信息,并在多種任務上表現(xiàn)出更高的智能水平。但是,這些巨量參數(shù)也會直接影響 LLM 的訓練成本和開發(fā)環(huán)境,也限制了大多數(shù)普通研究公司對于 LLM 的探索,導致大語言模型逐漸成為了大公司之間的軍備競賽。近日,新興 AI 公司 TensorOpera 發(fā)布了開源小語言模型 FOX,向業(yè)內(nèi)證明了小語言模型(SLM)也可以在智能體領域展現(xiàn)足夠的實力。FOX 是一個專為云計算和邊緣計算設計的小型語言模型。與動輒上百億參數(shù)的大語言模型不同,F(xiàn)OX 僅有 16 億參數(shù),卻能在多項任務中展現(xiàn)出驚人的性能。論文題目:FOX-1 TECHNICAL REPORT論文鏈接:https://arxiv.org/abs/2411.0528101TensorOpera 是誰TensorOpera 是一家位于加州硅谷的創(chuàng)新人工智能公司。他們之前開發(fā)了 TensorOpera? AI Platform 生成型 AI 生態(tài)系統(tǒng)和 TensorOpera? FedML 聯(lián)邦學習和分析平臺。公司名稱 TensorOpera, 是技術(shù)和藝術(shù)的結(jié)合,象征著 GenAI 最終實現(xiàn)多模態(tài)和多模型復合 AI 系統(tǒng)的發(fā)展趨。TensorOpera 的聯(lián)合創(chuàng)始人兼 CEO Jared Kaplan 博士表示:”FOX 模型的設計初衷是為了在保持高性能的同時,大幅降低計算資源需求。這不僅讓 AI 技術(shù)更加親民,也為企業(yè)降低了使用門檻。”02Fox 模型是怎么做的為了通過較小的參數(shù)量達到與 LLM 相同的效果,F(xiàn)ox-1 模型僅采用解碼器架構(gòu),并引入了各種改進和重新設計以獲得更好的性能。其包括① 網(wǎng)絡層數(shù):在模型架構(gòu)設計中,更寬且更淺的神經(jīng)網(wǎng)絡擁有更好的記憶能力,而更深且更瘦的網(wǎng)絡則呈現(xiàn)出更強的推理能力。根據(jù)這一原則,F(xiàn)ox-1 使用的架構(gòu)比大多數(shù)現(xiàn)代 SLMs 更深。具體來說,F(xiàn)ox-1 由 32 個自注意力層組成,比 Gemma-2B(18 層)深 78%,比 StableLM-2-1.6B(24 層)和 Qwen1.5-1.8B(24 層)深 33%。② 共享嵌入:Fox-1 采用 2,048 的隱藏維度去構(gòu)建共計 256,000 的詞匯表,其數(shù)據(jù)量大約有 5 億參數(shù)。更大的模型通常對輸入層(詞匯表到嵌入表達)和輸出層(嵌入表達到詞匯表)使用單獨的嵌入層。對于 Fox-1,僅嵌入層就需要 10 億參數(shù)。為了減少總參數(shù)數(shù)量,共享輸入和輸出嵌入層,可以最大限度地提高權(quán)重利用率。③ 預歸一化:Fox-1 對每個變換層的輸入使用 RMSNorm 進行歸一化。RMSNorm 是現(xiàn)代大型語言模型中預歸一化的首選,它比 LayerNorm 表現(xiàn)出更好的效率。④ 旋轉(zhuǎn)式位置編碼(RoPE):Fox-1 默認接受最多 8K 長度的 input token。為了提高更長上下文窗口的性能,F(xiàn)ox-1 采用了旋轉(zhuǎn)式位置編碼,其中 θ 設置為 10,000,以便于編碼 token 之間的相對位置依賴性。⑤ 分組查詢注意力(GQA):分組查詢注意力將多頭注意力層的查詢頭分為組,每個組共享相同的一組鍵值頭。Fox-1 配備 4 個鍵值頭和 16 個注意力頭,以提高訓練和推理速度,并減少內(nèi)存使用。除了模型結(jié)構(gòu)改良之外,F(xiàn)OX-1 也在分詞(Tokenization)和訓練上進行改進。分詞方面,F(xiàn)ox-1 采用基于 SentencePiece 的 Gemma 分詞器,它提供了 256K 的詞匯表大小。增加詞匯表大小至少有兩個主要好處。首先,由于每個 token 編碼了更密集的信息,上下文的隱藏信息長度得以延長。例如,大小為 26 的詞匯表只能在[a-z]中編碼一個字符,但大小為 262 的詞匯表可以同時編碼兩個字母,這使得在固定長度的 token 中可以表示更長的字符串。其次,更大的詞匯表大小減少了未知單詞或短語的概率,從而在實踐中實現(xiàn)了更好的下游任務性能。Fox-1 采用的大詞匯表對于給定的文本語料庫產(chǎn)生較少的 token,這可以產(chǎn)生更好的推理性能。Fox-1 的預訓練數(shù)據(jù)來源于 Redpajama、SlimPajama、Dolma、Pile 和 Falcon 數(shù)據(jù)集,共計 3 萬億個文本數(shù)據(jù)。為了緩解因其注意力機制導致的長序列的預訓練效率低下,F(xiàn)ox-1 在預訓練階段引入了一個三階段的課程學習策略,其中訓練樣本的 chunk 長度逐漸從 2K 增加到 8K,以小成本確保長上下文能力。為了與三階段課程預訓練管道保持一致,F(xiàn)ox-1 將原始數(shù)據(jù)重新組織成三個不同的集合,包括無監(jiān)督和指令調(diào)優(yōu)數(shù)據(jù)集,以及代碼、網(wǎng)絡內(nèi)容、數(shù)學和科學文檔等不同領域的數(shù)據(jù)。Fox-1 的訓練可以分為三個階段。第一階段包括整個預訓練過程中約 39% 的總數(shù)據(jù)樣本,其中 1.05 萬億 token 的數(shù)據(jù)集被分割成長度為 2,000 的樣本,batch size 大小為 2M。在此階段使用了 2,000epoch 的線性預熱。第二階段包括約 59% 的樣本,有 1.58 萬億 token,并將 chunk 長度從 2K 增加到 4K 和 8K。實際的 chunk 長度因不同數(shù)據(jù)源而異。考慮到第二階段花費的時間最長,且涉及不同數(shù)據(jù)集的不同來源,batch size 也增加到 4M 以提高訓練效率。最后在第三階段,F(xiàn)ox 模型使用 62 億 token(約總量的 0.02%)的高質(zhì)量數(shù)據(jù)進行訓練,為不同的下游任務能力打下基礎,如指令遵循、閑聊、特定領域的問答等。03Fox-1 表現(xiàn)如何和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比,F(xiàn)OX-1 在 ARC Challenge (25-shot), HellaSwag (10-shot), TruthfulQA(0-shot),MMLU (5-shot),Winogrande (5-shot),GSM8k (5-shot)六項任務的 benchmark 的平均分數(shù)最高,且在 GSM8k 上優(yōu)勢明顯。除此之外,TensorOpera 還評估了 Fox-1、Qwen1.5-1.8B 和 Gemma-2B 使用 vLLM 與 TensorOpera 服務平臺在單個 NVIDIA H100 上的端到端的推理效率。Fox-1 實現(xiàn)了每秒超過 200 個 token 的吞吐量,超過了 Gemma-2B,并在相同的部署環(huán)境中與 Qwen1.5-1.8B 相匹配。在 BF16 精度下,F(xiàn)ox-1 僅需要 3703MiB 的 GPU 內(nèi)存,而 Qwen1.5-1.8B、StableLM-2-1.6B 和 Gemma-2B 分別需要 4739MiB、3852MiB 和 5379MiB。04參數(shù)雖小,依舊有競爭力目前各家 AI 公司都在大語言模型上開展競爭,而 TensorOpera 另辟蹊徑,在 SLM 領域進行突破,僅用 1.6B 實現(xiàn)了與 LLM 相似的效果,在各種基準測試中表現(xiàn)出色。即使在有限的數(shù)據(jù)資源下,TensorOpera 也可以預訓練出具有競爭力表現(xiàn)的語言模型,為其他 AI 公司的研發(fā)提供了一種新思路。END點擊下方名片即刻關(guān)注我們

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        日韩黄色小视频| 麻豆国产精品777777在线| 精品乱码亚洲一区二区不卡| 久久精品免费观看| 日韩三级视频在线看| 国产乱码一区二区三区| 91精品福利在线| 亚洲bt欧美bt精品777| 精品一区二区三区免费视频| 久久久久久夜精品精品免费| 国产99久久久久| 日韩美女啊v在线免费观看| 91亚洲精品久久久蜜桃网站| 亚洲香肠在线观看| 欧美精品一区二区三区蜜桃视频| 国产99久久久国产精品免费看| 中文字幕在线观看一区| 欧美日韩亚州综合| 国产一区二区三区在线观看免费 | 久久看人人爽人人| 成人性生交大合| 亚洲二区在线视频| 国产亚洲污的网站| 欧美精品色综合| 床上的激情91.| 日韩电影在线观看电影| 国产欧美日韩综合精品一区二区| 91丨porny丨中文| 久久www免费人成看片高清| 国产精品久久久久久久久久久免费看| 欧美日韩精品三区| av电影在线观看完整版一区二区| 亚洲va在线va天堂| 亚洲国产精品99久久久久久久久| 欧美日韩的一区二区| 大桥未久av一区二区三区中文| 亚洲va欧美va人人爽| 国产精品美女久久久久av爽李琼 | 成人午夜在线免费| 天堂av在线一区| 亚洲裸体在线观看| 国产亚洲1区2区3区| 精品精品欲导航| 4438成人网| 欧美日韩亚洲综合在线| 色呦呦日韩精品| 99re热视频精品| 不卡电影免费在线播放一区| 国产乱子轮精品视频| 免费成人av资源网| 日韩福利视频网| 婷婷中文字幕综合| 日韩和欧美一区二区三区| 一区二区三区免费观看| 国产精品丝袜在线| 国产日韩av一区二区| 精品国产1区2区3区| 日韩精品一区二区三区三区免费| 一本大道久久精品懂色aⅴ | 成人免费高清视频在线观看| 国产一区 二区| 国产精品一二三四区| 国内不卡的二区三区中文字幕| 久久精品国产77777蜜臀| 精品无人区卡一卡二卡三乱码免费卡| 免费观看30秒视频久久| 久久av资源站| 国产成人精品一区二区三区四区| 国产精品综合在线视频| 成人午夜av电影| 在线免费观看一区| 欧美精品日韩精品| 日韩三级视频在线观看| 精品国产sm最大网站免费看| 国产精品久久久久久久蜜臀| 亚洲色欲色欲www在线观看| 亚洲国产精品尤物yw在线观看| 日本va欧美va精品| 大胆亚洲人体视频| 欧美丝袜自拍制服另类| 日韩欧美一区二区在线视频| 国产丝袜美腿一区二区三区| 1024成人网| 美女视频黄久久| 成人美女视频在线看| 色播五月激情综合网| 日韩欧美国产综合在线一区二区三区 | 午夜精品久久久| 国产精品亚洲人在线观看| 97精品超碰一区二区三区| 欧美日韩国产高清一区二区三区 | 国产一区在线精品| 99精品国产一区二区三区不卡| 欧美三级三级三级爽爽爽| 久久免费午夜影院| 亚洲成人动漫一区| 国产成人精品三级麻豆| 欧美系列亚洲系列| 久久精品视频一区二区三区| 亚洲国产三级在线| 成人黄色a**站在线观看| 6080午夜不卡| 一区二区不卡在线播放 | 欧美va亚洲va在线观看蝴蝶网| **网站欧美大片在线观看| 免播放器亚洲一区| 一本到三区不卡视频| 久久久久久久久久久久电影 | 日本乱码高清不卡字幕| 精品国产电影一区二区| 亚洲综合一二三区| 成人精品免费视频| 日韩欧美国产高清| 日日摸夜夜添夜夜添精品视频 | 欧美精品一区男女天堂| 香蕉av福利精品导航| 99久久精品国产观看| 日本一区二区三区四区| 精品亚洲免费视频| 91精品久久久久久久99蜜桃| 亚洲一卡二卡三卡四卡五卡| 99精品偷自拍| 亚洲视频电影在线| 91尤物视频在线观看| 国产精品女同一区二区三区| 国产一区二区免费视频| 精品免费国产二区三区| 日本不卡1234视频| 欧美日本一区二区| 午夜精品aaa| 日韩三级av在线播放| 日韩在线一区二区三区| 91精品国产一区二区三区| 亚洲电影第三页| 69av一区二区三区| 日韩不卡一二三区| 日韩女优电影在线观看| 久久99国产精品免费网站| 欧美成人一区二区三区片免费 | 欧美国产日韩a欧美在线观看| 国产精选一区二区三区| 国产肉丝袜一区二区| 国产精品一级片在线观看| 国产日韩av一区| 99精品欧美一区二区三区小说| 国产精品国产三级国产a| 99视频精品在线| 亚洲精品菠萝久久久久久久| 欧美人与性动xxxx| 蜜臀久久99精品久久久久宅男 | 91黄视频在线| 七七婷婷婷婷精品国产| 337p日本欧洲亚洲大胆精品 | 成人国产精品免费观看| 亚洲人成精品久久久久| 欧美无人高清视频在线观看| 日本v片在线高清不卡在线观看| 亚洲精品一区在线观看| 99这里都是精品| 亚洲成av人片在线| 欧美精品一区二区精品网| 国产成人av电影在线| 亚洲影院久久精品| 久久婷婷成人综合色| 在线精品亚洲一区二区不卡| 蜜桃91丨九色丨蝌蚪91桃色| 欧美韩国日本不卡| 欧美三级乱人伦电影| 激情综合色播激情啊| 国产精品国产三级国产aⅴ原创| 欧美美女直播网站| 高清久久久久久| 日本中文在线一区| 一区视频在线播放| 欧美一二区视频| 91福利视频网站| 国产成人免费视频| 丝袜亚洲精品中文字幕一区| 国产精品日产欧美久久久久| 日韩午夜精品视频| 在线视频一区二区三区| 国产成人午夜99999| 亚洲成a人v欧美综合天堂下载| 中文字幕免费不卡| 欧美不卡一区二区三区四区| 在线一区二区三区| 99免费精品在线观看| 激情国产一区二区| 亚洲va欧美va人人爽午夜| 国产精品国产三级国产普通话三级 | 色综合久久综合中文综合网| 国产精品自拍三区| 蜜臀久久99精品久久久久宅男| 亚洲一区二区在线免费观看视频 | 精品成人在线观看| 欧美年轻男男videosbes| 一本色道久久综合亚洲91 | 亚洲一区电影777| 亚洲精品免费一二三区| 国产精品每日更新在线播放网址 |