SmolLM2

SmolLM2是一款由Hugging Face推出的緊湊型大型語言模型，專為設(shè)備端應(yīng)用而設(shè)計。該模型提供1.7B、360M和135M三種不同參數(shù)設(shè)置，滿足各種應(yīng)用需求和資源限制。SmolLM2在理解和執(zhí)行指令、知識推理以及數(shù)學問題解決方面展現(xiàn)了顯著的能力提升。

SmolLM2是什么

SmolLM2是Hugging Face推出的緊湊型大型語言模型，旨在優(yōu)化設(shè)備端應(yīng)用，提供1.7B、360M和135M三種參數(shù)選擇，以應(yīng)對不同的應(yīng)用場景和資源條件。該模型在理解和執(zhí)行復雜指令、進行知識推理及解決數(shù)學題目方面表現(xiàn)突出。通過采用監(jiān)督微調(diào)和超反饋優(yōu)化技術(shù)，SmolLM2能夠更精確地理解和響應(yīng)復雜的指令，并在文本重寫、摘要生成和函數(shù)調(diào)用等任務(wù)中展現(xiàn)出強大的性能。這使得SmolLM2特別適合用作智能助手、機器人及其他需要自然語言理解的設(shè)備端服務(wù)。

SmolLM2

SmolLM2的主要功能

文本重寫：SmolLM2可以對文本進行優(yōu)化重寫，使其更加簡潔或符合特定風格與要求。
摘要生成：模型能夠從長文中提煉出關(guān)鍵內(nèi)容，以生成簡明扼要的摘要。
函數(shù)調(diào)用：SmolLM2支持函數(shù)調(diào)用，特別適用于自動編碼助手或需要與現(xiàn)有軟件無縫集成的個人AI應(yīng)用。
設(shè)備端運行：SmolLM2可在本地設(shè)備上運行，無需依賴云服務(wù)，適合對延遲、隱私和硬件限制有高要求的應(yīng)用場景。
多任務(wù)處理：該模型針對多種自然語言處理任務(wù)進行了優(yōu)化，適合各種應(yīng)用程序，尤其是在與云服務(wù)連接受限的環(huán)境下。

SmolLM2的技術(shù)原理

后訓練技術(shù)：SmolLM2系列采用先進的后訓練技術(shù)，包括監(jiān)督微調(diào)（SFT）和直接偏好優(yōu)化（DPO），增強了模型處理復雜指令和提供準確響應(yīng)的能力。
框架兼容性：SmolLM2與llama.cpp和Transformers.js等框架兼容，能夠在設(shè)備上高效運行，包括在本地CPU和瀏覽器環(huán)境中，無需專門的GPU支持。
數(shù)據(jù)集訓練：SmolLM2的訓練使用了來自FineWeb-Edu、DCLM和Stack等數(shù)據(jù)集的11萬億個標記，覆蓋了廣泛的內(nèi)容，主要集中在英語文本。
模型結(jié)構(gòu)：SmolLM2的135M和360M模型采用了類似MobileLLM的設(shè)計，結(jié)合了Grouped-Query Attention結(jié)構(gòu)，而1.7B模型則使用相對傳統(tǒng)的設(shè)計。所有模型均采用了embedding tying，并且支持2048個token的上下文長度。

SmolLM2的項目地址

HuggingFace模型庫：https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

SmolLM2的應(yīng)用場景

設(shè)備端應(yīng)用：SmolLM2專為在資源有限的設(shè)備上運行而設(shè)計，如智能手機或邊緣設(shè)備，無需依賴云基礎(chǔ)設(shè)施。
延遲敏感和隱私保護：特別適用于對延遲和數(shù)據(jù)隱私有較高要求的應(yīng)用，如邊緣AI應(yīng)用。
文本處理任務(wù)：如文本重寫、摘要生成和函數(shù)調(diào)用等，尤其在云服務(wù)連接受限的設(shè)備上表現(xiàn)突出。
自動編碼助手：支持與現(xiàn)有軟件無縫集成的編碼助手或個人AI應(yīng)用，特別適合需要函數(shù)調(diào)用功能的場合。
NLP任務(wù)：在各種自然語言處理任務(wù)中表現(xiàn)優(yōu)異，適合需要實時處理的設(shè)備應(yīng)用。

閱讀原文