大模型微調數據選擇和構造技巧

AIGC動態2年前 (2024)發布算法邦

大模型微調數據選擇和構造技巧

AIGC動態歡迎閱讀

原標題：大模型微調數據選擇和構造技巧
關鍵字：數據,模型,騰訊,報告,多樣性
文章來源：算法邦
內容字數：4699字

內容摘要：

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會，阿里巴巴通義千問大模型技術負責人周暢，潞晨科技創始人尤洋，生數科技CEO唐家渝，優必選研究院執行院長焦繼超，科大訊飛人形機器人首席科學家季超，DeepWisdom合伙人徐宗澤，騰訊研究科學家張馳，前Meta首席工程負責人胡魯輝等首批嘉賓已確認帶來演講和報告，歡迎報名。大模型場景微調里面，最關鍵地的一個是問題是：
選擇什么樣的數據微調？
大的方向上大家都能把握，大概無非是要注意數據的多樣性，要注意數據的質量，那在實踐中有哪些技巧呢？
比如我們會經常遇到下面幾種情況：
數據要不要都去標注，標的比較慢咋辦？
我已經有一批標好的數據了，再去選哪些數據送標注比較好？
能不能總結出一套數據構造方面自動化的方法？
其實在大模型之前，就有很多人研究過這樣的問題。在做一個模型時候，比如簡單的文本分類，我不可能一股腦把所有數據都扔給標注，這樣干存在一個問題，一般情況下我們數據的分布都是符合一個長尾分布的。主要的幾個類別數據占據了90%的數據量，剩下的90%的類別只有10%的數據量。
比如小紅書上，query的意圖識別里，美食，穿搭

原文鏈接：大模型微調數據選擇和構造技巧

聯系作者

文章來源：算法邦
作者微信：allplusai
作者簡介：智猩猩矩陣賬號之一，連接AI新青年，講解研究成果，分享系統思考。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型微調數據選擇和構造技巧

AIGC動態歡迎閱讀

內容摘要：

聯系作者

用大語言模型控制交通信號燈，有效緩解擁堵！

中文解讀：基于大模型構建企業應用的實戰策略｜NVIDIA GTC24 大會預告

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型微調數據選擇和構造技巧

AIGC動態歡迎閱讀

內容摘要：

聯系作者

用大語言模型控制交通信號燈，有效緩解擁堵！

中文解讀：基于大模型構建企業應用的實戰策略 ｜NVIDIA GTC24 大會預告

相關文章

暫無評論

ChatGPT

玩虛擬模特？

中文解讀：基于大模型構建企業應用的實戰策略｜NVIDIA GTC24 大會預告