AIGC動態歡迎閱讀
內容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,潞晨科技創始人尤洋,生數科技CEO唐家渝,優必選研究院執行院長焦繼超,科大訊飛人形機器人首席科學家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學家張馳,前Meta首席工程負責人胡魯輝等首批嘉賓已確認帶來演講和報告,歡迎報名。大模型場景微調里面,最關鍵地的一個是問題是:
選擇什么樣的數據微調?
大的方向上大家都能把握,大概無非是要注意數據的多樣性,要注意數據的質量,那在實踐中有哪些技巧呢?
比如我們會經常遇到下面幾種情況:
數據要不要都去標注,標的比較慢咋辦?
我已經有一批標好的數據了,再去選哪些數據送標注比較好?
能不能總結出一套數據構造方面自動化的方法?
其實在大模型之前,就有很多人研究過這樣的問題。在做一個模型時候,比如簡單的文本分類,我不可能一股腦把所有數據都扔給標注,這樣干存在一個問題,一般情況下我們數據的分布都是符合一個長尾分布的。主要的幾個類別數據占據了90%的數據量,剩下的90%的類別只有10%的數據量。
比如小紅書上,query的意圖識別里,美食,穿搭
原文鏈接:大模型微調數據選擇和構造技巧
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...