sft 數據的諸多繁瑣細節~

2024中國生成式AI大會(上海站)預告
2024年12月5日至6日,智猩猩聯合主辦的2024中國生成式AI大會將在上海舉行。此次大會匯聚了來自各大機構的30多位專家嘉賓,包括北大(臨港)大模型對齊中心執行主任徐驊、騰訊優圖實驗室天衍研究中心負責人吳賢等,歡迎各界人士積極報名參與。
數據清洗的重要性
在生成式AI的研發過程中,數據清洗是一個不可或缺的環節。盡管許多團隊了解大語言模型(LLM)的基本方,但仍然面臨清洗SFT(監督微調)數據的復雜性。隨著時間的推移,去年的數據可能不再適用,因此定期更新和清洗數據顯得尤為重要。
JSON格式輸出的復雜性
文章中以“以JSON格式輸出”為例,探討了數據清洗的細節。雖然JSON格式看似簡單,但實際操作中卻存在多種變體和規則,比如indent值的選擇、是否帶有markdown格式等。對于模型的訓練,統一格式至關重要,以避免輸出不一致的問題。
數值任務中的格式問題
在處理數值任務時,使用float/int類型還是str類型的問題也引發了討論。數值的單位常常被忽視,而這會直接影響模型的輸出準確性。為了解決這一問題,可以在SFT數據中增加單位字段,以確保信息的完整性。
總結
總的來說,生成式AI的訓練過程中,數據清洗和格式統一是基礎而重要的環節。雖然這些工作看似繁瑣,但只有通過不斷的實踐,才能真正掌握其中的復雜性。期待在2024中國生成式AI大會上,行業專家們分享更多前沿技術與經驗。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號