RedOne – 小紅書推出的社交大模型
RedOne 是小紅書推出的首個專為社交網絡服務(SNS)量身定制的大語言模型(LLM)。它通過三階段訓練策略,融合社交文化知識,增強多任務處理能力,并對齊平臺規范與人類偏好。
RedOne:社交領域的革新者
RedOne 是小紅書為社交網絡服務(SNS)領域精心打造的定制化大語言模型(LLM)。這款模型通過獨樹一幟的三階段訓練方法,深度融合社交文化知識,顯著提升多任務處理能力,并嚴格遵循平臺規范與人類偏好。相較于基礎模型,RedOne 在八大社交任務上的平均性能提升了 14.02%,在雙語評測基準上提升了 7.56%。更值得一提的是,RedOne 在有害內容檢測中將曝光率降低了 11.23%,在瀏覽后搜索中將點擊頁面率提升了 14.95%。RedOne 在社交領域展現出卓越的效能,為 SNS 應用提供了強有力的支持。
RedOne 的核心功能
- 內容解析:精準分析用戶生成的內容,實現分類、主題識別和意圖理解。
- 信息抽取:從非正式的社交帖子中提取結構化信息,例如預測標簽、解答疑問以及識別關鍵詞。
- 語義匹配:評估用戶查詢與社交筆記之間的語義關聯,提供相關性評估。
- 用戶行為建模:模擬用戶行為,例如基于瀏覽歷史生成后續查詢。
- 對話與角色扮演:支持情感陪伴對話和群聊中的角色扮演。
- 翻譯:在多語言環境下進行筆記翻譯,保留原始語氣和情感。
- 有害內容過濾:降低有害內容的曝光率,維護平臺安全。
- 瀏覽后搜索優化:提升用戶點擊頁面率,增強內容發現能力。
RedOne 的技術基石
- 持續預訓練(Continue Pretraining, CPT):RedOne 的持續預訓練階段為模型注入了社交領域的基礎知識。研究團隊從通用高質量語料庫和社交網絡平臺搜集了海量數據,涵蓋了非正式討論、短評、諷刺語句等多種社交溝通模式。通過精心設計的數據篩選流程,剔除低質量數據并優化數據混合分布,在 Qwen2.5 的基礎上持續訓練模型。
- 監督微調(Supervised Fine-Tuning, SFT):在監督微調階段,基于精心設計的任務定義和數據構建,彌合了預訓練目標與實際 SNS 應用需求之間的差距。研究人員整理了大量真實用戶生成的內容,定義了六種核心能力,包括內容理解、信息提取、語義匹配等,并將每種能力映射到具體任務。基于雙步訓練策略,第一步使大規模通用數據和 SNS 數據混合訓練,第二步提高 SNS 數據比例,進一步優化模型在關鍵任務上的表現。
- 偏好優化(Preference Optimization, PO):偏好優化階段通過利用隱性偏好信號,讓模型輸出更符合人類偏好和平臺規范。研究人員根據不同任務類型(主觀任務和客觀任務)采用不同的偏好構建策略,邀請專家標注偏好并擴展數據集。基于直接偏好優化(DPO)算法,利用偏好數據集中的信號,優化模型的輸出,使其更貼近人類偏好。
- 數據混合與通用能力保留:在訓練過程中混合通用領域數據和 SNS 領域數據,保持模型的通用能力,同時提升在 SNS 領域的適應性,增強模型在特定領域的表現,提升在未見過的任務(Out-of-Domain, OOD)上的泛化能力。
產品官網
目前,RedOne 的相關技術細節已在 arXiv 上發表,詳細內容請參考:
- arXiv 技術論文:https://www.arxiv.org/pdf/2507.10605
RedOne 的應用場景
- 有害內容檢測:有效識別和過濾有害內容,例如仇恨、虛假信息、暴力等。通過降低有害內容的曝光率,顯著提升平臺的安全性和用戶體驗。
- 瀏覽后搜索優化:根據用戶的瀏覽歷史和行為,生成更精準的搜索建議和推薦內容,能提升用戶的內容發現能力,增強用戶與平臺的互動。
- 內容理解與分類:對用戶生成的內容進行自動分類和理解,幫助平臺更好地管理和推薦內容。
- 信息提取:從非正式的社交帖子中提取關鍵信息,例如標簽、重點詞匯、關鍵事實等。對于內容推薦、信息聚合和知識圖譜構建非常有幫助。
- 語義匹配:評估用戶查詢與社交筆記之間的語義相關性,提供更精準的搜索結果和推薦內容。
常見問題
1. RedOne 與其他 LLM 有何不同?
RedOne 專注于社交網絡服務領域,通過三階段訓練策略,深度融合社交文化知識,并對齊平臺規范與人類偏好,在社交任務上表現卓越。
2. RedOne 的主要優勢是什么?
RedOne 的主要優勢在于其在社交領域的卓越表現,例如有害內容檢測、瀏覽后搜索優化、內容理解與分類等。
3. 如何獲取更多關于 RedOne 的信息?
您可以訪問 arXiv 技術論文:https://www.arxiv.org/pdf/2507.10605,了解更多技術細節。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...