DRT-o1 將長 CoT 的成功引入神經機器翻譯。
微信AI團隊提出DRT-o1:賦予機器翻譯“長思考”能力
1. **背景:** 長思維鏈(CoT)在推理任務中展現出顯著優勢。微信AI團隊受此啟發,提出DRT-o1模型,將長CoT引入神經機器翻譯(MT),尤其針對文學翻譯中需要深層理解比喻、隱喻等復雜語義的場景。
2. **挑戰與解決方法:** 并非所有翻譯場景都需要長思考。DRT-o1專注于處理需要深層語義理解的文學翻譯,例如包含明喻和隱喻的句子。為此,研究團隊面臨兩個關鍵挑戰:一是識別需要長思考的翻譯場景;二是合成具有長思考過程的機器翻譯數據。
3. **數據合成方法:** 研究人員提出一個多智能體框架,包含三個智能體:翻譯者、顧問和評估者。該框架迭代地進行翻譯,顧問提供改進建議,評估者給出評分。迭代過程直到達到預設評分閾值或最大迭代次數才停止。整個過程模擬了人類翻譯中“長思考”的步驟。最終生成的“長思考”過程由GPT-4o進行潤色,提升可讀性和流暢性。
4. **數據來源和處理:** 研究人員從古騰堡計劃中篩選出約63K個包含比喻或隱喻且直譯效果不佳的英語句子,作為訓練數據。這些句子經過多智能體框架處理,生成22264個包含長思考過程的英譯漢樣本。
5. **模型訓練和實驗結果:** 研究人員使用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作為基礎模型,分別訓練得到DRT-o1-7B和DRT-o1-14B。實驗結果表明,DRT-o1在文學翻譯任務上顯著優于基線模型,例如DRT-o1-7B在BLEU、CometKiwi和CometScore指標上均有大幅提升。
6. **主要貢獻:** DRT-o1模型成功將長CoT應用于機器翻譯,并提出了一種有效的數據合成方法,通過多智能體框架模擬人類翻譯中的長思考過程,最終在文學翻譯任務中取得了顯著成果。
7. **總結:** DRT-o1為機器翻譯領域引入了一種新的范式,證明了長思考在處理復雜語言任務中的有效性,為未來研究提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺