Step-Audio-EditX – 階躍星辰開源的音頻編輯大模型
Step-Audio-EditX,一項由階躍星辰推出的開創(chuàng)性技術(shù),榮獲“全球首個 LLM 級音頻編輯大模型”的桂冠。它以“情感、說話風(fēng)格、副語言”這三大核心維度為基石,實現(xiàn)了對音頻的精細化、迭代式操控。用戶能夠隨心所欲地調(diào)整人物的喜怒哀樂,比如將憤怒、開心或悲傷的情緒強度進行任意的增加或削減。更令人驚嘆的是,它還能疊加多種說話風(fēng)格,例如將撒嬌、耳語、老人等語調(diào)進行多次融合,賦予音頻更豐富的表現(xiàn)力。此外,它還能如同字幕般精準地插入呼吸、笑聲、嘆氣等 10 種自然的副語言標記(token),讓音頻更具真實感和生命力。
Step-Audio-EditX 的核心能力
- 情感操控:涵蓋憤怒、開心、悲傷、興奮、恐懼、驚訝、厭惡等數(shù)十種情感標簽,支持多次迭代調(diào)整,以增強或減弱情感的表達力度。
- 風(fēng)格塑造:提供撒嬌、耳語、老人、小孩、嚴肅、慷慨、夸張等十余種多樣的說話風(fēng)格,并且支持這些風(fēng)格的疊加與微調(diào),為音頻注入個性化色彩。
- 副語言注入:可以精確地在音頻中植入呼吸、笑聲、嘆氣、驚訝(oh/ah)、確認(en)、不滿(hnn)、疑問(ei)、嗯(uhm)等 10 類自然發(fā)生的語音片段,提升音頻的真實感。
- 零樣本語音合成:無需任何目標人物的語音樣本,即可精準克隆其音色。只需在文本前添加“”或“”等標簽,便能即時切換方言,實現(xiàn)高效的跨語言合成。
- 迭代式精修:同一段語音可進行反復(fù)編輯,且不同屬性(如情感與風(fēng)格)之間相互,互不干擾,效果層層遞進,逐步優(yōu)化。
- 開源且高效:提供 8bit 量化版本,僅需 8GB 顯存即可運行,在 4 張 A800/H800 顯卡上可獲得最佳音質(zhì)表現(xiàn)。項目包含推理與訓(xùn)練代碼,并提供 Gradio Demo 和 HF Space,方便用戶體驗和開發(fā)。
Step-Audio-EditX 的技術(shù)精髓
- 雙碼本音頻分詞技術(shù):該技術(shù)并行運用了 16.7 Hz/1024 項的“語言碼本”和 25 Hz/4096 項的“語義碼本”。通過 2:3 的交錯切片方式,將任意語音統(tǒng)一轉(zhuǎn)化為離散的 token。這種方式能夠忠實地保留語音中的情感和韻律信息,為后續(xù) LLM 的直接操作構(gòu)建了豐富的“語音詞匯庫”。
- 3B 音頻大語言模型:模型以文本預(yù)訓(xùn)練的 3B 模型為基礎(chǔ)進行熱啟動。通過將文本 token 與雙碼本音頻 token 以格式拼接輸入,模型僅輸出音頻 token。訓(xùn)練數(shù)據(jù)中,文本與音頻的比例為 1:1,這充分利用了現(xiàn)有文本 LLM 生態(tài)的優(yōu)勢,實現(xiàn)了高效的后訓(xùn)練。
- 大間隔合成數(shù)據(jù)驅(qū)動:該模型無需引入額外的編碼器或 adapter。僅通過使用“同文本、異屬性(情感/風(fēng)格/副語言)”的成對數(shù)據(jù)進行 SFT+PPO 訓(xùn)練。大間隔的訓(xùn)練方式迫使模型學(xué)習(xí)屬性的解耦,從而實現(xiàn)迭代式的情感強度增減和多屬性的疊加。
- 流匹配 + BigVGANv2 解碼器:音頻 LLM 輸出的雙碼本 token,首先經(jīng)過 DiT-流匹配模塊生成 Mel 譜,然后由 BigVGANv2 聲碼器將其還原為音頻波形。通過 200k 小時的高質(zhì)量訓(xùn)練數(shù)據(jù),確保了發(fā)音的準確性和音色的高度相似性。
- 統(tǒng)一化處理流程:一套完整的“分詞→LLM→解碼”管線,能夠同時支持零樣本 TTS、情感/風(fēng)格/副語言編輯、語速調(diào)節(jié)以及降噪等多種功能。無需為不同任務(wù)配置專屬模塊,極大地簡化了系統(tǒng)復(fù)雜度,并降低了推理成本。
Step-Audio-EditX 的項目入口
- 官方網(wǎng)站:https://stepaudiollm.github.io/step-audio-editx/
- GitHub 倉庫:https://github.com/stepfun-ai/Step-Audio-EditX
- HuggingFace 模型庫:https://huggingface.co/stepfun-ai/Step-Audio-EditX
- 技術(shù)論文(arXiv):https://arxiv.org/pdf/2511.03601
Step-Audio-EditX 的應(yīng)用前景
- 豐富有聲內(nèi)容:無論是音頻書、播客還是新聞朗讀,都可以通過一鍵疊加“開心/悲傷/耳語”等情緒或風(fēng)格,無需重新錄制,即可快速生成不同版本的音頻,顯著提升聽眾的沉浸式體驗。
- 高效視頻與廣告配音:對于短視頻、動畫和廣告片,可以實現(xiàn)零樣本克隆角色音色,再通過迭代式編輯,添加“撒嬌、夸張、嚴肅”等風(fēng)格,從而以極低的成本實現(xiàn)多角色、多情緒的自動化配音。
- 賦能游戲與虛擬偶像:在游戲場景中,NPC 和虛擬主播(VTuber)可以通過一句參考語音克隆音色,并實時插入笑聲、呼吸、嘆氣等副語言,打造更加生動、具備持續(xù)互動性的角色語音。
- 提升智能客服體驗:智能客服機器人可以在原有 TTS 基礎(chǔ)上,將“平淡的答復(fù)”轉(zhuǎn)化為“熱情/安撫”的情緒,從而顯著改善用戶體驗。同時,支持方言標簽,能夠滿足不同地域用戶的個性化服務(wù)需求。
- 助力教育與語言學(xué)習(xí):在線教育平臺和語言學(xué)習(xí) App 可以利用“老人/小孩/耳語”等風(fēng)格生成適合不同年齡段的讀音,或者將標準普通話即時切換為粵語、四川話,幫助學(xué)生更好地跟讀模仿,并有效降低教師的錄音成本。
- 優(yōu)化會議記錄與無障礙溝通:對于包含噪聲或冗長停頓的會議錄音,可以先進行“降噪+靜音修剪”的編輯,再根據(jù)需求調(diào)整語速或加入情感表達,最終生成清晰、易于理解的會議紀要音頻。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號