Step-Audio-EditX

Step-Audio-EditX – 階躍星辰開源的音頻編輯大模型

Step-Audio-EditX，一項由階躍星辰推出的開創(chuàng)性技術(shù)，榮獲“全球首個 LLM 級音頻編輯大模型”的桂冠。它以“情感、說話風(fēng)格、副語言”這三大核心維度為基石，實現(xiàn)了對音頻的精細化、迭代式操控。用戶能夠隨心所欲地調(diào)整人物的喜怒哀樂，比如將憤怒、開心或悲傷的情緒強度進行任意的增加或削減。更令人驚嘆的是，它還能疊加多種說話風(fēng)格，例如將撒嬌、耳語、老人等語調(diào)進行多次融合，賦予音頻更豐富的表現(xiàn)力。此外，它還能如同字幕般精準地插入呼吸、笑聲、嘆氣等 10 種自然的副語言標記（token），讓音頻更具真實感和生命力。

Step-Audio-EditX 的核心能力

情感操控：涵蓋憤怒、開心、悲傷、興奮、恐懼、驚訝、厭惡等數(shù)十種情感標簽，支持多次迭代調(diào)整，以增強或減弱情感的表達力度。
風(fēng)格塑造：提供撒嬌、耳語、老人、小孩、嚴肅、慷慨、夸張等十余種多樣的說話風(fēng)格，并且支持這些風(fēng)格的疊加與微調(diào)，為音頻注入個性化色彩。
副語言注入：可以精確地在音頻中植入呼吸、笑聲、嘆氣、驚訝（oh/ah）、確認（en）、不滿（hnn）、疑問（ei）、嗯（uhm）等 10 類自然發(fā)生的語音片段，提升音頻的真實感。
零樣本語音合成：無需任何目標人物的語音樣本，即可精準克隆其音色。只需在文本前添加“”或“”等標簽，便能即時切換方言，實現(xiàn)高效的跨語言合成。
迭代式精修：同一段語音可進行反復(fù)編輯，且不同屬性（如情感與風(fēng)格）之間相互，互不干擾，效果層層遞進，逐步優(yōu)化。
開源且高效：提供 8bit 量化版本，僅需 8GB 顯存即可運行，在 4 張 A800/H800 顯卡上可獲得最佳音質(zhì)表現(xiàn)。項目包含推理與訓(xùn)練代碼，并提供 Gradio Demo 和 HF Space，方便用戶體驗和開發(fā)。

Step-Audio-EditX 的技術(shù)精髓

雙碼本音頻分詞技術(shù)：該技術(shù)并行運用了 16.7 Hz/1024 項的“語言碼本”和 25 Hz/4096 項的“語義碼本”。通過 2:3 的交錯切片方式，將任意語音統(tǒng)一轉(zhuǎn)化為離散的 token。這種方式能夠忠實地保留語音中的情感和韻律信息，為后續(xù) LLM 的直接操作構(gòu)建了豐富的“語音詞匯庫”。
3B 音頻大語言模型：模型以文本預(yù)訓(xùn)練的 3B 模型為基礎(chǔ)進行熱啟動。通過將文本 token 與雙碼本音頻 token 以格式拼接輸入，模型僅輸出音頻 token。訓(xùn)練數(shù)據(jù)中，文本與音頻的比例為 1:1，這充分利用了現(xiàn)有文本 LLM 生態(tài)的優(yōu)勢，實現(xiàn)了高效的后訓(xùn)練。
大間隔合成數(shù)據(jù)驅(qū)動：該模型無需引入額外的編碼器或 adapter。僅通過使用“同文本、異屬性（情感/風(fēng)格/副語言）”的成對數(shù)據(jù)進行 SFT+PPO 訓(xùn)練。大間隔的訓(xùn)練方式迫使模型學(xué)習(xí)屬性的解耦，從而實現(xiàn)迭代式的情感強度增減和多屬性的疊加。
流匹配 + BigVGANv2 解碼器：音頻 LLM 輸出的雙碼本 token，首先經(jīng)過 DiT-流匹配模塊生成 Mel 譜，然后由 BigVGANv2 聲碼器將其還原為音頻波形。通過 200k 小時的高質(zhì)量訓(xùn)練數(shù)據(jù)，確保了發(fā)音的準確性和音色的高度相似性。
統(tǒng)一化處理流程：一套完整的“分詞→LLM→解碼”管線，能夠同時支持零樣本 TTS、情感/風(fēng)格/副語言編輯、語速調(diào)節(jié)以及降噪等多種功能。無需為不同任務(wù)配置專屬模塊，極大地簡化了系統(tǒng)復(fù)雜度，并降低了推理成本。

Step-Audio-EditX 的項目入口

官方網(wǎng)站：https://stepaudiollm.github.io/step-audio-editx/
GitHub 倉庫：https://github.com/stepfun-ai/Step-Audio-EditX
HuggingFace 模型庫：https://huggingface.co/stepfun-ai/Step-Audio-EditX
技術(shù)論文（arXiv）：https://arxiv.org/pdf/2511.03601

Step-Audio-EditX 的應(yīng)用前景

豐富有聲內(nèi)容：無論是音頻書、播客還是新聞朗讀，都可以通過一鍵疊加“開心/悲傷/耳語”等情緒或風(fēng)格，無需重新錄制，即可快速生成不同版本的音頻，顯著提升聽眾的沉浸式體驗。
高效視頻與廣告配音：對于短視頻、動畫和廣告片，可以實現(xiàn)零樣本克隆角色音色，再通過迭代式編輯，添加“撒嬌、夸張、嚴肅”等風(fēng)格，從而以極低的成本實現(xiàn)多角色、多情緒的自動化配音。
賦能游戲與虛擬偶像：在游戲場景中，NPC 和虛擬主播（VTuber）可以通過一句參考語音克隆音色，并實時插入笑聲、呼吸、嘆氣等副語言，打造更加生動、具備持續(xù)互動性的角色語音。
提升智能客服體驗：智能客服機器人可以在原有 TTS 基礎(chǔ)上，將“平淡的答復(fù)”轉(zhuǎn)化為“熱情/安撫”的情緒，從而顯著改善用戶體驗。同時，支持方言標簽，能夠滿足不同地域用戶的個性化服務(wù)需求。
助力教育與語言學(xué)習(xí)：在線教育平臺和語言學(xué)習(xí) App 可以利用“老人/小孩/耳語”等風(fēng)格生成適合不同年齡段的讀音，或者將標準普通話即時切換為粵語、四川話，幫助學(xué)生更好地跟讀模仿，并有效降低教師的錄音成本。
優(yōu)化會議記錄與無障礙溝通：對于包含噪聲或冗長停頓的會議錄音，可以先進行“降噪+靜音修剪”的編輯，再根據(jù)需求調(diào)整語速或加入情感表達，最終生成清晰、易于理解的會議紀要音頻。

閱讀原文

# AI工具 # AI項目和框架 # AI音頻剪輯軟件 # 人聲提取工具 # 背景音樂移除軟件 # 音頻修復(fù)AI # 音頻降噪工具

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Step-Audio-EditX

Step-Audio-EditX – 階躍星辰開源的音頻編輯大模型

Step-Audio-EditX 的核心能力

Step-Audio-EditX 的技術(shù)精髓

Step-Audio-EditX 的項目入口

Step-Audio-EditX 的應(yīng)用前景

MOOME

Flova.ai

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？