OpenAI最新發布：只需15秒音頻，Voice Engine即可幫助失語者“重獲聲音”

AIGC動態1年前 (2024)發布人工智能學家

AIGC動態歡迎閱讀

原標題：OpenAI最新發布：只需15秒音頻，Voice Engine即可幫助失語者“重獲聲音”
關鍵字：語音,聲音,人工智能,說話,語言
文章來源：人工智能學家
內容字數：2952字

內容摘要：

今日凌晨，OpenAI 在官網分享了他們在 AI 語音合成方面的一些進展——公布了一個名為“語音引擎”（Voice Engine）的模型的小規模預覽的初步見解和結果。
據介紹，該模型使用文本輸入和單個 15 秒音頻樣本來生成與原始說話者非常相似的自然語音。值得注意的是，一個只有 15 秒樣本的小型模型就能生成富有感情和逼真的聲音。
早在 2022 年底，OpenAI 便開發了 Voice Engine 并將其用于支持文本到語音 API 中的預設語音以及 ChatGPT 語音和朗讀。
今天，通過一些實際案例，OpenAI 分享了一些 Voice Engine 的早期應用。
例如，使用 Voice Engine 幫助恢復一名因血管性腦腫瘤而失去流利語言能力的年輕患者的聲音。此外，Voice Engine 還可以被用來提供閱讀幫助、翻譯內容、為不會說話的人群提供支持等。
1）通過聲音自然、富有感情的聲音為非閱讀者和兒童提供閱讀幫助
這些聲音代表了更廣泛的說話者，而不是預設的聲音。Age of Learning 是一家教育技術公司，該公司一直在使用 Voice Engine 生成預設的畫外音（