讓大模型能聽會(huì)說(shuō),國(guó)內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語(yǔ)音對(duì)話模型Mini-Omni
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:讓大模型能聽會(huì)說(shuō),國(guó)內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語(yǔ)音對(duì)話模型Mini-Omni
關(guān)鍵字:語(yǔ)音,文本,模型,能力,方案
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自啟元世界多模態(tài)算法組,共同一作是來(lái)自清華大學(xué)的一年級(jí)碩士生謝之非與啟元世界多模態(tài)負(fù)責(zé)人吳昌橋,研究興趣為多模態(tài)大模型、LLM Agents 等。本論文上線幾天內(nèi)在 github 上斬獲 1000+星標(biāo)。
隨著多類型大模型的飛速發(fā)展,全球 AI 已經(jīng)進(jìn)入到了多模交互時(shí)代。
2024 年 5 月,OpenAI 推出了全新的多模態(tài)模型 GPT4o,引起全球轟動(dòng)。其中GPT4o展現(xiàn)出了與人類相近的自然語(yǔ)言交互能力,實(shí)現(xiàn)了 AI 能同時(shí)讀懂人類語(yǔ)音中的內(nèi)容及情緒,并實(shí)時(shí)做出反饋。同時(shí),GPT4o 也給眾多語(yǔ)音研究人員帶來(lái)「新的春天」,語(yǔ)音文本多模態(tài)大模型成為熱門研究方向。
實(shí)現(xiàn)類似 GPT4o 實(shí)時(shí)語(yǔ)音交互能力的核心是模型能夠直接在語(yǔ)音模態(tài)上進(jìn)行理解和推理,這與
原文鏈接:讓大模型能聽會(huì)說(shuō),國(guó)內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語(yǔ)音對(duì)話模型Mini-Omni
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: