AIGC動態歡迎閱讀
原標題:8人半年肝出開源版GPT-4o,0延遲演示全網沸騰!背后技術揭秘,人人免費用
關鍵字:模型,語音,音頻,團隊,演示
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:桃子 喬楊
【新智元導讀】GPT-4o或許還得等到今年秋季才對外開放。不過,由法國8人團隊打造的原生多模態Moshi,已經實現了接近GPT-4o的水平,現場演示幾乎0延遲,AI大佬紛紛轉發。沒想到,「開源版」GPT-4o這么快就來了!
昨夜,來自法國AI實驗室kyutai放出首個實時原生多模態Moshi,效果演示堪比5月發布的GPT-4o。
比如下面這個demo中,Moshi作為助手幫助Alexa小哥踏上太空之旅,讓人一秒幻視流浪地球中的Moss。
值得一提的是,這是8人團隊僅用了半年的時間,從頭完成了模型的訓練。
Moshi還處在實驗原型階段,設計初衷是為了理解和表達情感,能夠支持聽、說、看,可以用70種不同情緒和風格說話,甚至隨時打斷。
它最為突出的一個能力是,能夠同時處理兩個音頻流,即「聽」和「說」是同時進行的。
這種實時互動的實現,是基于文本和音頻混合的聯合預訓練,用Helium中合成的文本數據,訓出的70億參數的模型。
Moshi可以實現最低160ms端到端延遲。
而且,最小版本的Moshi還可以在筆記本電腦,或者消費級GPU上可跑。
許多人都說這是最接近G
原文鏈接:8人半年肝出開源版GPT-4o,0延遲演示全網沸騰!背后技術揭秘,人人免費用
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...