8 人團(tuán)隊(duì)的開(kāi)源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:8 人團(tuán)隊(duì)的開(kāi)源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功
關(guān)鍵字:解讀,人工智能,模型,報(bào)告,音頻
文章來(lái)源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自「機(jī)器之心」。最近,一個(gè)對(duì)標(biāo) GPT-4o 的開(kāi)源實(shí)時(shí)語(yǔ)音多模態(tài)模型火了。這個(gè)開(kāi)源模型來(lái)自法國(guó)一個(gè)僅有 8 人的非營(yíng)利性 AI 研究機(jī)構(gòu) ——Kyutai,模型名為 Moshi,具備聽(tīng)、說(shuō)、看的多模態(tài)功能。圖靈獎(jiǎng)得主 Yann LeCun 轉(zhuǎn)發(fā)說(shuō)道:「Moshi 能聽(tīng)懂帶有法國(guó)口音的英語(yǔ)。」據(jù)悉,該團(tuán)隊(duì)開(kāi)發(fā)這個(gè)模型僅用了 6 個(gè)月。
的確,在研究團(tuán)隊(duì)演示的視頻中,我們發(fā)現(xiàn) Moshi 可以非常流利地回答人們提出的問(wèn)題,進(jìn)行日常對(duì)話交流,甚至可以猜出提問(wèn)者的意圖。
例如,當(dāng)提問(wèn)者說(shuō)「下個(gè)月打算去攀登珠穆朗瑪峰,我在想……」,提問(wèn)者話說(shuō)到一半,Moshi 就說(shuō)道:「太了不起了,你需要帶些什么裝備呢」,提問(wèn)者則表示:「這正是我想討論的話題,你覺(jué)得我需要帶些什么呢」。于是,Moshi 給出了一些攀登設(shè)備的專業(yè)建議,并回答了關(guān)于注意事項(xiàng)的問(wèn)題:
我們發(fā)現(xiàn) Moshi 還會(huì)開(kāi)些小玩笑:「你肯定不想穿著涼鞋去爬山」。
研究團(tuán)隊(duì)還用各種說(shuō)話風(fēng)格展示了 Moshi 表達(dá)和理解情緒的能力。例如,讓 Moshi 用法國(guó)口音誦讀詩(shī)句:
不過(guò)這首詩(shī)太長(zhǎng)了,研究人員打斷了 Moshi 的朗誦,M
原文鏈接:8 人團(tuán)隊(duì)的開(kāi)源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功
聯(lián)系作者
文章來(lái)源:Founder Park
作者微信:Founder-Park
作者簡(jiǎn)介:來(lái)自極客公園,專注與科技創(chuàng)業(yè)者聊「真問(wèn)題」。

粵公網(wǎng)安備 44011502001135號(hào)