僅用4塊GPU、不到3天訓(xùn)練出「開源版GPT-4o」,這是國內(nèi)團(tuán)隊(duì)最新研究
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:僅用4塊GPU、不到3天訓(xùn)練出「開源版GPT-4o」,這是國內(nèi)團(tuán)隊(duì)最新研究
關(guān)鍵字:語音,指令,文本,模型,編碼器
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟、陳陳LLaMA-Omni能夠接收語音指令,同步生成文本和語音響應(yīng),響應(yīng)延遲低至 226ms,低于 GPT-4o 的平均音頻響應(yīng)延遲 320ms。以 ChatGPT 為代表的大型語言模型(LLM)已成為強(qiáng)大的通用任務(wù)解決器,但大多數(shù) LLM 僅支持基于文本的交互,這限制了它們在不適合文本輸入輸出的場景中的應(yīng)用。GPT-4o 的出現(xiàn)使得通過語音與 LLM 進(jìn)行交互成為可能。然而,開源社區(qū)對于構(gòu)建此類基于 LLM 的語音交互模型仍然缺乏探索。
實(shí)現(xiàn)與 LLM 進(jìn)行語音交互最簡單的方法是采用基于自動(dòng)語音識別(ASR)和語音合成(TTS)模型的級聯(lián)系統(tǒng),其中 ASR 模型將用戶的語音指令轉(zhuǎn)錄為文本, TTS 模型將 LLM 的響應(yīng)合成為語音。
然而,由于級聯(lián)系統(tǒng)依次輸出轉(zhuǎn)錄文本、文本響應(yīng)和語音響應(yīng),整個(gè)系統(tǒng)往往具有較高的延遲。相比之下,一些多模態(tài)語音 – 語言模型將語音離散化為 token 并擴(kuò)展 LLM 的詞表以支持語音輸入和輸出。這種語音 – 語言模型理論上可以直接從語音指令生成語音響應(yīng),無需生成中間文本,從而實(shí)現(xiàn)極低的響應(yīng)延遲。然而,在實(shí)踐中,由于涉及語音之間復(fù)雜
原文鏈接:僅用4塊GPU、不到3天訓(xùn)練出「開源版GPT-4o」,這是國內(nèi)團(tuán)隊(duì)最新研究
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: