Stream-Omni – 中科院聯(lián)合國(guó)科大推出的語(yǔ)言視覺(jué)語(yǔ)音模型
Stream-Omni是一款由中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)院人工智能安全重點(diǎn)實(shí)驗(yàn)室及中國(guó)科學(xué)院大學(xué)攜手打造的,堪比GPT-4o的大型語(yǔ)言視覺(jué)語(yǔ)音模型。它支持多種模態(tài)組合的交互,核心在于其強(qiáng)大的語(yǔ)言理解與生成能力,以及在視覺(jué)理解、語(yǔ)音交互和視覺(jué)引導(dǎo)的語(yǔ)音交互方面的卓越表現(xiàn)。該模型基于少量全模態(tài)數(shù)據(jù)訓(xùn)練,即可實(shí)現(xiàn)高效的模態(tài)對(duì)齊和交互能力,提供更豐富的多模態(tài)交互體驗(yàn)。
揭秘Stream-Omni:一款多模態(tài)交互的先鋒
Stream-Omni,這款由中國(guó)科學(xué)院科研機(jī)構(gòu)傾力打造的先進(jìn)模型,如同一個(gè)精通多門(mén)語(yǔ)言的博學(xué)者,它不僅能理解文本,還能“看懂”圖像,“聽(tīng)懂”語(yǔ)音,并用文字和聲音做出回應(yīng)。其核心在于強(qiáng)大的語(yǔ)言模型,它如同堅(jiān)實(shí)的骨干,支撐著模型在多模態(tài)世界中穿梭。Stream-Omni能夠同時(shí)處理文本、視覺(jué)(圖像)和語(yǔ)音等多種信息,實(shí)現(xiàn)文本與視覺(jué)的精準(zhǔn)對(duì)齊,語(yǔ)音與文本的無(wú)縫銜接,為用戶(hù)帶來(lái)前所未有的交互體驗(yàn)。
Stream-Omni:功能亮點(diǎn)一覽
- 多模態(tài)輸入與輸出的完美融合:支持文本、圖像、語(yǔ)音的多元輸入,并能以文本和語(yǔ)音兩種形式進(jìn)行輸出,實(shí)現(xiàn)跨模態(tài)的流暢溝通。
- “邊聽(tīng)邊看”的沉浸式體驗(yàn):在語(yǔ)音交互過(guò)程中,Stream-Omni能夠同步輸出中間文本結(jié)果,例如自動(dòng)語(yǔ)音識(shí)別的轉(zhuǎn)錄和模型響應(yīng),讓交互過(guò)程更加直觀、豐富。
- 高效訓(xùn)練,數(shù)據(jù)需求更低:得益于創(chuàng)新的技術(shù)架構(gòu),Stream-Omni僅需少量全模態(tài)數(shù)據(jù)即可完成訓(xùn)練,顯著降低了對(duì)數(shù)據(jù)量的依賴(lài),提升了訓(xùn)練效率。
- 靈活多變的交互模式:支持多種模態(tài)組合的交互,例如文本+視覺(jué)到文本、文本+視覺(jué)到語(yǔ)音、語(yǔ)音+視覺(jué)到文本、語(yǔ)音+視覺(jué)到語(yǔ)音等,滿(mǎn)足不同場(chǎng)景下的多樣化需求。
- 卓越的視覺(jué)理解與語(yǔ)音交互能力:在視覺(jué)理解和語(yǔ)音交互任務(wù)中,Stream-Omni表現(xiàn)出色,能夠準(zhǔn)確理解并生成與視覺(jué)內(nèi)容相關(guān)的文本和語(yǔ)音信息。
Stream-Omni的幕后技術(shù)
- 以大型語(yǔ)言模型為核心:以強(qiáng)大的大型語(yǔ)言模型(LLM)為基礎(chǔ),賦予Stream-Omni卓越的語(yǔ)言理解和生成能力,為多模態(tài)交互奠定堅(jiān)實(shí)基礎(chǔ)。
- 視覺(jué)文本對(duì)齊的巧妙實(shí)現(xiàn):通過(guò)序列維度拼接的方式,將視覺(jué)特征與文本輸入融合,再共同輸入到LLM中,實(shí)現(xiàn)視覺(jué)與文本模態(tài)的精準(zhǔn)對(duì)齊。
- 語(yǔ)音文本對(duì)齊的創(chuàng)新方案:引入基于CTC的層維度映射,在LLM的底部和頂部添加語(yǔ)音層,實(shí)現(xiàn)語(yǔ)音到文本的映射和文本到語(yǔ)音的生成,實(shí)現(xiàn)語(yǔ)音與文本模態(tài)的無(wú)縫對(duì)接。
- 多任務(wù)學(xué)習(xí)策略:通過(guò)多任務(wù)學(xué)習(xí),同時(shí)訓(xùn)練視覺(jué)文本、語(yǔ)音文本及全模態(tài)任務(wù),使模型能夠更好地理解和生成多模態(tài)內(nèi)容。
- 實(shí)時(shí)語(yǔ)音生成的流暢體驗(yàn):基于特殊的語(yǔ)音層設(shè)計(jì)和層維度映射,Stream-Omni能夠在生成文本的同時(shí),實(shí)時(shí)生成對(duì)應(yīng)的語(yǔ)音輸出,帶來(lái)流暢自然的交互體驗(yàn)。
- 數(shù)據(jù)驅(qū)動(dòng)與監(jiān)督學(xué)習(xí)的完美結(jié)合:模型依賴(lài)少量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)精心設(shè)計(jì)的對(duì)齊機(jī)制和多任務(wù)學(xué)習(xí),在有限的數(shù)據(jù)上實(shí)現(xiàn)高效的模態(tài)對(duì)齊和交互能力。
探索Stream-Omni的世界
產(chǎn)品官網(wǎng):由于該項(xiàng)目由中國(guó)科學(xué)院科研機(jī)構(gòu)聯(lián)合推出,目前沒(méi)有專(zhuān)門(mén)的產(chǎn)品官網(wǎng)。您可以關(guān)注中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)院人工智能安全重點(diǎn)實(shí)驗(yàn)室及中國(guó)科學(xué)院大學(xué)的官方信息。
項(xiàng)目地址:
- GitHub倉(cāng)庫(kù):https://github.com/ictnlp/Stream-Omni
- HuggingFace模型庫(kù):https://huggingface.co/ICTNLP/stream-omni-8b
- arXiv技術(shù)論文:https://arxiv.org/pdf/2506.13642
Stream-Omni的應(yīng)用場(chǎng)景暢想
- 智能車(chē)載系統(tǒng):想象一下,您可以通過(guò)語(yǔ)音指令查詢(xún)路線、獲取路況,系統(tǒng)結(jié)合導(dǎo)航地圖、路況攝像頭圖像,實(shí)時(shí)顯示文本提示和語(yǔ)音反饋,讓駕駛更安全、更便捷。
- 教育輔助工具:在課堂上,學(xué)生可以通過(guò)語(yǔ)音提問(wèn),系統(tǒng)結(jié)合教材視覺(jué)內(nèi)容(如插圖、圖表),給出詳細(xì)的文本解釋和語(yǔ)音回答,助力學(xué)生更好地理解和學(xué)習(xí)知識(shí)。
- 智能家居控制:作為智能家居助手,您可以通過(guò)語(yǔ)音指令控制家電設(shè)備,系統(tǒng)結(jié)合攝像頭捕捉的環(huán)境信息,提供文本或語(yǔ)音反饋,實(shí)現(xiàn)更智能、便捷的家居控制。
- 醫(yī)療輔助診斷:醫(yī)生在查看患者病歷時(shí),通過(guò)語(yǔ)音指令查詢(xún)關(guān)鍵信息,系統(tǒng)結(jié)合X光片、CT圖像等視覺(jué)報(bào)告,提供詳細(xì)的文本分析和語(yǔ)音解釋?zhuān)o助醫(yī)生更準(zhǔn)確地做出診斷。
- 智能客服服務(wù):在客服領(lǐng)域,客服人員可以通過(guò)語(yǔ)音與客戶(hù)交流,系統(tǒng)實(shí)時(shí)顯示相關(guān)文本信息和視覺(jué)提示(如產(chǎn)品圖片、操作流程圖),幫助客服人員快速理解客戶(hù)需求并提供準(zhǔn)確解答,提升服務(wù)質(zhì)量和效率。
常見(jiàn)問(wèn)題解答
Q: Stream-Omni與其他多模態(tài)模型的區(qū)別是什么?
A: Stream-Omni在語(yǔ)音處理方面具有獨(dú)特的優(yōu)勢(shì),它能夠?qū)崿F(xiàn)更流暢的語(yǔ)音交互,并在視覺(jué)理解和語(yǔ)音交互任務(wù)上表現(xiàn)出色。同時(shí),它基于少量數(shù)據(jù)進(jìn)行訓(xùn)練,具有更高的訓(xùn)練效率。
Q: Stream-Omni的應(yīng)用前景如何?
A: Stream-Omni在智能車(chē)載、教育、智能家居、醫(yī)療、客服等多個(gè)領(lǐng)域都有廣闊的應(yīng)用前景,有望改變我們與設(shè)備交互的方式,提升工作效率和生活質(zhì)量。

粵公網(wǎng)安備 44011502001135號(hào)