AIGC動態歡迎閱讀
原標題:別等GPT-4o啦,國產「開源版」GPT-4o 來了!支持全模態、無障礙交流
關鍵字:騰訊,音頻,模型,數據,文本
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年騰訊最近的多模態進展有點子“一路高歌”,先是騰訊元寶升級了一模態能力,就差把GPT-4o從榜一拉下來了。
最近,又搞了一個和GPT-4o對標的交互式多模態模型——VITA,而且率先開源了。
每次使用Siri時,都得先說個喚醒詞,比如“Hi! Siri”,或者按個按鈕才能開始說話。而且,當機器在回答用戶提問的時候,用戶就不能繼續提問了,因為它只能按順序處理輸入。
這次,騰訊提出了VITA,打破了這一限制!
“VITA”看這名字就知道,其能夠同時處理和分析 Video(視頻)、Image(圖像)、Text(文本) 和 Audio(音頻)。VITA不僅具備強大的多語言、視覺和音頻理解基礎能力,在各種單模態和多模態基準測試中表現強勁。更重要的是,VITA帶來了兩個超棒的改進:
無需喚醒的交互:VITA很聰明,能自動忽略周圍環境中的無關聲音,如他人的談話。所以你不用再說喚醒詞,也不用按按鈕,就能自然而然地與VITA展開對話。
音頻中斷的交互:當VITA正在回答時,如果用戶突然想到另一個問題,只需直接說出,VITA便能立即暫停當前回答,迅速轉向并解答新問題。這
原文鏈接:別等GPT-4o啦,國產「開源版」GPT-4o 來了!支持全模態、無障礙交流
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...