標簽:音頻
谷歌深夜放復仇殺器Gemini,最強原生多模態史詩級碾壓GPT-4!語言理解首超人類
新智元報道編輯:編輯部【新智元導讀】傳說中的Gemini,終于在今天深夜上線了!「原生多模態」架構,是谷歌的史詩級創舉,Gemini也如愿在多個領域超越了GPT-4...
規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B
機器之心報道機器之心編輯部性能優于規模更大的模型。多模態學習面臨的主要挑戰之一是需要融合文本、音頻、視頻等異構的模態,多模態模型需要組合不同來源的...
微軟用GPT-4V解讀視頻,看懂電影還能講給盲人聽,1小時不是問題
機器之心報道編輯:Panda、陳萍差不多已經掌握語言能力的大模型正在進軍視覺領域,但具有里程碑意義的 GPT-4V 也仍有諸多不足之處,參閱《》。近日,微軟 Azu...
浙大拿下唯一最佳論文獎,中國團隊喜獲三項大獎!ACM MultiMedia 2023獎項揭幕
新智元報道編輯:LRS【新智元導讀】ACM MM 2023上中國團隊獲三項大獎,多媒體領域再獲新突破。近日,2023 ACM MultiMedia會議落下帷幕,中國大陸團隊在這次國...
多媒體頂會ACM Multimedia 2023各大獎項揭曉!浙大獲最佳論文,昆士蘭獲最佳學生論文
【導讀】第31屆ACM國際多媒體會議(ACM MM)于2023年10月29日至11月2日加拿大渥太華舉行。最佳論文,最佳學生論文,最佳demo, 最佳開源軟件在內的所有多媒體...
爆料!馬斯克 xAI 打造的ChatGPT競品被曝光!
夕小瑤科技說 原創作者 | 王二狗馬斯克旗下公司 xAI 的第一款AI模型曝光!名為:Grōk ,有望成為ChatGPT最強競品!Grōk是什么意思呢?二狗我問了一下GPT-4:G...
兩天star量破千:OpenAI的Whisper被蒸餾后,語音識別數倍加速
機器之心報道編輯:張倩模型小了,幻覺還減輕了。前段時間,「霉霉大秀中文」的視頻在各個社交媒體走紅,隨后又出現了「郭德綱大秀英語」等類似視頻。這些視...
Suno Ai : 文本轉歌曲不再難!媲美真實歌手,音樂界的Midjourney?
Suno Ai工具介紹:Suno是一家專門從文本生成AI音頻的美國創業公司。該公司最近推出了最新的文本到歌曲模型Chirp v1,它可以根據風格和歌詞生成音樂,包括人聲...
被 TWS 耳機剪掉的耳機線,什么時候還給我?
無線勝有線傳輸是關鍵智能手機的 Hi-Fi 就像燎原的野火一般,從智能手機的草原上匆匆掠過,燒得猛烈,也落得悲涼。如果要尋求手機 Hi-Fi 突然走向下坡路的時...
輸入文本就能生成音樂,Stability AI發布音樂生成工具Stable Audio
Stability AI 是一家專注于開源 AI 模型的創業公司,其旗下的 Stable Diffusion 是如今最好的圖片生成AI之一。9月14日,著名開源平臺Stability AI在官網發布...
幾行代碼,幾秒鐘就能生成令人驚嘆的音頻樣本!HuggingFace推出音頻生成Pipeline
夕小瑤科技說 原創編輯 | 謝年年音頻是我們日常生活中不可或缺的一部分,而如今,AI+音頻帶來了前所未有的體驗。通過AI技術,只需簡單地輸入一些文本提示就可...