標簽：音頻

谷歌深夜放復仇殺器Gemini，最強原生多模態(tài)史詩級碾壓GPT-4！語言理解首超人類

新智元報道編輯：編輯部【新智元導讀】傳說中的Gemini，終于在今天深夜上線了！「原生多模態(tài)」架構，是谷歌的史詩級創(chuàng)舉，Gemini也如愿在多個領域超越了GPT-4...

閱讀原文

AIGC動態(tài)

2年前 (2023)

規(guī)模小、效率高：DeepMind推出多模態(tài)解決方案Mirasol 3B

機器之心報道機器之心編輯部性能優(yōu)于規(guī)模更大的模型。多模態(tài)學習面臨的主要挑戰(zhàn)之一是需要融合文本、音頻、視頻等異構的模態(tài)，多模態(tài)模型需要組合不同來源的...

閱讀原文

AIGC動態(tài)

2年前 (2023)

微軟用GPT-4V解讀視頻，看懂電影還能講給盲人聽，1小時不是問題

機器之心報道編輯：Panda、陳萍差不多已經掌握語言能力的大模型正在進軍視覺領域，但具有里程碑意義的 GPT-4V 也仍有諸多不足之處，參閱《》。近日，微軟 Azu...

閱讀原文

AIGC動態(tài)

2年前 (2023)

浙大拿下唯一最佳論文獎，中國團隊喜獲三項大獎！ACM MultiMedia 2023獎項揭幕

新智元報道編輯：LRS【新智元導讀】ACM MM 2023上中國團隊獲三項大獎，多媒體領域再獲新突破。近日，2023 ACM MultiMedia會議落下帷幕，中國大陸團隊在這次國...

閱讀原文

AIGC動態(tài)

2年前 (2023)

多媒體頂會ACM Multimedia 2023各大獎項揭曉！浙大獲最佳論文，昆士蘭獲最佳學生論文

【導讀】第31屆ACM國際多媒體會議（ACM MM）于2023年10月29日至11月2日加拿大渥太華舉行。最佳論文，最佳學生論文，最佳demo，最佳開源軟件在內的所有多媒體...

閱讀原文

AIGC動態(tài)

2年前 (2023)

爆料！馬斯克 xAI 打造的ChatGPT競品被曝光！

夕小瑤科技說原創(chuàng)作者 | 王二狗馬斯克旗下公司 xAI 的第一款AI模型曝光！名為：Grōk ，有望成為ChatGPT最強競品！Grōk是什么意思呢？二狗我問了一下GPT-4：G...

閱讀原文

AIGC動態(tài)

2年前 (2023)

兩天star量破千：OpenAI的Whisper被蒸餾后，語音識別數倍加速

機器之心報道編輯：張倩模型小了，幻覺還減輕了。前段時間，「霉霉大秀中文」的視頻在各個社交媒體走紅，隨后又出現了「郭德綱大秀英語」等類似視頻。這些視...

閱讀原文

AIGC動態(tài)

2年前 (2023)

Suno Ai : 文本轉歌曲不再難！媲美真實歌手，音樂界的Midjourney？

Suno Ai工具介紹：Suno是一家專門從文本生成AI音頻的美國創(chuàng)業(yè)公司。該公司最近推出了最新的文本到歌曲模型Chirp v1，它可以根據風格和歌詞生成音樂，包括人聲...

閱讀原文

AIGC動態(tài)

2年前 (2023)

被 TWS 耳機剪掉的耳機線，什么時候還給我？

無線勝有線傳輸是關鍵智能手機的 Hi-Fi 就像燎原的野火一般，從智能手機的草原上匆匆掠過，燒得猛烈，也落得悲涼。如果要尋求手機 Hi-Fi 突然走向下坡路的時...

閱讀原文

AIGC動態(tài)

2年前 (2023)

輸入文本就能生成音樂，Stability AI發(fā)布音樂生成工具Stable Audio

Stability AI 是一家專注于開源 AI 模型的創(chuàng)業(yè)公司，其旗下的 Stable Diffusion 是如今最好的圖片生成AI之一。9月14日，著名開源平臺Stability AI在官網發(fā)布...

閱讀原文

AIGC動態(tài)

2年前 (2023)

幾行代碼，幾秒鐘就能生成令人驚嘆的音頻樣本！HuggingFace推出音頻生成Pipeline

夕小瑤科技說原創(chuàng)編輯 | 謝年年音頻是我們日常生活中不可或缺的一部分，而如今，AI+音頻帶來了前所未有的體驗。通過AI技術，只需簡單地輸入一些文本提示就可...

閱讀原文

AIGC動態(tài)

2年前 (2023)

1…4 56