標(biāo)簽:分辨率
輕松拿捏4K高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便
陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網(wǎng)頁、海報、Excel圖表內(nèi)容的大模型,對于打工人來說簡直不要太方便。 上海AI Lab,香港中文...
生成擴散模型漫談:信噪比與大圖生成
導(dǎo)讀本文作者為蘇劍林,來自月之暗面。這篇文章介紹了 Simple Diffusion,這是一篇探索如何直接在 Pixel 空間中端到端地訓(xùn)練圖像擴散模型的工作,利用了信噪...
索尼 PS5 Pro 或年底發(fā)布,開發(fā)者已收到適配通知
PS5 PRO 即將發(fā)布? 距離索尼發(fā)布 PS5 已經(jīng)過去三年多了,其全球銷量也已經(jīng)達到了驚人的四千多萬臺。 現(xiàn)在,它的升級款有新消息了。有爆料稱今年 11 月份,會...
北大字節(jié)開辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測下一個token
魚羊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI北大和字節(jié)聯(lián)手搞了個大的: 提出圖像生成新范式,從預(yù)測下一個token變成預(yù)測下一級分辨率,效果超越Sora核心組件Dif...
無需訓(xùn)練,這個新方法實現(xiàn)了生成圖像尺寸、分辨率
機器之心專欄 機器之心編輯部近日,來自香港中文大學(xué) - 商湯科技聯(lián)合實驗室等機構(gòu)的研究者們提出了FouriScale,該方法在利用預(yù)訓(xùn)練擴散模型生成高分辨率圖像...
揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
機器之心專欄 機器之心編輯部GPT-4V 的推出引爆了多模態(tài)大模型的研究。GPT-4V 在包括多模態(tài)問答、推理、交互在內(nèi)的多個領(lǐng)域都展現(xiàn)了出色的能力,成為如今最領(lǐng)...
通用文檔理解新SOTA,多模態(tài)大模型TextMonkey來了
機器之心專欄 機器之心編輯部最近,華中科技大學(xué)和金山的研究人員在多模態(tài)大模型 Monkey [1](Li et al., CVPR2024)工作的基礎(chǔ)上提出 TextMonkey。在多個場...
北大發(fā)起復(fù)現(xiàn)Sora,框架已搭!袁粒田永鴻領(lǐng)銜,AnimateDiff大神響應(yīng)
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI重磅: 北大團隊發(fā)起了一項Sora復(fù)現(xiàn)計劃——Open Sora。 框架、實現(xiàn)細節(jié)已出: 初始團隊一共13人: 帶隊的是北大信息工...
一句話讓姐為我換了N套衣服,谷歌卷出視頻生成新高度,網(wǎng)友:競賽加碼
魚羊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI谷歌一出手,又把AI視頻生成卷上了新高度。 一句話生成視頻,現(xiàn)在在名為Lumiere的AI操刀下,可以是醬嬸的: △“陽光明...
華為盤古畫畫3.0:業(yè)界最大的中文文生圖模型,效果YYDS!
直播預(yù)告 | 1月17日晚7點,「多模態(tài)大模型線上閉門會」正式開講!阿里巴巴通義實驗室 NLP 高級算法專家嚴(yán)明參與出品,攜手劉兆洋、李彥瑋、文束三位青年學(xué)者...
清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
作者 | 凌敏 近日,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Ground...
突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI現(xiàn)在連文檔都有大模型了,還是高分辨率、多模態(tài)的那種!不僅能準(zhǔn)確識別出圖像里的信息,還能結(jié)合用戶需求調(diào)用自己...
我的眼睛就是尺!80億參數(shù)OtterHD帶你「清明上河圖」數(shù)駱駝!南洋理工華人團隊打造
新智元報道編輯:好困【新智元導(dǎo)讀】最近,由南洋理工華人團隊新提出的80億參數(shù)多模態(tài)大模型OtterHD,不僅可以搞定讓GPT-4V都發(fā)愁的難題,甚至還可以數(shù)出來《...
蘋果文生圖大模型亮相:套娃式擴散,支持1024×1024分辨率
機器之心報道編輯:杜偉、小舟習(xí)慣了 Stable Diffusion,如今終于又迎來一個俄羅斯套娃式(Matryoshka)Diffusion 模型,還是蘋果做的。在生成式 AI 時代,擴...
蘋果“套娃”式擴散模型,訓(xùn)練步數(shù)減少七成!
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI蘋果的一項最新研究,大幅提高了擴散模型在高分辨率圖像上性能。利用這種方法,同樣分辨率的圖像,訓(xùn)練步數(shù)減少了...
12