標簽:本文
CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
首個基于Mamba的MLLM來了!模型權重、訓練代碼等已全部開源
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
ICLR 2024 | 聯邦學習攻擊的模型關鍵層
機器之心專欄 機器之心編輯部聯邦學習使多個參與方可以在數據隱私得到保護的情況下訓練機器學習模型。但是由于服務器無法監控參與者在本地進行的訓練過程,參...
攻陷短視頻后,Sora將需要72萬塊H100 GPU
機器之心報道 編輯:趙陽在被大規模采用后,Sora 的推理成本將很快超過訓練成本。OpenAI 推出的 Sora 模型能夠在各種場景下生成極其逼真的視頻,吸引了全世界...
擴散模型進軍專業圖層,斯坦福提出LayerDiffuse實現分層擴散,效果直逼商業網站
大數據文摘受權轉載自將門創投 目前,視覺擴散生成模型(如Stable Diffusion等)在常規圖像生成任務上獲得了非常好的效果,但是在內容制作的專業領域,例如對...
討論下一個token預測時,我們可能正在走進陷阱
機器之心報道 編輯:趙陽自香農在《通信的數學原理》一書中提出「下一個 token 預測任務」之后,這一概念逐漸成為現代語言模型的核心部分。最近,圍繞下一個 ...
CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術
機器之心報道 編輯:Rome Rome視頻理解因大量時空冗余和復雜時空依賴,同時克服兩個問題難度巨大,CNN 和 Transformer 及 Uniformer 都難以勝任,Mamba 是個...
拖拽P圖技術又升級了:StableDrag更穩、更準,南大、騰訊聯合打造
機器之心報道 編輯:杜偉、陳萍去年 5 月,動動鼠標就能讓圖片變「活」得研究 DragGAN 吸引了 AI 圈的關注。通過拖拽,我們可以改變并合成自己想要的圖像,比...
全面超越ViT,美團、浙大等提出視覺任務統一架構VisionLLAMA
機器之心專欄 機器之心編輯部半年多來,Meta 開源的 LLaMA 架構在 LLM 中經受了考驗并大獲成功(訓練穩定、容易做 scaling)。 沿襲 ViT 的研究思路,我們能...
拆解一下字節的燒錢工作,MegaScale!
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身...
RAG還是微調?微軟出了一份特定領域大模型應用建設流程指南
機器之心報道 編輯:rome檢索增強生成(RAG)和微調(Fine-tuning)是提升大語言模型性能的兩種常用方法,那么到底哪種方法更好?在建設特定領域的應用時哪種...
GPT-4V只能排第二!華科大等發布多模態大模型新基準:五大任務14個模型全面測評
新智元報道編輯:LRS 好困 【新智元導讀】華中科技大學聯合華南理工大學、北京科技大學等機構的研究人員對14個主流多模態大模型進行了全面測評,涵蓋5個任務...
根據模型輸出反轉LLM輸入提示,讓惡意攻擊無處可藏
大數據文摘授權轉載自將門創投 作者:seven_ 近一段時間以來,工業界和學術界都對大型語言模型(LLM)的內部運行機理進行了深入的研究和探索。這種基礎理論研...
47年前經典影片另類重制,從宇宙到原子皆是生成
機器之心報道 作者:大盤雞從廣角視圖到微距拍攝,每一步由你來決定。 以躺在草坪上的男人為中心,將鏡頭畫面按照 10 倍的比例不斷擴展,你將看到一億光年外...
驍龍888實時運行,美團、浙大等打造全流程移動端多模態大模型MobileVLM
機器之心報道 機器之心編輯部大模型涌向移動端的浪潮愈演愈烈,終于有人把多模態大模型也搬到了移動端上。近日,美團、浙大等推出了能夠在移動端部署的多模態...