碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
AIGC動態(tài)歡迎閱讀
原標題:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
關鍵字:模型,圖像,深度,語義,數(shù)據(jù)
文章來源:機器之心
內(nèi)容字數(shù):7401字
內(nèi)容摘要:
機器之心報道
編輯:Panda、蛋醬人類有兩只眼睛來估計視覺環(huán)境的深度信息,但機器人和 VR 頭社等設備卻往往沒有這樣的「配置」,往往只能靠單個攝像頭或單張圖像來估計深度。這個任務也被稱為單目深度估計(MDE)。
近日,一種可有效利用大規(guī)模無標注圖像的新 MDE 模型 Depth Anything 憑借強大的性能在社交網(wǎng)絡上引起了廣泛討論,試用者無不稱奇。
甚至有試用者發(fā)現(xiàn)它還能正確處理埃舍爾(M.C.Escher)那充滿錯覺的繪畫藝術(啟發(fā)了《碑谷》等游戲和藝術):從水上到水下,絲滑切換:更好的深度模型也得到了效果更好的以深度為條件的 ControlNet,可用于圖像生成和視頻編輯。如下圖所示,生成的內(nèi)容質(zhì)量得到了顯著增強:理論上說,基礎模型可用于解決單目深度估計(MDE)問題,即基于單張圖像估計深度信息。這類技術在機器人、自動駕駛、虛擬現(xiàn)實等領域都有廣闊的應用前景。但由于難以構(gòu)建帶有數(shù)千萬深度標簽的數(shù)據(jù)集,這一問題還少有研究者探索。
此前的 MiDaS 算得上是這個方向上的一項開創(chuàng)性研究,其基于一個混合標注的數(shù)據(jù)集訓練了一個 MDE 模型。盡管 MiDaS 展現(xiàn)出了一定程度的零
原文鏈接:碑谷式錯覺圖像都被「看穿」,港大、TikTok的Depth Anything火了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺