AIGC動態歡迎閱讀
內容摘要:
古紓旸 投稿量子位 | 公眾號 QbitAI文生圖、文生視頻,視覺生成賽道火熱,但仍存在亟需解決的問題。
微軟亞洲研究院研究員古紓旸對此進行了梳理,他認為視覺信號拆分是最本質的問題。
生成模型的目標是擬合目標數據分布,然而,目標數據分布過于復雜,難以直接擬合。
因此,往往需要將復雜的信號做拆分,拆分成多個簡單的分布擬合問題,再分別求解。信號拆分方式的不同產生了不同的生成模型。
此外,針對一些熱點問題他也展開進行了分析,一共六大問題,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么樣的?
以下是部分問題的具體討論。
視覺信號拆分問題為什么大語言模型能這么成功?
作者認為,最本質的原因是文本信號拆分具有“等變性”。
具體來說,對于一個文本序列A=x0,x1,x2…語言模型會根據位置把P(x0,x1,x2…)的聯合數據分布拆分成多個條件概率分布擬合問題:
P(x0),P(x1|x0),P(x2|x0,x1)…對于一個文本,比如說“我喜歡打籃球”,用自回歸的方式進行擬合,那么對于從“打”回歸“籃球”這個子任務,和它是文本中的第幾個詞沒有關系。
原文鏈接:MSRA:視覺生成六大技術問題
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...