TPDM：創新時間預測擴散模型推動高校科研合作與發展

TPDM（時間預測擴散模型）是由西湖大學MAPLE實驗室、南方科技大學、北京大學以及西湖大學高等研究院先進技術研究所共同研發的圖像生成模型。該模型具備自適應調整去噪時間表的能力，旨在優化圖像質量與生成效率。TPDM通過即插即用的時間預測模塊（TPM），在每個去噪步驟中根據當前隱空間特征預測下一個噪聲水平。

TPDM是什么

TPDM（時間預測擴散模型）是一個先進的圖像生成模型，由西湖大學MAPLE實驗室、南方科技大學、北京大學及西湖大學高等研究院先進技術研究所聯合開發。該模型能夠自適應地調整去噪時間表，從而在提升圖像質量的同時提高生成效率。TPDM利用了即插即用的時間預測模塊（TPM），通過分析當前隱空間特征來預測下一個噪聲水平。該模型采用強化學習方法進行訓練，以最大化根據去噪步數調整的圖像質量獎勵，從而實現與人類偏好一致的高質量圖像生成。在Stable Diffusion 3 Medium架構下，TPDM能夠在更少的去噪步驟中提供更優性能，顯著提升圖像生成的效率和效果。

TPDM的主要功能

自適應噪聲調度：TPDM能夠根據每個推理實例的需求，自動調整去噪步驟和噪聲水平，靈活應對不同的圖像生成任務。
質量與效率平衡：通過動態調整去噪過程，TPDM在保證生成圖像質量的同時，減少所需的去噪步驟，從而提升模型的運行效率。
強化學習優化：TPDM的時間預測模塊（TPM）經過強化學習訓練，目標是最大化考慮去噪步數的圖像質量獎勵。
高質量圖像生成：TPDM能夠生成與人類審美高度一致的高質量圖像，滿足藝術與實際應用的需求。

TPDM的技術原理

時間預測模塊（TPM）：TPDM的核心即為這一即插即用模塊，能夠預測每個去噪步驟之后的下一個噪聲水平，基于當前隱空間特征進行調整。
強化學習訓練：TPM利用強化學習進行訓練，特別是采用了鄰近策略優化（PPO）算法，將多步去噪過程視為一條完整軌跡，以最終圖像質量（考慮去噪步數）作為獎勵信號。
圖像質量評價：圖像質量是通過與人類偏好對齊的獎勵模型進行評估，確保生成的圖像具備高清晰度，符合人類的審美標準。
動態調度策略：在推理過程中，TPDM能夠動態調整噪聲調度，自動決定去噪步驟的數量，以適應圖像的復雜性和內容。
優化擴散過程：在訓練階段，TPDM的擴散過程與推理過程保持一致，直接優化推理性能，減少去噪步驟，提高模型的實際應用效率。
輕量級集成：TPM作為一個輕量級模塊，能夠輕松集成到現有的擴散模型中，幾乎不增加額外的計算負擔，并自動調整超參數，以實現圖像質量與效率之間的最佳平衡。