原標題:單提示生成「主體一致」圖像,且無需訓練!已斬獲ICLR 2025 Spotlight
文章來源:新智元
內容字數:5466字
AI繪畫新突破:單提示單故事法實現人物形象一致
現今的AI繪畫技術已能根據文字描述生成高質量圖像,但要創作人物形象在不同場景下保持一致的故事,卻面臨挑戰。通常解決方法需要海量數據訓練或復雜模型修改,限制了應用范圍。南開大學、中科院等機構的研究人員提出了一種無需額外訓練的創新方法——“單提示單故事”(1Prompt1Story),有效解決了這一難題。
1. 1Prompt1Story的核心思想
1Prompt1Story的核心思想是將所有場景描述整合到一個超長提示中,直接輸入AI繪畫模型。這利用了語言模型的上下文理解能力,讓模型一開始就記住人物特征,保證初步一致性。 為了進一步優化,研究人員引入了兩項關鍵技術:奇異值重加權(SVR)和身份保持交叉注意力(IPCA)。
2. 關鍵技術詳解
2.1 奇異值重加權 (SVR):SVR通過奇異值分解分析詞向量重要性,增強當前場景描述的語義信息,同時弱化其他場景的干擾,確保模型關注焦點清晰。
2.2 身份保持交叉注意力 (IPCA):IPCA在圖像生成過程中,強化人物身份描述的特征,弱化場景描述對人物身份的影響,從而確保每一幀圖像都保持人物身份的一致性。
3. 與現有方法的比較
現有方法主要分為需要訓練和無需訓練兩類。需要訓練的方法耗時耗力,容易出現語言漂移;無需訓練的方法則可能資源消耗大或設計復雜,且忽略了長提示的內在特性,容易出現背景混淆等問題。1Prompt1Story方法則有效避免了這些缺點。
4. 實驗結果
實驗結果表明,1Prompt1Story在人物身份保持、圖像內容準確性以及圖像多樣性方面均優于現有方法。定量分析顯示,其文本與圖像對齊程度接近原始模型,身份一致性也僅次于IP-Adapter,但后者犧牲了圖像多樣性。1Prompt1Story在文本-圖像對齊和身份一致性之間取得了良好的平衡。
5. 總結
1Prompt1Story通過提示整合 (PCon)、奇異值重加權 (SVR) 和身份保持交叉注意力 (IPCA) 三個步驟,實現了高效的人物身份一致性圖像生成。該方法無需額外訓練,且在實驗中展現出優異的性能,為AI繪畫技術的發展提供了新的方向。
6. 未來展望
該研究成果展示了利用語言模型內在能力進行圖像生成的潛力,未來可以探索將其應用于更復雜的場景,例如多主體故事生成和更長故事的生成,以及與不同基礎模型的結合,進一步提升AI繪畫的表達能力和創作效率。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。