一張照片,為深度學(xué)習(xí)巨頭們定制人像圖片
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一張照片,為深度學(xué)習(xí)巨頭們定制人像圖片
關(guān)鍵字:模型,保真度,文本,圖像,方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4811字
內(nèi)容摘要:
機(jī)器之心專欄
作者:InstantX 團(tuán)隊(duì)主題驅(qū)動(dòng)的文本到圖像生成,通常需要在多張包含該主題(如人物、風(fēng)格)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,這類方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但這類方案因?yàn)樾枰抡麄€(gè)網(wǎng)絡(luò)或較長時(shí)間的定制化訓(xùn)練,往往無法很有效地兼容社區(qū)已有的模型,并無法在真實(shí)場景中快速且低成本應(yīng)用。而目前基于單張圖片特征進(jìn)行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要對文生圖模型的全參數(shù)訓(xùn)練或 PEFT 微調(diào),影響原本模型的泛化性能,缺乏與社區(qū)預(yù)訓(xùn)練模型的兼容性,要么無法保持高保真度。
為了解決這些問題,來自 InstantX 團(tuán)隊(duì)的研究人員提出了 InstantID,該模型不訓(xùn)練文生圖模型的 UNet 部分,僅訓(xùn)練可插拔模塊,在推理過程中無需 test-time tuning,在幾乎不影響文本控制能力的情況下,實(shí)現(xiàn)高保真 ID 保持。論文標(biāo)題:InstantID: Zero-shot Identity-Preserving Generation in Seconds
論文地址:https
原文鏈接:一張照片,為深度學(xué)習(xí)巨頭們定制人像圖片
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)