Lego-Edit – 小米開源的圖像編輯框架
核心觀點: Lego-Edit 是小米開源的一款基于多模態(tài)大語言模型的智能圖像編輯框架,它通過創(chuàng)新的三階段強(qiáng)化學(xué)習(xí)訓(xùn)練策略和模型級工具包,實現(xiàn)了對圖像的靈活、高效、精確編輯,并具備強(qiáng)大的泛化能力和易于擴(kuò)展的特性,適用于創(chuàng)意設(shè)計、內(nèi)容創(chuàng)作、電商、教育及個人美化等廣泛場景。
Lego-Edit:智能圖像編輯新范式
Lego-Edit 是一款由小米推出的前沿開源框架,它巧妙地融合了多模態(tài)大語言模型(MLLM)的強(qiáng)大泛化能力與精細(xì)化的圖像編輯指令,為用戶帶來了前所未有的靈活圖像處理體驗。這款框架的核心在于其創(chuàng)新的模型級工具包,其中匯聚了多種經(jīng)過高效訓(xùn)練的模型,能夠執(zhí)行豐富多樣的圖像操作,從而讓用戶能夠以自然語言指令驅(qū)動復(fù)雜的圖像編輯流程。
Lego-Edit 的核心優(yōu)勢與功能亮點
Lego-Edit 的強(qiáng)大之處體現(xiàn)在其卓越的圖像編輯能力上。它不僅能夠勝任局部、全局的精細(xì)化編輯,更能處理復(fù)雜的多步驟編輯任務(wù),滿足用戶在各種場景下的個性化需求。得益于 MLLM 的智能理解,Lego-Edit 能夠精準(zhǔn)解析開放域的指令,即使是未曾遇到的指令,也能憑借其出色的推理能力進(jìn)行有效執(zhí)行。
該框架的另一大亮點是其模型級工具包,這些工具經(jīng)過精心設(shè)計,能夠在有限的數(shù)據(jù)集上實現(xiàn)高效訓(xùn)練,為 MLLM 提供了執(zhí)行細(xì)粒度編輯操作的強(qiáng)大后盾。更令人稱道的是,Lego-Edit 支持在無需重新訓(xùn)練模型的前提下,輕松集成新的編輯工具,極大地增強(qiáng)了其功能的可擴(kuò)展性,能夠靈活應(yīng)對不斷演進(jìn)的圖像編輯需求。
為了實現(xiàn)對編輯區(qū)域的精確控制,Lego-Edit 引入了掩碼輸入機(jī)制,用戶可以通過掩碼精確劃定編輯目標(biāo),從而實現(xiàn)更加精準(zhǔn)的局部修改。此外,Lego-Edit 以開源的形式提供,代碼遵循 Apache 2.0 許可,模型則采用 CC BY-NC 4.0 許可,大大降低了使用門檻,用戶只需簡單的環(huán)境配置和模型下載,便可通過 Gradio WebUI 開啟智能圖像編輯之旅。
Lego-Edit 的技術(shù)基石
Lego-Edit 的技術(shù)核心圍繞著幾個關(guān)鍵要素構(gòu)建。首先是其模型級工具包,集成了多種功能各異的高效訓(xùn)練模型,為圖像編輯提供了豐富的底層能力。其次,多模態(tài)大語言模型(MLLM)驅(qū)動是整個框架的靈魂,MLLM 負(fù)責(zé)理解用戶指令,并智能協(xié)調(diào)工具包中的模型來完成具體的編輯任務(wù)。
在訓(xùn)練策略上,Lego-Edit 采用了三階段漸進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練。初始階段通過監(jiān)督微調(diào)(SFT)奠定基礎(chǔ),隨后在特定任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)(RL)以培養(yǎng)推理和工具使用能力,最后利用海量未標(biāo)注指令進(jìn)行額外的 RL 訓(xùn)練,借助大規(guī)模的批評模型反饋,顯著提升了框架處理靈活指令的能力。
掩碼輸入機(jī)制的引入,使得用戶能夠精確指定編輯區(qū)域,進(jìn)一步提升了編輯的靈活性和準(zhǔn)確性。而無需重新訓(xùn)練的工具整合能力,則保證了框架能夠快速適應(yīng)新工具,保持高效和良好的可擴(kuò)展性。
Lego-Edit 的廣闊應(yīng)用前景
Lego-Edit 的智能與靈活性使其在多個領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。
創(chuàng)意設(shè)計領(lǐng)域
設(shè)計師可以利用 Lego-Edit 快速將創(chuàng)意轉(zhuǎn)化為視覺作品,通過簡單的指令實現(xiàn)復(fù)雜的圖像合成、風(fēng)格轉(zhuǎn)換,極大地提升設(shè)計效率并激發(fā)更多靈感。
內(nèi)容創(chuàng)作與編輯
無論是視頻制作、廣告設(shè)計還是社交媒體內(nèi)容,Lego-Edit 都能幫助創(chuàng)作者高效地修改圖像素材,如調(diào)整色彩、更換背景、添加特效等,滿足多樣化的內(nèi)容需求。
電商與產(chǎn)品展示
電商商家可以通過 Lego-Edit 對產(chǎn)品圖片進(jìn)行優(yōu)化,修復(fù)瑕疵、調(diào)整光照、甚至添加虛擬場景,從而提升產(chǎn)品吸引力,促進(jìn)銷售。
教育與培訓(xùn)
在教育領(lǐng)域,Lego-Edit 可作為強(qiáng)大的教學(xué)工具,幫助學(xué)生掌握圖像編輯技巧,培養(yǎng)創(chuàng)造力。同時,教師也能借此快速制作高質(zhì)量的教學(xué)素材。
個人照片美化
普通用戶也能輕松使用 Lego-Edit 對個人照片進(jìn)行美化,如去除背景、調(diào)整膚色、添加裝飾,制作出令人滿意的照片用于分享或珍藏。
虛擬現(xiàn)實與游戲開發(fā)
在 VR 和游戲開發(fā)中,Lego-Edit 能夠加速圖像資源的生成與修改,如角色外觀、場景元素等,提升開發(fā)效率并豐富視覺體驗。
項目資源獲取
- 項目官網(wǎng):https://xiaomi-research.github.io/lego-edit/
- Github倉庫:https://github.com/xiaomi-research/lego-edit
- arXiv技術(shù)論文:https://arxiv.org/pdf/2509.12883

粵公網(wǎng)安備 44011502001135號