OS-Genesis來了,自動收集和標(biāo)注Agent數(shù)據(jù),高效且多樣
OS-Genesis 為生成高質(zhì)量 GUI agents 訓(xùn)練軌跡數(shù)據(jù)提供了一個有前景的方向

原標(biāo)題:OS-Genesis來了,自動收集和標(biāo)注Agent數(shù)據(jù),高效且多樣
文章來源:機器之心
內(nèi)容字?jǐn)?shù):8560字
OS-Genesis: 自動化構(gòu)建GUI代理軌跡數(shù)據(jù)的新方法
本文介紹了上海人工智能實驗室、香港大學(xué)等機構(gòu)合作提出的OS-Genesis框架,該框架旨在自動化構(gòu)建高質(zhì)量的GUI代理軌跡數(shù)據(jù),解決當(dāng)前數(shù)字代理領(lǐng)域數(shù)據(jù)稀缺性的關(guān)鍵挑戰(zhàn)。
1. 背景與挑戰(zhàn)
有效的數(shù)字代理需要具備任務(wù)規(guī)劃和動作執(zhí)行能力。構(gòu)建高質(zhì)量的GUI代理的關(guān)鍵在于高質(zhì)量的軌跡數(shù)據(jù),但現(xiàn)有的數(shù)據(jù)采集方法存在高成本和數(shù)據(jù)局限性等問題:人工標(biāo)注成本高昂,基于預(yù)定義任務(wù)的合成數(shù)據(jù)缺乏多樣性,且容易與真實環(huán)境脫節(jié)。
2. OS-Genesis框架
OS-Genesis的核心思想是通過反向任務(wù)合成(Reverse Task Synthesis)來生成高質(zhì)量的GUI軌跡數(shù)據(jù)。該框架無需人工監(jiān)督或預(yù)定義任務(wù),其流程如下:
- 動作記錄與狀態(tài)捕捉:系統(tǒng)性地執(zhí)行基本GUI動作(CLICK、TYPE、SCROLL等),記錄動作前后狀態(tài)變化,生成?狀態(tài)前,動作,狀態(tài)后?三元組數(shù)據(jù)。
- 低階指令生成:利用GPT-4等大型語言模型,將三元組轉(zhuǎn)化為描述具體操作的低階指令(例如,“點擊下拉菜單以顯示選項”)。
- 高階任務(wù)生成:基于低階指令和GUI環(huán)境,生成更抽象且目標(biāo)明確的高階指令(例如,“配置應(yīng)用程序設(shè)置”)。
- 軌跡構(gòu)建與獎勵模型:利用生成的高階指令執(zhí)行任務(wù),構(gòu)建完整的軌跡數(shù)據(jù)。引入軌跡獎勵模型(TRM)對軌跡進行質(zhì)量評估和篩選,基于完成度和一致性兩個指標(biāo)對軌跡打分,從而保留高質(zhì)量的軌跡數(shù)據(jù)。
通過反向任務(wù)合成和獎勵模型,OS-Genesis實現(xiàn)了從任務(wù)生成到軌跡構(gòu)建的端到端流程,高效地生成多樣化、語義豐富的軌跡數(shù)據(jù)。
3. 實驗結(jié)果
OS-Genesis在AndroidWorld、AndroidControl和WebArena等多個基準(zhǔn)測試中進行了實驗,結(jié)果表明,基于OS-Genesis生成的數(shù)據(jù)訓(xùn)練的GUI代理顯著優(yōu)于基線方法,在任務(wù)成功率、規(guī)劃能力和泛化能力方面都有顯著提升。尤其在復(fù)雜任務(wù)和動態(tài)環(huán)境中,OS-Genesis展現(xiàn)出更強的優(yōu)勢。
4. 數(shù)據(jù)質(zhì)量分析
文章對OS-Genesis生成的數(shù)據(jù)質(zhì)量進行了詳盡分析,將生成的高階指令和軌跡數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)進行了對比。結(jié)果顯示,OS-Genesis生成的高階指令在任務(wù)執(zhí)行中顯著優(yōu)于人工編寫的指令,生成的軌跡數(shù)據(jù)也顯著縮小了與人工標(biāo)注數(shù)據(jù)之間的性能差距,性能保留率超過80%。
5. 總結(jié)與展望
OS-Genesis提供了一種全新的GUI代理軌跡數(shù)據(jù)構(gòu)建方法,克服了以往數(shù)據(jù)收集中的關(guān)鍵瓶頸,為構(gòu)建高質(zhì)量的通用GUI代理提供了可靠的數(shù)據(jù)支持,推動了數(shù)字世界自動化的發(fā)展。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號