ICLR 2024 | 雞生蛋蛋生雞?再論生成數(shù)據(jù)能否幫助模型訓(xùn)練
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 | 雞生蛋蛋生雞?再論生成數(shù)據(jù)能否幫助模型訓(xùn)練
關(guān)鍵字:數(shù)據(jù),模型,對比,強(qiáng)度,樣本
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7733字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著生成模型(如 ChatGPT、擴(kuò)散模型)飛速發(fā)展,一方面,生成數(shù)據(jù)質(zhì)量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實數(shù)據(jù)即將枯竭。
面對這一處境,一個近期的研究熱度是,能否利用生成模型生成的假數(shù)據(jù)來輔助學(xué)習(xí)?學(xué)界對此也產(chǎn)生了許多爭論:到底是可以左腳踩右腳(bootsrap)地實現(xiàn) weak-to-strong 的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功?
在近期 ICLR 2024 工作中,北大王奕森團(tuán)隊針對這一「數(shù)據(jù)擴(kuò)充」(Data Inflation)問題展開了深入研究。
他們針對對比學(xué)習(xí)(如 SimCLR、DINO、CLIP)這一常見的自監(jiān)督學(xué)習(xí)場景,從理論和實驗兩方面分析了生成數(shù)據(jù)對于表示學(xué)習(xí)能力的影響。為了控制變量,他們保證生成模型和表示學(xué)習(xí)都只能使用同一個(無監(jiān)督)真實數(shù)據(jù)集進(jìn)行訓(xùn)練,避免了擴(kuò)充數(shù)據(jù)本身帶來的收益。論文題目:Do Generated Data Always Help Contrastive Learning?
論文地址:https://arxiv.org/abs/2403.12448
原文鏈接:ICLR 2024 | 雞生蛋蛋生雞?再論生成數(shù)據(jù)能否幫助模型訓(xùn)練
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺