何愷明劉壯新作:消除數(shù)據(jù)集偏差的十年之戰(zhàn)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:何愷明劉壯新作:消除數(shù)據(jù)集偏差的十年之戰(zhàn)
關(guān)鍵字:數(shù)據(jù),騰訊,神經(jīng)網(wǎng)絡(luò),偏差,準(zhǔn)確率
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3937字
內(nèi)容摘要:
編輯部 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIMIT新晉副教授何愷明,新作新鮮出爐:
瞄準(zhǔn)一個(gè)橫亙?cè)贏I發(fā)展之路上十年之久的問(wèn)題:數(shù)據(jù)集偏差。
該研究為何愷明在Meta期間與劉壯合作完成,他們?cè)谡撐闹兄赋觯?br />盡管過(guò)去十多年里業(yè)界為構(gòu)建更大、更多樣化、更全面、偏差更小的數(shù)據(jù)集做了很多努力,但現(xiàn)代神經(jīng)網(wǎng)絡(luò)似乎越來(lái)越善于”識(shí)破”并利用這些數(shù)據(jù)集中潛藏的偏差。
這不禁讓人懷疑:我們?cè)谙龜?shù)據(jù)集偏差的戰(zhàn)斗中,真的取得了勝利嗎?
數(shù)據(jù)集偏差之戰(zhàn),在2011年由知名學(xué)者Antonio Torralba和Alyosha Efros提出——
Alyosha Efros正是Sora兩位一作博士小哥(Tim Brooks和William Peebles)的博士導(dǎo)師,而Antonio Torralba也在本科期間指導(dǎo)過(guò)Peebles。
當(dāng)時(shí)他們發(fā)現(xiàn),機(jī)器學(xué)習(xí)模型很容易“過(guò)擬合”到特定的數(shù)據(jù)集上,導(dǎo)致在其他數(shù)據(jù)集上表現(xiàn)不佳。
十多年過(guò)去了,盡管我們有了更大、更多樣化的數(shù)據(jù)集,如ImageNet、YFCC100M、CC12M等,但這個(gè)問(wèn)題似乎并沒(méi)有得到根本解決。
反而,隨著神經(jīng)網(wǎng)絡(luò)變得越來(lái)越強(qiáng)大,它們“挖掘
原文鏈接:何愷明劉壯新作:消除數(shù)據(jù)集偏差的十年之戰(zhàn)
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破