何愷明重提十年之爭(zhēng)——模型表現(xiàn)好是源于能力提升還是捕獲數(shù)據(jù)集偏置?

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:何愷明重提十年之爭(zhēng)——模型表現(xiàn)好是源于能力提升還是捕獲數(shù)據(jù)集偏置?
關(guān)鍵字:數(shù)據(jù),模型,騰訊,報(bào)告,任務(wù)
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):6508字
內(nèi)容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國(guó)生成式AI大會(huì),阿里巴巴通義千問(wèn)大模型技術(shù)負(fù)責(zé)人周暢,「清華系Sora」生數(shù)科技CEO唐家渝,云天勵(lì)飛“云天天書(shū)”大模型技術(shù)負(fù)責(zé)人余曉填,Open-Sora開(kāi)發(fā)團(tuán)隊(duì)潞晨科技創(chuàng)始人尤洋,鴻博股份副總裁、英博數(shù)科CEO周韡韡,優(yōu)必選研究院執(zhí)行院長(zhǎng)焦繼超,科大訊飛人形機(jī)器人首席科學(xué)家季超,騰訊研究科學(xué)家張馳等40+位嘉賓已確認(rèn)帶來(lái)演講和報(bào)告,歡迎報(bào)名。本文是算法邦公眾號(hào)為大家分享的第4篇「大咖之聲」文章。想象一下,如果把世界上所有的圖片都找來(lái),給它們放到一塊巨大的空地上,其中內(nèi)容相似的圖片放得近一些,內(nèi)容不相似的圖片放得遠(yuǎn)一些(類(lèi)比向量嵌入)。然后,我隨機(jī)地向這片空地撒一把豆子,那么這把豆子怎么才能盡量撒得均勻?在真實(shí)世界收集數(shù)據(jù)集的過(guò)程就像是在撒豆子,把被撒到豆子的圖片收集起來(lái)。簡(jiǎn)單來(lái)說(shuō),豆子撒不勻,數(shù)據(jù)集就有偏置。
論文標(biāo)題:
A Decade’s Battle on Dataset Bias: Are We There Yet?
文章鏈接:
https://arxiv.org/pdf/2403.08632.pdf
數(shù)據(jù)集偏置之
原文鏈接:何愷明重提十年之爭(zhēng)——模型表現(xiàn)好是源于能力提升還是捕獲數(shù)據(jù)集偏置?
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。

粵公網(wǎng)安備 44011502001135號(hào)