今日arXiv最熱NLP大模型論文:IBM研究院提出Genie方法,自動生成高質(zhì)量數(shù)據(jù)集
AIGC動態(tài)歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:IBM研究院提出Genie方法,自動生成高質(zhì)量數(shù)據(jù)集
關(guān)鍵字:數(shù)據(jù),解讀,模型,問題,報告
文章來源:夕小瑤科技說
內(nèi)容字數(shù):9235字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)編輯 | 謝年年數(shù)據(jù)是大模型的基石。但傳統(tǒng)的數(shù)據(jù)集創(chuàng)建方法通常依賴人工,耗時耗力成本高,另外數(shù)據(jù)集的來源復雜,噪聲大,比如新聞媒體稿或者社交媒體,數(shù)據(jù)質(zhì)量難以保證。為此,IBM研究院了一種名為Genie的新方法,可以自動生成高質(zhì)量的數(shù)據(jù)。
作者生成了三個大規(guī)模的合成數(shù)據(jù),包含長篇問答(LFQA)、摘要和信息提取(IE)。通過人類評估,合成數(shù)據(jù)是自然且高質(zhì)量的,可與人類標注數(shù)據(jù)相媲美的。此外,作者還將基于合成數(shù)據(jù)
訓練的模型與基于人工撰寫的數(shù)據(jù)訓練的模型進行比較,其中,LFQA使用ELI5和ASQA數(shù)據(jù),摘要使用CNN-DailyMail數(shù)據(jù)。結(jié)果顯示合成數(shù)據(jù)訓練模甚至超過基于人工生成數(shù)據(jù)訓練的模型。
聲明:本期論文解讀非人類撰寫,全文由賽博馬良「AI論文解讀達人」智能體自主完成,經(jīng)人工審核、配圖后發(fā)布。
公眾號「夕小瑤科技說」后臺回復“智能體內(nèi)測”獲取智能體內(nèi)測邀請鏈接!
論文標題: Genie: Achieving Human Parity In Content-Grounded Datasets Generation
論文鏈接為: https://arxiv.or
原文鏈接:今日arXiv最熱NLP大模型論文:IBM研究院提出Genie方法,自動生成高質(zhì)量數(shù)據(jù)集
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。