多個中國團隊斬獲EMNLP'24最佳論文!UCLA華人學(xué)者中三篇杰出論文
原標(biāo)題:多個中國團隊斬獲EMNLP'24最佳論文!UCLA華人學(xué)者中三篇杰出論文
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):5826字
EMNLP 2024最佳論文獎揭曉
根據(jù)最新消息,EMNLP 2024最佳論文獎已經(jīng)公布,共有五篇論文獲獎,其中華人學(xué)者參與三篇,展現(xiàn)了華人在自然語言處理領(lǐng)域的卓越貢獻。這些研究涉及多模態(tài)翻譯、語音表征學(xué)習(xí)、語言模型梯度分析等多個前沿主題。
1. 圖像再創(chuàng)造的文化相關(guān)性
來自CMU的研究論文《An image speaks a thousand words,but can everyone listen? On image transcreation for cultural relevance》探討了圖像的跨文化再創(chuàng)造任務(wù)。作者構(gòu)建了三個生成模型管道,實驗結(jié)果顯示目前的圖像編輯模型尚未完全滿足該任務(wù)要求,但通過結(jié)合LLM和檢索器可實現(xiàn)改進。
2. 穩(wěn)健的語音表征學(xué)習(xí)
來自CMU、上海交通大學(xué)及豐田工業(yè)大學(xué)的論文《Towards Robust Speech Representation Learning for Thousands of Languages》介紹了一種名為XEUS的跨語言通用語音編碼器。研究團隊通過整合現(xiàn)有數(shù)據(jù)及新數(shù)據(jù),構(gòu)建了包含4057種語言的預(yù)訓(xùn)練語料庫,實驗結(jié)果顯示XEUS在多項任務(wù)中表現(xiàn)優(yōu)異。
3. 語言模型梯度投射
理工學(xué)院與特拉維夫大學(xué)的研究團隊在論文《Backward Lens: Projecting Language Model Gradients into the Vocabulary Space》中擴展了梯度可解釋性方法。他們證明了梯度矩陣可以被視為輸入的低秩線性組合,并探索了新信息在語言模型中的存儲機制。
4. 大語言模型預(yù)訓(xùn)練數(shù)據(jù)檢測
中科院的研究論文《Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method》提出了一種新的數(shù)據(jù)檢測方法DC-PDD,旨在提高LLM訓(xùn)練數(shù)據(jù)的透明度。研究表明,該方法在多個基準(zhǔn)測試中表現(xiàn)優(yōu)于傳統(tǒng)方法。
5. 從反饋中學(xué)習(xí)的耦合理解與生成
康奈爾大學(xué)的論文《CoGen: Learning from Feedback with Coupled Comprehension and Generation》探討了語言理解與生成的耦合方法。通過與用戶的交互反饋,實驗結(jié)果顯示該方法顯著提升了模型的理解與生成能力。
杰出論文獎項
此次EMNLP 2024還評選出了20篇杰出論文,涉及隱私法律、學(xué)習(xí)偏好等多個主題,突出顯示了學(xué)術(shù)界在自然語言處理領(lǐng)域的持續(xù)創(chuàng)新與研究熱情。尤其值得一提的是,華人學(xué)者Nanyun Peng團隊的三篇論文均獲得了獎項,顯示了其在創(chuàng)意敘事生成能力評估方面的深厚研究基礎(chǔ)。
未來展望
EMNLP 2025將于明年11月在中國蘇州舉辦,期待更多學(xué)者積極參與,推動自然語言處理領(lǐng)域的進一步發(fā)展。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189