星環(huán)科技孫元浩:語(yǔ)料已經(jīng)是大模型最大的挑戰(zhàn)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:星環(huán)科技孫元浩:語(yǔ)料已經(jīng)是大模型最大的挑戰(zhàn)
關(guān)鍵字:語(yǔ)料,模型,報(bào)告,數(shù)據(jù),企業(yè)內(nèi)部
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
作者:Esther「原來(lái)以為語(yǔ)料已經(jīng)匱乏了,大模型訓(xùn)練已經(jīng)沒(méi)有語(yǔ)料了,實(shí)際上不是的,數(shù)據(jù)還遠(yuǎn)遠(yuǎn)沒(méi)有跑光」。
作為大數(shù)據(jù)領(lǐng)域超過(guò)十年的創(chuàng)業(yè)者,「星環(huán)科技」創(chuàng)始人及CEO孫元浩并不認(rèn)同「大模型已經(jīng)將人類(lèi)互聯(lián)網(wǎng)數(shù)據(jù)窮盡」的說(shuō)法。
根據(jù)他的觀察,如今在各行各業(yè)企業(yè)內(nèi)部的數(shù)據(jù)還遠(yuǎn)遠(yuǎn)未被足夠利用,人類(lèi)在互聯(lián)網(wǎng)上的存量數(shù)據(jù)遠(yuǎn)遠(yuǎn)大過(guò)目前大模型能夠利用的量級(jí)。擁有了這些來(lái)自各行各業(yè)內(nèi)部高質(zhì)量的數(shù)據(jù),大模型可以在如今的基礎(chǔ)上,大大提高準(zhǔn)確性。
而關(guān)鍵問(wèn)題就在于,怎樣可以高效地開(kāi)發(fā)這些數(shù)據(jù)?
大模型時(shí)代,語(yǔ)料的開(kāi)發(fā)遇到了新的挑戰(zhàn)。孫元浩分享稱(chēng),目前企業(yè)內(nèi)部的數(shù)據(jù)往往多是非結(jié)構(gòu)化的、海量的、不同形式的、以小文件居多的,同時(shí)標(biāo)注和校正這些專(zhuān)業(yè)數(shù)據(jù)還有較高的門(mén)檻。這對(duì)文件系統(tǒng)、知識(shí)庫(kù)系統(tǒng)、語(yǔ)料開(kāi)發(fā)系統(tǒng)等都提出了新的要求。
比如,面對(duì)數(shù)據(jù)量巨大的問(wèn)題,對(duì)企業(yè)內(nèi)部各種文檔、PPT的處理,意味著存儲(chǔ)和計(jì)算資源有更高的要求;在數(shù)據(jù)多樣性方面,對(duì)于企業(yè)內(nèi)部不同類(lèi)型的文檔,如媒體文章、公文、設(shè)計(jì)文檔等,都需要用訓(xùn)練模型進(jìn)行識(shí)別和解析,這就要求數(shù)據(jù)處理工具具備強(qiáng)大的多模態(tài)數(shù)據(jù)處理能力。
對(duì)于數(shù)據(jù)安全和隱私問(wèn)題
原文鏈接:星環(huán)科技孫元浩:語(yǔ)料已經(jīng)是大模型最大的挑戰(zhàn)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)