打破AlphaFold大模型局限,世界最大蛋白質(zhì)相互作用數(shù)據(jù)集AlphaSeq橫空出世
AIGC動態(tài)歡迎閱讀
原標(biāo)題:打破AlphaFold大模型局限,世界最大蛋白質(zhì)相互作用數(shù)據(jù)集AlphaSeq橫空出世
關(guān)鍵字:蛋白質(zhì),細(xì)胞,數(shù)據(jù),酵母,模型
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】雖然AlphaFold等系列的大模型已經(jīng)在蛋白質(zhì)預(yù)測方面取得了前所未有的突破,但依舊無法勝任蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)這種復(fù)雜的任務(wù)。初創(chuàng)公司A-Alpha Bio的PPI數(shù)據(jù)集AlphaSeq,有望補足這方面的技術(shù)短板。隨著最近AlphaFold 3和ESM 3的相繼推出,我們看到了深度學(xué)習(xí)在生物學(xué)領(lǐng)域的無限潛力。
然而,Dyno Therapeutics的高級機器學(xué)習(xí)工程師Abihishaike Mahajan在上個月發(fā)布的一篇博文中指出了潛在的增長危機。
他認(rèn)為,AlphaFold系列所取得的成果,即將一個強大的深度學(xué)習(xí)模型應(yīng)用于一個已經(jīng)存在大量數(shù)據(jù)的領(lǐng)域,從而引發(fā)一場徹底的——這是極難復(fù)制的。
原因還是數(shù)據(jù)。我們幾乎用盡了所有預(yù)先存在的數(shù)據(jù),未經(jīng)訓(xùn)練的蛋白質(zhì)結(jié)構(gòu)和序列正在枯竭,RNA和DNA也是如此。
要想進(jìn)一步訓(xùn)練模型,發(fā)掘更多來源和模態(tài)的數(shù)據(jù)是必不可少的。Mahajan指出,理想情況下,這樣的數(shù)據(jù)應(yīng)該滿足3個條件:
– 具有復(fù)雜的潛在分布
– 與重要的生理現(xiàn)象高度相關(guān)
– 適合大規(guī)模收集
在生物學(xué)領(lǐng)域,有很多數(shù)據(jù)可以滿足前兩個
原文鏈接:打破AlphaFold大模型局限,世界最大蛋白質(zhì)相互作用數(shù)據(jù)集AlphaSeq橫空出世
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: