LeCun轉(zhuǎn)發(fā),UC伯克利等提出多模態(tài)蛋白質(zhì)生成方法PLAID,同時生成序列和全原子蛋白結(jié)構(gòu)
該方法可用于任何蛋白質(zhì)預(yù)測模型
原標題:LeCun轉(zhuǎn)發(fā),UC伯克利等提出多模態(tài)蛋白質(zhì)生成方法PLAID,同時生成序列和全原子蛋白結(jié)構(gòu)
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):8320字
加州大學伯克利分校等機構(gòu)提出新型多模態(tài)蛋白質(zhì)生成方法PLAID
本文介紹了加州大學伯克利分校、微軟研究院等機構(gòu)提出的一種新型多模態(tài)蛋白質(zhì)生成方法PLAID (Protein Latent Induced Diffusion),該方法能夠從序列等豐富數(shù)據(jù)模態(tài)生成稀缺的模態(tài),例如晶體結(jié)構(gòu),從而實現(xiàn)對蛋白質(zhì)全原子結(jié)構(gòu)的生成。這項研究成果已提交至ICLR 2025,并獲得了“AI教父”楊立昆的轉(zhuǎn)發(fā)。
研究背景與挑戰(zhàn)
蛋白質(zhì)的功能由其結(jié)構(gòu)決定,包括原子身份、位置和生物物理性質(zhì)等。全原子結(jié)構(gòu)生成需要同時生成序列和結(jié)構(gòu),但現(xiàn)有方法通常將兩者視為模態(tài),存在諸多局限性,例如僅生成主鏈原子,或需在結(jié)構(gòu)預(yù)測和反折疊步驟之間交替進行。
PLAID方法概述
PLAID 是一種基于擴散模型的多模態(tài)蛋白質(zhì)生成方法。它利用預(yù)訓(xùn)練的蛋白質(zhì)語言模型ESMFold的潛在空間,通過擴散過程學習序列和結(jié)構(gòu)的聯(lián)合嵌入,最終實現(xiàn)從序列信息生成全原子結(jié)構(gòu)。該方法在訓(xùn)練過程中僅需要序列輸入,并利用了預(yù)訓(xùn)練權(quán)重中編碼的結(jié)構(gòu)信息。
PLAID方法主要包含四個步驟:1. ESMFold潛在空間表示;2. 潛在擴散訓(xùn)練;3. 推理階段的序列和結(jié)構(gòu)生成;4. 基于擴散變換器(DiT)的模型架構(gòu),融合條件信息進行可控生成。
實驗結(jié)果與分析
研究人員使用Pfam數(shù)據(jù)庫進行實驗,結(jié)果表明PLAID生成的蛋白質(zhì)結(jié)構(gòu)具有較高的質(zhì)量和一致性,并且在不同蛋白質(zhì)長度上保持穩(wěn)定。與其他基準方法相比,PLAID在結(jié)構(gòu)質(zhì)量、多樣性、新穎性和跨模態(tài)一致性方面均表現(xiàn)出色。其生成的二級結(jié)構(gòu)多樣性也更接近天然蛋白質(zhì)的分布。
Diffusion Transformer(DiT)的應(yīng)用
PLAID采用Diffusion Transformer(DiT)執(zhí)行去噪任務(wù),利用其全局自注意力機制有效建模序列和結(jié)構(gòu)的復(fù)雜交互關(guān)系。DiT在圖像和視頻生成領(lǐng)域已取得顯著進展,在生物醫(yī)藥領(lǐng)域應(yīng)用也日益廣泛,能夠提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的效率和精度。
未來展望與相關(guān)研究
PLAID的成功為蛋白質(zhì)定制化設(shè)計提供了新的可能性,推動了人工智能在蛋白質(zhì)研究領(lǐng)域的應(yīng)用。文章還簡要介紹了其他相關(guān)的研究進展,例如MProt-DPO和PocketGen,這些研究都為蛋白質(zhì)設(shè)計和工程提供了新的工具和方法。
總而言之,PLAID方法為蛋白質(zhì)結(jié)構(gòu)生成提供了一種高效、準確且可控的新途徑,有望推動蛋白質(zhì)設(shè)計和藥物研發(fā)等領(lǐng)域的進步。
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:解構(gòu)技術(shù)先進性與普適性,報道更前沿的 AIforScience 案例