AI 突破自然進化的局限。
原標題:Science:AI模擬5億年生物進化,創造了一種「前所未有」的蛋白質
文章來源:大數據文摘
內容字數:6152字
AI賦能蛋白質設計:ESM3模型引領生物分子工程新時代
蛋白質是生命的基礎,其序列和結構的演變歷經數十億年。近年來,深度學習和語言模型的興起為理解和設計蛋白質帶來了性的變革。Science雜志最新發表的研究成果展示了ESM3,一個多模態生成式模型,它能夠生成具有全新功能的蛋白質,甚至模擬超過5億年的進化過程。
1. ESM3模型:解碼生物語言
ESM3模型由人工智能初創公司Evolutionary Scale研發,它利用超過31.5億條蛋白質序列、2.36億個蛋白質結構以及5.39億個帶有功能注釋的蛋白質數據進行訓練。該模型擁有三種不同規模,參數量分別為14億、70億和980億。實驗結果表明,參數規模越大,ESM3在生成能力和表示學習上的性能越顯著,尤其是在生成蛋白質結構方面,980億參數的模型表現超越現有模型。
不同于傳統模型,ESM3是一個多模態生成模型,能夠同時處理蛋白質的序列、三維結構和功能信息。它采用“生成掩碼語言模型”方法,通過對輸入數據進行隨機掩碼并推理生成缺失部分,從而生成高質量的蛋白質序列和結構。其生成結果與真實結構的平均差異僅為0.5?。
2. 突破自然進化瓶頸:生成新型綠色熒光蛋白
為了展示ESM3的潛力,研究人員選擇綠色熒光蛋白(GFP)作為挑戰目標。GFP在生物學研究中至關重要,但其自然突變通常局限于現有序列附近。ESM3則突破了這一瓶頸。研究人員通過提供GFP的關鍵氨基酸序列和三維結構信息作為提示,引導ESM3生成一個與已知GFP序列差異巨大,但仍保持熒光特性的全新蛋白質——esmGFP。
esmGFP與現有熒光蛋白的序列相似性僅為53%-58%,這意味著如果要通過自然進化獲得esmGFP,需要超過5億年的時間。實驗驗證表明,esmGFP盡管成熟時間較長,但最終的熒光亮度與已知GFP相似,具有穩定的熒光特性。
3. ESM3的未來應用與潛力
ESM3的多模態特性使其能夠根據特定的蛋白質結構、功能或關鍵氨基酸等提示生成滿足要求的新型蛋白質。這種提示響應能力和可控性使其在蛋白質設計領域具有高度實用價值。ESM3能夠加速蛋白質設計速度,生成自然界中難以獲得的新型蛋白質,這對于基礎研究和應用研究都具有重要意義。
ESM3的應用前景廣泛,包括藥物設計(設計具有特定靶點的蛋白質)、合成生物學(開發新的合成途徑)等。隨著模型規模和數據量的進一步增加,ESM3有潛力生成更加復雜和創新的蛋白質,為蛋白質工程開辟全新的可能性。目前,ESM3已通過API推出公開測試版,方便科學家使用。
聯系作者
文章來源:大數據文摘
作者微信:
作者簡介:普及數據思維,傳播數據文化