AIGC動態歡迎閱讀
原標題:AlphaFold 3不開源,統一生物語言大模型阿里云先開了!
關鍵字:序列,核酸,蛋白質,數據,模型
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI把169861個生物物種數據裝進大模型,大模型竟get到了生物中心法則的奧秘——
不僅能識別DNA、RNA與相應蛋白質之間的內在聯系,在基因分類、蛋白質相互作用預測、熱穩定性預測等7種不同類型任務中也能比肩SOTA模型。
模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。
相比AlphaFold 3因未開源遭到650多名學者聯名批評,LucaOne訓練推理代碼及相關數據目前均已開源。
LucaOne是目前首個全生物系統的核酸語言+蛋白語言的融合基座模型。換句話說,LucaOne由核酸(DNA、RNA)和蛋白質序列聯合訓練而來。
通過一系列實驗,研究人員發現它能廣泛適用各種下游任務。
在含13個物種、關系對總數量為24000的核酸序列和其對應蛋白的正負樣本數據集中,LucaOne提供表征的模型達到0.85的預測準確率。
遠高于目前業內最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于LucaOne的單核酸訓練版本+單蛋白訓練版本。
其他任務如針對流感H3N2病毒疫苗有效性(免疫逃逸風險)
原文鏈接:AlphaFold 3不開源,統一生物語言大模型阿里云先開了!
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...