清華系細(xì)胞大模型登Nature子刊!能對人類2萬基因同時建模,代碼已開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:清華系細(xì)胞大模型登Nature子刊!能對人類2萬基因同時建模,代碼已開源
關(guān)鍵字:模型,細(xì)胞,基因,單細(xì)胞,任務(wù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
白交 發(fā)自 凹非寺量子位 | 公眾號 QbitAI生命科學(xué)領(lǐng)域的基礎(chǔ)大模型來了!
來自清華、百圖生科的團(tuán)隊提出的單細(xì)胞基礎(chǔ)大模型scFoundation,登上Nature Methods。
該模型基于5000萬人類單細(xì)胞測序的數(shù)據(jù)進(jìn)行訓(xùn)練,擁有1億參數(shù),能夠同時處理約20000個基因。
團(tuán)隊在模型架構(gòu)上進(jìn)行了創(chuàng)新,相同參數(shù)量下計算時間是傳統(tǒng)Transformer架構(gòu)的3%左右。相關(guān)研究成果也被NeurIPS2024接收。
清華大學(xué)自動化系博士研究生郝敏升為該論文的第一作者。清華大學(xué)張學(xué)工教授,馬劍竹教授,百圖生科宋樂教授為通訊作者。
作為基礎(chǔ)模型,它在細(xì)胞測序深度增強(qiáng)、細(xì)胞藥物響應(yīng)預(yù)測和細(xì)胞擾動預(yù)測等下游任務(wù)中表現(xiàn)出卓越的性能提升,并為基因網(wǎng)絡(luò)推斷和轉(zhuǎn)錄因子識別提供了新的研究思路。
細(xì)胞基礎(chǔ)大模型登Nature子刊通過在大規(guī)模語料庫上的訓(xùn)練,大模型才具備了基本的語言理解和識別能力。
在生命科學(xué)領(lǐng)域,細(xì)胞可以被視為擁有自身“語言”的基本結(jié)構(gòu)和功能單元,由DNA序列、蛋白質(zhì)和基因表達(dá)值等構(gòu)成無數(shù)“詞語”的“句子”。
那么隨之而來的問題是:
能否基于大量細(xì)胞的“句子”來開發(fā)細(xì)胞的基礎(chǔ)模型?
原文鏈接:清華系細(xì)胞大模型登Nature子刊!能對人類2萬基因同時建模,代碼已開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
