清華大學與國家蛋白質科學中心(北京)聯合在全球頂級期刊“Nature Machine Intelligence”發表的研究成果。
原標題:Nature 子刊發表穩定學習新進展:面向多中心、大隊列異質數據的「穩定」生存分析方法
文章來源:AI科技評論
內容字數:5018字
崔鵬團隊的穩定生存分析方法研究
近期,清華大學崔鵬團隊與國家蛋白質科學中心(北京)常乘團隊聯合在《Nature Machine Intelligence》上發表了題為“Stable Cox Regression for Survival Analysis under Distribution Shifts”的研究論文。這項研究基于穩定學習理論,提出了Stable Cox模型,旨在發現穩定的預后標志物,以應對生存分析中的多中心異質性數據問題。
1. 生存分析中的挑戰
生存分析是評估協變量對發生時間影響的重要統計方法,廣泛應用于醫學、公共衛生等領域。Cox回歸模型作為生存分析中的主流工具,能夠同時分析多種因素對生存期的影響。然而,現有方法通常假設訓練和測試數據的分布相似,這在實際應用中常常不成立,導致模型泛化性差,特別是在個性化醫療等高風險領域。
2. Stable Cox模型的創新
為了解決上述問題,研究團隊提出了Stable Cox模型,該模型的核心在于消除不穩定協變量與生存結果之間的虛假相關性。該方法包括兩個階段:首先,通過樣本加權使協變量;其次,在加權的Cox回歸階段,利用樣本權重重加權損失函數,從而有效分離每個變量對生存輸出的影響。研究表明,即使在模型錯估的情況下,Stable Cox模型依然能夠識別出穩定的變量進行預測。
3. 實驗結果與應用
研究團隊在肝癌、乳腺癌、黑色素瘤等多種癌癥的組學數據及臨床生存數據上進行了廣泛實驗,結果顯示Stable Cox模型在多個測試群體中展現出強大的泛化能力,平均提升6.5%-13.9%。此外,該模型所學得的權重系數可用于發現潛在的組合標志物,為生存風險顯著不同的亞型提供分組依據,具有重要的臨床應用價值。
4. 結論與展望
本研究表明,穩定生存分析方法能夠提高標志物識別的泛化能力,克服傳統技術在多樣化樣本中的局限性。這為疾病的早期準確診斷提供了新技術支持,也呼吁研究界關注機器學習方法在醫療領域的穩定性與可靠性。未來,研究團隊將繼續探索如何在異質性數據中精確識別生物標志物,以滿足社會對健康保障的需求。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。