AIGC動態歡迎閱讀
原標題:重磅:AI機制可解釋性的理論基礎:抽象因果
關鍵字:因果,模型,變量,概念,解釋性
文章來源:人工智能學家
內容字數:0字
內容摘要:
來源:圖靈人工智能
Causal Abstraction:A Theoretical Foundation for Mechanistic Interpretability
https://arxiv.org/pdf/2301.04709 v3 2024
摘要
因果抽象為機制可解釋性提供了理論基礎,該領域涉及提供可理解的算法,這些算法是對已知但不透明的黑盒AI模型低層次細節的忠實簡化。我們的貢獻包括:(1) 將因果抽象理論從機制替換(即硬干預和軟干預)推廣到任意機制轉換(即從舊機制到新機制的泛函),(2) 提供了一種靈活且精確的形式化定義,用于模塊化特征、多義性神經元和分級忠實度的核心概念,以及(3) 在因果抽象的共同語言下統一了多種機制可解釋性方法,即激活和路徑修補、因果中介分析、因果清洗、因果追蹤、電路分析、概念擦除、稀疏自編碼器、差分二進制掩蔽、分布式對齊搜索和激活引導。
關鍵詞:機制可解釋性、因果關系、抽象、可解釋AI、可解釋性1. 引言
我們將可解釋人工智能的基本目標視為解釋AI模型為何做出其預測。在許多情況下,解釋的范式是因果解釋(Woodward, 2003; Pearl
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...