Slide 2
Slide 2 text
目次
● Mechanistic Interpretability とは?
○ Mech Interp 研究の具体例
○ 神経科学との関連
● Mechanistic Interpretability 研究における課題
○ パラメータの多さ, Polysemanticity, Cirucit の解釈法
● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC)
● Polysemanticity への対応: Sparse Autoencoder を用いた手法
● Circuit の解釈法