Expert-Level Detection of Epilepsy Markers in EEG on Short and Long Timescales

https://www.academix.jp/ AcademiX 論文輪読会 Expert-Level Detection of Epilepsy Markers in EEG
on Short and Long Timescales 東京農工大学 Inoue Ibuki 2025/08/30

書誌情報 • Expert-Level Detection of Epilepsy Markers in EEG on
Short and Long Timescales • Jin Li et al. • NEJM AI • 2025/06/26 • doi:10.1056/aioa2401221 引用のない図はすべてこの論文から引用 3

概要 • 背景 ◦ 脳波記録におけるてんかん様放電は診断と発作発生部位の特定に不可欠 ◦ AIは検出の自動化に有望なアプローチを提供するが偽陽性によって妨げられることが多い ◦ イベントレベルまたはEEGレベルの分類のいずれかを対象とするため臨床的有用性が制限 •
方法 ◦ 残差ネットワークアーキテクチャに基づく深層学習モデルSpikeNet2を開発 ◦ 専門家によるラベル付けが施されたイベントレベルサンプル32,433件を訓練・評価に適用 • 結果 ◦ EEGレベル分類とイベントレベルスパイク検出両方において高い性能を示唆 • 結論 ◦ イベントレベルのスパイク検出とEEGレベルの分類の両方で専門家レベルの精度を提供すると同時に偽陽性を大幅に削減 ◦ その二重機能性と多様なデータセットにおける堅牢な性能は、特に資源が限られた環境において臨床および遠隔医療アプリケーションのための有望なツールとなりうる 4

質問はNotebookLMへ！ • 私よりわかりやすく説明してくれます • 2025/08/30 AcademiX論文輪読会 https://notebooklm.google.com/notebook/02d2f60e-b139-4385-8178- 931ec968a0b7 5

先行研究：SpikeNet1 • 目的：発作間欠期てんかん様放電（IED）を自動検出し、EEG記録全体が IED陽性か陰性かを専門家と同等以上の精度で分類 • 入力 ◦ 8人の専門医が注釈を付けた13,262件のIED候補と、IEDなしの8,520件の対照EEG記録 ◦ 専門家の投票割合に基づく「ソフトラベル」
と困難なサンプル（アーチファクトなど）を含む2段階訓練 • 出力 ◦ 個々のIEDイベントの識別（イベントレベル検出） ◦ EEG記録全体にIEDが存在するかどうかの二値分類（EEGレベル分類） 10 [Jin Jing, JAMA Neurology, 2020]

先行研究：SCORE-AI • 目的：ルーチンEEGの完全自動かつ包括的な解釈を実現し、異常なEEG記録を正常と区別し、臨床的意思決定に有用な4つのカテゴリに分類 • 入力：30,493件のEEG記録で開発・検証。 17人の専門家がSCORE EEGシステムを
用いて詳細に注釈 • 出力 ◦ 正常 ◦ てんかん様焦点性 ◦ てんかん様全般性 ◦ 非てんかん様焦点性 ◦ 非てんかん様びまん性 11 [Jesper Tveit, JAMA Neurology, 2023]

先行研究の課題 • SpikeNet1の課題点 ◦ イベントレベル検出に特化連続EEG記録全体での評価が不足 ◦ 高い偽陽性率 90%の感度で1時間あたり52個という高い偽陽性率 •
SCORE-AIの課題点 ◦ EEGレベル分類に特化個々のスパイクイベント（イベントレベル）の検出には未対応 12

解決方法 • イベントレベルとEEGレベルの双方に対応 ◦ イベントレベルでのスパイク検出とEEG記録全体がスパイクを含むかどうかの分類の両方を専門家レベルの精度で実現 ◦ 個々の放電の正確な時間的局在化とてんかん診断に不可欠なてんかん様活動の全体的な有無の評価の両方を提供 •
ハードネガティブマイニングによる偽陽性率の劇的削減 • 大規模・マルチセンターデータセットによる汎化性の向上 13

SpikeNet2 • ResNetを踏襲 14

訓練データセット • 24人の専門家がアノテーション • イベントレベル分類 ◦ 29,333件のラベル付きイベントを使用 ▪ 弱ラベルサンプル：ラベル付けされていないがスパイク
に類似するサンプル or 以前の研究でラベルづけされたサンプル ▪ HNMサンプル：スパイクに似ているが実際にはスパイクではない識別が困難なサンプル • EEGレベル分類 ◦ 4,087人の患者のEEGセット ▪ 708件が陽性（スパイクあり） ▪ 3,379件が陰性（スパイクなし） 15

イベントレベル分類 • 個々のスパイクイベントを特定するタスク ◦ 具体的には、脳波記録内の個々のてんかん様放電（IED）を検出 • てんかん様放電の正確な時間的局在化を可能にしスパイク形態研究・発作焦点の局在化・遅延性脳虚血リスク追跡などの下流解析に不可欠 16

訓練方法 • 19チャンネルの参照EEG信号は128 Hzにリサンプリング • 18チャンネルのバイポーラリファレンスと19チャンネルの共通平均リファレンスの両方に変換され合計37チャンネルの入力 • 時間的および空間的特徴抽出に適した1秒間のウィンドウ（37×128行列）にセグメント化
• チャネルフリップ・カット・ジッターなどのデータ拡張を適用 • EEG振幅は外れ値の影響を減らし訓練を安定させるため95パーセンタイルに基づいて正規化 17

ハードネガティブマイニング 1. ラベル付けされたデータセットで初期のモデル訓練 2. イベントがないことが確認されたコントロールEEG記録にこのモデルを適用 3. モデルが特定の閾値を超えて出力したセグメントを偽陽性として特定しこれらを「負のサンプル」としてラベル付け 4. これらを訓練セットに追加してモデルを再訓練
18

結果と考察 • MGB ◦ ROC曲線（図3A）：AUROC 0.973 (95% CI, 0.961～0.982) ハードネガティブマイニングなしのSpikeNet2aやSpikeNet1を大き
く上回る ◦ 適合率-再現率曲線（図3B）：AUPRC 0.995 (95% CI, 0.993～ 0.997) ◦ キャリブレーション曲線（図3C）：モデルの予測確率が実際の発生確率とどれだけ一致しているかを示すキャリブレーション誤差は0.02 (95% CI, 0.01～0.03) ◦ 修正ROC曲線（図3G、3H）：感度と1時間あたりの偽陽性数（FP/hour）をプロットするもので連続EEG記録における実世界での性能をよりよく反映 mAUC 0.997 (95% CI, 0.994～0.998) を達成 • HEP ◦ ROC曲線（図3D）：AUROC 0.942 (95% CI, 0.933～0.950) ◦ 適合率-再現率曲線（図3E）：AUPRC 0.948 (95% CI, 0.939～ 0.956) ◦ このデータセットでは、SpikeNet2のAUROCおよびAUPRCは SpikeNet1の ◦ キャリブレーション曲線（図3F）：キャリブレーション誤差は 0.065 (95% CI, 0.053～0.078) • 専門家との比較 ◦ イベントレベル分類において、SpikeNet2は人間の専門家の大部分を上回る性能 19

EEGレベル分類 • EEG記録全体にスパイクが含まれるかどうかを判断するタスク • 全体的な分類でありてんかん性活動の有無を評価 20

訓練方法 • SpikeNet1とSpikeNet2を適用し各EEG記録全体にわたるスパイク確率の時系列を生成 • 特徴量を作成 ◦ 要約統計量（平均、最大値、標準偏差、中央値、四分位範囲） ◦
パーセンタイル ◦ 予測曲線下面積 ◦ [0.5,1]の0.01ステップ刻みの閾値でのスパイク率 • 特徴量を入力としてL1正則化を伴うロジスティック回帰モデルが訓練 21

結果と考察 • MGB ◦ AUROC：0.958 (95% CI, 0.946～0.968) ◦ AUPRC：0.959
(95% CI, 0.947～0.970) • HEP ◦ AUROC：0.888 (95% CI, 0.829～0.941) ◦ AUPRC：0.823 (95% CI, 0.712～0.911) • SAIデータセット ◦ AUROC：0.995 (95% CI, 0.967～1) ◦ AUPRC：0.991 (95% CI, 0.931～1) ◦ このデータセットでのSpikeNet2の性能は SCORE-AIモデル自体の性能と同等（AUROC 0.997、AUPRC 0.995） • 専門家との比較 ◦ EEGレベル分類において、SpikeNet2は人間の専門家を上回る性能 22

限界 • SpikeNet2は脳波スパイクを検出できるもののスパイクの有無だけではてんかんの確定診断には至らず臨床的背景と専門家の解釈が依然として不可欠 ◦ SpikeNet2は現在発作検出やアルファ波などの背景リズム解析といった脳波解釈の他の重要側面には未対応 • SpikeNet2は年齢・人種・民族・発達段階による性能差の兆候を示さなかったものの当データセットにはアジア系人口を含む主要な人口統計学的グルー
プが十分に代表されていなかった ◦ 汎用性を評価するにはさらなる調査が必要 23

まとめ • SpikeNet2はイベントレベルとEEGレベルの両方でてんかん様放電を検出可能な包括的モデル • 大規模で人口統計学的に多様なデータセットを用いて訓練・検証 • その優れた性能は臨床実践における貴重なツールとしての地位を確立 ◦ 経験豊富な神経科医が不足している地域を中心に遠隔医療分野でのSpikeNet2の応用が期待
◦ 本モデルはリアルタイム脳波モニタリングと発作診断に有望であり臨床ワークフローへの統合の道を開く • 今後の研究では追加の脳波特徴に対応する機能拡張に焦点を当て、臨床現場での有用性を強化 24

Appendix 25

Expert-Level Detection of Epilepsy Markers in E...

Expert-Level Detection of Epilepsy Markers in EEG on Short and Long Timescales

ほき

More Decks by ほき

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 Expert-Level Detection of Epilepsy Markers in EEG

書誌情報 • Expert-Level Detection of Epilepsy Markers in EEG on

質問はNotebookLMへ！ • 私よりわかりやすく説明してくれます • 2025/08/30 AcademiX論文輪読会 https://notebooklm.google.com/notebook/02d2f60e-b139-4385-8178- 931ec968a0b7 5

先行研究の課題 • SpikeNet1の課題点 ◦ イベントレベル検出に特化連続EEG記録全体での評価が不足 ◦ 高い偽陽性率 90%の感度で1時間あたり52個という高い偽陽性率 •

SpikeNet2 • ResNetを踏襲 14

訓練データセット • 24人の専門家がアノテーション • イベントレベル分類 ◦ 29,333件のラベル付きイベントを使用 ▪ 弱ラベルサンプル：ラベル付けされていないがスパイク

結果と考察 • MGB ◦ ROC曲線（図3A）：AUROC 0.973 (95% CI, 0.961～0.982) ハードネガティブマイニングなしのSpikeNet2aやSpikeNet1を大き

EEGレベル分類 • EEG記録全体にスパイクが含まれるかどうかを判断するタスク • 全体的な分類でありてんかん性活動の有無を評価 20

訓練方法 • SpikeNet1とSpikeNet2を適用し各EEG記録全体にわたるスパイク確率の時系列を生成 • 特徴量を作成 ◦ 要約統計量（平均、最大値、標準偏差、中央値、四分位範囲） ◦

結果と考察 • MGB ◦ AUROC：0.958 (95% CI, 0.946～0.968) ◦ AUPRC：0.959

Appendix 25