Slide 1

Slide 1 text

Evolving SimGANs to improve abnormal electrocardiogram classification Wang, G., Thite, A., Talebi, R., D'Achille, A., Mussa, A., & Zutty, J. 2022. Evolving SimGANs to improve abnormal electrocardiogram classification. In Proceedings of the Genetic and Evolutionary Computation Conference Companion (GECCO '22). Association for Computing Machinery, New York, NY, USA, 1887-1894. https://doi.org/10.1145/3520304.3534048 daiki

Slide 2

Slide 2 text

背景: 学習データ生成 機械学習モデルの学習には大量のデータが必要 ◼実際のデータを収集することが困難な問題や分野 ➢Ex.) 心電図信号データ ➢時間がかかる,専門家によるラベルづけ,個人情報の取り扱い etc. ◼シミュレータによるセンサー信号生成が有効 シミュレーションの問題点 ◼実データの特性を十分に反映できていない ➢正常な心電図はシミュレーションできるが,異常な心電図はできない ◼再現した信号と実データの分布が異なる シミュレータにGANを組み合わせて改善する手法が提案されている ◼この手法を用いてシミュレータから学習データの生成を試みる 心電図 2

Slide 3

Slide 3 text

シミュレーションからリアルなサンプルに変換するGAN 従来手法: SimGAN [Ashish, 17] Refiner R Discriminator D Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, and Russell Webb. 2017. Learning from Simulated and Unsupervised Images through Adversarial Training. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2242-2251. 変更点① ランダムノイズ× シミュレーション信号〇 変更点② Generator× Refiner〇 変更点③ 自己正則化項を追加 3 Real vs Refined Simulation Refined Real 変更点④ 一定領域ごとに 区切って判定

Slide 4

Slide 4 text

シミュレーションからリアルなサンプルを生成するGAN ◼問題点①: 学習が困難 ➢RとDのバランスを保つ最適なネットワーク構成とハイパーパラメータが不明 ◼問題点②: 評価が困難 ➢生成されたサンプルに対する「リアルさ」の定量的指標がない 問題点: SimGAN [Ashish, 17] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, and Russell Webb. 2017. Learning from Simulated and Unsupervised Images through Adversarial Training. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2242-2251. 4 Refiner R Discriminator D Real vs Refined Simulation Refined Real

Slide 5

Slide 5 text

提案手法 Easy Cartesian Genetic Programming (ezCGP)による SimGAN学習の多目的最適化 ◼木構造ではなくグラフでNNの構造を表現 ◼遺伝子の他にブロックというかたまりを持つ 5 ①SimGANのアーキテクチャと ハイパーパラメータを探索 ②4種類のリアルさを評価する指標を設計

Slide 6

Slide 6 text

ezCGPによる最適化の流れ 1. 解集団の初期化 ◼あらかじめ成功しそうなアーキテクチャを 人手で設計しておく ➢学習が容易になる 6 ① … 初期集団: 4個体 ブロック 遺伝子 学習パラメータ Refiner Discriminator

Slide 7

Slide 7 text

ezCGPによる最適化の流れ 2. 交叉 ◼親同士の全ブロックを33%の確率で交叉 ➢親選択の方法はおそらくNSGA-Ⅱと同じ 7 ② 交叉 ブロック 遺伝子 学習パラメータ Refiner Discriminator

Slide 8

Slide 8 text

ezCGPによる最適化の流れ 3. 突然変異 ◼遺伝子の位置変更 ◼遺伝子が行う操作の変更 ◼ハイパーパラメータの変更 8 ③ ブロック 遺伝子 突然変異

Slide 9

Slide 9 text

ezCGPによる最適化の流れ 4. 学習と評価 ◼個体の持つパラメータを用いて学習 ◼4種類の評価値を計算: 目的のため自分で設計 ➢FIDスコア ➢KS統計量 ➢実データの分布と異なる特徴量の数 ➢特徴分布の平均p値 9 ④ ブロック 遺伝子 異常なデータ

Slide 10

Slide 10 text

ezCGPによる最適化の流れ 5. 解選択 ◼NSGA-Ⅱで解選択 ◼子集団 + Hall of fame最大40個体から ➢Hall of fame: 最良個体のアーカイブ? ◼4種類の評価値による4目的最適化 10 ⑤ ブロック 遺伝子

Slide 11

Slide 11 text

実験: 生成したデータの有用性 内容 ◼心電図信号が正常か異常かを分類 ➢正常なデータ: 5000,異常なデータ: 2000 ◼実データの一部と生成した異常なデータを組み合わせて分類器を学習 結果 ◼シミレーションと比べてRefinedデータの方が高い精度 ◼最適化したSimGANを用いた方法がもっとも精度が高い 11 ※数値はF1スコア

Slide 12

Slide 12 text

まとめ 目的 ◼機械学習モデルで学習するデータの生成 提案手法 ◼SimGANのアーキテクチャとハイパーパラメータの最適化 実験結果 ◼SimGANで生成したデータを加えて学習すると精度がよくなった 12

Slide 13

Slide 13 text

Appendix

Slide 14

Slide 14 text

ECGシミュレータ NeuroKit2: オープンソースソフト ◼2 種類のシミュレータ ➢心拍の周期を近似可能なシミュレーション ➢ECGSYNに基づくシミュレーション ◼この論文では両方のシミュレータからサンプルを生成 シミュレーションでできること ◼継続時間,サンプリングレート,心拍数などを指定可能 ◼ECGSYNはランダムな揺らぎも模倣 実データはノイズが含まれてより複雑かつ長さが可変 14

Slide 15

Slide 15 text

従来手法: GAN 2種類のDNNを敵対的に学習 ◼識別器Dをだますようなサンプルを生成する生成器Gを学習 ◼ネットワークが互いに競争するミニマックスゲーム Generator G Discriminator R ランダムノイズ 15

Slide 16

Slide 16 text

評価指標 FIDスコア minimize ◼生成された画像の品質を測定する指標 KS統計量 minimize ◼コルモゴロフ–スミルノフ検定 ◼2つの分布が異なるかを調べる 実データの分布と異なる特徴量の数 minimize ◼実データと生成したデータから抽出した一般的な特徴量を比較 ◼この論文では9種類(ドメインへの知識で可変) 特徴量分布の平均p値 maximize ◼2つの分布からサンプリングしたものをt検定 ◼有意差がなければ2つの分布は同じ分布からサンプリングされたと考えられ る 16

Slide 17

Slide 17 text

結果 著者曰く改善されているらしい 17 0世代 9世代