Upgrade to Pro — share decks privately, control downloads, hide ads and more …

金研究室 勉強会 『Machine Learning Aspects of the MySha...

金研究室 勉強会 『Machine Learning Aspects of the MyShake Global Smartphone Seismic Network』

Machine Learning Aspects of the MyShake Global Smartphone Seismic Network, Kong et al., 2018, Seismological Research Letters

winnie279

May 27, 2021
Tweet

More Decks by winnie279

Other Decks in Science

Transcript

  1. Machine Learning Aspects of the MyShake Global Smartphone Seismic Network

    Kong et al., 2018, Seismological Research Letters 金研 機械学習勉強会 2021/05/27 中村勇士
  2. MyShakeとは? • スマホで動作する、軽い3層のニューラルネットワーク(ANN) ◦ アプリ上で検出 ◦ スマホの振動が地震 , ノイズのどちらかを検出 ◦

    緊急地震速報を提供 • 実績 ◦ 30万ダウンロード ◦ 4万台のアクティブなスマホにインストール ◦ 6000台のデバイスがアクティブ
  3. MyShake Global Smartphone Seismic Network とは? • 構成 ◦ 2つのサブセクション

    ◦ 4つのMLアルゴリズム • 全体の流れ ◦ スマホによるリアルタイムの地震動検出 ◦ トリガーをクラウドに送信 ▪ 時刻 ▪ 位置 ▪ 振幅 ◦ トリガーをクラウド内で集約 ▪ 地震パラメータの決定 ◦ トリガー前後の地震波形をDBに保存 ◦ 地震動の分析
  4. スマホとクラウドでのリアルタイム分析:ANN • スマホによるリアルタイムの地震動検出 • 地震波形の3成分に2秒のタイムウィンドウを設定 • 特徴量抽出 ◦ 18種類の特徴量から3つの最適な特徴量を選択 →

    過学習と計算コストの低減 ▪ greedy forward feature selection method (Kuhn and Johnson, 2013) ▪ 分類精度・実装のしやすさ・計算コストを評価 ▪ クラスの偏りを減らすために,K-means法を使用 k-means法でデータを分類, https://qiita.com/Yt330110713/items/534e1791aee4e1440785 

  5. スマホとクラウドでのリアルタイム分析:ANN • 誤検出率の時間変化 • STA/LTA → ANNによるトリガー ◦ 午後10時 -

    午前5時:ほぼ15%以下 ◦ 午前6時から午後9時:15% - 20% → 大半がノイズ
  6. スマホとクラウドでのリアルタイム分析:DBSCAN • 最適な地震発生位置と発生時刻を検出 • 密度ベースのクラスタリング(Ester et al., 1996) ◦ 教師なし学習

    ◦ クラスタの数を指定する必要がない ◦ ノイズに対して頑強性がある • アルゴリズム ◦ データセットの各データを中心とする ◦ 中心から半径 ε内のデータ数 > min_pts ⇒ 円がクラスタ ◦ クラスタを拡張 ◦ クラスタに属さないデータは外れ値とする • 実装 ◦ 10 × 10 kmのグリッドセルを使用 ◦ 20秒間で発生したトリガーを集約 ◦ ε = 200 km, min_pts = 2 grid cells ◦ クラスタが形成(地震を検出) → 最適な地震発生位置 , 発生時刻を見つける The Implications of M3C2 Projection Diameter on 3D Semi-Automated Rockfall Extraction from Sequential Terrestrial Laser Scanning Point Clouds, Paul-Mark DiFrancesco et al., 2020
  7. スマホとクラウドでのリアルタイム分析:ランダムフォレスト • PGA(Peak Ground Acceleration, 表面最大加速度)に基づき Mを推定 • 決定木を使用した回帰問題( Breiman,

    2001) ◦ 教師あり学習 ◦ ブラックボックスでない • アルゴリズム ◦ データセットからデータをランダムに取り出す ◦ 決定木ごとに異なる特徴量で学習 ◦ 決定木ごとに予測された値の代表値を予測値と する • 実装 ◦ 様々な距離/種類の1,000,000個のランダムな PGAにより訓練 An attenuation relationship based on Turkish strong motion data and iso-acceleration map of Turkey, Resat Ulusay et al., 2004 Random Forest とその派生アルゴリズム , http://kazoo04.hatenablog.com/entry/2013/12/04/175402
  8. スマホとクラウドでのリアルタイム分析:シミュレーション • イベント ◦ a:2016/09/12, M5.4, 韓国 → M5.1, 5.5秒後

    ◦ b:1016/11/13, M7.8, ニュージーランド → M7.2, 13.8秒後 • ★:実際の震央 • ★:推定した震央 • ⚪:P波 • ⚪ :S波 • ⚫:スマホの位置 • ⚫:トリガー(⚪の外側はノイズ)
  9. 波形データベースでのデータ解析(CNN) • 非リアルタイム, 長いタイムウィンドウの高精度の分類 • モデル ◦ CNN ◦ 6つの畳み込み層

    , 3つのプーリング層 , 1つの全結合層 ◦ ドロップアウト ◦ 精度 96.77% • データ ◦ 150万のデータ(トレーニング 75%) ◦ 3 × 2501の配列 ◦ 100s, 25Hz, 60s pretrigger, 40s after trigger ◦ 3成分の並びはすべての組み合わせを使用 → スマホの水平方向は不明 ◦ トレーニングデータの拡張 , 一般化 ▪ 異なるノイズ ▪ 3成分の符号のランダムな反転 ▪ 前後2秒のトリガーのランダムなシフト 60 s 40 s
  10. 新たな方向性と挑戦:1つのアルゴリズムにおける限界 • 現在はすべてのスマホの ANNが共通 ◦ ユーザーの行動は性別や年齢で異なる ◦ スマホの機種・性能は多岐に渡る • 1人1人にカスタマイズされたモデル

    or グループに適合する共有モデル が理想 ◦ 集中学習 ▪ すべてのユーザーが数日間の活動を中央サーバーにアップロード ▪ サーバーでカスタマイズされた分類器を学習・スマホに戻す ◦ 連合学習 (Konečný et al., 2016; McMahan et al., 2016) ▪ ユーザーが初期モデルをダウンロード・ローカルで モデルを再学習 ▪ 変更点のみをアップデートとして中央サーバーに アップロード ▪ 初期モデルを改良・新しい共有モデルを形成 • 両方のアプローチをテスト中 → テスト版のAndroidアプリケーションが作成されている → Androidでの学習にはTensorFlowを使用
  11. 新たな方向性と挑戦:動的ネットワーク • MyShakeネットワークはユーザーの移動によって常に変化する ◦ 空間的:センサーは都市から都市へ移動 ◦ 時間的:地震を検出するのに最適なセンサー数の変化 ▪ 午前0時 -

    午前6時:70%以上のスマホが安定 ▪ 午前10時 - 午後8時まで:約20%のスマホのみ安定 ▪ • 空間的・時間的なダイナミクスに応じて パラメータを変更可能な、 適応的な検出アルゴリズムが必要
  12. 新たな方向性と挑戦:システムの偽装 • なりすまし攻撃による誤報への対応 ◦ 個々のスマートフォンで地震動を模倣 → 偽のトリガーを生成 ◦ 1人または複数の独立したユーザー /スマホから偽のトリガーを送信

    ◦ 複数の共謀したユーザー /スマホから時間と場所を調整して偽のトリガーを送信 • 敵対的生成ネットワーク(GAN) ◦ 偽のトリガーを判別するモデルの作成 現代ビジネス , https://gendai.ismedia.jp/articles/-/63615?page=2
  13. 新たな方向性と挑戦:汎用センサ収集・融合プラットフォーム • より多くの低コストの消費者向けセンサーを取り入れる ◦ 自動車の加速度計 ◦ 音声アシスタント ◦ スマートホーム ◦

    Raspberry Pi ◦ ドローンの映像・家庭や都市の CCTVカメラなど • 様々なデータセットの組み合わせによるML ◦ 各データソースから個別に特徴量を抽出 → 統一されたMLアルゴリズムに与える
  14. まとめ • MyShake Global Smartphone Seismic Network ◦ リアルタイム分析 ▪

    ANN(スマホ) ▪ DBSCAN(クラウド) ▪ ランダムフォレスト(クラウド) ◦ 非リアルタイム分析 ▪ CNN(クラウド) • 今後の展望 ◦ 1人1人にカスタマイズされたモデル or グループに適合する共有モデル ◦ 動的にパラメータを変更可能な アルゴリズム ◦ 敵対的生成ネットワーク(GAN) ◦ 様々なデータセットの組み合わせ