Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第10話 機械学習のまわりの発展例

AI基礎講座 第10話 機械学習のまわりの発展例

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第10話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。

対応する動画が https://youtu.be/xkn4ZrrA81I にアップロードされておりますので、ご興味があればご覧ください。

Be0f86176276318b4b9775d795278f7e?s=128

Yoshitaka Ushiku

May 04, 2020
Tweet

Transcript

  1. Ridge-i インターンシッププログラム 人工知能・機械学習(AI/ML)基礎講座 第10話 機械学習のまわりの発展例 (異常検出、トピックモデル、因果) Chief Research Officer 牛久

    祥孝
  2. 1.3.2. 機械学習のその他の展開(つづき)

  3. 変化検出・異常検出 • 機械にセンサーを取り付け、普段から振動や音などを記録 →普段では見られない振動や音があれば前もって故障を予想 できるかも • 病理画像を大量に観察 →正常な組織の画像に対してごくまれに映るものは病変であ る可能性が高い •

    経済データを常時監視 →普段見られない動きをした場合にアラートをだせるかも [Schlegl+, IPMI 2017]
  4. 変化検出・異常検出 • 異常/正常を示すラベルが付随している場合 – 正常と異常を見分けるモデルを学習し、識別の要領で異常や変化 を検出 • そうしたラベルが付随していない場合 – 正常モデルを学習し、観測データが正常モデルからどれだけ逸脱

    しているかに応じて異常や変化を検出 • 何に異常/変化を見出すか – 外れ値検出:今観測している値そのものが正常かどうか – 応答異常:ある入力に対する出力の応答パターンが正常かどうか
  5. トピックモデル • 「文書」が生成される過程の確率モデル – 文書の種類によって頻出する語彙に偏りがある – 画像のシーンによって出現する事物に偏りがある – 購買サイトのユーザの属性によって買いやすい商品に偏りがある •

    データに潜在的に存在するトピックを学習 – 個々のデータがどのトピックにあたるかを推定することも可能 – トピック数を自動的に推定することも可能 • 代表的な手法 – 確率的潜在意味解析 (PLSA: Probabilistic Latent Semantic Analysis) (注:潜在意味解析は後述の主成分分析と同じ) – 潜在ディリクレ配分モデル (LDA: Latent Dirichlet Allocation)
  6. • ある時系列データが原因となり,他の時系列データに何らかの影響 を与えている現象 • 因果探索 – 独立成分分析を応用したLinGAM [Shimizu+, JMLR 2006]

    • 因果指標 – Granger Causality [Granger, 1969] – Transfer Entropy [Schreiber, 2000] – Time Delayed Mutual Information 因果指標・因果探索 This morning, we woke to more sobering news about the state of our economy. The 240,000 jobs lost in October marks the 10th consecutive month that our economy has shed jobs. In total, we've lost nearly 1.2 million jobs this year, and more than 10 million Americans are now unemployed. Tens of millions of families are struggling to figure out how to pay the bills and stay in their homes. Their stories are an urgent reminder that we are facing the greatest economic challenge of our lifetime, and we must act swiftly to resolve them. 因果関係 Tens of millions of families are struggling to figure out how to pay the bills and stay in their homes. Their stories are an urgent reminder that we are facing the greatest economic challenge of our lifetime, and we must act swiftly to resolve them. This morning, we woke to more sobering news about the state of our economy. The 240,000 jobs lost in October marks the 10th consecutive month that our economy has shed jobs. In total, we've lost nearly 1.2 million jobs this year, and more than 10 million Americans are now unemployed. TEに確率的ARモデルを導入する とGCと一致 [Shibuya+, KDD 2009] データが多次元ガウス分布に従う とするとTEはPartial CCA、MIは CCAに帰着 [Shibuya+ PRE 2011] [https://scontent-nrt1-1.xx.fbcdn.net/v/t1.0- 9/17903454_10158949965035725_3181251005684687258_n.jpg]