Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第10話 機械学習のまわりの発展例

AI基礎講座 第10話 機械学習のまわりの発展例

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第10話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。

対応する動画が https://youtu.be/xkn4ZrrA81I にアップロードされておりますので、ご興味があればご覧ください。

Yoshitaka Ushiku

May 04, 2020
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Education

Transcript

  1. 変化検出・異常検出 • 異常/正常を示すラベルが付随している場合 – 正常と異常を見分けるモデルを学習し、識別の要領で異常や変化 を検出 • そうしたラベルが付随していない場合 – 正常モデルを学習し、観測データが正常モデルからどれだけ逸脱

    しているかに応じて異常や変化を検出 • 何に異常/変化を見出すか – 外れ値検出:今観測している値そのものが正常かどうか – 応答異常:ある入力に対する出力の応答パターンが正常かどうか
  2. トピックモデル • 「文書」が生成される過程の確率モデル – 文書の種類によって頻出する語彙に偏りがある – 画像のシーンによって出現する事物に偏りがある – 購買サイトのユーザの属性によって買いやすい商品に偏りがある •

    データに潜在的に存在するトピックを学習 – 個々のデータがどのトピックにあたるかを推定することも可能 – トピック数を自動的に推定することも可能 • 代表的な手法 – 確率的潜在意味解析 (PLSA: Probabilistic Latent Semantic Analysis) (注:潜在意味解析は後述の主成分分析と同じ) – 潜在ディリクレ配分モデル (LDA: Latent Dirichlet Allocation)
  3. • ある時系列データが原因となり,他の時系列データに何らかの影響 を与えている現象 • 因果探索 – 独立成分分析を応用したLinGAM [Shimizu+, JMLR 2006]

    • 因果指標 – Granger Causality [Granger, 1969] – Transfer Entropy [Schreiber, 2000] – Time Delayed Mutual Information 因果指標・因果探索 This morning, we woke to more sobering news about the state of our economy. The 240,000 jobs lost in October marks the 10th consecutive month that our economy has shed jobs. In total, we've lost nearly 1.2 million jobs this year, and more than 10 million Americans are now unemployed. Tens of millions of families are struggling to figure out how to pay the bills and stay in their homes. Their stories are an urgent reminder that we are facing the greatest economic challenge of our lifetime, and we must act swiftly to resolve them. 因果関係 Tens of millions of families are struggling to figure out how to pay the bills and stay in their homes. Their stories are an urgent reminder that we are facing the greatest economic challenge of our lifetime, and we must act swiftly to resolve them. This morning, we woke to more sobering news about the state of our economy. The 240,000 jobs lost in October marks the 10th consecutive month that our economy has shed jobs. In total, we've lost nearly 1.2 million jobs this year, and more than 10 million Americans are now unemployed. TEに確率的ARモデルを導入する とGCと一致 [Shibuya+, KDD 2009] データが多次元ガウス分布に従う とするとTEはPartial CCA、MIは CCAに帰着 [Shibuya+ PRE 2011] [https://scontent-nrt1-1.xx.fbcdn.net/v/t1.0- 9/17903454_10158949965035725_3181251005684687258_n.jpg]