Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第10話 機械学習のまわりの発展例

AI基礎講座 第10話 機械学習のまわりの発展例

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第10話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。

対応する動画が https://youtu.be/xkn4ZrrA81I にアップロードされておりますので、ご興味があればご覧ください。

Yoshitaka Ushiku
PRO

May 04, 2020
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Education

Transcript

  1. Ridge-i インターンシッププログラム
    人工知能・機械学習(AI/ML)基礎講座
    第10話 機械学習のまわりの発展例
    (異常検出、トピックモデル、因果)
    Chief Research Officer
    牛久 祥孝

    View Slide

  2. 1.3.2. 機械学習のその他の展開(つづき)

    View Slide

  3. 変化検出・異常検出
    • 機械にセンサーを取り付け、普段から振動や音などを記録
    →普段では見られない振動や音があれば前もって故障を予想
    できるかも
    • 病理画像を大量に観察
    →正常な組織の画像に対してごくまれに映るものは病変であ
    る可能性が高い
    • 経済データを常時監視
    →普段見られない動きをした場合にアラートをだせるかも
    [Schlegl+, IPMI 2017]

    View Slide

  4. 変化検出・異常検出
    • 異常/正常を示すラベルが付随している場合
    – 正常と異常を見分けるモデルを学習し、識別の要領で異常や変化
    を検出
    • そうしたラベルが付随していない場合
    – 正常モデルを学習し、観測データが正常モデルからどれだけ逸脱
    しているかに応じて異常や変化を検出
    • 何に異常/変化を見出すか
    – 外れ値検出:今観測している値そのものが正常かどうか
    – 応答異常:ある入力に対する出力の応答パターンが正常かどうか

    View Slide

  5. トピックモデル
    • 「文書」が生成される過程の確率モデル
    – 文書の種類によって頻出する語彙に偏りがある
    – 画像のシーンによって出現する事物に偏りがある
    – 購買サイトのユーザの属性によって買いやすい商品に偏りがある
    • データに潜在的に存在するトピックを学習
    – 個々のデータがどのトピックにあたるかを推定することも可能
    – トピック数を自動的に推定することも可能
    • 代表的な手法
    – 確率的潜在意味解析 (PLSA: Probabilistic Latent Semantic
    Analysis) (注:潜在意味解析は後述の主成分分析と同じ)
    – 潜在ディリクレ配分モデル (LDA: Latent Dirichlet Allocation)

    View Slide

  6. • ある時系列データが原因となり,他の時系列データに何らかの影響
    を与えている現象
    • 因果探索
    – 独立成分分析を応用したLinGAM [Shimizu+, JMLR 2006]
    • 因果指標
    – Granger Causality [Granger, 1969]
    – Transfer Entropy [Schreiber, 2000]
    – Time Delayed Mutual Information
    因果指標・因果探索
    This morning, we woke to more
    sobering news about the state of
    our economy. The 240,000 jobs
    lost in October marks the 10th
    consecutive month that our
    economy has shed jobs. In total,
    we've lost nearly 1.2 million jobs
    this year, and more than 10 million
    Americans are now unemployed.
    Tens of millions of families are
    struggling to figure out how to pay
    the bills and stay in their homes.
    Their stories are an urgent
    reminder that we are facing the
    greatest economic challenge of
    our lifetime, and we must act
    swiftly to resolve them.
    因果関係
    Tens of millions of
    families are struggling to
    figure out how to pay the
    bills and stay in their
    homes. Their stories are
    an urgent reminder that
    we are facing the greatest
    economic challenge of
    our lifetime, and we must
    act swiftly to resolve
    them.
    This morning, we woke to
    more sobering news
    about the state of our
    economy. The 240,000
    jobs lost in October marks
    the 10th consecutive
    month that our economy
    has shed jobs. In total,
    we've lost nearly 1.2
    million jobs this year, and
    more than 10 million
    Americans are now
    unemployed.
    TEに確率的ARモデルを導入する
    とGCと一致 [Shibuya+, KDD 2009]
    データが多次元ガウス分布に従う
    とするとTEはPartial CCA、MIは
    CCAに帰着 [Shibuya+ PRE 2011]
    [https://scontent-nrt1-1.xx.fbcdn.net/v/t1.0-
    9/17903454_10158949965035725_3181251005684687258_n.jpg]

    View Slide