AI基礎講座第8話機械学習用のデータ収集方法

Ridge-i インターンシッププログラム人工知能・機械学習（AI/ML）基礎講座第8話機械学習用のデータ収集方法 Chief Research Officer 牛久祥孝

1.3.2. 機械学習のその他の展開

機械学習のその他の展開 • 機械学習は非常に広範な分野 • 本小節では – 2.1節で扱う機械学習の基礎 – 3章以降で扱う深層学習以外での機械学習の展開として以下の項目について紹介する
– クラウドソーシングと機械学習 – プライバシー保護と機械学習 – 説明性のある機械学習 – 異常検出 – トピックモデル – 因果探索

そもそも学習用のデータをどう集める？ • 研究開発者自身が収集 – 作業コストが膨大 • シミュレーションデータ作成 – リアルなビデオゲーム画像とそのレンダリングデータの対で学習
– 自動でデータを作れるが、実世界と乖離がある場合も多い • クラウドソーシング – Amazon Mechanical Turk (AMT)などが有名 – 世界中の作業者（worker）に対して発注者（requester）が単純作業（マイクロタスク）を依頼 [https://docs.aws.amazon.com/AWSMechTurk/latest/RequesterUI/images/AWS-Mturk-Create-Tab-Tag-Image.jpg]

ヒューマンコンピュテーションとクラウドソーシング • ヒューマンコンピュテーション – 機械自身が遂行するのが難しいタスクを人間に肩代わりしてもらう枠組み – 例：reCAPTCHA 文字認識や画像認識を対象に、機械が答えを
知っているものと知らないものを同時に提示 • 紙媒体の電子化の作業を直接手伝っている場合もある • 何らかのサービスを利用するためという動機付けもできている • クラウドソーシングと機械学習 – 人間がラベルを付ける動機付け（AMTであれば報酬） – ラベル付けの誤りを修正する重み付き投票などの機械学習技術

AI基礎講座第8話機械学習用のデータ収集方法

AI基礎講座第8話機械学習用のデータ収集方法

Yoshitaka Ushiku PRO

More Decks by Yoshitaka Ushiku

Other Decks in Education

Featured

Transcript

Ridge-i インターンシッププログラム人工知能・機械学習（AI/ML）基礎講座第8話機械学習用のデータ収集方法 Chief Research Officer 牛久祥孝

1.3.2. 機械学習のその他の展開

機械学習のその他の展開 • 機械学習は非常に広範な分野 • 本小節では – 2.1節で扱う機械学習の基礎 – 3章以降で扱う深層学習以外での機械学習の展開として以下の項目について紹介する

そもそも学習用のデータをどう集める？ • 研究開発者自身が収集 – 作業コストが膨大 • シミュレーションデータ作成 – リアルなビデオゲーム画像とそのレンダリングデータの対で学習

AI基礎講座 第8話 機械学習用のデータ収集方法

AI基礎講座 第8話 機械学習用のデータ収集方法

Yoshitaka Ushiku PRO

More Decks by Yoshitaka Ushiku

Other Decks in Education

Featured

Transcript

Ridge-i インターンシッププログラム 人工知能・機械学習（AI/ML）基礎講座 第8話 機械学習用のデータ収集方法 Chief Research Officer 牛久 祥孝

1.3.2. 機械学習のその他の展開

機械学習のその他の展開 • 機械学習は非常に広範な分野 • 本小節では – 2.1節で扱う機械学習の基礎 – 3章以降で扱う深層学習 以外での機械学習の展開として以下の項目について紹介する

そもそも学習用のデータをどう集める？ • 研究開発者自身が収集 – 作業コストが膨大 • シミュレーションデータ作成 – リアルなビデオゲーム画像とそのレ ンダリングデータの対で学習

AI基礎講座第8話機械学習用のデータ収集方法

AI基礎講座第8話機械学習用のデータ収集方法

Ridge-i インターンシッププログラム人工知能・機械学習（AI/ML）基礎講座第8話機械学習用のデータ収集方法 Chief Research Officer 牛久祥孝

機械学習のその他の展開 • 機械学習は非常に広範な分野 • 本小節では – 2.1節で扱う機械学習の基礎 – 3章以降で扱う深層学習以外での機械学習の展開として以下の項目について紹介する

そもそも学習用のデータをどう集める？ • 研究開発者自身が収集 – 作業コストが膨大 • シミュレーションデータ作成 – リアルなビデオゲーム画像とそのレンダリングデータの対で学習