Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第8話 機械学習用のデータ収集方法

AI基礎講座 第8話 機械学習用のデータ収集方法

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第8話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。

対応する動画が https://youtu.be/TEWCMiT7pgI にアップロードされておりますので、ご興味があればご覧ください。

Yoshitaka Ushiku

May 03, 2020
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Education

Transcript

  1. 機械学習のその他の展開 • 機械学習は非常に広範な分野 • 本小節では – 2.1節で扱う機械学習の基礎 – 3章以降で扱う深層学習 以外での機械学習の展開として以下の項目について紹介する

    – クラウドソーシングと機械学習 – プライバシー保護と機械学習 – 説明性のある機械学習 – 異常検出 – トピックモデル – 因果探索
  2. そもそも学習用のデータをどう集める? • 研究開発者自身が収集 – 作業コストが膨大 • シミュレーションデータ作成 – リアルなビデオゲーム画像とそのレ ンダリングデータの対で学習

    – 自動でデータを作れるが、実世界と 乖離がある場合も多い • クラウドソーシング – Amazon Mechanical Turk (AMT)など が有名 – 世界中の作業者(worker)に 対して発注者(requester)が 単純作業(マイクロタスク)を依頼 [https://docs.aws.amazon.com/AWSMechTurk/latest/RequesterUI/images/AWS-Mturk-Create-Tab-Tag-Image.jpg]
  3. ヒューマンコンピュテーションとクラウドソーシング • ヒューマンコンピュテーション – 機械自身が遂行するのが 難しいタスクを人間に 肩代わりしてもらう枠組み – 例:reCAPTCHA 文字認識や画像認識を対象に、機械が答えを

    知っているものと知らないものを同時に提示 • 紙媒体の電子化の作業を直接手伝っている場合もある • 何らかのサービスを利用するためという動機付けもできている • クラウドソーシングと機械学習 – 人間がラベルを付ける動機付け(AMTであれば報酬) – ラベル付けの誤りを修正する重み付き投票などの機械学習技術