Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第8話 機械学習用のデータ収集方法

AI基礎講座 第8話 機械学習用のデータ収集方法

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第8話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。

対応する動画が https://youtu.be/TEWCMiT7pgI にアップロードされておりますので、ご興味があればご覧ください。

Yoshitaka Ushiku

May 03, 2020
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Education

Transcript

  1. Ridge-i インターンシッププログラム
    人工知能・機械学習(AI/ML)基礎講座
    第8話 機械学習用のデータ収集方法
    Chief Research Officer
    牛久 祥孝

    View full-size slide

  2. 1.3.2. 機械学習のその他の展開

    View full-size slide

  3. 機械学習のその他の展開
    • 機械学習は非常に広範な分野
    • 本小節では
    – 2.1節で扱う機械学習の基礎
    – 3章以降で扱う深層学習
    以外での機械学習の展開として以下の項目について紹介する
    – クラウドソーシングと機械学習
    – プライバシー保護と機械学習
    – 説明性のある機械学習
    – 異常検出
    – トピックモデル
    – 因果探索

    View full-size slide

  4. そもそも学習用のデータをどう集める?
    • 研究開発者自身が収集
    – 作業コストが膨大
    • シミュレーションデータ作成
    – リアルなビデオゲーム画像とそのレ
    ンダリングデータの対で学習
    – 自動でデータを作れるが、実世界と
    乖離がある場合も多い
    • クラウドソーシング
    – Amazon Mechanical Turk (AMT)など
    が有名
    – 世界中の作業者(worker)に
    対して発注者(requester)が
    単純作業(マイクロタスク)を依頼
    [https://docs.aws.amazon.com/AWSMechTurk/latest/RequesterUI/images/AWS-Mturk-Create-Tab-Tag-Image.jpg]

    View full-size slide

  5. ヒューマンコンピュテーションとクラウドソーシング
    • ヒューマンコンピュテーション
    – 機械自身が遂行するのが
    難しいタスクを人間に
    肩代わりしてもらう枠組み
    – 例:reCAPTCHA
    文字認識や画像認識を対象に、機械が答えを
    知っているものと知らないものを同時に提示
    • 紙媒体の電子化の作業を直接手伝っている場合もある
    • 何らかのサービスを利用するためという動機付けもできている
    • クラウドソーシングと機械学習
    – 人間がラベルを付ける動機付け(AMTであれば報酬)
    – ラベル付けの誤りを修正する重み付き投票などの機械学習技術

    View full-size slide