株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。
第8話は機械学習用のデータ収集方法。機械学習には(必ずではないですが)基本的には多くのデータを学習させる必要があります。そのデータセット構築のつらさと、ではいかにしてうまくデータを収集するのかを概説します。
対応する動画が https://youtu.be/TEWCMiT7pgI にアップロードされておりますので、ご興味があればご覧ください。
Ridge-i インターンシッププログラム人工知能・機械学習(AI/ML)基礎講座第8話 機械学習用のデータ収集方法Chief Research Officer牛久 祥孝
View Slide
1.3.2. 機械学習のその他の展開
機械学習のその他の展開• 機械学習は非常に広範な分野• 本小節では– 2.1節で扱う機械学習の基礎– 3章以降で扱う深層学習以外での機械学習の展開として以下の項目について紹介する– クラウドソーシングと機械学習– プライバシー保護と機械学習– 説明性のある機械学習– 異常検出– トピックモデル– 因果探索
そもそも学習用のデータをどう集める?• 研究開発者自身が収集– 作業コストが膨大• シミュレーションデータ作成– リアルなビデオゲーム画像とそのレンダリングデータの対で学習– 自動でデータを作れるが、実世界と乖離がある場合も多い• クラウドソーシング– Amazon Mechanical Turk (AMT)などが有名– 世界中の作業者(worker)に対して発注者(requester)が単純作業(マイクロタスク)を依頼[https://docs.aws.amazon.com/AWSMechTurk/latest/RequesterUI/images/AWS-Mturk-Create-Tab-Tag-Image.jpg]
ヒューマンコンピュテーションとクラウドソーシング• ヒューマンコンピュテーション– 機械自身が遂行するのが難しいタスクを人間に肩代わりしてもらう枠組み– 例:reCAPTCHA文字認識や画像認識を対象に、機械が答えを知っているものと知らないものを同時に提示• 紙媒体の電子化の作業を直接手伝っている場合もある• 何らかのサービスを利用するためという動機付けもできている• クラウドソーシングと機械学習– 人間がラベルを付ける動機付け(AMTであれば報酬)– ラベル付けの誤りを修正する重み付き投票などの機械学習技術