Slide 1

Slide 1 text

20 分で分かる Human- in-the-Loop 機械学習に おけるアノテーションと ヒューマンコンピュータ ーインタラクションの真 髄 第 8 回 Data-Centric AI 勉強会 上田隼也 @hurutoriya 2024-05-10 1

Slide 2

Slide 2 text

自己紹介 上田隼也 @hurutoriya 書籍「Human in the Loop 機械学習」の翻訳の発起人 2018 年に株式会社メルカリに機械学習エンジニアとして入社後、機械学習による商品監 視サービスの改善を推進。 その結果を論文としてまとめた「Auto Content Moderation in C2C e-Commerce」が、 MLOps の査読付き国際会議 OpML'20 に採択された。 2021 年から検索チームに異動し、検索エンジニアとしてメルカリの検索サービスの改善 に取り組んでいる。趣味で検索エンジン OSS 勉強会というオンライン勉強会を主催して いる。 2

Slide 3

Slide 3 text

翻訳のモチベーション 機械学習エンジニアとして働く中で感じた、 「機械学習にとってデータは非常に大事なは ずだが、実践的な知識や経験に基づいた書籍がなぜ存在しないのか?」 例えば自分自身でアノテーションを行う際にもっと効率的な手法がないのか?と悩ん だり... アノテーションを依頼する際に、抑えておくべきポイントはなにか? 3

Slide 4

Slide 4 text

最初に僕が大好きな 「How Google does Machine Learning」の講師陣の名言を紹介 4

Slide 5

Slide 5 text

ML がやりたい、 でもデータをまだ集めていない 5

Slide 6

Slide 6 text

今すぐそのプロジェクト をやめてください あなたにはデータが必要だ。 6

Slide 7

Slide 7 text

Human-in-the-Loop 機械学習とは 原著: Human-in-the-Loop Machine Learning Active learning and annotation for human-centered AI 2021 年 6 月に出版、2023 年 12 月に日本語翻訳書籍(400 頁弱!)を出版 Human-in-the-Loop 機械学習の定義 機械学習モデルと人間が相互補完しながら動作するシステム。本書ではデータの作成を Human-in-the-Loop 機械学習によって行う方法について取り上げる 1. Human-in-the-Loop 機械学習の概要(1,2 章) 2. 能動学習(3,4,5,6 章) 3. アノテーション(7,8,9,10 章) 4. 機械学習のためのヒューマンコンピュータインタラクション(11,12 章) 7

Slide 8

Slide 8 text

Human-in-the-Loop 機械学習の概要 8

Slide 9

Slide 9 text

アカデミックな研究領域と実践的な機械学習応用の対象的 な取り組み アカデミック領域における機械学習の研究 同一のデータセットに対して異なる手法を適用して評価する 実世界での機械学習適用 より多くのデータにアノテーションを行い、モデルのパフォーマンスを改善しよう とする データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応さ せる(ドメインアダプテーションなど)よりも、小規模でも新規にアノテーションし たデータを学習データに追加して再学習させるほうが効果的 9

Slide 10

Slide 10 text

本書であつかうトピック 能動学習 ランダムサンプリング、不確実性サンプリング、多様性サンプリング アノテーションのベストプラクティス アノテーターとの協働、アノテーションの品質管理、具体的な実用例とデータ拡 張、様々な機械学習タスクにおけるアノテーション品質管理 ヒューマンコンピュータインタラクション ユーザーインターフェースの基本原則 プライミング効果 10

Slide 11

Slide 11 text

アノテーターとの協働 本書で面白いのが、アノテーション組織をどうやって作り上げるかについて多くの頁を割い ている点であり、これだけでも買う価値があるのではと自負している. 3つの異なる種類のワーカーの特性を理解して、マネジメントする。 クラウドワーカー:人員の拡大と縮小が可能であり、難易度が低い単純なアノテーシ ョンに向いている アウトソーシングワーカー:訓練によって専門知識を学んでおり、ある程度難易度が 高いアノテーションが可能。 社内ワーカー: 難易度が高いケースへのラベル付けやアノテーターの指示を行う 11

Slide 12

Slide 12 text

必要なアノテーション量の変動とワーカーごとの生産能力 12

Slide 13

Slide 13 text

アノテーター組織編成パ ターン 13

Slide 14

Slide 14 text

高品質なアノテーションを実現するための三原則 報酬 雇用保障 自己効力感 14

Slide 15

Slide 15 text

アノテーションアワー データのアノテーションを行いながら、エッジケースに遭遇したらそのデータについて議論 してデータへの理解を深めていく 企業でのアノテーション文化の醸造 15

Slide 16

Slide 16 text

アノテーションに大学院生の経済事情を適用するべから ず... 16

Slide 17

Slide 17 text

データの堀(data moat) 私が見てきたどの業界でも、長期間トップレベルを維持した最先端のモデルは、新しい アルゴリズムではなく、よりよい学習データに支えられていました。 高品質なデータは「データの堀」と呼ばれます。 高品質なデータは、競合他社の機械学習サービスに打ち負かされないサービスを提供す るための障壁となるのです。 17

Slide 18

Slide 18 text

アノテーションの品質管理 アノテーション結果と真値データセットを比較する 代表的な3つのベースライン ランダム 最も頻度が高いラベル データ頻度 18

Slide 19

Slide 19 text

アノテーター間の一致度の計算とそのメリット データセットの信頼性 最も信頼できないアノテーターの特定 最も信頼できるアノテーターの特定 共同作業の特定 一貫性の評価 ガイドラインの改善 続きは本書で... (本書では詳しく説明されています) 19

Slide 20

Slide 20 text

ヒューマンコンピューターインタラクションの基本原理 アフォーダンス(シグニファイア) フィードバック 自己効力感 20

Slide 21

Slide 21 text

とあるアノテーションインターフェース 21

Slide 22

Slide 22 text

アンチパターン 22

Slide 23

Slide 23 text

ベストプラクティス 23

Slide 24

Slide 24 text

Human-in-the-Loop 機械学習 を組み込んだアプリケー ション 12 章では様々な現実世界での実例をもとにこれまでの章で紹介してきたトピックの活用方法 を具体的に紹介 すぐさま実践的に活用したい方は、まずはこの章を見るとトップダウンで活用方法がわかり ます! 24

Slide 25

Slide 25 text

まとめ Garbage in Garbage out 機械学習をやる前にまずはデータを集めよう 機械学習はデータを持ってるところが勝つ 競合優位性は所有しているデータから生まれる Human-in-the-Loop 機械学習はデータ作成に主眼を当てた珍しい書籍 だが、10 年後でも色褪せない意義のある内容 大規模言語モデル(LLM)の時代である今でも色褪せない...と信じてます! 今回の発表で少しでも気になったら買ってくれると嬉しいです! 25

Slide 26

Slide 26 text

データは いつだって勝つ! by How Google does Machine Learning 26