クラウド活用最前線: Crowdsourcing セッションつまみ食い / WWW-2020 papers from Crowdsourcing session

クラウド活用最前線: Crowdsourcing セッションつまみ食い / WWW-2020 papers from Crowdsourcing session

WWW2020 論文読み会
"Crowdsourcing" セッションから以下の2本の論文を紹介します。

[1] Alexander Braylan and Matthew Lease, 2020.Modeling and Aggregation of Complex Annotations via Annotation Distances. WWW-2020.
[2] Xiao Hu, Haobo Wang, Anirudh Vegesana, Somesh Dube, Kaiwen Yu, Gore Kao, Shuo-Han Chen, Yung-Hsiang Lu, George K. Thiruvathukal, and Ming Yin, 2020. Crowdsourcing Detection of Sampling Biases in Image Datasets. WWW-2020.

86e27abc6d8ba9798bbbbcf6c96f7a92?s=128

Takaaki Tsunoda

August 11, 2020
Tweet

Transcript

  1. クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い 株式会社サイバーエージェント 秋葉原ラボ ⾓⽥ 孝昭 WWW-2020 論⽂読み会 1

  2. 本発表で取り上げる論⽂ 1. Alexander Braylan and Matthew Lease, 2020. Modeling and

    Aggregation of Complex Annotations via Annotation Distances. WWW-2020. • 様々なタスクに使えるアノテーションのモデルを提案 2. Xiao Hu, Haobo Wang, Anirudh Vegesana, Somesh Dube, Kaiwen Yu, Gore Kao, Shuo-Han Chen, Yung-Hsiang Lu, George K. Thiruvathukal, and Ming Yin, 2020. Crowdsourcing Detection of Sampling Biases in Image Datasets. WWW-2020. • データセット中に存在する偏り (bias) を⾒つける、クラウドソーシングを活⽤した 枠組みを提案 クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い 2 "Crowdsourcing" セッションから気になる論⽂を2本紹介
  3. Modeling and Aggregation of Complex Annotations via Annotation Distances Alexander

    Braylan and Matthew Lease. 2020. 紹介論⽂ᶃ 3
  4. ⽬的: アノテーションモデリングの幅を拡げる l アノテーション‧アノテーターのモデリングは有⽤ • ラベルの統合により⾼精度なデータセットを実現。品質管理にも • 分類やレーティングであれば⽅法は⾊々あるが… 多数決や平均も⽅法の1つ l

    アノテーションしたいタスクは他にも様々 系列ラベリング, 翻訳, 構⽂解析, ランキング, … l • タスク固有のラベルではなく、ラベル間の距離に注⽬したモデルを提案。 ラベル間の距離が与えられればあらゆるタスクに適⽤可能な汎⽤性を持つ • 各アノテータのエラー率‧各データの難易度を考慮し階層ベイズでモデル化 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 4 アイディア
  5. モデル: Multidimensional Annotation Scaling (1/2) l 距離 Diuv を次のように定義: l

    Diuv は以下の分布に従うと仮定(尤度)(式4) 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 5 データ アノテータ データ i に対し アノテータ u, v が付けたラベル ラベル間の距離を測る関数 アノテーションを 埋め込みベクトル化した距離 アノテーションの K 次元埋め込みベクトル "nice picture" "the cat eats" "a cat is eating" 真の ↘ ラベル 埋め込みベクトル xiu のノルム ||xiu || が 真のラベル (原点) からの距離になるような ベクトルを考える ||xiu || は各アノテーションのエラー具合とも解釈可能 分散(ハイパーパラメータ)
  6. 6 l アノテーションベクトル xiu は次のように考える(事前分布)(式5) l 最終的に ||xiu || が最も⼩さいラベルを採⽤

    (式2, 3) l 各パラメータの事前分布は以下の通り★ (式6) ★ の分布は論⽂中に記載が無かったので発表スライドより引⽤(但し、発表スライドでも N のパラメータは不明) モデル: Multidimensional Annotation Scaling (2/2) 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 正規化項 データ i の アノテーション難度 アノテータ u の アノテーションエラー アノテータ u が今⼀つなほど‧データ i が難しいほど 最終的な ||xiu ||(エラー具合)も⼤きくなる パラメータ推定時に γu , δi も同時に得られるのが 地味にうれしいポイント データ i の ラベル 最も真ラベル (仮) に近そうな アノテーションをしているアノテータ
  7. 7 l 与えるべきパラメータは次の通り • K: アノテーション埋め込みベクトルの次元数 実験では K=8 としている。development データでは

    K>2 において⼤差は無かったとのこと • Φ, Ψ: γ や δ の scale 実験では Φ=Ψ=1 としている l 推定すべきパラメータは次の通り: • Stan★ を利⽤して推定 最⼤事後確率 (MAP) 推定 + L-BFGS 最適化を利⽤ ★ 確率的プログラミング⾔語。本論⽂のような階層ベイズモデルのパラメータ推定に便利 モデルのパラメータ 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances
  8. 実験 l 右図の4タスクを対象 • 既に正解 (gold label) が判明している データセットを利⽤ l

    クラウドソーシングで得られた アノテーションデータに提案⼿法を 適⽤したラベルと正解ラベルを⽐較 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 8
  9. 実験結果 l 提案モデル MAS は様々なタスクに対して 同⼀のモデルながら Upperbound に近い結果に 紹介論⽂ᶃ: Modeling

    and Aggregation of Complex Annotations via Annotation Distances 9 提案⼿法を簡略化したモデル 提案 ⼿法 Semi-Supervised 今回は説明割愛 理論的最⾼性能 各アイテムで最も正解に近い アノテーターを選択できた場合 ZenCrowd [Demartini+, 2012] ランダムに選択
  10. まとめと雑感 l まとめ • 様々なタスクに適⽤可能なアノテーションのモデルを提案 • 4つのタスクで検証、実⽤性を確認 l 雑感 •

    ラベル間の距離に注⽬した点が⾯⽩い ⼤体のタスクは評価に距離が必要なので、⼤体距離が定義されている • アノテーションを「選択」するのではなく「統合」できるとよりより嬉しい Future Work としても挙がっているが、なかなか難しそう • 階層ベイズでのモデル化を久々に⾒た気がする… 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 10
  11. Crowdsourcing Detection of Sampling Biases in Image Datasets Xiao Hu,

    Haobo Wang, Anirudh Vegesana, Somesh Dube, Kaiwen Yu, Gore Kao, Shuo-Han Chen, Yung-Hsiang Lu, George K. Thiruvathukal, and Ming Yin. 2020. 紹介論⽂ᶄ 11
  12. ⽬的: データセット中の偏りをあぶり出す l データセットの偏り (bias) は予期せぬ結果を招く • システムの性能が⼈種や性別などによって⼤きく異なる 例: 学習データセットの⼈種‧性別の偏りに起因し、顔認識精度に差が出た

    [3] • タスクの本質とは異なる背景情報の「偏り」が学習に使われる恐れ 例: ⼥性が写っていることを根拠に「料理」ラベルの確率が上がる…? l データセット(本論⽂では画像を対象)にある偏りを⾒つけたい l • クラウドソーシングを活⽤し、偏りを発⾒する枠組みを提案 • 部分的なサンプル画像セットから共通する特徴(偏り候補)を発⾒させ、 偏りの「データセットでの普遍性」「現実での普遍性」からランキング 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets アイディア 12
  13. ⼿法の枠組み 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets

    ステップᶃ データセット中から何枚かの画像を 提⽰し共通点を⾒つけてもらう ⾒つけた共通点を質問応答形式で回答 この共通点を偏りの候補と考える ステップᶄ ᶃの質問⽂と数枚の画像を提⽰し 質問に答えてもらう ᶃで⾒つかった偏りの候補が データ中でどれだけ普遍的か収集 ※各ステップは異なるタスクとしてワーカーに依頼する ステップᶅ ᶄでデータ中では普遍的であった 質問について、現実と⼀致しているかを 判断してもらう 偏りの候補から「現実では偏ってないが データでは偏っている」順にランキング 13
  14. Step 1: Question Generation l 偏りの候補を⾒つけるのは⼤変!! 1. ⼤量の画像から偏っている特徴を⾒出すのは難しい 2. 挙げられた特徴が今ひとつになりがち

    最初は「特徴の名前」を挙げてもらっていたが、画像中の⼀般的な物の名前が挙がったり、 「⾊」(← 何の⾊?)など曖昧な特徴が挙がったりした l 画像サンプルから類似する特徴を質問応答⽂で答えるタスクを提⽰ • データセット全体で偏っていたらサンプルでも偏るはず 各特徴が本当にデータ全体で偏っているかの検証はステップᶄで • 質問応答⽂で答えてもらうことで特徴に関する⽂脈も得ることができる l 重複する質問⽂を統合してステップᶄへ ⽂の embedding の類似度が⼀定以上のものを merge 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets 14
  15. Step 2: Answer Collection l ᶃで挙がった特徴は偏りとは限らない • サンプルがたまたま偏ってただけかも知れない 例: 航空機の写真で、たまたま特定の航空会社に寄ったサンプルを提⽰

    l ᶃで得た質問 + 別の画像数枚を提⽰して回答するタスクを提⽰ • 過半数の画像に当てはまる答えがある場合、それを回答 • 回答が⼀定以上揃ったものを残す 類似する回答は統合してカウント l 画像数枚と "With most X, ..." と rephrase した⽂を提⽰し、 Yes/No で回答するタスクを提⽰ 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ᶅの⼊⼒ 1 へ この Yes/No の割合をᶅの⼊⼒ 2 へ 15
  16. Step 3: Bias Judgment l ᶄで絞り込まれた特徴も偏りとは限らない • 現実でも多くがその特徴を有する可能性 例: ⼤体の航空機の翼は2枚なので、データセットの偏りとは⾔えない

    l ᶄで得た質問⽂について、現実との整合性を判断するタスクを提⽰ l 現実では偏っていないがデータでは偏っている特徴を列挙 • 現実の偏り: ↑ のタスクで得られた Yes/No の割合 • データの偏り: ᶄの後半で得られた Yes/No の割合 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ⼊⼒1 ⼊⼒2 16
  17. 実験設定 l 実験1: 意図的に加えた偏りを発⾒できるか? l 実験2: 既存のデータセットにある偏りを発⾒できるか? • ImageNet の⾞の画像(1,300枚)を利⽤

    • ImageNet に詳しい6⼈の学⽣を専⾨家と考え、⾒つけてもらった 21種類の偏りを発⾒できるか検証(1⼈あたりの発⾒種類数は 10.3) 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ◀ ⾶⾏機の画像(120枚) 「100% が右向き」「80% が地上」 「80% が中⼤型の商⽤機」「70% が⽩」 に意図的に偏っている 17
  18. 実験1 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in

    Image Datasets • KB: 既知の偏り (意図的に混⼊させた誤り) • AB: 新たに判明した偏り • US: 偏りではない類似性 (例: ⾶⾏機の多くは⼆翼) • U: 偏りでも類似性でもない ポイントᶃ 全ての KB が発⾒できている ポイントᶄ 実験者が意図していなかった 偏り (AB) もクラウドソーシングに よって発⾒ Figure. 4 左 ポイントᶅ 左図を含め、⾒つかった偏りのうち 65% が正解(KB: 37%, AB: 28%) 18
  19. 実験2 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in

    Image Datasets • KB: 既知の偏り (意図的に混⼊させた誤り) • AB: 新たに判明した偏り • US: 偏りではない類似性 (例: ⾶⾏機の多くは⼆翼) • U: 偏りでも類似性でもない ポイントᶃ 既知の21種の偏りのうち、左図をはじめとして 15種類を発⾒ ポイントᶄ 左図をはじめとして新たに7種類の偏りを発⾒ Figure. 4 右 ポイントᶅ クラウドソーシング: Precision=0.546, Recall=0.786 専⾨家 (平均: Precision=0.883, Recall=0.333) 19
  20. まとめと雑感 l まとめ • データセットの偏りを発⾒するクラウドソーシング活⽤の枠組みを提案 • クラウドソーシングにより実験者が意識していなかった偏りも発⾒ l 雑感 •

    依頼タスクをシンプルなタスクに分割している点が参考になる 最初から⼤量の画像を⾒せて作業してもらうのは無理 • Recall 重視なタスクだと思うので、クラウドソーシングとの相性が良さそう • 専⾨家でも分からなかった偏りが、多数のクラウドワーカーにより明らかに なった点が⾯⽩い! 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets 20
  21. まとめと雑感 21

  22. まとめと雑感 l まとめ • Crowdsourcing セッションから異なる⽅向性の論⽂を2本紹介 「より活⽤するための⽅法(基礎寄り)」と「あるタスクに利⽤するための⽅法(応⽤寄り)」 • 異なる意味でクラウドソーシングの可能性が広がった l

    雑感 • Crowdsourcing がセッションとなったところがまずすごい "Society" や "Web Mining" などに並ぶ時代(論⽂数はもちろんこれらよりは少ないが) • 両論⽂ともアイディアが⾯⽩い 論⽂ᶃ: ラベル間の距離に注⽬ / 論⽂ᶄ: タスクを分割してクラウドソーシングへ依頼可能に • アノテーションを業務の流れに組み込む知⾒の蓄積にも期待 継続的にモデルをアップデートする枠組みは⾃明ではなく、検討すべき事項が⼭積 クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い 22