クラウド活用最前線: Crowdsourcing セッションつまみ食い / WWW-2020 papers from Crowdsourcing session

クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い株式会社サイバーエージェント秋葉原ラボ⾓⽥孝昭 WWW-2020 論⽂読み会 1

本発表で取り上げる論⽂ 1. Alexander Braylan and Matthew Lease, 2020. Modeling and
Aggregation of Complex Annotations via Annotation Distances. WWW-2020. • 様々なタスクに使えるアノテーションのモデルを提案 2. Xiao Hu, Haobo Wang, Anirudh Vegesana, Somesh Dube, Kaiwen Yu, Gore Kao, Shuo-Han Chen, Yung-Hsiang Lu, George K. Thiruvathukal, and Ming Yin, 2020. Crowdsourcing Detection of Sampling Biases in Image Datasets. WWW-2020. • データセット中に存在する偏り (bias) を⾒つける、クラウドソーシングを活⽤した枠組みを提案クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い 2 "Crowdsourcing" セッションから気になる論⽂を2本紹介

Modeling and Aggregation of Complex Annotations via Annotation Distances Alexander
Braylan and Matthew Lease. 2020. 紹介論⽂ᶃ 3

⽬的: アノテーションモデリングの幅を拡げる l アノテーション‧アノテーターのモデリングは有⽤ • ラベルの統合により⾼精度なデータセットを実現。品質管理にも • 分類やレーティングであれば⽅法は⾊々あるが… 多数決や平均も⽅法の1つ l
アノテーションしたいタスクは他にも様々系列ラベリング, 翻訳, 構⽂解析, ランキング, … l • タスク固有のラベルではなく、ラベル間の距離に注⽬したモデルを提案。ラベル間の距離が与えられればあらゆるタスクに適⽤可能な汎⽤性を持つ • 各アノテータのエラー率‧各データの難易度を考慮し階層ベイズでモデル化紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 4 アイディア

モデル: Multidimensional Annotation Scaling (1/2) l 距離 Diuv を次のように定義: l
Diuv は以下の分布に従うと仮定（尤度）(式4) 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 5 データアノテータデータ i に対しアノテータ u, v が付けたラベルラベル間の距離を測る関数アノテーションを埋め込みベクトル化した距離アノテーションの K 次元埋め込みベクトル "nice picture" "the cat eats" "a cat is eating" 真の ↘ ラベル埋め込みベクトル xiu のノルム ||xiu || が真のラベル (原点) からの距離になるようなベクトルを考える ||xiu || は各アノテーションのエラー具合とも解釈可能分散（ハイパーパラメータ）

6 l アノテーションベクトル xiu は次のように考える（事前分布）(式5) l 最終的に ||xiu || が最も⼩さいラベルを採⽤
(式2, 3) l 各パラメータの事前分布は以下の通り★ (式6) ★ の分布は論⽂中に記載が無かったので発表スライドより引⽤（但し、発表スライドでも N のパラメータは不明）モデル: Multidimensional Annotation Scaling (2/2) 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 正規化項データ i のアノテーション難度アノテータ u のアノテーションエラーアノテータ u が今⼀つなほど‧データ i が難しいほど最終的な ||xiu ||（エラー具合）も⼤きくなるパラメータ推定時に γu , δi も同時に得られるのが地味にうれしいポイントデータ i のラベル最も真ラベル (仮) に近そうなアノテーションをしているアノテータ

7 l 与えるべきパラメータは次の通り • K: アノテーション埋め込みベクトルの次元数実験では K=8 としている。development データでは
K>2 において⼤差は無かったとのこと • Φ, Ψ: γ や δ の scale 実験では Φ=Ψ=1 としている l 推定すべきパラメータは次の通り: • Stan★ を利⽤して推定最⼤事後確率 (MAP) 推定 + L-BFGS 最適化を利⽤ ★ 確率的プログラミング⾔語。本論⽂のような階層ベイズモデルのパラメータ推定に便利モデルのパラメータ紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances

実験 l 右図の4タスクを対象 • 既に正解 (gold label) が判明しているデータセットを利⽤ l
クラウドソーシングで得られたアノテーションデータに提案⼿法を適⽤したラベルと正解ラベルを⽐較紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 8

実験結果 l 提案モデル MAS は様々なタスクに対して同⼀のモデルながら Upperbound に近い結果に紹介論⽂ᶃ: Modeling
and Aggregation of Complex Annotations via Annotation Distances 9 提案⼿法を簡略化したモデル提案⼿法 Semi-Supervised 今回は説明割愛理論的最⾼性能各アイテムで最も正解に近いアノテーターを選択できた場合 ZenCrowd [Demartini+, 2012] ランダムに選択

まとめと雑感 l まとめ • 様々なタスクに適⽤可能なアノテーションのモデルを提案 • 4つのタスクで検証、実⽤性を確認 l 雑感 •
ラベル間の距離に注⽬した点が⾯⽩い⼤体のタスクは評価に距離が必要なので、⼤体距離が定義されている • アノテーションを「選択」するのではなく「統合」できるとよりより嬉しい Future Work としても挙がっているが、なかなか難しそう • 階層ベイズでのモデル化を久々に⾒た気がする… 紹介論⽂ᶃ: Modeling and Aggregation of Complex Annotations via Annotation Distances 10

Crowdsourcing Detection of Sampling Biases in Image Datasets Xiao Hu,
Haobo Wang, Anirudh Vegesana, Somesh Dube, Kaiwen Yu, Gore Kao, Shuo-Han Chen, Yung-Hsiang Lu, George K. Thiruvathukal, and Ming Yin. 2020. 紹介論⽂ᶄ 11

⽬的: データセット中の偏りをあぶり出す l データセットの偏り (bias) は予期せぬ結果を招く • システムの性能が⼈種や性別などによって⼤きく異なる例: 学習データセットの⼈種‧性別の偏りに起因し、顔認識精度に差が出た
[3] • タスクの本質とは異なる背景情報の「偏り」が学習に使われる恐れ例: ⼥性が写っていることを根拠に「料理」ラベルの確率が上がる…？ l データセット（本論⽂では画像を対象）にある偏りを⾒つけたい l • クラウドソーシングを活⽤し、偏りを発⾒する枠組みを提案 • 部分的なサンプル画像セットから共通する特徴（偏り候補）を発⾒させ、偏りの「データセットでの普遍性」「現実での普遍性」からランキング紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets アイディア 12

⼿法の枠組み紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets
ステップᶃ データセット中から何枚かの画像を提⽰し共通点を⾒つけてもらう⾒つけた共通点を質問応答形式で回答この共通点を偏りの候補と考えるステップᶄ ᶃの質問⽂と数枚の画像を提⽰し質問に答えてもらう ᶃで⾒つかった偏りの候補がデータ中でどれだけ普遍的か収集 ※各ステップは異なるタスクとしてワーカーに依頼するステップᶅ ᶄでデータ中では普遍的であった質問について、現実と⼀致しているかを判断してもらう偏りの候補から「現実では偏ってないがデータでは偏っている」順にランキング 13

Step 1: Question Generation l 偏りの候補を⾒つけるのは⼤変!! 1. ⼤量の画像から偏っている特徴を⾒出すのは難しい 2. 挙げられた特徴が今ひとつになりがち
最初は「特徴の名前」を挙げてもらっていたが、画像中の⼀般的な物の名前が挙がったり、「⾊」（← 何の⾊？）など曖昧な特徴が挙がったりした l 画像サンプルから類似する特徴を質問応答⽂で答えるタスクを提⽰ • データセット全体で偏っていたらサンプルでも偏るはず各特徴が本当にデータ全体で偏っているかの検証はステップᶄで • 質問応答⽂で答えてもらうことで特徴に関する⽂脈も得ることができる l 重複する質問⽂を統合してステップᶄへ⽂の embedding の類似度が⼀定以上のものを merge 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets 14

Step 2: Answer Collection l ᶃで挙がった特徴は偏りとは限らない • サンプルがたまたま偏ってただけかも知れない例: 航空機の写真で、たまたま特定の航空会社に寄ったサンプルを提⽰
l ᶃで得た質問 + 別の画像数枚を提⽰して回答するタスクを提⽰ • 過半数の画像に当てはまる答えがある場合、それを回答 • 回答が⼀定以上揃ったものを残す類似する回答は統合してカウント l 画像数枚と "With most X, ..." と rephrase した⽂を提⽰し、 Yes/No で回答するタスクを提⽰紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ᶅの⼊⼒ 1 へこの Yes/No の割合をᶅの⼊⼒ 2 へ 15

Step 3: Bias Judgment l ᶄで絞り込まれた特徴も偏りとは限らない • 現実でも多くがその特徴を有する可能性例: ⼤体の航空機の翼は2枚なので、データセットの偏りとは⾔えない
l ᶄで得た質問⽂について、現実との整合性を判断するタスクを提⽰ l 現実では偏っていないがデータでは偏っている特徴を列挙 • 現実の偏り: ↑ のタスクで得られた Yes/No の割合 • データの偏り: ᶄの後半で得られた Yes/No の割合紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ⼊⼒1 ⼊⼒2 16

実験設定 l 実験1: 意図的に加えた偏りを発⾒できるか？ l 実験2: 既存のデータセットにある偏りを発⾒できるか？ • ImageNet の⾞の画像（1,300枚）を利⽤
• ImageNet に詳しい6⼈の学⽣を専⾨家と考え、⾒つけてもらった 21種類の偏りを発⾒できるか検証（1⼈あたりの発⾒種類数は 10.3）紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets ◀ ⾶⾏機の画像（120枚）「100% が右向き」「80% が地上」「80% が中⼤型の商⽤機」「70% が⽩」に意図的に偏っている 17

実験1 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in
Image Datasets • KB: 既知の偏り（意図的に混⼊させた誤り） • AB: 新たに判明した偏り • US: 偏りではない類似性（例: ⾶⾏機の多くは⼆翼） • U: 偏りでも類似性でもないポイントᶃ 全ての KB が発⾒できているポイントᶄ 実験者が意図していなかった偏り (AB) もクラウドソーシングによって発⾒ Figure. 4 左ポイントᶅ 左図を含め、⾒つかった偏りのうち 65% が正解（KB: 37%, AB: 28%） 18

実験2 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in
Image Datasets • KB: 既知の偏り（意図的に混⼊させた誤り） • AB: 新たに判明した偏り • US: 偏りではない類似性（例: ⾶⾏機の多くは⼆翼） • U: 偏りでも類似性でもないポイントᶃ 既知の21種の偏りのうち、左図をはじめとして 15種類を発⾒ポイントᶄ 左図をはじめとして新たに7種類の偏りを発⾒ Figure. 4 右ポイントᶅ クラウドソーシング: Precision=0.546, Recall=0.786 専⾨家 (平均: Precision=0.883, Recall=0.333) 19

まとめと雑感 l まとめ • データセットの偏りを発⾒するクラウドソーシング活⽤の枠組みを提案 • クラウドソーシングにより実験者が意識していなかった偏りも発⾒ l 雑感 •
依頼タスクをシンプルなタスクに分割している点が参考になる最初から⼤量の画像を⾒せて作業してもらうのは無理 • Recall 重視なタスクだと思うので、クラウドソーシングとの相性が良さそう • 専⾨家でも分からなかった偏りが、多数のクラウドワーカーにより明らかになった点が⾯⽩い！紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets 20

まとめと雑感 21

まとめと雑感 l まとめ • Crowdsourcing セッションから異なる⽅向性の論⽂を2本紹介「より活⽤するための⽅法（基礎寄り）」と「あるタスクに利⽤するための⽅法（応⽤寄り）」 • 異なる意味でクラウドソーシングの可能性が広がった l
雑感 • Crowdsourcing がセッションとなったところがまずすごい "Society" や "Web Mining" などに並ぶ時代（論⽂数はもちろんこれらよりは少ないが） • 両論⽂ともアイディアが⾯⽩い論⽂ᶃ: ラベル間の距離に注⽬ / 論⽂ᶄ: タスクを分割してクラウドソーシングへ依頼可能に • アノテーションを業務の流れに組み込む知⾒の蓄積にも期待継続的にモデルをアップデートする枠組みは⾃明ではなく、検討すべき事項が⼭積クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い 22

クラウド活用最前線: Crowdsourcing セッションつまみ食い / WWW-2020 ...

クラウド活用最前線: Crowdsourcing セッションつまみ食い / WWW-2020 papers from Crowdsourcing session

Takaaki Tsunoda

Other Decks in Research

Featured

Transcript

クラウド活⽤最前線: Crowdsourcing セッションつまみ⾷い株式会社サイバーエージェント秋葉原ラボ⾓⽥孝昭 WWW-2020 論⽂読み会 1

本発表で取り上げる論⽂ 1. Alexander Braylan and Matthew Lease, 2020. Modeling and

Modeling and Aggregation of Complex Annotations via Annotation Distances Alexander

モデル: Multidimensional Annotation Scaling (1/2) l 距離 Diuv を次のように定義: l

6 l アノテーションベクトル xiu は次のように考える（事前分布）(式5) l 最終的に ||xiu || が最も⼩さいラベルを採⽤

7 l 与えるべきパラメータは次の通り • K: アノテーション埋め込みベクトルの次元数実験では K=8 としている。development データでは

実験 l 右図の4タスクを対象 • 既に正解 (gold label) が判明しているデータセットを利⽤ l

実験結果 l 提案モデル MAS は様々なタスクに対して同⼀のモデルながら Upperbound に近い結果に紹介論⽂ᶃ: Modeling

まとめと雑感 l まとめ • 様々なタスクに適⽤可能なアノテーションのモデルを提案 • 4つのタスクで検証、実⽤性を確認 l 雑感 •

Crowdsourcing Detection of Sampling Biases in Image Datasets Xiao Hu,

⼿法の枠組み紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in Image Datasets

Step 1: Question Generation l 偏りの候補を⾒つけるのは⼤変!! 1. ⼤量の画像から偏っている特徴を⾒出すのは難しい 2. 挙げられた特徴が今ひとつになりがち

Step 2: Answer Collection l ᶃで挙がった特徴は偏りとは限らない • サンプルがたまたま偏ってただけかも知れない例: 航空機の写真で、たまたま特定の航空会社に寄ったサンプルを提⽰

Step 3: Bias Judgment l ᶄで絞り込まれた特徴も偏りとは限らない • 現実でも多くがその特徴を有する可能性例: ⼤体の航空機の翼は2枚なので、データセットの偏りとは⾔えない

実験設定 l 実験1: 意図的に加えた偏りを発⾒できるか？ l 実験2: 既存のデータセットにある偏りを発⾒できるか？ • ImageNet の⾞の画像（1,300枚）を利⽤

実験1 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in

実験2 l aaa 紹介論⽂ᶄ: Crowdsourcing Detection of Sampling Biases in

まとめと雑感 l まとめ • データセットの偏りを発⾒するクラウドソーシング活⽤の枠組みを提案 • クラウドソーシングにより実験者が意識していなかった偏りも発⾒ l 雑感 •

まとめと雑感 21