クラウドソーシングを用いたテキスト分析

Ee79905ed23e148eb7ba8020b5018ba3?s=47 Ryo
June 29, 2020

 クラウドソーシングを用いたテキスト分析

・再現可能でアジャイルな政治データの生成を目指して
政党マニュフェストのテキスト分類をマスコラボレーション手法(クラウドソーシング)で行った結果,専門家による分析と同等の結果がより迅速かつ柔軟に得られる上,再現可能であり,透明性も改善されていることが示された.

Ee79905ed23e148eb7ba8020b5018ba3?s=128

Ryo

June 29, 2020
Tweet

Transcript

  1. 1.

    Crowd-sourced Text Analysis: Reproducible and Agile Production of Political Data

    Kenneth Benoit et al. (2016) 東京⼤学 理学系研究科 M2 並⽊ 亮 世界システム論I(計算社会科学:デジタル時代の社会科学の最前線) 論⽂輪読
  2. 2.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関 本研究の⽬的 : 専⾨家とクラウドワーカーの分類精度の⽐較
  3. 3.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  4. 4.

    Replication, Replication (Gary King, 1995) (弱い)再現性:経験的政治科学の研究では,理解や評価のために ⽣データが誰でも⼊⼿可能であるべき いま (Kenneth et

    al., 2016) (強い)再現性:経験的政治科学の研究では, 誰が⽣成しても再現可能なデータであるべき
  5. 5.

    伝統的⼿法の課題 • (強い)再現性の低さ 〜 データセット⽣成コストの⼤きさ • 固定されたスキーム 〜 特定の問いにしか対応できない 例

    • 政治形態の評価 : 世襲君主制(-10) ~ consolidated democrary(+10) • ⺠主議会の評価 : 結論の出ない交渉ラウンド(inconclusive bargaining rounds)の回数 • マニュフェストのコード化(the Comparative Manifesto Project) : left-rightスコア • 法律,判例,演説の⽂章をトピック分類(Policy Agendas Project)
  6. 6.

    クラウドソーシングが アジャイルな研究をもたらす アジャイル(agile) 俊敏な,素早い アジャイルな研究 柔軟な設計・try and errorが容易 クラウドソーシングの利点 •

    データ⽣成プロセスを迅速、安価、かつ確実に繰り返すことができるという (強い)再現性がある • 特定の研究プロジェクトのニーズに応じて柔軟な設計が可能である • 本番プロセスでのフィードバックを通じて、データ⽣成を反復的にテストし、 導⼊し、検証し、必要に応じて設計し直す能⼒がある
  7. 9.

    クラウドソーシング ≠ 群衆実験 • 群衆実験 : 群集中のワーカーの属性に注⽬ • クラウドソーシング :

    ワーカーがどのような対象集団を 代表しているかについては気にしない
  8. 10.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  9. 15.

    センテンスの評価を集約 → ⽂書の評価 • 単純平均法 • シンプル,⼀般にロバスト (e.g., Ariely et

    al. 2000; Clemen and Winkler 1999) • ベイズスケーリングモデル • センテンスの分類難易度を考慮 • ワーカーの不完全さ・ノイジーさ・バイアス等を考慮
  10. 16.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  11. 20.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  12. 22.
  13. 23.
  14. 24.

    gold HITsで回答の品質管理を⾏う • gold HITs(事前に明確な解答が得られている問題)を設定 • 専⾨家の間でトピック(経済,政治)と⽅向(左右,リベラル保守)が共に 全会⼀致している⽂をgold HITsと定義 •

    (⼈⼯的に作った⽂ををgold HITsにしても良い) Øスパマーの排除 • できるだけ短時間で多くの仕事を終わらせようとするために不正な データや偽造データを提出するワーカー • gold HITsを使った簡単なスクリーニングテスト(8/10以上の正解) Øワーカーの集中⼒を維持 • ワーク中に多くのgold HITsを間違えると信頼度が低下し,信頼度が 0.8を下回るとワークから追放される
  15. 25.

    デプロイ • 1987年と1997年のマニフェストの⽂をデプロイ • 1回⽬ : 1⽂あたり20個の推定ラベルが得られたら終了 • 2回⽬ :

    1⽂あたり5個の推定ラベルが得られたら終了 (⼗分な精度が得られる下限がわかったので=アジャイルな検証) デプロイ 配備する,配置する,展開する ここでは「実験をワーカーに展開すること」を意味
  16. 26.

    デプロイの結果 ワーカーの国籍 アメリカ イギリス インド スペイン エストニア ドイツ その他 •

    18⽂書18,263⽂に215,107個の推定ラベルが付与 • 49カ国から合計1,488⼈のワーカーを雇⽤ • ⼀⼈平均約145⽂を処理 • ほとんどの労働者は10〜70⽂を処理 • 44⼈の労働者は1,000⽂以上を処理し • 4⼈は5,000⽂以上を処理 • 料⾦ $7,077.29
  17. 32.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  18. 33.

    移⺠政策 • 伝統的なデータセット = 固定化したスキーム • 移⺠政策のような現代の研究者が測定したい情報を有していない • ワーカーのタスク •

    それぞれの⽂が移⺠政策に⾔及しているかどうか • ⾔及している場合は、移⺠政策賛成,反移⺠,中⽴のいずれかのラベル • マニフェストの7,070⽂をデプロイ • 22,228個の付与ラベルを得た. • 料⾦は$360
  19. 36.

    背景 デザイン 3つの実験 専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング

    移⺠政策への賛否 会議の投票 Agree/Disagree クラウドソーシング EU会議の議論 柔軟なスキームに対応 様々な⽂脈・多⾔語に対応 経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約 ・単純平均法 ・ベイズスケーリングモデル 専⾨家の評価 クラウドソーシング マニフェストの分類 専⾨家の評価と⾼い相関
  20. 41.

    論⽂のポイント • (強い)再現性 • アジャイル性 : スケーラビリティ,Try and Error →

    ⼤学院⽣の財布に優しい? • バイアス : ワーカーが「真の値」に対して掛かっているバイアスの有無をどのよ うに検証するか? • ⽬に⾒えない労働者を雇うリスク : たった⼀つの不適切な労働があるだけでも研 究の倫理性が糾弾されうる • ⼀般にクラウドワーカーは低賃⾦労働者 • ⼀般的な危険性 : ex. 医療画像の分類 • 個別的な危険性:ex. トラウマを引き起こしうるセンシティブな⽂章分類, 宗教的な不適切さ ~ 画像分類にアッラーが含まれていたら • 研究の倫理性を維持する(~クラウドワーカーを守る)ためのプロトコル • 誰が設定・維持すべき?Amazon?研究者たち? 議論のポイント ⼈間 = ⼀般的で⾮常に広く利⽤可能な「⽣物学的」⾃然⾔語器