クラウドソーシングを用いたテキスト分析

Crowd-sourced Text Analysis: Reproducible and Agile Production of Political Data
Kenneth Benoit et al. (2016) 東京⼤学理学系研究科 M2 並⽊亮世界システム論I(計算社会科学：デジタル時代の社会科学の最前線) 論⽂輪読

背景デザイン 3つの実験専⾨家の評価 Benoit (2010)Bakker et al. (2015) クラウドソーシング
移⺠政策への賛否会議の投票 Agree/Disagree クラウドソーシング EU会議の議論柔軟なスキームに対応様々な⽂脈・多⾔語に対応専⾨家の評価クラウドソーシングマニフェストの分類専⾨家の評価と⾼い相関本研究の⽬的 : 専⾨家とクラウドワーカーの分類精度の⽐較

移⺠政策への賛否会議の投票 Agree/Disagree クラウドソーシング EU会議の議論柔軟なスキームに対応様々な⽂脈・多⾔語に対応経験的社会科学の2つのアプローチ • 専⾨家による定量化 → 再現性・検証の問題 • クラウドソーシング → 群衆の知恵を刈り取ることで解決 • データ⽣成の再現性を重視 • シンプルなスキーム • センテンスを評価 → ⽂書の評価を要約・単純平均法・ベイズスケーリングモデル専⾨家の評価クラウドソーシングマニフェストの分類専⾨家の評価と⾼い相関

Replication, Replication (Gary King, 1995) (弱い)再現性：経験的政治科学の研究では，理解や評価のために⽣データが誰でも⼊⼿可能であるべきいま (Kenneth et
al., 2016) (強い)再現性：経験的政治科学の研究では，誰が⽣成しても再現可能なデータであるべき

伝統的⼿法の課題 • (強い)再現性の低さ〜データセット⽣成コストの⼤きさ • 固定されたスキーム〜特定の問いにしか対応できない例
• 政治形態の評価 : 世襲君主制(-10) ~ consolidated democrary(+10) • ⺠主議会の評価 : 結論の出ない交渉ラウンド(inconclusive bargaining rounds)の回数 • マニュフェストのコード化(the Comparative Manifesto Project) : left-rightスコア • 法律，判例，演説の⽂章をトピック分類(Policy Agendas Project)

クラウドソーシングがアジャイルな研究をもたらすアジャイル(agile) 俊敏な，素早いアジャイルな研究柔軟な設計・try and errorが容易クラウドソーシングの利点 •
データ⽣成プロセスを迅速、安価、かつ確実に繰り返すことができるという (強い)再現性がある • 特定の研究プロジェクトのニーズに応じて柔軟な設計が可能である • 本番プロセスでのフィードバックを通じて、データ⽣成を反復的にテストし、導⼊し、検証し、必要に応じて設計し直す能⼒がある

クラウドソーシング = 群衆の知恵を刈り取る • アリストテレス(BC384-322) 「⼀⼈の⾳楽家や詩⼈よりも⼤勢の⽅が，ある⼈が⼀部分を，別の⼈が別の部分を理解し，全員で全体を理解するため，より良く評価できる」（政治学第3巻11章） • ゴルトン(1822-1911)
「⽜の重さについての公正な⾒物⼈による⼤量の個⼈的な判断の平均が真の答えに近く、重要なことに、典型的な個⼈的な判断よりもこれに近いことに気づいた．」

クラウドソーシング = ⼤数の法則クラウドワーカーが集団としては「真の値」に対してバイアスが掛かっていないと仮定すると，ワーカーの数が増加するにつれて，個々のワーカーのバイアスが無視され，真の値に収束していく．

クラウドソーシング ≠ 群衆実験 • 群衆実験 : 群集中のワーカーの属性に注⽬ • クラウドソーシング :
ワーカーがどのような対象集団を代表しているかについては気にしない

(強い)再現性を持つテキストコーディング • クラウドソーシングは機械学習に取って代わられない．機械学習に必要なラベル付きデータをクラウドソーシングで⽣む．（本当か？教師なし学習） • ⼈間 = ⼀般的で⾮常に広く利⽤可能な「⽣物学的」⾃然⾔語器と解釈

(強い)再現性を持つテキストコーディング・必要⼗分にシンプルなスキームを⽤意・従来研究 (Benoit and Laver 2006; Hooghe et al.
2010; Laver and Hunt 1992) と同じスキーム→⽐較可能

MPʼs 56-category classification schemeは使⽤しない・複雑で境界が曖昧・クラウドワーカーに理解させるのが難しい →複雑な指⽰ vs 専⾨性やスケーラビリティのトレードオフ
https://manifesto-project.wzb.eu/down/papers/handbook_2010_version_3.pdf

使⽤するテキストコーパス • 1987年から2010年の間に⾏われた6つの総選挙のためのイギリスの保守、労働、⾃由⺠主党のマニフェスト • 18,263 natural sentences に対してコーディング •
ワーカーには⽂書からランダムな順序でセンテンスを提⽰

センテンスの評価を集約 → ⽂書の評価 • 単純平均法 • シンプル，⼀般にロバスト (e.g., Ariely et
al. 2000; Clemen and Winkler 1999) • ベイズスケーリングモデル • センテンスの分類難易度を考慮 • ワーカーの不完全さ・ノイジーさ・バイアス等を考慮

専⾨家のベンチマーク • 本研究：クラウドワーカーと専⾨家の⽐較が⽬的 • 1年の間隔を空けて2回，4〜6⼈の専⾨家が独⽴して18⽂書 18,263⽂のトピック分類を⾏った． • 1回⽬⽂書本来の順序
• 2回⽬ランダムな順序合計123,000件以上(1⽂あたり約7件)の推定値

⽂書本来の順序でもランダムな順序でも推定結果は近しい R=0.91 R=0.82 マイナス：左翼プラス：右翼マイナス：リベラルプラス：コンサバ専⾨家評価の外部妥当性

専⾨家評価の内部妥当性専⾨家の推定が完全に⼀致した⽂は多くないしかし専⾨家の判断を集約すれば，有効な推定値を導出できる何⼈がeconomicと判断したか推定が完全に⼀致 Cronbach’s Alpha 専⾨家の⼀貫性およびバラ
ツキを表す指標 0<α<1 1に近いほど⼀貫性がある

クラウドソーシングのプラットフォーム選定 • CrowdFlowerを使⽤ • インターフェイスやテンプレートが提供されている • ワーカーの講習や資格発⾏があり，ワーカーの質の担保がしやすい • Amazon Mechanical
Turkの使⽤は⽶国以外の研究者やワーカーが利⽤することが難しかった（当時）

gold HITsで回答の品質管理を⾏う • gold HITs(事前に明確な解答が得られている問題)を設定 • 専⾨家の間でトピック(経済,政治)と⽅向(左右，リベラル保守)が共に全会⼀致している⽂をgold HITsと定義 •
（⼈⼯的に作った⽂ををgold HITsにしても良い） Øスパマーの排除 • できるだけ短時間で多くの仕事を終わらせようとするために不正なデータや偽造データを提出するワーカー • gold HITsを使った簡単なスクリーニングテスト(8/10以上の正解) Øワーカーの集中⼒を維持 • ワーク中に多くのgold HITsを間違えると信頼度が低下し，信頼度が 0.8を下回るとワークから追放される

デプロイ • 1987年と1997年のマニフェストの⽂をデプロイ • 1回⽬ : 1⽂あたり20個の推定ラベルが得られたら終了 • 2回⽬ :
1⽂あたり5個の推定ラベルが得られたら終了 (⼗分な精度が得られる下限がわかったので=アジャイルな検証）デプロイ配備する，配置する，展開するここでは「実験をワーカーに展開すること」を意味

デプロイの結果ワーカーの国籍アメリカイギリスインドスペインエストニアドイツその他 •
18⽂書18,263⽂に215,107個の推定ラベルが付与 • 49カ国から合計1,488⼈のワーカーを雇⽤ • ⼀⼈平均約145⽂を処理 • ほとんどの労働者は10〜70⽂を処理 • 44⼈の労働者は1,000⽂以上を処理し • 4⼈は5,000⽂以上を処理 • 料⾦ $7,077.29

専⾨家とクラウドワーカーのマニフェストの評価はほぼ⼀致マイナス：左翼プラス：右翼マイナス：リベラルプラス：コンサバ R=0.96 R=0.92
トニーブレアの第三の道（急激な右傾化）

ベイズスケーリングモデル vs 単純平均法スケーリングモデルと単純平均法の相関経済分野 R=0.96 社会政策 R=0.97 単純平均法（⽂のラベルの平均を⽂書のラベルとする）でOK

専⾨家とワーカーのスコアリングでバイアスの差はない • deming回帰距離の⼆乗和を最⼩化 (x,y両⽅の誤差を考慮) 傾きが⼤きい = ワーカーの⽅が極端な値をつけにくい点：ある⽂の専⾨家とワーカーの評価

1⽂にいくつのラベルがあれば⼗分か？ • ⼀回⽬の実験は1⽂あたり20個のラベル(20⼈のワーカー) →そんなに多くなくてもいいのでは？ • ブートストラップ法で誤差を推定

5つのラベルで⼗分 • ワーカー数が増えると，標準誤差が⼩さくなる（直感的だが⾮⾃明） • ⿊ : ワーカー⾚ : 専⾨家

移⺠政策 • 伝統的なデータセット = 固定化したスキーム • 移⺠政策のような現代の研究者が測定したい情報を有していない • ワーカーのタスク •
それぞれの⽂が移⺠政策に⾔及しているかどうか • ⾔及している場合は、移⺠政策賛成，反移⺠，中⽴のいずれかのラベル • マニフェストの7,070⽂をデプロイ • 22,228個の付与ラベルを得た． • 料⾦は$360

結果 : 専⾨家の推定Benoit (2010)と⾼い相関

結果 : クラウドソーシングの再現性を証明 • 最初の作業から2ヶ⽉後に2回⽬の作業 • さらに24,551個のクラウドソースのデータを⽣成(3時間強で完了) • ⼆者の相関は0.93という⾮常に⾼い値

他の⽂脈や他⾔語への応⽤ • EUでの「競争⼒のない炭鉱への国家⽀援を認める規制の延⻑を提案する欧州委員会の報告書に関する技術的な議論」を対象 →マニフェストとは全く異なる⽂脈での性能を評価 • 英語、ゲルマン語、スペイン語、イタリア語、ポーランド語、ギリシャ語で同じテキスト分析作業を展開 • ワーカーにスピーチが賛成・反対のいずれかを推定
• 料⾦約$360

結果 : 分類に成功但し，Agreeは⽐較的⼩さい(0~1)値 Disagreeは⽐較的⼤きい値(-2~-1)という⾮対称性がある

結果 : ⾔語間の結果は⾼い相関

結論 • クラウドソースのテキスト分析が、従来の専⾨家の⼿法と区別がつかない品質の有効な政治的なデータを⽣成することができることを⽰した．その中でも特に重要なのは、⾮常に強い再現性のある分析を⾏える可能性があるということである．（本研究のデータセットもクラウドソーシング⽤のコードも公開されている．） • アジャイル研究調査を可能にする点も重要である．柔軟なタス
ク設定，スケーラビリティ，タスク完了の迅速さ，最低コストの低さという利点から，限られたリソースを持つ研究者、特に⼤学院⽣に有効なテキスト処理の可能性を提供することができる．

論⽂のポイント • (強い)再現性 • アジャイル性 : スケーラビリティ，Try and Error →
⼤学院⽣の財布に優しい？ • バイアス : ワーカーが「真の値」に対して掛かっているバイアスの有無をどのように検証するか？ • ⽬に⾒えない労働者を雇うリスク : たった⼀つの不適切な労働があるだけでも研究の倫理性が糾弾されうる • ⼀般にクラウドワーカーは低賃⾦労働者 • ⼀般的な危険性 : ex. 医療画像の分類 • 個別的な危険性：ex. トラウマを引き起こしうるセンシティブな⽂章分類，宗教的な不適切さ ~ 画像分類にアッラーが含まれていたら • 研究の倫理性を維持する(~クラウドワーカーを守る)ためのプロトコル • 誰が設定・維持すべき？Amazon？研究者たち？議論のポイント⼈間 = ⼀般的で⾮常に広く利⽤可能な「⽣物学的」⾃然⾔語器

クラウドソーシング = ⼤数の法則ワーカーが集団としては「真の値」に対してバイアスが掛かっていないと仮定すると，ワーカーの数が増加するにつれて，個々のワーカーのバイアスが無視され，真の値に収束していく．

クラウドソーシングを用いたテキスト分析

クラウドソーシングを用いたテキスト分析

More Decks by Ryo

Other Decks in Research

Featured

Transcript