Upgrade to Pro — share decks privately, control downloads, hide ads and more …

UWS2020企画セッション「クラウドソーシングサービスの利用に向けて」/uws2020_ha...

Ayako Hasegawa
October 27, 2020
400

 UWS2020企画セッション「クラウドソーシングサービスの利用に向けて」/uws2020_hasegawa_2

UWS2020企画セッションでの発表資料

Ayako Hasegawa

October 27, 2020
Tweet

Transcript

  1. 1. クラウドソーシングの長所・短所 2. 利用の流れ 3. プラットフォームの比較 1. 海外プラットフォーム 2. 国内プラットフォーム

    4. 報酬額の相場・利用料 5. データの質を向上させるためのTips 6. 気になるトピックス 内容 2 クラウドソーシングはユーザスタディの参加者募集のための重要なツール. 本発表ではクラウドソーシングを活用するための基礎知識を共有 ※ 本発表では,研究での活用が可能な「マイクロタスク型」(専門性が低く短いタスク)の クラウドソーシングを取り扱う
  2. • 長所 – 世界各国の参加者を募集可能 – 参加者募集から報酬の支払いまで一括管理が可能 – 大人数の参加者を募集可能 – 参加資格の設定が可能

    – 重複回答防止の制御が可能 – 比較的安価で利用可能 – 画像や動画を用いた多様な調査が可能 – ウェブパネルよりもデータの質が高いことが多い [三浦・小林, 2016] • 短所 – (それでも)調査へのエンゲージメントが低いワーカーが一定数存在 – 登録ワーカーの属性に偏りが発生する可能性(例:若年層が多い) 3 クラウドソーシングの長所・短所
  3. 4 基本的な利用の流れ 1. 調査画面準備 2. 募集情報設定 3. 募集開始 4. 回収完了

    5. 回答内容確認 6. 報酬支払 回答を承認すると自動で支払処理 募集人数・参加資格・募集タイトル・調査内容・ 報酬額・想定所要時間(/制限時間)等を設定 回答データはCSVファイルでダウンロード可 プラットフォーム内で作成,または,サーベイ 画面作成サービスを利用
  4. • Amazon Mechanical Turk(MTurk) – 世界最大級のクラウドソーシングプラットフォーム – 学術研究用途以外のタスクが多い(画像へのタグ付,文字起こし等) – 2018年頃までは8割超のユーザブルセキュリティ論文がMTurkを利用

    • Prolific Academic – 学術研究特化のクラウドソーシングプラットフォームであるため,研 究者にとって便利な機能が多い • 例)騙しを含む調査(ディセプションスタディ)への参加可否フラグ • 例)ビデオインタビューへの参加可否フラグ • 例)USまたはUKのセンサスサンプルの回収機能(年齢・性別・民族性) – 2019年頃からProlificを利用するユーザブルセキュリティ論文が急増 (MTurk超え?) 5 海外プラットフォーム ※ MTurkとProlificの他にもCrowdFlower(現在Figure Eight)等のプラットフォームは存在するが,CrowdFlowerはMTurk, Prolific と比較してデータの質が低い [E. Peer et al., 2017] ことが危惧されており,MTurkとProlific以外のプラットフォームを利用して いる難関国際会採択論文を見ることはほとんどない
  5. 6 MTurkとProlificの比較 MTurk Prolific ワーカー属性 居住国 US・インド UK・US ほか 年齢

    平均33歳(標準偏差9) 平均37歳(標準偏差12) プラットフォーム利用頻度 週8時間以上 週1, 2時間程度 参加者募集にかかる時間 短い 長い 引用: • Eyal Peer, Laura Brandimarte, Sonam Samat and Alessandro Acquisti, Beyond the Turk: Alternative platforms for crowdsourcing behavioral research, Journal of Experimental Social Psychology, 2017. • Jonas Oppenlaender, Kristy Milland, Aku Visuri, Panos Ipeirotis and Simo Johannes Hosio, Creativity on Paid Crowdsourcing Platforms, CHI Conference on Human Factors in Computing Systems, 2020.
  6. 主要な調査画面作成サービス 7 (参考)サーベイ画面作成サービス • Qualtrics – 有料(無料アカウントもあるが制限が多いため大規模調査は不可能) – 最も多く利用されている(大学で契約している研究者が多い?) •

    SurveyMonkey – 有料(無料アカウントもあるが制限が多いため大規模調査は不可能) • Google Form – 無料 • MTurk:MTurk内で調査画面の作成が可能 • Prolific:外部サービスで調査画面を作成 – 外部サービスのサーベイ画面のURLをProlificで参加者に提示 – 識別コードの発行により2サービス間で参加者を照合
  7. • ランサーズ • クラウドワークス • Yahoo! クラウドソーシング 8 国内プラットフォーム 提携

    • タスク形式・コンペ形式・プロジェクト形式があるが,サーベイ・イ ンタビュー依頼はタスク形式にて提案 • ワーカーの特徴 [三浦・小林, 2016] • ランサーズで参加者を募集した場合は56%,クラウドワークスでは70% が女性であった • ランサーズとクラウドワークスでデータの質(IMC合格率)に大きな違 いはない ※ 海外プラットフォーム(MTurk・Prolific)と異なり、ワーカー側から手数料が引かれる仕組みのため, それを見込んだ報酬額を入力するよう注意
  8. • 報酬額の妥当性 – 参加者への倫理的配慮の一環として,十分な報酬額の支払が重要 – 時給換算にして参加募集国の最低賃金を超える(優に超える)よう設 定したとする論文が多い – Prolificは「Fair Rewards」を掲げており,時給換算9.6ドルを推奨

    (6.5ドル以上必須) – 最新の最難関国際会議採択論文では時給換算14ドル程度の水準 (USENIX SEC’20) – 報酬額はデータの質(参加者のエンゲージメント)に直接的に影響 [L. Litman et al., 2015] • プラットフォーム利用料 – 参加者への報酬の20~40%程度が利用料となることが多い • MTurk:報酬の 20 or 40%(募集人数による) • Prolific:報酬の 33% • 国内プラットフォーム:報酬の5~20%(募集人数による) 9 報酬額の相場・利用料
  9. • パイロットスタディを複数回実施 – 少人数から募集をスタート – 質問の意図が正しく伝わっているか,質問順序の適正,レイアウトの適正, 想定所要時間・報酬額の適正等を確認 – パイロットスタディの前に動作確認も •

    Developer Sandbox:MTurkの動作確認用サンドボックス • 参加資格設定を活用 – 過去のタスク承認率・参加者属性・参加者の特徴 etc. • 取得できるデータを活用して不良回答を除去 – 不良回答:エンゲージメントの低い人またはボットによる自動回答 – 主要な不良回答除去手法(複数の除去手法を組み合わせることを推奨) [C. Yarrish et al., 2019] [E. Buchanan and J. Scofield, 2018] • 回答時間,Instructional manipulation check (IMC) ,自由記述回答,回答分布 etc. ※ IMCのような”unfair”な除去手法を非推奨とするプラットフォームもある(Prolific, Qualtrics) 10 データの質を向上させるためのTips
  10. • スーパーワーカー問題 – 少数のスーパーワーカーが多数のタスクを実行 [J. Robinson et al., 2019] –

    スーパーワーカーは過去に同様の研究に参加している可能性があり,それが 調査結果に影響することも考えられる • ファーマー問題 – MTurkにおいて,インド在住のワーカーがサーバーファームを利用し,アメ リカ在住者と偽って質の低い回答を提出 [A. Moss and L. Litman, 2018] • モバイル回答者のデータの質 – モバイル端末で回答するワーカーも多い(特に若年層) – モバイル端末で回答するワーカーは調査へのエンゲージメントが低い可能性 (PC回答者よりIMC不合格率が高い)[Y. Majima et al., 2017] • 不良回答除去手法の副作用 – 注意力テストの挿入により,参加者のモチベーションが低下する可能性有 (調査者への信頼感が低下?) [D. Vannette, 2017] 11 (参考)最近の気になるトピックス
  11. • 「習うより慣れろ」 – 例)依頼者用アカウントを作ってとりあえず触ってみる – 例)公開されているタスクを眺めてみる • 心理学/社会科学分野のクラウドソーシングに関する研究を キャッチアップし,クラウドソーシングと“上手く”付き合う –

    デメリットや要注意点も存在するが,クラウドソーシングはユーザス タディの可能性を広げる素晴らしいツール – 心理学/社会科学分野ではクラウドソーシングのワーカーの特徴や データの質の問題等が活発に研究されているため,それらをキャッチ アップする必要性 12 最後に
  12. • [E. Buchanan and J. Scofield, 2018] Erin M. Buchanan

    and John E. Scofield, Methods to detect low quality data and its implication for psychological research, Behavior Research Methods , 2018. • [L. Litman et al., 2015] Leib Litman, Jonathan Robinson and Cheskie Rosenzweig, The relationship between motivation, monetary compensation, and data quality among US- and India-based workers on Mechanical Turk, Behavior research methods, 2015. • [Y. Majima et al., 2017] Yoshimasa Majima, Kaoru Nishiyama, Aki Nishihara and Ryosuke Hata, Conducting Online Behavioral Research Using Crowdsourcing Services in Japan, Frontiers in Psychology, 2017. • [A. Moss and L. Litman, 2018] Aaron Moss and Leib Litman, After the Bot Scare: Understanding What’s Been Happening With Data Collection on MTurk and How to Stop It, CloudResearch Blog, 2018. • [E. Peer et al., 2017] Eyal Peer, Laura Brandimarte, Sonam Samat and Alessandro Acquisti, Beyond the Turk: Alternative platforms for crowdsourcing behavioral research, Journal of Experimental Social Psychology, 2017. • [J. Robinson et al., 2019] Jonathan Robinson, Cheskie Rosenzweig, Aaron J. Moss and Leib Litman, Tapped out or barely tapped? Recommendations for how to harness the vast and largely unused potential of the Mechanical Turk participant pool, PLOS ONE, 2019. • [D. Vannette, 2017] Dave Vannette, Using Attention Checks in Your Surveys May Harm Data Quality, Qualtrics Blog, 2017. • [C. Yarrish et al., 2019] Christina Yarrish, Laurie Groshon, Juliet Daisy Mitchell, Ashlyn Appelbaum, Samantha Klock, Taylor Winternitz and Dara G. Friedman-Wheeler, Finding the Signal in the Noise: Minimizing Responses From Bots and InattentiveHumans in Online Research, The Behavior Therapist, 2019. • [三浦・小林, 2016] 三浦麻子, 小林哲郎, オンライン調査における努力の最小限化(Satisfice)傾向の比 較: IMC 違反率を指標として To say, or not to say “Good-bye, Mr/Ms online survey panels.”, メディア・ 情報・コミュニケーション研究 2016. 13 引用文献