Slide 1

Slide 1 text

1 Dawid-Skene集約における不均一タスク数の影響緩和による 人間-AIハイブリッドクラウドソーシングの品質向上 第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024) 田村 匠†, 伊藤 寛祥†, 小山 聡‡, 森嶋 厚行† † 筑波大学 ‡名古屋市立大学

Slide 2

Slide 2 text

2 発表内容 2 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 3

Slide 3 text

3 発表内容 3 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 4

Slide 4 text

4 4 労働力不足を補うためにはAI技術の活用が必要 我が国の労働力は年々不足 AIなどの情報技術を活用し 生産性を向上させる必要がある 総務省|令和3年版 情報通信白書|我が国が直面する社会・経済課題より引用 - https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r03/html/nd132100.html 我が国の人口構成の推移

Slide 5

Slide 5 text

5 AIが人間と同じようにクラウドソーシングに取り組む, AIワーカのアイデアが提案されている [1] AIワーカはクラウドソーシングの労働力不足を補う この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ クラゲ イカ 人間ワーカ A B C 学習済みモデル を入手する クラゲ クラゲ タコ ワーカとして参加 AIワーカ [1] Sihem Amer-Yahia, et al., Making AI machines work for humans in FoW. ACM SIGMOD Record, Vol. 49, No. 2, pp. 30–35, 2020. 5

Slide 6

Slide 6 text

6 AIは人間と異なる2つの特徴を持つ 1. 人間よりも圧倒的に多くのタスク に取り組める 6 2. AI固有のバイアスをもたらすこと がある AIには様々なバイアスや公平性の問題が あることが知られている [2] [2] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. A survey on bias and fairness in machine learning. ACM Comput. Surv., Vol. 54,No. 6, 2021. 学習データの偏り 不適切な特徴量 学習データの不足 不適切な 予測

Slide 7

Slide 7 text

7 7 具体例: AIにはバイアスや公平性の問題がある 大規模言語モデルは反イスラム的な出力をする傾向がある [3] GPT-3は “Muslim” を“terrorist” に結びつけがちであると報告 性別分類:肌の色調が明るいほど女性的である 笑顔かどうか判定:肌の色相が赤に近い人ほど笑顔である [3] Abubakar Abid, Maheen Farooqi, and James Zou. Persistent Anti-Muslim Bias in Large Language Models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21), pp 298-306, 2021. [4] William Thong, Przemyslaw Joniak, Alice Xiang. Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4903-4913, 2023. 画像認識AIは肌の色に対してバイアスを抱えている [4]

Slide 8

Slide 8 text

8 発表内容 8 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しなが ら集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 9

Slide 9 text

9 結果集約はクラウドソーシングの品質を向上させる この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ クラゲ イカ クラゲ 集約アルゴリズム 同じタスクを 重複して出題 人間ワーカ 正しい結果 A B C 9

Slide 10

Slide 10 text

10 能力の高いワーカを見つけ,優先させる手法が必要 単純多数決は品質低下を招いてしまう この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ イカ イカ イカ 単純多数決 能力の高い ワーカが少数 人間ワーカ 誤った結果 能力:低 能力:低 能力:高 A B C 10

Slide 11

Slide 11 text

11 クラゲ イカ タコ クラゲ 0.33 0.33 0.33 イカ 0.33 0.33 0.33 タコ 0.33 0.33 0.33 Dawid-Skene (DS) 法はワーカの能力を推定できる [5] この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ イカ イカ クラゲ 人間ワーカの投票結果 正しい結果を 推定できる 能力:? 能力:? 能力:? A B C E-Step ワーカの能力を加味し,各タスクの真のラベルを予測 この画像は? クラゲ: 80% イカ: 17% タコ: 3% M-Step 各ワーカの能力(混同行列)とクラスの周辺分布を推定 能力:低 C クラゲ イカ タコ クラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A クラゲ イカ タコ クラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:低 B 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する EMアルゴリズム E-stepとM-stepを繰り返す 11 入力 出力 [5] Dawid,A.P.; Skene,A.M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm. Applied Statistics. vol. 28, no. 1, p. 20-28, 1979.

Slide 12

Slide 12 text

12 人間-AI混在状況ではDS法を用いるのが自然 この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ イカ イカ ? Dawid-Skene法 インターネット等から入手したAIワーカはその能力が未知 また,状況によっては人間とAIの識別は困難 A B 人間の能力が わからない 12 能力推定 が可能

Slide 13

Slide 13 text

13 発表内容 13 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 14

Slide 14 text

14 AIには様々なバイアスや公平性の問題がある 仮説: DS集約はAIのバイアスを集約結果にもたらすのでは? 14 DS法は能力が高いとみなされた 一部のワーカの回答結果を優先 AIワーカが圧倒的に多くのタスクを解いた場合, 集約結果がAIの回答に類似してしまうのでは?

Slide 15

Slide 15 text

15 関連研究(RQ1): タスク数不均一に着目した研究はない 15 人間-AI混在状況におけるクラウドソーシング • Kobayashiらは混在状況におけるタスク割り当て手法を提案 [6] • さらにKandaらはKobayashiらの手法を改善している [7] これらはタスク割り当て手法について議論しており, 結果集約については議論されていない 混在状況における結果集約についてはTamuraらがAIワーカの出力する不 確実性を集約に利用することで品質向上が可能になることを報告 [8] タスク数不均一の問題については考慮していない [6] Masaki Kobayashi, Kei Wakabayashi, and Atsuyuki Morishima. Human+AI crowd task assignment considering result quality requirements. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), Vol. 9, pp. 97–107, 2021. [7] Tomoya Kanda, Hiroyoshi Ito, and Atsuyuki Morishima. Efficient evaluation of AI workers for the human+AI crowd task assignment. In Proceedings of IEEE International Conference on Big Data (BigData), pp. 3995–4001, 2022. [8] Takumi Tamura, Hiroyoshi Ito, Satoshi Oyama, and Atsuyuki Morishima. Influence of AI’s uncertainty in the Dawid-Skene aggregation for human-AI crowdsourcing. In Information for a Better World: Wisdom, Well-being, Win-win, 19th International Conference on Information (iConference 2024), in press.

Slide 16

Slide 16 text

16 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1: シミュレーションによって不均一の影響を評価 16 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力

Slide 17

Slide 17 text

17 実験1: 1.データセットとタスクの作成(詳細は論文参照) 17 10,000件のデータからなる4クラス分類のデータセットを作成 7,000件→訓練データ 3,000件→テストデータ 人間ワーカの作成や AIワーカの訓練に利用 人間・AIワーカが取り組む タスクとして評価に利用

Slide 18

Slide 18 text

18 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1: シミュレーションによって不均一の影響を評価 18 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力

Slide 19

Slide 19 text

19 ワーカ間で混同行列が異なるタイプと正答率のみ異なるタイプの2種類 実験1: 2.人工人間ワーカの作成(2種類)(詳細は論文参照) 19 クラゲ イカ タコ クラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する 異混同行列ワーカ 混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定 異正答率ワーカ 回答した問題数 正解した問題数 正答率は「間違い方」を加味しない 既存集約手法である OneCoinモデル [9] や GLAD [10] は正答率でワーカの能力を推定 [9] Yuchen Zhang, Xi Chen, Dengyong Zhou, and Michael I. Jordan. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS), Vol. 1, pp. 1260–1268, 2014. [10] Jacob Whitehill, Paul Ruvolo, Tingfan Wu, Jacob Bergsma, and Javier Movellan. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Proceedings of the 22nd International Conference on Neural Information Processing Systems (NIPS), pp. 2035–2043, 2009.

Slide 20

Slide 20 text

20 人間ワーカはどちらのタイプも能力を5段階変化させる 750人ワーカを生成し,150人ごとに異なる能力を設定 実験1: 2.人工人間ワーカの作成(2種類)(詳細は論文参照) 20 能力 低 高 150人 150人 150人 150人 150人

Slide 21

Slide 21 text

21 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1: シミュレーションによって不均一の影響を評価 21 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力

Slide 22

Slide 22 text

22 バイアスを抱えたAIワーカを3種類作成 実験1: 3. AIワーカの作成(3種類)(詳細は論文参照) 22 特徴量の欠落 誤った サンプリング 偏った能力 特徴量2のみでAIを訓練 訓練データに誤った データを追加 クラスAとクラスBを見分ける ことができないが,他のクラス の分類能力に問題はない A B C D A × × 〇 〇 B × × 〇 〇 C 〇 〇 〇 〇 D 〇 〇 〇 〇

Slide 23

Slide 23 text

23 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1: シミュレーションによって不均一の影響を評価 23 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力

Slide 24

Slide 24 text

24 実験1: 4.不均一さを変化させ実験(詳細は論文参照) 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力 × 人間ワーカは1人あたり20タスク取り組む 1タスクあたり5人の人間ワーカを割り当て ワーカ タスク 回答 AI 問題1 クラスA AI 問題2 クラスD AI 問題3 クラスC AI 問題4 クラスD AI 問題5 クラスB AI 問題6 クラスA ワーカ タスク 回答 AI_1 問題1 クラスA AI_1 問題2 クラスD AI_1 問題3 クラスC AI_2 問題4 クラスD AI_2 問題5 クラスB AI_5 問題6 クラスA AIワーカ1体あたりの回答数を変化させ不均一さを調整 人間とAIの結果を混在させ DS法,OneCoinモデル,GLADのそれぞれで集約 2種類×3種類=6つの組み合わせでシミュレーション実験

Slide 25

Slide 25 text

25 人間ワーカのみの場合の集約精度(エラー率) 各AIワーカ単体での集約精度 実験1: 人工人間ワーカとAIワーカの集約精度(補足) 25 異混同行列 異正答率 DS 0.073 0.114 OneCoin 0.075 0.081 GLAD 0.085 0.096 単純多数決 0.114 0.099 エラー率 特徴量の欠落 0.093 誤ったサンプリング 0.118 偏った能力 0.287 AI単体では,人間の集約結果に 精度で劣る設定になっている

Slide 26

Slide 26 text

26 26 実験結果1: 不均一さが増すと集約結果がAIと類似 異混同行列ワーカ 異正答率ワーカ 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい エラー率 類似度 エラー率 類似度 DS法は他の手法よりもエラー率が 高い場合,低い場合ともに, 不均一さが増すと その集約結果がAIの回答に類似する DS集約結果がAIワーカの 回答結果と類似していないか をカッパ係数を用いて評価

Slide 27

Slide 27 text

27 27 RQ1: 不均一さがDS集約に与える影響は何か? AIには様々なバイアスや公平性の問題がある AIワーカが圧倒的に多くのタスクを解いた場合, DS集約結果がAIの回答に類似してしまう AIの持つバイアスを集約結果に もたらすリスクがある

Slide 28

Slide 28 text

28 発表内容 28 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 29

Slide 29 text

29 29 (再掲)実験結果1: GLADとOneCoinは不均一の影響が小さい 異混同行列ワーカ 異正答率ワーカ 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい エラー率 類似度 エラー率 類似度 正答率によって ワーカの能力を推定 GLAD OneCoinモデル

Slide 30

Slide 30 text

30 Kクラス分類を行う場合,混同行列推定はK × Kの変数を推定する 仮説1:回答数が少ないワーカの混同行列を推定するのは困難 30 クラゲ イカ タコ クラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する 混同行列 混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定 正答率 回答した問題数 正解した問題数 正答率は「間違い方」を加味しない 既存集約手法である OneCoinモデルや GLADは正答率でワーカの能力を推定 変数の数:K × K 変数の数:1

Slide 31

Slide 31 text

31 31 回答タスク数が少ないワーカの能力推定がうまくいかないために, タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説 仮説2: DS法は回答タスク数が少ないワーカを過小評価 タスクを多く解くAIワーカ 正確に能力が推定される 回答タスク数の少ない人間ワーカ 能力が誤って推定され 過小評価されてしまう

Slide 32

Slide 32 text

32 32 提案手法(1/2): 正答率により混同行列推定を補正(詳細は論文参照) CoinFusion法 正答率による OneCoin の能力推定 混同行列 (Confusion Matrix) による能力推定 タスク回答数が少ない ワーカでは推定が うまくいかない タスク回答数が少ない ワーカでも推定が可能 回答タスク数が少ないワーカの能力推定がうまくいかず, タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説 回答タスク数が少ないワーカの能力推定を正答率で 補正することでタスク数不均一の影響を緩和

Slide 33

Slide 33 text

33 33 クラゲ イカ タコ クラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:? クラゲ イカ タコ クラゲ 0.5 0.25 0.25 イカ 0.25 0.5 0.25 タコ 0.25 0.25 0.5 能力:? 正答率 50% 最尤法で推定される 精度の低い混同行列 正答率から仮定される 一様な混同行列 T × 補正された 混同行列 補正度合いを調整する パラメータ(正整数) CoinFusion法はDS法のMステップを以下の処理で置換 1. 各ワーカの正答率を最尤推定 2. 各ワーカの混同行列を1で求めた正答率を用いてMAP推定 提案手法(2/2): 正答率により混同行列推定を補正(詳細は論文参照) 混同行列の最尤推定を正答率から仮定される 事前分布によってMAP推定に拡張する

Slide 34

Slide 34 text

34 34 関連研究(RQ2): 混同行列能力推定の補正 Hybrid Confusion DS [11] ワーカ全体の混同行列で各ワーカの混同行列を補正することで 回答数の少ないワーカの能力推定精度を向上させる Worker Clustering DS [12] Hybrid Confusion DSを拡張し,ワーカ全体をN個のクラスタに分割し, 所属クラスタの混同行列で各ワーカの混同行列推定を補正 これらは人間-AI混在状況において生じる 圧倒的なタスク数不均一を考慮したものでない [11] Chao Liu and Yi-Min Wang. Truelabel + confusions: A spectrum of probabilistic models in analyzing multiple ratings. In Proceedings of the 29th International Conference on International Conference on Machine Learning (ICML), pp. 17–24, 2012. [12] ] Hideaki Imamura, Issei Sato, and Masashi Sugiyama. Analysis of minimax error rate for crowdsourcing and its application to worker clustering model. In Proceedings of the 35th International Conference on Machine Learning (ICML), Vol. 80, pp. 2147–2156, 2018.

Slide 35

Slide 35 text

35 35 実験2: 最も不均一な場合で提案手法を評価 人間ワーカ 750人 1人あたり20タスク AIワーカ 1体 1体あたり3,000タスク 実験1と同じように不均一さが与える影響を評価 タスク数不均一の影響がある場合, その影響を緩和し集約結果を品質向上させることは可能か? RQ2

Slide 36

Slide 36 text

36 36 異混同行列 ワーカ 特徴量の欠落 誤ったサンプリング 偏った能力 異正答率 ワーカ 大 小 AIとの類似度 高 低 エラー率 実験結果2: 提案手法は精度を維持しつつ類似度を減少 高 低 エラー率

Slide 37

Slide 37 text

37 37 RQ2: 不均一さの影響を緩和することはできるか? CoinFusion法 正答率による OneCoin の能力推定 混同行列 (Confusion Matrix) による能力推定 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら, 不均一の影響を緩和することができた

Slide 38

Slide 38 text

38 発表内容 38 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 39

Slide 39 text

39 39 本研究の貢献(1/2): タスク数不均一は集約結果に悪影響 Dawid-Skene集約結果は AIの回答に類似 AIの持つバイアスを 集約結果にもたらす 回答タスク数の不均一が集約品質に もたらす影響について調査した研究は初 人間ワーカ間の タスク数不均一にも 適用できる?

Slide 40

Slide 40 text

40 40 本研究の貢献(2/2): 不均一の影響を緩和する手法を提案 混同行列の推定を正答率で補正することで影響を緩和 回答数が少ない ワーカの混同行列 能力推定は困難 (人間が過小評価されてしまう)

Slide 41

Slide 41 text

41 41 今後の課題: 複数種のAIワーカが参加する場合 人間ワーカ 750人 AIワーカ 1種類 + + 今回の実験設定 人間ワーカ 750人 AIワーカ N種類 もし複数種のAIが クラウドソーシングに 同時に参加したら?

Slide 42

Slide 42 text

42 発表のまとめ 42 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた

Slide 43

Slide 43 text

43 43 ハイパーパラメータTの影響 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい エラー率 類似度 エラー率 類似度

Slide 44

Slide 44 text

44 44 異混同行列人工人間ワーカの作成方法(1/2) ナイーブベイズ分類器𝑓𝜃 1,訓練データをもとに分類器を訓練 2,ワーカ𝑘ごとに以下のパラメータを決定 𝑟 1 (𝑘), 𝑟 2 (𝑘) -1~1 の乱数で、それぞれの特徴量に対する「ずれ」の方向を決める 𝛼(𝑘) {0.1, 0.2, 0.4, 0.7, 1.1} のどれかの値で、ワーカの能力を示す 3,各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る 予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 )

Slide 45

Slide 45 text

45 45 異混同行列人工人間ワーカの作成方法(2/2) 3,各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る 予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) (𝑓1 , 𝑓2 ) (𝛼 𝑘 𝑟 1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) ワーカごとに従来の点(𝑓1 , 𝑓2 )から、 ベクトル(𝑟 1 𝑘 , 𝑟 2 𝑘 ) の方向に𝛼 𝑘 ぶん 移動した点を、分類器に分類させる ワーカごとに間違い方(≒混同行列) を異ならせながら ワーカ間に能力の差をつけられる

Slide 46

Slide 46 text

46 46 異正答率人工人間ワーカの作成方法 1,各ワーカ𝑘に正答率𝑎(𝑘)を割り当てる {0.95, 0.85, 0.75, 0.65, 0.55}の5段階から割り当て 2,不正解の場合の回答は、以下のようなルールで決定する 1 − 𝑎(𝑘)で不正解し、 𝑎(𝑘)で正解するように回答を生成する 正解が A→C B→D C→A D→B