Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上@DEIM2024

Slide 1

Slide 1 text

1 Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024) 田村匠†, 伊藤寛祥†, 小山聡‡, 森嶋厚行† † 筑波大学 ‡名古屋市立大学

Slide 2

Slide 2 text

2 発表内容 2 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 3

Slide 3 text

3 発表内容 3 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 4

Slide 4 text

4 4 労働力不足を補うためにはAI技術の活用が必要我が国の労働力は年々不足ＡＩなどの情報技術を活用し生産性を向上させる必要がある総務省｜令和3年版情報通信白書｜我が国が直面する社会・経済課題より引用 - https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r03/html/nd132100.html 我が国の人口構成の推移

Slide 5

Slide 5 text

5 AIが人間と同じようにクラウドソーシングに取り組む， AIワーカのアイデアが提案されている [1] AIワーカはクラウドソーシングの労働力不足を補うこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲクラゲイカ人間ワーカ A B C 学習済みモデルを入手するクラゲクラゲタコワーカとして参加 AIワーカ [1] Sihem Amer-Yahia, et al., Making AI machines work for humans in FoW. ACM SIGMOD Record, Vol. 49, No. 2, pp. 30–35, 2020. 5

Slide 6

Slide 6 text

6 AIは人間と異なる２つの特徴を持つ 1. 人間よりも圧倒的に多くのタスクに取り組める 6 2. AI固有のバイアスをもたらすことがある AIには様々なバイアスや公平性の問題があることが知られている [2] [2] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. A survey on bias and fairness in machine learning. ACM Comput. Surv., Vol. 54,No. 6, 2021. 学習データの偏り不適切な特徴量学習データの不足不適切な予測

Slide 7

Slide 7 text

7 7 具体例: AIにはバイアスや公平性の問題がある大規模言語モデルは反イスラム的な出力をする傾向がある [3] GPT-3は “Muslim” を“terrorist” に結びつけがちであると報告性別分類：肌の色調が明るいほど女性的である笑顔かどうか判定：肌の色相が赤に近い人ほど笑顔である [3] Abubakar Abid, Maheen Farooqi, and James Zou. Persistent Anti-Muslim Bias in Large Language Models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21), pp 298-306, 2021. [4] William Thong, Przemyslaw Joniak, Alice Xiang. Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4903-4913, 2023. 画像認識AIは肌の色に対してバイアスを抱えている [4]

Slide 8

Slide 8 text

8 発表内容 8 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 9

Slide 9 text

9 結果集約はクラウドソーシングの品質を向上させるこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲクラゲイカクラゲ集約アルゴリズム同じタスクを重複して出題人間ワーカ正しい結果 A B C 9

Slide 10

Slide 10 text

10 能力の高いワーカを見つけ，優先させる手法が必要単純多数決は品質低下を招いてしまうこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカイカイカ単純多数決能力の高いワーカが少数人間ワーカ誤った結果能力:低能力:低能力:高 A B C 10

Slide 11

Slide 11 text

11 クラゲイカタコクラゲ 0.33 0.33 0.33 イカ 0.33 0.33 0.33 タコ 0.33 0.33 0.33 Dawid-Skene (DS) 法はワーカの能力を推定できる [5] この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカイカクラゲ人間ワーカの投票結果正しい結果を推定できる能力:？能力:？能力:？ A B C E-Step ワーカの能力を加味し，各タスクの真のラベルを予測この画像は？クラゲ： 80% イカ： 17% タコ: 3% M-Step 各ワーカの能力（混同行列）とクラスの周辺分布を推定能力:低 C クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A クラゲイカタコクラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:低 B 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する EMアルゴリズム E-stepとM-stepを繰り返す 11 入力出力 [5] Dawid,A.P.; Skene,A.M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm. Applied Statistics. vol. 28, no. 1, p. 20-28, 1979.

Slide 12

Slide 12 text

12 人間-AI混在状況ではDS法を用いるのが自然この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカイカ？ Dawid-Skene法インターネット等から入手したAIワーカはその能力が未知また，状況によっては人間とAIの識別は困難 A B 人間の能力がわからない 12 能力推定が可能

Slide 13

Slide 13 text

13 発表内容 13 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 14

Slide 14 text

14 ＡＩには様々なバイアスや公平性の問題がある仮説: DS集約はAIのバイアスを集約結果にもたらすのでは？ 14 DS法は能力が高いとみなされた一部のワーカの回答結果を優先ＡＩワーカが圧倒的に多くのタスクを解いた場合，集約結果がＡＩの回答に類似してしまうのでは？

Slide 15

Slide 15 text

15 関連研究(RQ1): タスク数不均一に着目した研究はない 15 人間-AI混在状況におけるクラウドソーシング • Kobayashiらは混在状況におけるタスク割り当て手法を提案 [6] • さらにKandaらはKobayashiらの手法を改善している [7] これらはタスク割り当て手法について議論しており，結果集約については議論されていない混在状況における結果集約についてはTamuraらがAIワーカの出力する不確実性を集約に利用することで品質向上が可能になることを報告 [8] タスク数不均一の問題については考慮していない [6] Masaki Kobayashi, Kei Wakabayashi, and Atsuyuki Morishima. Human+AI crowd task assignment considering result quality requirements. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), Vol. 9, pp. 97–107, 2021. [7] Tomoya Kanda, Hiroyoshi Ito, and Atsuyuki Morishima. Efficient evaluation of AI workers for the human+AI crowd task assignment. In Proceedings of IEEE International Conference on Big Data (BigData), pp. 3995–4001, 2022. [8] Takumi Tamura, Hiroyoshi Ito, Satoshi Oyama, and Atsuyuki Morishima. Influence of AI’s uncertainty in the Dawid-Skene aggregation for human-AI crowdsourcing. In Information for a Better World: Wisdom, Well-being, Win-win, 19th International Conference on Information (iConference 2024), in press.

Slide 16

Slide 16 text

16 1. データセットとタスクの作成 2. 人工人間ワーカの作成（２種類） 3. AIワーカの作成（３種類） 4. 不均一さを変化させ実験実験1: シミュレーションによって不均一の影響を評価 16 シミュレーション実験の流れ異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力

Slide 17

Slide 17 text

17 実験1: 1.データセットとタスクの作成（詳細は論文参照） 17 10,000件のデータからなる４クラス分類のデータセットを作成 7,000件→訓練データ 3,000件→テストデータ人間ワーカの作成や AIワーカの訓練に利用人間・AIワーカが取り組むタスクとして評価に利用

Slide 18

Slide 18 text

18 1. データセットとタスクの作成 2. 人工人間ワーカの作成（２種類） 3. AIワーカの作成（３種類） 4. 不均一さを変化させ実験実験1: シミュレーションによって不均一の影響を評価 18 シミュレーション実験の流れ異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力

Slide 19

Slide 19 text

19 ワーカ間で混同行列が異なるタイプと正答率のみ異なるタイプの２種類実験1: 2.人工人間ワーカの作成（２種類）（詳細は論文参照） 19 クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する異混同行列ワーカ混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定異正答率ワーカ回答した問題数正解した問題数正答率は「間違い方」を加味しない既存集約手法である OneCoinモデル [9] や GLAD [10] は正答率でワーカの能力を推定 [9] Yuchen Zhang, Xi Chen, Dengyong Zhou, and Michael I. Jordan. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS), Vol. 1, pp. 1260–1268, 2014. [10] Jacob Whitehill, Paul Ruvolo, Tingfan Wu, Jacob Bergsma, and Javier Movellan. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Proceedings of the 22nd International Conference on Neural Information Processing Systems (NIPS), pp. 2035–2043, 2009.

Slide 20

Slide 20 text

20 人間ワーカはどちらのタイプも能力を５段階変化させる 750人ワーカを生成し，150人ごとに異なる能力を設定実験1: 2.人工人間ワーカの作成（２種類）（詳細は論文参照） 20 能力低高 150人 150人 150人 150人 150人

Slide 21

Slide 21 text

21 1. データセットとタスクの作成 2. 人工人間ワーカの作成（２種類） 3. AIワーカの作成（３種類） 4. 不均一さを変化させ実験実験1: シミュレーションによって不均一の影響を評価 21 シミュレーション実験の流れ異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力

Slide 22

Slide 22 text

22 バイアスを抱えたAIワーカを３種類作成実験1: 3. AIワーカの作成（３種類）（詳細は論文参照） 22 特徴量の欠落誤ったサンプリング偏った能力特徴量２のみでＡＩを訓練訓練データに誤ったデータを追加クラスAとクラスBを見分けることができないが，他のクラスの分類能力に問題はない A B C D A × × 〇〇 B × × 〇〇 C 〇〇〇〇 D 〇〇〇〇

Slide 23

Slide 23 text

23 1. データセットとタスクの作成 2. 人工人間ワーカの作成（２種類） 3. AIワーカの作成（３種類） 4. 不均一さを変化させ実験実験1: シミュレーションによって不均一の影響を評価 23 シミュレーション実験の流れ異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力

Slide 24

Slide 24 text

24 実験1: 4.不均一さを変化させ実験（詳細は論文参照）異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力 × 人間ワーカは1人あたり20タスク取り組む 1タスクあたり5人の人間ワーカを割り当てワーカタスク回答 AI 問題1 クラスA AI 問題2 クラスD AI 問題3 クラスC AI 問題4 クラスD AI 問題5 クラスB AI 問題6 クラスA ワーカタスク回答 AI_1 問題1 クラスA AI_1 問題2 クラスD AI_1 問題3 クラスC AI_2 問題4 クラスD AI_2 問題5 クラスB AI_5 問題6 クラスA AIワーカ1体あたりの回答数を変化させ不均一さを調整人間とAIの結果を混在させ DS法，OneCoinモデル，GLADのそれぞれで集約２種類×３種類＝６つの組み合わせでシミュレーション実験

Slide 25

Slide 25 text

25 人間ワーカのみの場合の集約精度（エラー率）各AIワーカ単体での集約精度実験1: 人工人間ワーカとAIワーカの集約精度（補足） 25 異混同行列異正答率 DS 0.073 0.114 OneCoin 0.075 0.081 GLAD 0.085 0.096 単純多数決 0.114 0.099 エラー率特徴量の欠落 0.093 誤ったサンプリング 0.118 偏った能力 0.287 AI単体では，人間の集約結果に精度で劣る設定になっている

Slide 26

Slide 26 text

26 26 実験結果1: 不均一さが増すと集約結果がAIと類似異混同行列ワーカ異正答率ワーカ不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きいエラー率類似度エラー率類似度 DS法は他の手法よりもエラー率が高い場合，低い場合ともに，不均一さが増すとその集約結果がAIの回答に類似する DS集約結果がAIワーカの回答結果と類似していないかをカッパ係数を用いて評価

Slide 27

Slide 27 text

27 27 RQ1: 不均一さがDS集約に与える影響は何か？ＡＩには様々なバイアスや公平性の問題があるＡＩワーカが圧倒的に多くのタスクを解いた場合， DS集約結果がＡＩの回答に類似してしまう AIの持つバイアスを集約結果にもたらすリスクがある

Slide 28

Slide 28 text

28 発表内容 28 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 29

Slide 29 text

29 29 (再掲）実験結果1: GLADとOneCoinは不均一の影響が小さい異混同行列ワーカ異正答率ワーカ不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きいエラー率類似度エラー率類似度正答率によってワーカの能力を推定 GLAD OneCoinモデル

Slide 30

Slide 30 text

30 Kクラス分類を行う場合，混同行列推定はK × Kの変数を推定する仮説1:回答数が少ないワーカの混同行列を推定するのは困難 30 クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する混同行列混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定正答率回答した問題数正解した問題数正答率は「間違い方」を加味しない既存集約手法である OneCoinモデルや GLADは正答率でワーカの能力を推定変数の数：K × K 変数の数：1

Slide 31

Slide 31 text

31 31 回答タスク数が少ないワーカの能力推定がうまくいかないために，タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説仮説2: DS法は回答タスク数が少ないワーカを過小評価タスクを多く解くAIワーカ正確に能力が推定される回答タスク数の少ない人間ワーカ能力が誤って推定され過小評価されてしまう

Slide 32

Slide 32 text

32 32 提案手法(1/2): 正答率により混同行列推定を補正（詳細は論文参照） CoinFusion法正答率による OneCoin の能力推定混同行列 (Confusion Matrix) による能力推定タスク回答数が少ないワーカでは推定がうまくいかないタスク回答数が少ないワーカでも推定が可能回答タスク数が少ないワーカの能力推定がうまくいかず，タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説回答タスク数が少ないワーカの能力推定を正答率で補正することでタスク数不均一の影響を緩和

Slide 33

Slide 33 text

33 33 クラゲイカタコクラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:？クラゲイカタコクラゲ 0.5 0.25 0.25 イカ 0.25 0.5 0.25 タコ 0.25 0.25 0.5 能力:？正答率 50% 最尤法で推定される精度の低い混同行列正答率から仮定される一様な混同行列 T × 補正された混同行列補正度合いを調整するパラメータ（正整数） CoinFusion法はDS法のMステップを以下の処理で置換 1. 各ワーカの正答率を最尤推定 2. 各ワーカの混同行列を1で求めた正答率を用いてMAP推定提案手法(2/2): 正答率により混同行列推定を補正（詳細は論文参照）混同行列の最尤推定を正答率から仮定される事前分布によってMAP推定に拡張する

Slide 34

Slide 34 text

34 34 関連研究(RQ2): 混同行列能力推定の補正 Hybrid Confusion DS [11] ワーカ全体の混同行列で各ワーカの混同行列を補正することで回答数の少ないワーカの能力推定精度を向上させる Worker Clustering DS [12] Hybrid Confusion DSを拡張し，ワーカ全体をN個のクラスタに分割し，所属クラスタの混同行列で各ワーカの混同行列推定を補正これらは人間-AI混在状況において生じる圧倒的なタスク数不均一を考慮したものでない [11] Chao Liu and Yi-Min Wang. Truelabel + confusions: A spectrum of probabilistic models in analyzing multiple ratings. In Proceedings of the 29th International Conference on International Conference on Machine Learning (ICML), pp. 17–24, 2012. [12] ] Hideaki Imamura, Issei Sato, and Masashi Sugiyama. Analysis of minimax error rate for crowdsourcing and its application to worker clustering model. In Proceedings of the 35th International Conference on Machine Learning (ICML), Vol. 80, pp. 2147–2156, 2018.

Slide 35

Slide 35 text

35 35 実験2: 最も不均一な場合で提案手法を評価人間ワーカ 750人１人あたり20タスク AIワーカ 1体１体あたり3,000タスク実験1と同じように不均一さが与える影響を評価タスク数不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？ RQ2

Slide 36

Slide 36 text

36 36 異混同行列ワーカ特徴量の欠落誤ったサンプリング偏った能力異正答率ワーカ大小 AIとの類似度高低エラー率実験結果2: 提案手法は精度を維持しつつ類似度を減少高低エラー率

Slide 37

Slide 37 text

37 37 RQ2: 不均一さの影響を緩和することはできるか？ CoinFusion法正答率による OneCoin の能力推定混同行列 (Confusion Matrix) による能力推定回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 38

Slide 38 text

38 発表内容 38 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 39

Slide 39 text

39 39 本研究の貢献(1/2): タスク数不均一は集約結果に悪影響 Dawid-Skene集約結果は AIの回答に類似 AIの持つバイアスを集約結果にもたらす回答タスク数の不均一が集約品質にもたらす影響について調査した研究は初人間ワーカ間のタスク数不均一にも適用できる？

Slide 40

Slide 40 text

40 40 本研究の貢献(2/2): 不均一の影響を緩和する手法を提案混同行列の推定を正答率で補正することで影響を緩和回答数が少ないワーカの混同行列能力推定は困難（人間が過小評価されてしまう）

Slide 41

Slide 41 text

41 41 今後の課題: 複数種のAIワーカが参加する場合人間ワーカ 750人 AIワーカ 1種類＋＋今回の実験設定人間ワーカ 750人 AIワーカ N種類もし複数種のAIがクラウドソーシングに同時に参加したら？

Slide 42

Slide 42 text

42 発表のまとめ 42 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2. AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

Slide 43

Slide 43 text

43 43 ハイパーパラメータTの影響不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きいエラー率類似度エラー率類似度

Slide 44

Slide 44 text

44 44 異混同行列人工人間ワーカの作成方法(1/2) ナイーブベイズ分類器𝑓𝜃 １，訓練データをもとに分類器を訓練２，ワーカ𝑘ごとに以下のパラメータを決定 𝑟 1 (𝑘), 𝑟 2 (𝑘) -1～1 の乱数で、それぞれの特徴量に対する「ずれ」の方向を決める 𝛼(𝑘) {0.1, 0.2, 0.4, 0.7, 1.1} のどれかの値で、ワーカの能力を示す３，各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 )

Slide 45

Slide 45 text

45 45 異混同行列人工人間ワーカの作成方法(2/2) ３，各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) (𝑓1 , 𝑓2 ) (𝛼 𝑘 𝑟 1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) ワーカごとに従来の点(𝑓1 , 𝑓2 )から、ベクトル(𝑟 1 𝑘 , 𝑟 2 𝑘 ) の方向に𝛼 𝑘 ぶん移動した点を、分類器に分類させるワーカごとに間違い方（≒混同行列）を異ならせながらワーカ間に能力の差をつけられる

Slide 46

Slide 46 text

46 46 異正答率人工人間ワーカの作成方法１，各ワーカ𝑘に正答率𝑎(𝑘)を割り当てる {0.95, 0.85, 0.75, 0.65, 0.55}の５段階から割り当て２，不正解の場合の回答は、以下のようなルールで決定する 1 − 𝑎(𝑘)で不正解し、 𝑎(𝑘)で正解するように回答を生成する正解が A→C B→D C→A D→B