Per Hour: Exclusive | TIME - https://time.com/6247678/openai-chatgpt-kenya-workers/ TechScape: How cheap, outsourced labour in Africa is shaping AI English | Technology | The Guardian - https://www.theguardian.com/technology/2024/apr/16/techscape-ai-gadgest-humane-ai-pin-chatgpt 【Sama社によるChatGPTのデータクリーニングの事例】 • OpenAI社はChatGPTが有害な出力をしないように,学習データのクリーニングを行った • この作業はSama社という会社が受託し,Sama社はケニア人の労働者に作業させた • ポルノや暴力描写のあるテキストを学習データから除く作業で,労働者への精神的負担は大きかった • にもかかわらず,労働者には時給2ドル未満の給与しか支払われなかった 【RLHFとアフリカ人】 • LLMには RLHF (Reinforcement Learning with Human Feedback) という,人間からのフィードバッ クをもとにLLMの性能を改善する手法がある • 多くのアフリカ人がこのRLHFの作業に参加しているのではないかといわれている • “delve”の問題は,単純にアフリカ人の英語話者が多いだけでなく,RLHFの作業をアフリカ人が担っ ているからかも? 学習データの作成には倫理的問題や作業者の多様性など, 様々な考慮すべき要因がある
並列してワーカに依頼 集約 集約 ワーカからの回答を集約し 元の衛星画像に戻す 衛星画像はPlanet Explorerより Joseph M. Hellerstein and David L. Tennenhouse. 2011. Searching for Jim Gray: a technical overview. Commun. ACM 54, 7 (July 2011), 77–87. https://doi.org/10.1145/1965724.1965744 分割し並列してタスクを行うことで,コストを削減し品質を向上させる 2007年に著名なデータベース研究者のジム・グレイがヨットで遭難した際.mTurkを用いて衛星画像から の捜索が試みられたことが有名(しかし,残念ながら見つからなかった)
Kachaev, and Chris Callison-Burch. 2014. The Language Demographics of Amazon Mechanical Turk. Transactions of the Association for Computational Linguistics, 2:79–92. (図を引用)
修正案の中から良いものを選ぶタスク 43 私が秋葉原に行きました. 秋葉原につくばエクスプレス 乗りました. つくば駅 着いたまでに45分かかりました. 社内からはいっぱいの田んぼが見えます. Michael S. Bernstein, Greg Little, Robert C. Miller, Björn Hartmann, Mark S. Ackerman, David R. Karger, David Crowell, and Katrina Panovich. 2015. Soylent: a word processor with a crowd inside. Commun. ACM 58, 8 (August 2015), 85–94. https://doi.org/10.1145/2791285 私は秋葉原に行きました. 秋葉原でつくばエクスプレスに乗りました. つくば駅に着くまでに45分かかりました. 車内からはたくさんの田んぼが見えました. Find 社内→車内 私が→僕は Fix 私が→僕は は変えすぎでは? Verify 修正案を選択する
タスク(複数人に割り当てる) ③ Reduce…②で作成されたテキストを要約するタスク (見出しに対する文が完成) ④ Final…②③は見出しごとに行われるので,最後に各見 出しの文を集約する ④ Aniket Kittur, Boris Smus, Susheel Khamkar, and Robert E. Kraut. 2011. CrowdForge: crowdsourcing complex work. In Proceedings of the 24th annual ACM symposium on User interface software and technology (UIST '11). Association for Computing Machinery, New York, NY, USA, 43–52. https://doi.org/10.1145/2047196.2047202
ワーカの住んでいる地域では,同じ単語でも意味が違うかもしれない • タスク説明の英語がおかしかったのかもしれない(日本人にありがち?) • 潜在クラスモデルによる能力推定には根拠がない • ワーカの能力は,正解データが存在するタスクを解いてもらうことでしか測れない • ワーカ間一致率や集約アルゴリズムは多様性を減らしてしまうことに注意 • 少数派の意見がデータセットに反映されづらくなる • 少数派の意見を反映させるための手法も検討されてきている (Davani et al. 2022) • 近年,クラウドワーカが裏でChatGPTを使っているのでは?という疑惑がある(Veselovsky et al. 2023) • そのような場合,集約は意味をなさないかもしれない • もちろん,安易にワーカをChatGPT認定してはいけない • ワーカ間一致率を「p値ハックキング」しない • ワーカ間一致率は統計検定におけるp値のようなもの • 一致率を向上させることは有効だが,間違った方法で向上させないこと 76 Davani , A., Diaz, M., Vinodkumar P. (2022). Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations. Transactions of the Association for Computational Linguistics, 10, pp. 92–110. Veselovsky, V., Ribeiro, M.H., & West, R. (2023). Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks. ArXiv, abs/2306.07899. Robert (Munro) Monarch (著/文), 上田 隼也 (翻訳), 角野 為耶 (翻訳), 伊藤 寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp240-241.