論文紹介：ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

ChatGPT Outperforms Crowd-workers for Text-annotation Tasks Nara Institute of Science
and Technology, Japan Human Augmented Communication Laboratory M2 Yuta Nishikawa 第2回 AI/ML Tech Night 〜ChatGPT活⽤の集い〜 Copyright © 2023 Yuta Nishikawa 1

⾃⼰紹介所属奈良先端科学技術⼤学院⼤学知能コミュニケーション研究室修⼠2年学歴 2015.04 – 2020.03 奈良⾼専
情報⼯学科 2020.04 – 2022.03 奈良⾼専専攻科 2022.04 – Current 奈良先端科学技術⼤学院⼤学修⼠職歴 2022.08 – 2022.11 LINE株式会社 Part Time Job Research Scientist 2022.11 – Current 奈良先端科学技術⼤学院⼤学研究員 2024.04 – 株式会社オプト AIソリューション開発部⼊社予定興味 • Speech • ASR（⾳声認識）、ST（⾳声翻訳）、SSL（⾃⼰教師あり学習） • NLP • LLM（⼤規模⾔語モデル）、MT（機械翻訳） • Computer Vision • Vision and Language、Diﬀusion Model（拡散モデル） @ChanYu1224 @chan_yu1224 @ChanYu1224 Home Page https://chanyu1224.github.io/ Yuta Nishikawa ⻄川勇太 Copyright © 2023 Yuta Nishikawa 2

今回紹介する内容論⽂紹介 “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023] 趣旨
AIモデルの学習データ、もうChatGPTが作ってしまってもいいのでは︖ Crowd-workerに任せるより⾼品質のデータが作れちゃうじゃん︕︕ Copyright © 2023 Yuta Nishikawa 3 [Fabrizio+2023] https://arxiv.org/abs/2303.15056

Text-annotation Taskとは︖ 簡単に⾔えば… テキストに対して、何らかの情報（ラベル）を結びつける作業 Copyright © 2023 Yuta Nishikawa 4
料理系ゲーム系スポーツ系

Text-annotation Taskの例例えば、「Twitterのツイートのジャンル分類器を作りたい」とする。 1. TwitterからTweetを取得 2. ⼈⼿でジャンル分けする（これがText-annotation）政治的スポーツ
映画 3. 分類器を学習するうーん、これは、スポーツに関するツイート︕w Copyright © 2023 Yuta Nishikawa 5

⼀般的なText-annotation 専⾨家によるAnnotation Crowd-workerによるAnnotation 費⽤︓安価品質︓低品質費⽤︓⾼価品質︓⾼品質 Copyright © 2023
Yuta Nishikawa 6 Ø 両者は互いに「費⽤」と「品質」の⾯でトレードオフの関係になっている。

ChatGPTにでもAnnotationが出来るのでは︖ • 4種類のAnnotation Taskを⽤意し、２種類のAnnotation⼿法を⽐較 • Crowd-worker（MTurk） • 信頼度の⾼いMTurk Masterに依頼
• ChatGPT API（gpt-3.5-turbo） • GPTのtemperatureパラメータも変えて実験 • temperature=1（default） • temperature=0.2（低いランダム性） Copyright © 2023 Yuta Nishikawa 7 GPTによるAnnotation 費⽤︓超安価品質︓︖︖︖

分類するラベル • Relevance • コンテンツモデレーションに対する関連性 • 政治的問題に対する関連性 • Stance: ⽶国のインターネット法の230条に関するスタンス（維持、撤廃、中⽴）
• Topic: トピックの識別（6クラス） • Frame I: ヘイトスピーチかどうか（問題、解決、中⽴） • Frame II: Media Frame（14クラス） Copyright © 2023 Yuta Nishikawa 8

品質評価指標 • Ground Truth（正解ラベル）の準備 • Research Assistant（RA)に訓練してもらい、Annotationをしてもらった。 • 評価指標 •
Accuracy（正解率） • 正しいannotationの割合 • ⾼いほど品質が良い • Intercoder Agreement • 2つの異なるannotator（RA、crowd-worker、ChatGPT）によって同じラベルが割り当てられた割合 • ⾼いほど品質が良い Copyright © 2023 Yuta Nishikawa 9

結論・今後の展望 • LLMが多くの研究プロジェクトに共通する様々なタスクのannotation作業を肩代わり出来る可能性を⽰した︕ • しかも、Crowd-workerを普通に雇うよりもはるかに安価 • 今後の分析の⽅向性 • 英語以外での品質評価（⽇本語でも同じ結果が得られるとは限らない）
• Few-shot learningでの検証 • モデルが⼈間のannotationから学習し、ラベリング⼿順を学習するsemi-automatic data labelingシステムの構築 • Zero-shot inferenceの性能向上のためのchain of thought prompting • 異なるLLM間の⽐較（LLaMa、PaLMとか） Copyright © 2023 Yuta Nishikawa 11

個⼈的な所感 • アカデミックな視点 • ⾼品質で⽣成できるにしろ、性能検証⽤のテストデータは専⾨家でやってほしい（という気持ち） • こういう分析系の研究はあまりやりたがる⼈が少ない割に喜ぶ⼈が多いから、どんどんやるべき。 •
企業視点 • またGPTがビジネスモデルを1つ潰してしまったな… • プロンプトエンジニアリングを積極的に取り⼊れるなら、こういうLLM分析系の論⽂をたくさん読んでいくことが⼤事そう Copyright © 2023 Yuta Nishikawa 12 GPT またオレ何かやっちゃいました︖

論文紹介：ChatGPT Outperforms Crowd-workers for Text...

論文紹介：ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

Yuta Nishikawa

Other Decks in Research

Featured

Transcript

ChatGPT Outperforms Crowd-workers for Text-annotation Tasks Nara Institute of Science

⾃⼰紹介所属奈良先端科学技術⼤学院⼤学知能コミュニケーション研究室修⼠2年学歴 2015.04 – 2020.03 奈良⾼専

今回紹介する内容論⽂紹介 “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023] 趣旨

Text-annotation Taskとは︖ 簡単に⾔えば… テキストに対して、何らかの情報（ラベル）を結びつける作業 Copyright © 2023 Yuta Nishikawa 4

Text-annotation Taskの例例えば、「Twitterのツイートのジャンル分類器を作りたい」とする。 1. TwitterからTweetを取得 2. ⼈⼿でジャンル分けする（これがText-annotation）政治的スポーツ

⼀般的なText-annotation 専⾨家によるAnnotation Crowd-workerによるAnnotation 費⽤︓安価品質︓低品質費⽤︓⾼価品質︓⾼品質 Copyright © 2023

ChatGPTにでもAnnotationが出来るのでは︖ • 4種類のAnnotation Taskを⽤意し、２種類のAnnotation⼿法を⽐較 • Crowd-worker（MTurk） • 信頼度の⾼いMTurk Masterに依頼

分類するラベル • Relevance • コンテンツモデレーションに対する関連性 • 政治的問題に対する関連性 • Stance: ⽶国のインターネット法の230条に関するスタンス（維持、撤廃、中⽴）

品質評価指標 • Ground Truth（正解ラベル）の準備 • Research Assistant（RA)に訓練してもらい、Annotationをしてもらった。 • 評価指標 •

Annotationの品質評価結果 Copyright © 2023 Yuta Nishikawa 10 • ほとんどのタスクでChatGPTの⽅が MTurkよりも優れている

Thank You for Listening! Copyright © 2023 Yuta Nishikawa 13