論文紹介：ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

Slide 1

Slide 1 text

ChatGPT Outperforms Crowd-workers for Text-annotation Tasks Nara Institute of Science and Technology, Japan Human Augmented Communication Laboratory M2 Yuta Nishikawa 第2回 AI/ML Tech Night 〜ChatGPT活⽤の集い〜 Copyright © 2023 Yuta Nishikawa 1

Slide 2

Slide 2 text

⾃⼰紹介所属奈良先端科学技術⼤学院⼤学知能コミュニケーション研究室修⼠2年学歴 2015.04 – 2020.03 奈良⾼専情報⼯学科 2020.04 – 2022.03 奈良⾼専専攻科 2022.04 – Current 奈良先端科学技術⼤学院⼤学修⼠職歴 2022.08 – 2022.11 LINE株式会社 Part Time Job Research Scientist 2022.11 – Current 奈良先端科学技術⼤学院⼤学研究員 2024.04 – 株式会社オプト AIソリューション開発部⼊社予定興味 • Speech • ASR（⾳声認識）、ST（⾳声翻訳）、SSL（⾃⼰教師あり学習） • NLP • LLM（⼤規模⾔語モデル）、MT（機械翻訳） • Computer Vision • Vision and Language、Diﬀusion Model（拡散モデル） @ChanYu1224 @chan_yu1224 @ChanYu1224 Home Page https://chanyu1224.github.io/ Yuta Nishikawa ⻄川勇太 Copyright © 2023 Yuta Nishikawa 2

Slide 3

Slide 3 text

今回紹介する内容論⽂紹介 “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023] 趣旨 AIモデルの学習データ、もうChatGPTが作ってしまってもいいのでは︖ Crowd-workerに任せるより⾼品質のデータが作れちゃうじゃん︕︕ Copyright © 2023 Yuta Nishikawa 3 [Fabrizio+2023] https://arxiv.org/abs/2303.15056

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

ChatGPTにでもAnnotationが出来るのでは︖ • 4種類のAnnotation Taskを⽤意し、２種類のAnnotation⼿法を⽐較 • Crowd-worker（MTurk） • 信頼度の⾼いMTurk Masterに依頼 • ChatGPT API（gpt-3.5-turbo） • GPTのtemperatureパラメータも変えて実験 • temperature=1（default） • temperature=0.2（低いランダム性） Copyright © 2023 Yuta Nishikawa 7 GPTによるAnnotation 費⽤︓超安価品質︓︖︖︖

Slide 8

Slide 8 text

分類するラベル • Relevance • コンテンツモデレーションに対する関連性 • 政治的問題に対する関連性 • Stance: ⽶国のインターネット法の230条に関するスタンス（維持、撤廃、中⽴） • Topic: トピックの識別（6クラス） • Frame I: ヘイトスピーチかどうか（問題、解決、中⽴） • Frame II: Media Frame（14クラス） Copyright © 2023 Yuta Nishikawa 8

Slide 9

Slide 9 text

品質評価指標 • Ground Truth（正解ラベル）の準備 • Research Assistant（RA)に訓練してもらい、Annotationをしてもらった。 • 評価指標 • Accuracy（正解率） • 正しいannotationの割合 • ⾼いほど品質が良い • Intercoder Agreement • 2つの異なるannotator（RA、crowd-worker、ChatGPT）によって同じラベルが割り当てられた割合 • ⾼いほど品質が良い Copyright © 2023 Yuta Nishikawa 9

Slide 10

Slide 10 text

Slide 11

Slide 11 text

結論・今後の展望 • LLMが多くの研究プロジェクトに共通する様々なタスクのannotation作業を肩代わり出来る可能性を⽰した︕ • しかも、Crowd-workerを普通に雇うよりもはるかに安価 • 今後の分析の⽅向性 • 英語以外での品質評価（⽇本語でも同じ結果が得られるとは限らない） • Few-shot learningでの検証 • モデルが⼈間のannotationから学習し、ラベリング⼿順を学習するsemi-automatic data labelingシステムの構築 • Zero-shot inferenceの性能向上のためのchain of thought prompting • 異なるLLM間の⽐較（LLaMa、PaLMとか） Copyright © 2023 Yuta Nishikawa 11

Slide 12

Slide 12 text

個⼈的な所感 • アカデミックな視点 • ⾼品質で⽣成できるにしろ、性能検証⽤のテストデータは専⾨家でやってほしい（という気持ち） • こういう分析系の研究はあまりやりたがる⼈が少ない割に喜ぶ⼈が多いから、どんどんやるべき。 • 企業視点 • またGPTがビジネスモデルを1つ潰してしまったな… • プロンプトエンジニアリングを積極的に取り⼊れるなら、こういうLLM分析系の論⽂をたくさん読んでいくことが⼤事そう Copyright © 2023 Yuta Nishikawa 12 GPT またオレ何かやっちゃいました︖