Slide 1

Slide 1 text

ChatGPT Outperforms Crowd-workers for Text-annotation Tasks Nara Institute of Science and Technology, Japan Human Augmented Communication Laboratory M2 Yuta Nishikawa 第2回 AI/ML Tech Night 〜ChatGPT活⽤の集い〜 Copyright © 2023 Yuta Nishikawa 1

Slide 2

Slide 2 text

⾃⼰紹介 所属 奈良先端科学技術⼤学院⼤学 知能コミュニケーション研究室 修⼠2年 学歴 2015.04 – 2020.03 奈良⾼専 情報⼯学科 2020.04 – 2022.03 奈良⾼専 専攻科 2022.04 – Current 奈良先端科学技術⼤学院⼤学 修⼠ 職歴 2022.08 – 2022.11 LINE株式会社 Part Time Job Research Scientist 2022.11 – Current 奈良先端科学技術⼤学院⼤学 研究員 2024.04 – 株式会社オプト AIソリューション開発部 ⼊社予定 興味 • Speech • ASR(⾳声認識)、ST(⾳声翻訳)、SSL(⾃⼰教師あり学習) • NLP • LLM(⼤規模⾔語モデル)、MT(機械翻訳) • Computer Vision • Vision and Language、Diffusion Model(拡散モデル) @ChanYu1224 @chan_yu1224 @ChanYu1224 Home Page https://chanyu1224.github.io/ Yuta Nishikawa ⻄川 勇太 Copyright © 2023 Yuta Nishikawa 2

Slide 3

Slide 3 text

今回紹介する内容 論⽂紹介 “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023] 趣旨 AIモデルの学習データ、もうChatGPTが作ってしまってもいいのでは︖ Crowd-workerに任せるより⾼品質のデータが作れちゃうじゃん︕︕ Copyright © 2023 Yuta Nishikawa 3 [Fabrizio+2023] https://arxiv.org/abs/2303.15056

Slide 4

Slide 4 text

Text-annotation Taskとは︖ 簡単に⾔えば… テキストに対して、何らかの情報(ラベル)を結びつける作業 Copyright © 2023 Yuta Nishikawa 4 料理系 ゲーム系 スポーツ系

Slide 5

Slide 5 text

Text-annotation Taskの例 例えば、「Twitterのツイートのジャンル分類器を作りたい」とする。 1. TwitterからTweetを取得 2. ⼈⼿でジャンル分けする (これがText-annotation) 政治的 スポーツ 映画 3. 分類器を学習する うーん、これは、 スポーツに関するツイート︕w Copyright © 2023 Yuta Nishikawa 5

Slide 6

Slide 6 text

⼀般的なText-annotation 専⾨家によるAnnotation Crowd-workerによるAnnotation 費⽤︓安価 品質︓低品質 費⽤︓⾼価 品質︓⾼品質 Copyright © 2023 Yuta Nishikawa 6 Ø 両者は互いに「費⽤」と「品質」の⾯でトレードオフの関係になっている。

Slide 7

Slide 7 text

ChatGPTにでもAnnotationが出来るのでは︖ • 4種類のAnnotation Taskを⽤意し、2種類 のAnnotation⼿法を⽐較 • Crowd-worker(MTurk) • 信頼度の⾼いMTurk Masterに依頼 • ChatGPT API(gpt-3.5-turbo) • GPTのtemperatureパラメータも変えて実験 • temperature=1(default) • temperature=0.2(低いランダム性) Copyright © 2023 Yuta Nishikawa 7 GPTによるAnnotation 費⽤︓超安価 品質︓︖︖︖

Slide 8

Slide 8 text

分類するラベル • Relevance • コンテンツモデレーションに対する関連性 • 政治的問題に対する関連性 • Stance: ⽶国のインターネット法の230条に関するスタンス(維持、撤廃、中⽴) • Topic: トピックの識別(6クラス) • Frame I: ヘイトスピーチかどうか(問題、解決、中⽴) • Frame II: Media Frame(14クラス) Copyright © 2023 Yuta Nishikawa 8

Slide 9

Slide 9 text

品質評価指標 • Ground Truth(正解ラベル)の準備 • Research Assistant(RA)に訓練してもらい、Annotationをしてもらった。 • 評価指標 • Accuracy(正解率) • 正しいannotationの割合 • ⾼いほど品質が良い • Intercoder Agreement • 2つの異なるannotator(RA、crowd-worker、ChatGPT)によって同じラベルが割り当てられた割 合 • ⾼いほど品質が良い Copyright © 2023 Yuta Nishikawa 9

Slide 10

Slide 10 text

Annotationの品質評価結果 Copyright © 2023 Yuta Nishikawa 10 • ほとんどのタスクでChatGPTの⽅が MTurkよりも優れている • temperatureは低い⽅ (temperature=0.2)が良い Relevanceタスクでは、特 定のユーザ停⽌に関する Tweetを誤って分類

Slide 11

Slide 11 text

結論・今後の展望 • LLMが多くの研究プロジェクトに共通する様々なタスクのannotation作業を肩代わり 出来る可能性を⽰した︕ • しかも、Crowd-workerを普通に雇うよりもはるかに安価 • 今後の分析の⽅向性 • 英語以外での品質評価(⽇本語でも同じ結果が得られるとは限らない) • Few-shot learningでの検証 • モデルが⼈間のannotationから学習し、ラベリング⼿順を学習するsemi-automatic data labelingシステムの構築 • Zero-shot inferenceの性能向上のためのchain of thought prompting • 異なるLLM間の⽐較(LLaMa、PaLMとか) Copyright © 2023 Yuta Nishikawa 11

Slide 12

Slide 12 text

個⼈的な所感 • アカデミックな視点 • ⾼品質で⽣成できるにしろ、性能検証⽤のテストデータは専⾨家でやってほしい (という気持ち) • こういう分析系の研究はあまりやりたがる⼈が少ない割に喜ぶ⼈が多いから、どんど んやるべき。 • 企業視点 • またGPTがビジネスモデルを1つ潰してしまったな… • プロンプトエンジニアリングを積極的に取り⼊れるなら、こういうLLM分析系の論⽂ をたくさん読んでいくことが⼤事そう Copyright © 2023 Yuta Nishikawa 12 GPT またオレ何かやっちゃいました︖

Slide 13

Slide 13 text

Thank You for Listening! Copyright © 2023 Yuta Nishikawa 13