Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

論文紹介:ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

Yuta Nishikawa

July 30, 2023
Tweet

Other Decks in Research

Transcript

  1. ChatGPT Outperforms Crowd-workers for Text-annotation Tasks Nara Institute of Science

    and Technology, Japan Human Augmented Communication Laboratory M2 Yuta Nishikawa 第2回 AI/ML Tech Night 〜ChatGPT活⽤の集い〜 Copyright © 2023 Yuta Nishikawa 1
  2. ⾃⼰紹介 所属 奈良先端科学技術⼤学院⼤学 知能コミュニケーション研究室 修⼠2年 学歴 2015.04 – 2020.03 奈良⾼専

    情報⼯学科 2020.04 – 2022.03 奈良⾼専 専攻科 2022.04 – Current 奈良先端科学技術⼤学院⼤学 修⼠ 職歴 2022.08 – 2022.11 LINE株式会社 Part Time Job Research Scientist 2022.11 – Current 奈良先端科学技術⼤学院⼤学 研究員 2024.04 – 株式会社オプト AIソリューション開発部 ⼊社予定 興味 • Speech • ASR(⾳声認識)、ST(⾳声翻訳)、SSL(⾃⼰教師あり学習) • NLP • LLM(⼤規模⾔語モデル)、MT(機械翻訳) • Computer Vision • Vision and Language、Diffusion Model(拡散モデル) @ChanYu1224 @chan_yu1224 @ChanYu1224 Home Page https://chanyu1224.github.io/ Yuta Nishikawa ⻄川 勇太 Copyright © 2023 Yuta Nishikawa 2
  3. 今回紹介する内容 論⽂紹介 “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023] 趣旨

    AIモデルの学習データ、もうChatGPTが作ってしまってもいいのでは︖ Crowd-workerに任せるより⾼品質のデータが作れちゃうじゃん︕︕ Copyright © 2023 Yuta Nishikawa 3 [Fabrizio+2023] https://arxiv.org/abs/2303.15056
  4. ⼀般的なText-annotation 専⾨家によるAnnotation Crowd-workerによるAnnotation 費⽤︓安価 品質︓低品質 費⽤︓⾼価 品質︓⾼品質 Copyright © 2023

    Yuta Nishikawa 6 Ø 両者は互いに「費⽤」と「品質」の⾯でトレードオフの関係になっている。
  5. ChatGPTにでもAnnotationが出来るのでは︖ • 4種類のAnnotation Taskを⽤意し、2種類 のAnnotation⼿法を⽐較 • Crowd-worker(MTurk) • 信頼度の⾼いMTurk Masterに依頼

    • ChatGPT API(gpt-3.5-turbo) • GPTのtemperatureパラメータも変えて実験 • temperature=1(default) • temperature=0.2(低いランダム性) Copyright © 2023 Yuta Nishikawa 7 GPTによるAnnotation 費⽤︓超安価 品質︓︖︖︖
  6. 分類するラベル • Relevance • コンテンツモデレーションに対する関連性 • 政治的問題に対する関連性 • Stance: ⽶国のインターネット法の230条に関するスタンス(維持、撤廃、中⽴)

    • Topic: トピックの識別(6クラス) • Frame I: ヘイトスピーチかどうか(問題、解決、中⽴) • Frame II: Media Frame(14クラス) Copyright © 2023 Yuta Nishikawa 8
  7. 品質評価指標 • Ground Truth(正解ラベル)の準備 • Research Assistant(RA)に訓練してもらい、Annotationをしてもらった。 • 評価指標 •

    Accuracy(正解率) • 正しいannotationの割合 • ⾼いほど品質が良い • Intercoder Agreement • 2つの異なるannotator(RA、crowd-worker、ChatGPT)によって同じラベルが割り当てられた割 合 • ⾼いほど品質が良い Copyright © 2023 Yuta Nishikawa 9
  8. Annotationの品質評価結果 Copyright © 2023 Yuta Nishikawa 10 • ほとんどのタスクでChatGPTの⽅が MTurkよりも優れている

    • temperatureは低い⽅ (temperature=0.2)が良い Relevanceタスクでは、特 定のユーザ停⽌に関する Tweetを誤って分類
  9. 結論・今後の展望 • LLMが多くの研究プロジェクトに共通する様々なタスクのannotation作業を肩代わり 出来る可能性を⽰した︕ • しかも、Crowd-workerを普通に雇うよりもはるかに安価 • 今後の分析の⽅向性 • 英語以外での品質評価(⽇本語でも同じ結果が得られるとは限らない)

    • Few-shot learningでの検証 • モデルが⼈間のannotationから学習し、ラベリング⼿順を学習するsemi-automatic data labelingシステムの構築 • Zero-shot inferenceの性能向上のためのchain of thought prompting • 異なるLLM間の⽐較(LLaMa、PaLMとか) Copyright © 2023 Yuta Nishikawa 11
  10. 個⼈的な所感 • アカデミックな視点 • ⾼品質で⽣成できるにしろ、性能検証⽤のテストデータは専⾨家でやってほしい (という気持ち) • こういう分析系の研究はあまりやりたがる⼈が少ない割に喜ぶ⼈が多いから、どんど んやるべき。 •

    企業視点 • またGPTがビジネスモデルを1つ潰してしまったな… • プロンプトエンジニアリングを積極的に取り⼊れるなら、こういうLLM分析系の論⽂ をたくさん読んでいくことが⼤事そう Copyright © 2023 Yuta Nishikawa 12 GPT またオレ何かやっちゃいました︖