Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

論文紹介:ChatGPT Outperforms Crowd-workers for Text-annotation Tasks

Yuta Nishikawa

July 30, 2023
Tweet

Other Decks in Research

Transcript

  1. ChatGPT Outperforms Crowd-workers for
    Text-annotation Tasks
    Nara Institute of Science and Technology, Japan
    Human Augmented Communication Laboratory
    M2 Yuta Nishikawa
    第2回 AI/ML Tech Night 〜ChatGPT活⽤の集い〜
    Copyright © 2023 Yuta Nishikawa 1

    View full-size slide

  2. ⾃⼰紹介
    所属
    奈良先端科学技術⼤学院⼤学 知能コミュニケーション研究室 修⼠2年
    学歴
    2015.04 – 2020.03 奈良⾼専 情報⼯学科
    2020.04 – 2022.03 奈良⾼専 専攻科
    2022.04 – Current 奈良先端科学技術⼤学院⼤学 修⼠
    職歴
    2022.08 – 2022.11 LINE株式会社 Part Time Job Research Scientist
    2022.11 – Current 奈良先端科学技術⼤学院⼤学 研究員
    2024.04 – 株式会社オプト AIソリューション開発部 ⼊社予定
    興味
    • Speech
    • ASR(⾳声認識)、ST(⾳声翻訳)、SSL(⾃⼰教師あり学習)
    • NLP
    • LLM(⼤規模⾔語モデル)、MT(機械翻訳)
    • Computer Vision
    • Vision and Language、Diffusion Model(拡散モデル)
    @ChanYu1224
    @chan_yu1224
    @ChanYu1224
    Home Page
    https://chanyu1224.github.io/
    Yuta Nishikawa
    ⻄川 勇太
    Copyright © 2023 Yuta Nishikawa
    2

    View full-size slide

  3. 今回紹介する内容
    論⽂紹介
    “ChatGPT Outperforms Crowd-workers for Text-annotation Tasks” [Fabrizio+2023]
    趣旨
    AIモデルの学習データ、もうChatGPTが作ってしまってもいいのでは︖
    Crowd-workerに任せるより⾼品質のデータが作れちゃうじゃん︕︕
    Copyright © 2023 Yuta Nishikawa
    3
    [Fabrizio+2023] https://arxiv.org/abs/2303.15056

    View full-size slide

  4. Text-annotation Taskとは︖
    簡単に⾔えば…
    テキストに対して、何らかの情報(ラベル)を結びつける作業
    Copyright © 2023 Yuta Nishikawa
    4
    料理系 ゲーム系 スポーツ系

    View full-size slide

  5. Text-annotation Taskの例
    例えば、「Twitterのツイートのジャンル分類器を作りたい」とする。
    1. TwitterからTweetを取得 2. ⼈⼿でジャンル分けする
    (これがText-annotation)
    政治的
    スポーツ
    映画
    3. 分類器を学習する
    うーん、これは、
    スポーツに関するツイート︕w
    Copyright © 2023 Yuta Nishikawa
    5

    View full-size slide

  6. ⼀般的なText-annotation
    専⾨家によるAnnotation Crowd-workerによるAnnotation
    費⽤︓安価
    品質︓低品質
    費⽤︓⾼価
    品質︓⾼品質
    Copyright © 2023 Yuta Nishikawa
    6
    Ø 両者は互いに「費⽤」と「品質」の⾯でトレードオフの関係になっている。

    View full-size slide

  7. ChatGPTにでもAnnotationが出来るのでは︖
    • 4種類のAnnotation Taskを⽤意し、2種類
    のAnnotation⼿法を⽐較
    • Crowd-worker(MTurk)
    • 信頼度の⾼いMTurk Masterに依頼
    • ChatGPT API(gpt-3.5-turbo)
    • GPTのtemperatureパラメータも変えて実験
    • temperature=1(default)
    • temperature=0.2(低いランダム性)
    Copyright © 2023 Yuta Nishikawa
    7
    GPTによるAnnotation
    費⽤︓超安価
    品質︓︖︖︖

    View full-size slide

  8. 分類するラベル
    • Relevance
    • コンテンツモデレーションに対する関連性
    • 政治的問題に対する関連性
    • Stance: ⽶国のインターネット法の230条に関するスタンス(維持、撤廃、中⽴)
    • Topic: トピックの識別(6クラス)
    • Frame I: ヘイトスピーチかどうか(問題、解決、中⽴)
    • Frame II: Media Frame(14クラス)
    Copyright © 2023 Yuta Nishikawa
    8

    View full-size slide

  9. 品質評価指標
    • Ground Truth(正解ラベル)の準備
    • Research Assistant(RA)に訓練してもらい、Annotationをしてもらった。
    • 評価指標
    • Accuracy(正解率)
    • 正しいannotationの割合
    • ⾼いほど品質が良い
    • Intercoder Agreement
    • 2つの異なるannotator(RA、crowd-worker、ChatGPT)によって同じラベルが割り当てられた割

    • ⾼いほど品質が良い
    Copyright © 2023 Yuta Nishikawa
    9

    View full-size slide

  10. Annotationの品質評価結果
    Copyright © 2023 Yuta Nishikawa
    10
    • ほとんどのタスクでChatGPTの⽅が
    MTurkよりも優れている
    • temperatureは低い⽅
    (temperature=0.2)が良い
    Relevanceタスクでは、特
    定のユーザ停⽌に関する
    Tweetを誤って分類

    View full-size slide

  11. 結論・今後の展望
    • LLMが多くの研究プロジェクトに共通する様々なタスクのannotation作業を肩代わり
    出来る可能性を⽰した︕
    • しかも、Crowd-workerを普通に雇うよりもはるかに安価
    • 今後の分析の⽅向性
    • 英語以外での品質評価(⽇本語でも同じ結果が得られるとは限らない)
    • Few-shot learningでの検証
    • モデルが⼈間のannotationから学習し、ラベリング⼿順を学習するsemi-automatic data
    labelingシステムの構築
    • Zero-shot inferenceの性能向上のためのchain of thought prompting
    • 異なるLLM間の⽐較(LLaMa、PaLMとか)
    Copyright © 2023 Yuta Nishikawa
    11

    View full-size slide

  12. 個⼈的な所感
    • アカデミックな視点
    • ⾼品質で⽣成できるにしろ、性能検証⽤のテストデータは専⾨家でやってほしい
    (という気持ち)
    • こういう分析系の研究はあまりやりたがる⼈が少ない割に喜ぶ⼈が多いから、どんど
    んやるべき。
    • 企業視点
    • またGPTがビジネスモデルを1つ潰してしまったな…
    • プロンプトエンジニアリングを積極的に取り⼊れるなら、こういうLLM分析系の論⽂
    をたくさん読んでいくことが⼤事そう
    Copyright © 2023 Yuta Nishikawa
    12
    GPT
    またオレ何かやっちゃいました︖

    View full-size slide

  13. Thank You for Listening!
    Copyright © 2023 Yuta Nishikawa 13

    View full-size slide