Upgrade to Pro — share decks privately, control downloads, hide ads and more …

People who frequently use ChatGPT for writing t...

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

paper introduction for japanese.

Avatar for hajime kiyama

hajime kiyama

August 31, 2025
Tweet

More Decks by hajime kiyama

Other Decks in Science

Transcript

  1. 発表者:木山朔 一橋大学 D1 最先端NLP勉強会 2025 People who frequently use ChatGPT

    for writing tasks are accurate and robust detectors of AI-generated text Jenna Russell, Marzena Karpinska, Mohit Iyyer ACL 2025 main long paper ※スライド中の図表は指定がない限りは上記の論文からの引用になります。
  2. なぜこの論文を選んだのか? ◼ 人間とLLMの文の差異は何なのかを知りたい ◼ LLMの登場により言語は変化している ◼ 特定の単語の頻度が多くなる [Liang+, ICML2024] [Liang+,

    COLM2024] ◼ LLMの出力は文法誤りがほとんどない [Wu+, 2025] ◼ LLMにはそれぞれ独特の癖が存在し分類可能 [Sun+, 2025] ◼ 人間の言語は今、どのように変化しているのか? 2 /24 [Wu+, COLING2025] [Sun+, ICML2025] [Laing+, ICML2024]
  3. アノテータと評価指標 ◼ アノテータの属性 ◼ 英語を母語として、LLMに関する知識や利用方法について調査 ◼ 評価指標 ◼ True Positive

    Rate (TPR) :AI記事を正しく検出できた割合(↑) ◼ False Positive Rate (FPR):人間の記事をAI記事と判断した割合(↓) 5 /24 https://en.wikipedia.org/wiki/Confusion_matrix
  4. 熟練者と非熟練者の違い ◼ LLMと人間の文の癖を知っているかどうかの違い ◼ 非熟練者 ◼ 語彙選択において、難しい単語や低頻度の単語をAI生成と判定 ◼ 人間の文は文法的に正しい ◼

    中立的な文体はAIによるもの ◼ 熟練者 ◼ AIが過剰にする単語(testament, crucial)や表現を知っている ◼ 人間の文の方が非文法的である ◼ 人間の文も中立的な文体がある 7 /24
  5. GPT-4O+言い換えの分析 10 /24 ◼ LLMに人間が書いたように言い換えさせる ◼ Promptベースの手法 [Chang+, EMNLP2024] ◼

    言い換えさせても人間の分類性能に変化なし ◼ 言い換えみたいな小手先のテクニックではLLMらしさは取れな い?
  6. O1-Pro+Humanization の分析 12 /24 ◼ Humanization による人間らしい出力のへの言い換え ◼ GPT-4O ~

    P1-Proまでの4つの実験から得られたコメントを活用し 人間とLLMの文を見分けるガイドラインを作成 ◼ ガイドラインをpromptに入れて分析するも傾向は変わらない ◼ 明示的に変えても変えられないLLMの癖が存在する…?
  7. 感想 ◼ 人手評価をしっかりしたというのは良い話 ◼ 知らないと解けないタスクっぽさをとても感じる ◼ 人間とLLMの言語の違いは何なのか? ◼ 語彙や文構造によらず、独創性、事実性、文体の特徴を指摘 ◼

    どのようにこの違いを定量的に示していくか? ◼ ガイドラインの分析をもっと知りたかった印象 ◼ LLMの影響を受けて人間の言語はどのように変わっている/ないのか? ◼ 人間の話し言葉にも「delve」というLLMが好む単語が使われている [Yakura+, 2025] 24 /24
  8. 参考文献 ◼ [Liang+, ICML2024] Monitoring AI-Modified Content at Scale: A

    Case Study on the Impact of ChatGPT on AI Conference Peer Reviews ◼ [Liang+, COLM2024] Mapping the Increasing Use of LLMs in Scientific Papers ◼ [Wu+, 2025] Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore ◼ [Sun+, 2025] Idiosyncrasies in Large Language Models ◼ [Chang+, 2024] PostMark: A Robust Blackbox Watermark for Large Language Models ◼ [Yakura+, 2025] Empirical evidence of Large Language Model's influence on human spoken communication 25
  9. Monitoring AI-Modified Content at Scale: A Case Study on the

    Impact of ChatGPT on AI Conference Peer Reviews ◼ OpenReviewのReviewデータを用いて LLMが出力しがちな単語を発見 ◼ LLMが生成したと判断されるReviewの特徴を考察 26 [Liang+,ICML2024]
  10. Mapping the Increasing Use of LLMs in Scientific Papers ◼

    論文のIntroductionの部分を分析 ◼ 2020年1月から2024年2月までを用意 ◼ [Liang+,ICML2024]と同様の手法で分析 ◼ 分野ごとのLLMの出力の割合とその論文の傾向を分析 ◼ 第一著者がプレプリントを頻繁に投稿している ◼ 研究領域が競合の多い分野である ◼ 論文の長さが比較的短い 27 [Liang+,COLM2024]
  11. Empirical evidence of Large Language Model's influence on human spoken

    communication ◼ Youtubeの動画を収集し書き起こしし頻度を分析 ◼ ChatGPTが出力する傾向にある単語の増加を確認 ◼ LLMの出力が人間に影響を及ぼしていることを示唆 28 https://speakerdeck.com/hiromu1996/human-informed-machine-learning-models-and-interactions?slide=32 [Yakura+,2025]
  12. Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection

    Is GECScore ◼ LLMの出力する言語は文法的に正しい ◼ 文法の間違い度合いでLLMと人間が区別できる ◼ 文法誤りの頻度で分類 ◼ (Instruction-tuningなどによる出力制御の影響?) 29 [Wu+,2025]
  13. Human-LLM Coevolution: Evidence from Academic Writing ◼ LLMを使う人は人間とLLMの文を識別できる ◼ 人間とLLMによって言語は共進化

    ◼ AIが生成したテキストを回避できる ◼ →LLMが出しがちな語彙を避ける人がいる ◼ (人間とLLMを識別するのは困難になる) ◼ 具体例 ◼ delve intoの話が盛り上がり避ける人が増加 ◼ 一方significantという単語は増加傾向 30 ACL findingsで類似の論文 [Geng+, 2025]
  14. Idiosyncrasies in Large Language Models ◼ 大規模言語モデルが持つ固有の癖を分析 ◼ モデルごとに生成した文がどのLLMによって生成されたかを分類 ◼

    テキスト埋め込みモデルをLLMの生成したテキストにfine-tuningする ことで分類精度が向上 31 [Sun+,2025] ICML