Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMとの共同執筆は文章の多様性を減らすか?

kuri8ive
June 04, 2024

 LLMとの共同執筆は文章の多様性を減らすか?

ICLR2024論文読み会の発表資料です。
https://lycorptech-jp.connpass.com/event/316850/

紹介する論文は「Does Writing with Language Models Reduce Content Diversity?」(Oral)となります。
https://doi.org/10.48550/arXiv.2309.05196
https://openreview.net/forum?id=Feiz5HtCD0

kuri8ive

June 04, 2024
Tweet

More Decks by kuri8ive

Other Decks in Research

Transcript

  1. 3/18 l単一的な文化的背景が持ち込まれるかも (Kleinberg and Raghavan, 2021) l意見を偏らせてしまうかも (Jakesch et al.,

    2023) l様々な人種・グループ等を平等には代表していない (Santurkar et al., 2023) (Durmus et al., 2023) LLMとの共同執筆は文章に影響を与え得る (Kleinberg and Raghavan, 2021) Algorithmic monoculture and social welfare. PNAS (Jakesch et al., 2023) Co-writing with opinionated language models affects users' views. CHI (Santurkar et al., 2023) Whose opinions do language models reflect? arXiv (Durmus et al., 2023) Towards measuring the representation of subjective global opinions in language models. arXiv
  2. 5/18 The New York Timesから選んだ3トピックについて それぞれ15分程度おおよそ300語のエッセイを書いてもらう 参加者(UpWorkで募集したライター)は3グループに割り当て 1. モデルなし(Solo) 2.

    GPT-3と一緒 3. InstructGPTと一緒 人のフィードバックで調整すると 出力のエントロピーが減少する (Bai et al., 2022) 実験概要 (Bai et al., 2022) Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv
  3. 8/18 A. キーポイントにしっかり貢献している lGPT-3.5 Turboでエッセイをキーポイントのリストに要約 cf. (Goyal et al., 2022)

    lRouge-L (Lin, 2004) でキーポイントリストと LLM生成文がどの程度重なっているか(左下図紫部分)を測定 → 平均でキーポイントの40%を生成 Q. キーポイントに貢献しているか?単に文字数稼いでるだけか? (Goyal et al., 2022) News Summarization and Evaluation in the Era of GPT-3. arXiv (Lin, 2004) ROUGE: A Package for Automatic Evaluation of Summaries. ACL
  4. 10/18 類似度の評価指標を定義 lトピック𝑡に関するエッセイ集合𝐷があるとき、 エッセイ𝑑の均質化スコアを以下のように定義 hom 𝑑 𝑡) = 1 𝐷!

    − 1 + "! ∈ $" ∖" 𝑠𝑖𝑚(𝑑, 𝑑&) l対応するコーパスの均質化スコアは、全エッセイのスコア平均と定義 l類似度𝑠𝑖𝑚(𝑑, 𝑑&)は、Rouge-L & BertScore (Zhang et al., 2020) で計算 (1/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか? (Lin, 2020) BERTScore: Evaluating Text Generation with BERT. ICLR
  5. 11/18 A. InstructGPTだと似てくる lSolo, GPT3グループより有意に均質(下図はRough-L観点) → InstructGPTは多くの面でGPT-3より上とされている(Liang et al., 2022)

    が、 その性能向上は出力の均質化と引き換えなのかも (2/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか? (Liang et al., 2022) Holistic evaluation of language models. arXiv
  6. 12/18 多様性の評価指標を定義 lコーパスを情報単位の集合として表現し、 総情報単位数に対するユニークな情報単位数の割合を計算 l n-gram 語彙の多様性を直接的に測定する方法 (Li et al.,

    2023; Meister et al., 2023) l キーポイント 凝集型クラスタリングを完全連結法で実行し、クラスター内のポイントを同一と見做す (1/2) Q. LLMと文章を書くと文章の多様性は減るか? (Li et al., 2023) Contrastive decoding: Open-ended text generation as optimization. ACL (Meister et al., 2023) Locally typical sampling. TACL
  7. 18/18 l今回のデータ収集方法(≒CoAuthorのUI)が より高次のn-gramの繰り返しを残しやすくしてる面はあるように見える l 実際にはLLMの出力をもっとインタラクティブに改変するだろうと思うと、 5-gramあたりの繰り返しはそこまで増えない気がする(今回は時間制限もあるし) l と思ったらAppendixのLimitationで触れていた l骨格は決めてからの肉付けや壁打ち相手等に留めておくのが良さそう l

    文章の魂をLLMに握らせるな l単なるユーザーであっても、LLMの出自に無自覚ではいられない l ChatGPTの登場以降、使われるように/使われなくなった単語群の存在が示唆 (Matsui, 2024) l 他のあらゆる道具と同様、特徴や良し悪しを踏まえて活用するべき存在 所感 (Matsui, 2024) Delving into PubMed Records: Some Terms in Medical Writing Have Drastically Changed after the Arrival of ChatGPT. medRxiv