LLMとの共同執筆は文章の多様性を減らすか？

ICLR2024論文読み会 2024年6月4日 LLMとの共同執筆は文章の多様性を減らすか？ Does Writing with Language Models Reduce Content
Diversity? LINEヤフー株式会社栗本真太郎（@kuri8ive）？

2/18 はい結論

3/18 l単一的な文化的背景が持ち込まれるかも (Kleinberg and Raghavan, 2021) l意見を偏らせてしまうかも (Jakesch et al.,
2023) l様々な人種・グループ等を平等には代表していない (Santurkar et al., 2023) (Durmus et al., 2023) LLMとの共同執筆は文章に影響を与え得る (Kleinberg and Raghavan, 2021) Algorithmic monoculture and social welfare. PNAS (Jakesch et al., 2023) Co-writing with opinionated language models affects users' views. CHI (Santurkar et al., 2023) Whose opinions do language models reflect? arXiv (Durmus et al., 2023) Towards measuring the representation of subjective global opinions in language models. arXiv

4/18 モデルの提案を取り入れる ↓ 書き手のユニークな声が希釈される & 異なる書き手が似た文章を生産することに繋がる ↓ 生産される文章全体の多様性を減少させる仮説

5/18 The New York Timesから選んだ3トピックについてそれぞれ15分程度おおよそ300語のエッセイを書いてもらう参加者（UpWorkで募集したライター）は3グループに割り当て 1. モデルなし（Solo） 2.
GPT-3と一緒 3. InstructGPTと一緒人のフィードバックで調整すると出力のエントロピーが減少する (Bai et al., 2022) 実験概要 (Bai et al., 2022) Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv

6/18 lTABを押すと次の文候補が5つ提示される（受け入れないのもOK） l最低5回はTAB押して提案を要求してもらう（受け入れたかは問わない） l執筆プロセス全体、キーストロークや提案の要求・受け入れが記録されるデータ収集｜(Lee et al., 2022a) のCoAuthorを活用 (Lee
et al., 2022a) Designing a human-ai collaborative writing dataset for exploring language model capabilities. CHI

7/18 A. 積極的に活用している l平均9回問い合わせ、70%ほど提案を受諾 l文章内の文字の35%ほどがLLMによるもの使用統計｜Q. ユーザーはLLMをどの程度活用するか？

8/18 A. キーポイントにしっかり貢献している lGPT-3.5 Turboでエッセイをキーポイントのリストに要約 cf. (Goyal et al., 2022)
lRouge-L (Lin, 2004) でキーポイントリストと LLM生成文がどの程度重なっているか（左下図紫部分）を測定 → 平均でキーポイントの40%を生成 Q. キーポイントに貢献しているか？単に文字数稼いでるだけか？ (Goyal et al., 2022) News Summarization and Evaluation in the Era of GPT-3. arXiv (Lin, 2004) ROUGE: A Package for Automatic Evaluation of Summaries. ACL

9/18 LLMと文章を書くと 1. ユーザー間の文章は似てくるか？ 2. 文章の多様性は減るか？評価軸

10/18 類似度の評価指標を定義 lトピック𝑡に関するエッセイ集合𝐷があるとき、エッセイ𝑑の均質化スコアを以下のように定義 hom 𝑑 𝑡) = 1 𝐷!
− 1 + "! ∈ $" ∖" 𝑠𝑖𝑚(𝑑, 𝑑&) l対応するコーパスの均質化スコアは、全エッセイのスコア平均と定義 l類似度𝑠𝑖𝑚(𝑑, 𝑑&)は、Rouge-L & BertScore (Zhang et al., 2020) で計算 (1/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか？ (Lin, 2020) BERTScore: Evaluating Text Generation with BERT. ICLR

11/18 A. InstructGPTだと似てくる lSolo, GPT3グループより有意に均質（下図はRough-L観点） → InstructGPTは多くの面でGPT-3より上とされている(Liang et al., 2022)
が、その性能向上は出力の均質化と引き換えなのかも (2/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか？ (Liang et al., 2022) Holistic evaluation of language models. arXiv

12/18 多様性の評価指標を定義 lコーパスを情報単位の集合として表現し、総情報単位数に対するユニークな情報単位数の割合を計算 l n-gram 語彙の多様性を直接的に測定する方法 (Li et al.,
2023; Meister et al., 2023) l キーポイント凝集型クラスタリングを完全連結法で実行し、クラスター内のポイントを同一と見做す (1/2) Q. LLMと文章を書くと文章の多様性は減るか？ (Li et al., 2023) Contrastive decoding: Open-ended text generation as optimization. ACL (Meister et al., 2023) Locally typical sampling. TACL

13/18 A. InstructGPTだと減る ln-gramでは、nの値を問わず多様性が低い lキーポイントでは、クラスター境界の閾値を問わず多様性が低い → LLMに代表してもらえないグループの観点を保護する必要性を後者は示しているのではないか (2/2) Q.
LLMと文章を書くと文章の多様性は減るか？

14/18 A. InstructGPTは高次のn-gramをより頻繁に繰り返すため減る (1/3) Q. なぜInstructGPTを使うと多様性が減るのか？

15/18 A. InstructGPTはプロンプトに含まれるトピック特有の高次のn-gramをより頻繁に繰り返すため減る（Soloではより一般的なフレーズが多い） (2/3) Q. なぜInstructGPTを使うと多様性が減るのか？

16/18 A. モデルからの提案をそのまま採用した部分で減っているため減る →人手で書いた部分は特に影響を受けていない (3/3) Q. なぜInstructGPTを使うと多様性が減るのか？

17/18 LLMと文章を書くと 1. ユーザー間の文章は似てくるか？似てくる（人のフィードバックで調整されたモデルの場合） 2. 文章の多様性は減るか？減る（人のフィードバックで調整されたモデルの提案をそのまま採用した部分で
トピック特有の高次のn-gramが繰り返されるため）まとめ

18/18 l今回のデータ収集方法（≒CoAuthorのUI）がより高次のn-gramの繰り返しを残しやすくしてる面はあるように見える l 実際にはLLMの出力をもっとインタラクティブに改変するだろうと思うと、 5-gramあたりの繰り返しはそこまで増えない気がする（今回は時間制限もあるし） l と思ったらAppendixのLimitationで触れていた l骨格は決めてからの肉付けや壁打ち相手等に留めておくのが良さそう l
文章の魂をLLMに握らせるな l単なるユーザーであっても、LLMの出自に無自覚ではいられない l ChatGPTの登場以降、使われるように／使われなくなった単語群の存在が示唆 (Matsui, 2024) l 他のあらゆる道具と同様、特徴や良し悪しを踏まえて活用するべき存在所感 (Matsui, 2024) Delving into PubMed Records: Some Terms in Medical Writing Have Drastically Changed after the Arrival of ChatGPT. medRxiv

LLMとの共同執筆は文章の多様性を減らすか？

LLMとの共同執筆は文章の多様性を減らすか？

kuri8ive

More Decks by kuri8ive

Other Decks in Research

Featured

Transcript

ICLR2024論文読み会 2024年6月4日 LLMとの共同執筆は文章の多様性を減らすか？ Does Writing with Language Models Reduce Content

2/18 はい結論

3/18 l単一的な文化的背景が持ち込まれるかも (Kleinberg and Raghavan, 2021) l意見を偏らせてしまうかも (Jakesch et al.,

4/18 モデルの提案を取り入れる ↓ 書き手のユニークな声が希釈される & 異なる書き手が似た文章を生産することに繋がる ↓ 生産される文章全体の多様性を減少させる仮説

5/18 The New York Timesから選んだ3トピックについてそれぞれ15分程度おおよそ300語のエッセイを書いてもらう参加者（UpWorkで募集したライター）は3グループに割り当て 1. モデルなし（Solo） 2.

7/18 A. 積極的に活用している l平均9回問い合わせ、70%ほど提案を受諾 l文章内の文字の35%ほどがLLMによるもの使用統計｜Q. ユーザーはLLMをどの程度活用するか？

8/18 A. キーポイントにしっかり貢献している lGPT-3.5 Turboでエッセイをキーポイントのリストに要約 cf. (Goyal et al., 2022)

9/18 LLMと文章を書くと 1. ユーザー間の文章は似てくるか？ 2. 文章の多様性は減るか？評価軸

10/18 類似度の評価指標を定義 lトピック𝑡に関するエッセイ集合𝐷があるとき、エッセイ𝑑の均質化スコアを以下のように定義 hom 𝑑 𝑡) = 1 𝐷!

11/18 A. InstructGPTだと似てくる lSolo, GPT3グループより有意に均質（下図はRough-L観点） → InstructGPTは多くの面でGPT-3より上とされている(Liang et al., 2022)

12/18 多様性の評価指標を定義 lコーパスを情報単位の集合として表現し、総情報単位数に対するユニークな情報単位数の割合を計算 l n-gram 語彙の多様性を直接的に測定する方法 (Li et al.,

14/18 A. InstructGPTは高次のn-gramをより頻繁に繰り返すため減る (1/3) Q. なぜInstructGPTを使うと多様性が減るのか？

15/18 A. InstructGPTはプロンプトに含まれるトピック特有の高次のn-gramをより頻繁に繰り返すため減る（Soloではより一般的なフレーズが多い） (2/3) Q. なぜInstructGPTを使うと多様性が減るのか？

16/18 A. モデルからの提案をそのまま採用した部分で減っているため減る →人手で書いた部分は特に影響を受けていない (3/3) Q. なぜInstructGPTを使うと多様性が減るのか？