Slide 1

Slide 1 text

ICLR2024論文読み会 2024年6月4日 LLMとの共同執筆は文章の多様性を減らすか? Does Writing with Language Models Reduce Content Diversity? LINEヤフー株式会社 栗本 真太郎(@kuri8ive) ?

Slide 2

Slide 2 text

2/18 はい 結論

Slide 3

Slide 3 text

3/18 l単一的な文化的背景が持ち込まれるかも (Kleinberg and Raghavan, 2021) l意見を偏らせてしまうかも (Jakesch et al., 2023) l様々な人種・グループ等を平等には代表していない (Santurkar et al., 2023) (Durmus et al., 2023) LLMとの共同執筆は文章に影響を与え得る (Kleinberg and Raghavan, 2021) Algorithmic monoculture and social welfare. PNAS (Jakesch et al., 2023) Co-writing with opinionated language models affects users' views. CHI (Santurkar et al., 2023) Whose opinions do language models reflect? arXiv (Durmus et al., 2023) Towards measuring the representation of subjective global opinions in language models. arXiv

Slide 4

Slide 4 text

4/18 モデルの提案を取り入れる ↓ 書き手のユニークな声が希釈される & 異なる書き手が似た文章を生産することに繋がる ↓ 生産される文章全体の多様性を減少させる 仮説

Slide 5

Slide 5 text

5/18 The New York Timesから選んだ3トピックについて それぞれ15分程度おおよそ300語のエッセイを書いてもらう 参加者(UpWorkで募集したライター)は3グループに割り当て 1. モデルなし(Solo) 2. GPT-3と一緒 3. InstructGPTと一緒 人のフィードバックで調整すると 出力のエントロピーが減少する (Bai et al., 2022) 実験概要 (Bai et al., 2022) Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv

Slide 6

Slide 6 text

6/18 lTABを押すと次の文候補が5つ提示される(受け入れないのもOK) l最低5回はTAB押して提案を要求してもらう(受け入れたかは問わない) l執筆プロセス全体、キーストロークや提案の要求・受け入れが記録される データ収集|(Lee et al., 2022a) のCoAuthorを活用 (Lee et al., 2022a) Designing a human-ai collaborative writing dataset for exploring language model capabilities. CHI

Slide 7

Slide 7 text

7/18 A. 積極的に活用している l平均9回問い合わせ、70%ほど提案を受諾 l文章内の文字の35%ほどがLLMによるもの 使用統計|Q. ユーザーはLLMをどの程度活用するか?

Slide 8

Slide 8 text

8/18 A. キーポイントにしっかり貢献している lGPT-3.5 Turboでエッセイをキーポイントのリストに要約 cf. (Goyal et al., 2022) lRouge-L (Lin, 2004) でキーポイントリストと LLM生成文がどの程度重なっているか(左下図紫部分)を測定 → 平均でキーポイントの40%を生成 Q. キーポイントに貢献しているか?単に文字数稼いでるだけか? (Goyal et al., 2022) News Summarization and Evaluation in the Era of GPT-3. arXiv (Lin, 2004) ROUGE: A Package for Automatic Evaluation of Summaries. ACL

Slide 9

Slide 9 text

9/18 LLMと文章を書くと 1. ユーザー間の文章は似てくるか? 2. 文章の多様性は減るか? 評価軸

Slide 10

Slide 10 text

10/18 類似度の評価指標を定義 lトピック𝑡に関するエッセイ集合𝐷があるとき、 エッセイ𝑑の均質化スコアを以下のように定義 hom 𝑑 𝑡) = 1 𝐷! − 1 + "! ∈ $" ∖" 𝑠𝑖𝑚(𝑑, 𝑑&) l対応するコーパスの均質化スコアは、全エッセイのスコア平均と定義 l類似度𝑠𝑖𝑚(𝑑, 𝑑&)は、Rouge-L & BertScore (Zhang et al., 2020) で計算 (1/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか? (Lin, 2020) BERTScore: Evaluating Text Generation with BERT. ICLR

Slide 11

Slide 11 text

11/18 A. InstructGPTだと似てくる lSolo, GPT3グループより有意に均質(下図はRough-L観点) → InstructGPTは多くの面でGPT-3より上とされている(Liang et al., 2022) が、 その性能向上は出力の均質化と引き換えなのかも (2/2) Q. LLMと文章を書くとユーザー間の文章は似てくるか? (Liang et al., 2022) Holistic evaluation of language models. arXiv

Slide 12

Slide 12 text

12/18 多様性の評価指標を定義 lコーパスを情報単位の集合として表現し、 総情報単位数に対するユニークな情報単位数の割合を計算 l n-gram 語彙の多様性を直接的に測定する方法 (Li et al., 2023; Meister et al., 2023) l キーポイント 凝集型クラスタリングを完全連結法で実行し、クラスター内のポイントを同一と見做す (1/2) Q. LLMと文章を書くと文章の多様性は減るか? (Li et al., 2023) Contrastive decoding: Open-ended text generation as optimization. ACL (Meister et al., 2023) Locally typical sampling. TACL

Slide 13

Slide 13 text

13/18 A. InstructGPTだと減る ln-gramでは、nの値を問わず多様性が低い lキーポイントでは、クラスター境界の閾値を問わず多様性が低い → LLMに代表してもらえないグループの観点を 保護する必要性を後者は示しているのではないか (2/2) Q. LLMと文章を書くと文章の多様性は減るか?

Slide 14

Slide 14 text

14/18 A. InstructGPTは 高次のn-gramをより頻繁に繰り返すため減る (1/3) Q. なぜInstructGPTを使うと多様性が減るのか?

Slide 15

Slide 15 text

15/18 A. InstructGPTはプロンプトに含まれるトピック特有の 高次のn-gramをより頻繁に繰り返すため減る (Soloではより一般的なフレーズが多い) (2/3) Q. なぜInstructGPTを使うと多様性が減るのか?

Slide 16

Slide 16 text

16/18 A. モデルからの提案をそのまま採用した部分で減っているため減る →人手で書いた部分は特に影響を受けていない (3/3) Q. なぜInstructGPTを使うと多様性が減るのか?

Slide 17

Slide 17 text

17/18 LLMと文章を書くと 1. ユーザー間の文章は似てくるか? 似てくる (人のフィードバックで調整されたモデルの場合) 2. 文章の多様性は減るか? 減る (人のフィードバックで調整されたモデルの提案をそのまま採用した部分で トピック特有の高次のn-gramが繰り返されるため) まとめ

Slide 18

Slide 18 text

18/18 l今回のデータ収集方法(≒CoAuthorのUI)が より高次のn-gramの繰り返しを残しやすくしてる面はあるように見える l 実際にはLLMの出力をもっとインタラクティブに改変するだろうと思うと、 5-gramあたりの繰り返しはそこまで増えない気がする(今回は時間制限もあるし) l と思ったらAppendixのLimitationで触れていた l骨格は決めてからの肉付けや壁打ち相手等に留めておくのが良さそう l 文章の魂をLLMに握らせるな l単なるユーザーであっても、LLMの出自に無自覚ではいられない l ChatGPTの登場以降、使われるように/使われなくなった単語群の存在が示唆 (Matsui, 2024) l 他のあらゆる道具と同様、特徴や良し悪しを踏まえて活用するべき存在 所感 (Matsui, 2024) Delving into PubMed Records: Some Terms in Medical Writing Have Drastically Changed after the Arrival of ChatGPT. medRxiv