生成的推薦の人気バイアスの分析：暗記の観点から / JSAI2025

Slide 1

Slide 1 text

石原祥太郎 (日本経済新聞社) 2025 年度人工知能学会全国大会 (第 39 回) 2025 年 5 月 29 日 https://speakerdeck.com/upura/jsai2025 生成的推薦の人気バイアスの分析：暗記の観点から

Slide 2

Slide 2 text

● Llama 3 をニュース閲覧履歴でファインチューニングしたモデルの生成結果を用い，訓練データ内の文字列の重複数・暗記・人気バイアスの関係性を分析した． ● 文字列の重複数の偏りがある場合，暗記を介して生成数も偏り人気バイアスが発生すると示唆された． ● 解釈を用い，暗記の対応策の重複排除が人気バイアスの軽減に活用できると実証した．発表概要 2

Slide 3

Slide 3 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 3

Slide 4

Slide 4 text

識別「Twitter 社員、買収前の 5 分の 1 に」 => 推薦モデル候補記事 1：スコア 0.3 候補記事 2：スコア 0.2 候補記事 3：スコア 0.1 生成的推薦 (Generative Recommendation; GenRec) 4 生成「Twitter 社員、買収前の 5 分の 1 に」 => 推薦モデル「検証 Twitter 買収」のように読みそうな記事タイトルを直接生成

Slide 5

Slide 5 text

大規模言語モデルの発展に伴い，推薦システムへの応用にも注目が集まっている [Lin 24] ● 事前学習で獲得した知識を活用し，閲覧履歴が十分にない状態での性能改善が期待できる [Rajput 23] ● アイテムの系列から意味的情報を抽出して統一的に扱える [Geng 22] ● 推薦理由を自然言語で説明できる [Li 23] 生成的推薦 (Generative Recommendation; GenRec) 5

Slide 6

Slide 6 text

先駆的な取り組み [Liu 23, Hou 24] は，生成的推薦で，一部のアイテムが過度に推薦される傾向 (人気バイアス) [Klimashevskaia 24] が存在すると報告 ● 対策としてテキスト情報の考慮 [Liu 23] や過去のやり取りに注目したプロンプト設計 [Hou 24] が実験的に検証されているが，人気バイアスの発生傾向や要因に関する考察は十分ではない生成的推薦と人気バイアス 6 訓練生成

Slide 7

Slide 7 text

● 暗記は，訓練データと同じまたは類似の文字列が出力される現象を指し，セキュリティ・著作権上の懸念や汎用性の低下を引き起こす [Ishihara 23] ● 暗記は (1) 訓練データ内の文字列の重複数 (2) モデルサイズ (3) プロンプト長の 3 つと強く関連 [Carlini 23] ● 日本語を対象とした研究 [Kiyomaru 24, Ishihara 24] もあるが，生成的推薦の文脈では検証されていない大規模言語モデルの訓練データの暗記 7

Slide 8

Slide 8 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 8

Slide 9

Slide 9 text

大規模言語モデルの課題本研究の立ち位置 9 生成的推薦での人気バイアス訓練データの暗記 … (独立で議論されているが) 人気バイアスは訓練データの暗記の観点で解釈できるのでは？

Slide 10

Slide 10 text

● 前提：訓練データ内のアイテムの人気には偏りがある => 大規模言語モデルを用いた生成的推薦の場合は，文字列の重複数と見なせる ● 仮説 1：生成的推薦でも文字列の重複数は暗記に影響し，人気のアイテムが優先的に暗記される ● 仮説 2：暗記されているアイテムは生成されやすく，推薦結果に人気バイアスが発生する本研究の前提と仮説 10

Slide 11

Slide 11 text

仮説を検証するために，「日経電子版」のデータセットを活用し，生成的推薦の人気バイアスを暗記の観点で分析 ● 一般に公開されているデータセットでは，個人情報への配慮やビジネス指標の秘匿の観点から出現数が加工されている場合があり [Seki 20]，公平性の測定に適していない可能性がある本研究の目的 (研究として) 11

Slide 12

Slide 12 text

「日経電子版」などの推薦システムとして、生成的推薦の枠組みを導入できるか？ ● 日経電子版にパーソナライズの仕組みは導入済み ● 独自の大規模言語モデルの構築も進めている ● 性能や，性能面以外の課題を検証していく必要がある本研究の目的 (実践として) 12

Slide 13

Slide 13 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 13

Slide 14

Slide 14 text

検証の枠組み 14

Slide 15

Slide 15 text

● セッション内でユーザが閲覧した記事の系列をテキスト形式に加工し，次の閲覧記事を予測するタスクとして訓練データに ○ 例：タイトル1 [ARTICLE_SEP] タイトル2 [ARTICLE_SEP] … タイトル N [SEP] ● 2023 年 1 月の一定期間から 3 記事以上を閲覧しているセッションの閲覧履歴データ約 2000 万個を抽出 ● 最大トークン長は 512 対象とする生成的推薦システム：訓練 15

Slide 16

Slide 16 text

● meta-llama/Meta-Llama-3-8B-Instruct を LoRA で継続事前学習 ○ この設定でも，日本語の一般的な文では訓練データ内の文字列の重複数が暗記と関係 [高橋 25] ● LoRA のランク数は 16 で 2 エポック学習し，1000 ステップごとに重みを保存 ● 学習したモデルを Llama3-nikkei-genrec と呼ぶモデルのファインチューニング 16

Slide 17

Slide 17 text

● Llama3-nikkei-genrec は「タイトル [ARTICLE_SEP]」の入力が与えられた際に，次に続くタイトルを予測 ● 本研究では暗記の分析のため，確率が最も高いトークンを選び続ける貪欲法でデコーディング ● 候補の集合がある場合は，それぞれ算出した生成確率が大きい記事を推薦できるが，本研究では暗記の傾向に関心があるため，候補の集合は提示しない対象とする生成的推薦システム：推論 17

Slide 18

Slide 18 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 18

Slide 19

Slide 19 text

● 前提：訓練データ内のアイテムの人気には偏りがある ○ => 訓練データ内のアイテムの出現数の偏りを確認 ● 仮説 1：生成的推薦でも文字列の重複数は暗記に影響し，人気のアイテムが優先的に暗記される ○ => 訓練データ内の文字列の重複数が増えることで，生成的推薦の枠組みでも暗記が増加するかを計測 ● 仮説 2：暗記されているアイテムは生成されやすく，推薦結果に人気バイアスが発生する ○ => 推薦結果を分析し，暗記と人気バイアスの関係性を議論本研究の前提と仮説の検証方法 19

Slide 20

Slide 20 text

● 簡略化のため，訓練データの各セッションの 2 つ目の閲覧記事までに絞って分析 ○ 最初の記事をプロンプト，2 つ目を正解に ○ 最初の記事からは様々な遷移があるため，最も遷移数の多い閲覧記事のセッションのみを正解に ● Llama3-nikkei-genrec に対して「記事タイトル [ARTICLE_SEP]」を与え続きを最大 50 トークン生成分析対象のデータセット 20

Slide 21

Slide 21 text

プロンプトや正解にも偏りがあるが，それ以上の偏りが生成結果で発生しているプロンプト・正解・生成結果の偏り 21

Slide 22

Slide 22 text

例：暗記が多かった上位 5 例 22 「正解の記事を出せば良い」とモデルが丸暗記？

Slide 23

Slide 23 text

日本語を対象とした暗記に関する先行研究 [Ishihara 24] に従い，大きいほど暗記量が多い 2 つの定義を利用 ● 逐語暗記：前方一致の文字数 ● 近似暗記：近似暗記 1 - (編集距離 / 文字列の長さ) => 正解の記事タイトルの重複数との相関を分析仮説 1：重複しているほど暗記される？ 23

Slide 24

Slide 24 text

正解の文字列の重複数と暗記 24 訓練データ内の正解の文字列の重複数 (出現数) と，暗記の度合いに一定の相関があった．相関係数: 0.30/0.33

Slide 25

Slide 25 text

● 逐語暗記：前方一致の文字数 ● 近似暗記：近似暗記 1 -（編集距離 / 文字列の長さ） => 暗記されている記事タイトルほど，生成結果での文字列の重複数が多いかを分析仮説 2：暗記されているほど生成される？ 25

Slide 26

Slide 26 text

暗記と生成数の偏り 26 暗記されている記事ほど，生成結果で多く出現する傾向があった．相関係数: 0.19/0.30

Slide 27

Slide 27 text

平均情報量・GS スコア・種類数も同様 27 ● 平均情報量：小さいほど，生成結果の多様性が少ない ● GS スコア：大きいほど，生成結果のベクトルが類似

Slide 28

Slide 28 text

解釈：暗記を介して生成数の偏りが発生 28 暗記されている記事ほど，生成結果で多く出現訓練データ内の文字列の重複数と暗記に一定の相関相関係数 0.30/0.33 相関係数 0.19/0.30

Slide 29

Slide 29 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 29

Slide 30

Slide 30 text

● 生成的推薦の人気バイアスが暗記を介して発生している可能性が示唆された ● 訓練データの重複排除 [Kandpal 22, Lee 22] といった暗記の対応策が，生成的推薦の人気バイアスへの軽減に応用できる可能性があるのでは？ => 実際に訓練データを加工し、モデルを同様にファインチューニングして検証 (訓練データ以外は同条件) 暗記の対処法：訓練データの重複排除 30

Slide 31

Slide 31 text

● 2 つ目の閲覧記事までに絞った後に，正解集合の重複がなくなるようセッションを選別 ● セッション数は約 100 分の 1 の 193860 に重複排除の方法 31

Slide 32

Slide 32 text

重複排除で，生成結果の種類数が増加 32 ● 暗記の度合いは大幅に減少 ● ジニ不純度や平均情報量などの指標も多様性が増加する方向に変化し，人気バイアスの軽減が確認できた ● 一方で完全一致の正答数は悪化しており，推薦システム設計の重要性が強調された [Zhang 23]

Slide 33

Slide 33 text

● 背景：生成的推薦、人気バイアス、暗記 ● 目的：研究として、実践として ● 実験：生成的ニュース推薦システムの構築 ● 結果：暗記の観点での人気バイアスの解釈 ● 対策：訓練データの重複排除 ● おわりに目次 33

Slide 34

Slide 34 text

Slide 35

Slide 35 text

● 暗記の別の観点での分析 ○ モデルサイズやプロンプト長との関連など ● 構築した生成的推薦システムの人気バイアスの分析以外での活用 ○ 擬似データ生成，ユーザ・記事の分析など今後の展望 35