Slide 7
Slide 7 text
● 暗記は,訓練データと同じまたは類似の文字列が出力
される現象を指し,セキュリティ・著作権上の懸念や
汎用性の低下を引き起こす [Ishihara 23]
● 暗記は (1) 訓練データ内の文字列の重複数 (2) モデルサ
イズ (3) プロンプト長の 3 つと強く関連 [Carlini 23]
● 日本語を対象とした研究 [Kiyomaru 24, Ishihara 24]
もあるが,生成的推薦の文脈では検証されていない
大規模言語モデルの訓練データの暗記
7