Model Memorization – L2M2 (ACL 2025 workshop) • The Impact of Memorization on Trustworthy Foundation Models – MemFM (ICML 2025 workshop) 暗記 (memorization) への注目 3
✅ 先行研究あり※ • Hirokazu Kiyomaru, et al. A comprehensive analysis of memorization in large language models. In Proc. of the INLG 2024. • 小柳響子ら. LLM の事前学習データ検知法の日英比較. 人工知能学会全国大会論文集 2024.
は高い性能を発揮 • 継続事前学習の設定による影響も調査する必要あり 日本語でのメンバーシップ推論結果の特徴 26 • Weijia Shi, et al. Detecting Pretraining Data from Large Language Models. In Proc. of the ICLR 2024. • Roy Xie, et al. ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods. In Proc. of the EMNLP 2024.
Pre-trained Language Models: A Survey. In Proc. of TrustNLP 2023. • [自然言語処理a] 石原祥太郎ら (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築 と活用. 自然言語処理, 31巻, 4号. • [記事] 経済情報特化の生成AI、日経が開発 40年分の記事学習 (2024). 日経電子版. • [INLG 2024] Shotaro Ishihara, et al. (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. In Proc. of the INLG 2024. • [L2M2 2025] Hiromu Takahashi, et al. (2025). Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora. In Proc. of the L2M2. • [AACL 2022] Shotaro Ishihara, et al. (2022). Semantic Shift Stability: Efficient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models. In Proc. of the AACL-IJCNLP 2022. • [自然言語処理b] 石原祥太郎ら (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習 済みモデルの時系列性能劣化の監査. 自然言語処理, 31巻, 4号. • [人工知能学会全国大会2025] 石原祥太郎 (2025). 生成的推薦の人気バイアスの分析:暗記の観点から. 2025年度人工 知能学会全国大会(第39回)論文集. 紹介した発表文献 29