ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

石原祥太郎 shotaro.ishihara@nex.nikkei.com 日本経済新聞社日経イノベーション・ラボ上席研究員 IBIS2024 企画セッション 3「ビジネスと機械学習」 2024 年
11 月 7 日ニュースメディアにおける事前学習済みモデルの可能性と課題

• 2013〜2017 年：大学時代 ◦ 大学新聞で記者・編集長・データ分析など ◦ 工学部でデータ分析 • 2017 年〜：日本経済新聞社
◦ 事業部門：データ分析やサービス企画・開発 ◦ 研究開発部門：事前学習済みモデルの開発自己紹介：新聞社✖情報技術 2

• プレスリリースや取材に基づく科学記事執筆 • 野球・アメフトなどスポーツ取材 • 記事の校閲、見出し付け、レイアウト編成 • 就職先ランキング作成プログラムの構築 • デジタル版のアクセス数の集計
• 広告営業やタイアップ記事の作成大学新聞で記者・編集長・データ分析など 3

• 事業部門： ◦ 法人向け情報サービスのデータ分析基盤の構築や、営業・マーケティング支援、新規事業など • 研究開発部門： ◦ 自然言語処理や機械学習を駆使した事業支援の可能性を模索
日本経済新聞社で事業＆研究開発部門 4

研究開発部門に異動して初期の論文 5 Proceedings of the ACM SIGIR Workshop on eCommerce
2021 https://sigir-ecom.github.io/ecom2021/accepted-papers.html

本企画セッションの講演者 6 Proceedings of the ACM SIGIR Workshop on eCommerce
https://sigir-ecom.github.io/ecom2021/accepted-papers.html 講演者 1 講演者 2 講演者 3 の同僚

1. ニュースメディアの昔と今 ◦ 何が変わったのか？ ◦ 何をしているのか？ 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題
本発表の概要 7

紙の新聞だけだった時代 8

1. 収集：記者の取材、プレスリリースなど 2. 編集：記事執筆、校正、見出し生成など 3. 提供：紙面編成など日々大量の情報を処理
9

インターネットが普及した時代 10

1. 収集：インターネット上の大量の情報も対象に 2. 編集：情報技術を駆使した効率化も可能に 3. 提供：推薦の需要の増加、記事データベース化、ウェブ・スマホ向けアプリ開発など 4. 計測：顧客の反響が即座に得られるように
コンテンツやユーザ行動が「データ」に 11

情報技術を武器に、コンテンツとユーザ行動を主な分析対象として、事業価値を高める • 新機能開発：推薦、要約、質問応答など • 業務効率化：情報抽出、編集支援など ※ 約
100 人のソフトウェアエンジニア・データサイエンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者新時代のニュースメディアを創る 12

• 衛星データの解析 (日経ビジュアルデータ) • 決算短信からの業績要因文の抽出 [大村ら23] • 政治資金収支報告書からの情報抽出 [山田&青田24] 事例：収集
13

• 日経電子版に特化した事前学習済みモデルの構築 [石原ら24a] => 後ほど詳しく • ニュース記事に由来する用語を数多く含むクロスワードパズルの自動生成 [Majima&Ishihara23] 事例：編集
14

• 記事推薦と多様性の関連性 [Sonoda+24] • 閲覧履歴を用いた記事推薦 • ユーザ入力画像からの記事推薦 [田邉ら24] • 見出しの意味具体化
[白井&石原24] • 企業名の抽出と曖昧性解消 [澤田ら24] • 非上場企業への業界ラベル付与 [増田ら22] 事例：提供 15

• 記事のエンゲージメント指標の開発 • 閲覧頻度・量に基づく解約予測 [山田ら22] • クリック率や滞在時間の予測 [Ishihara&Nakama22a, 22b] 事例：計測
16

• 編集者との協業 • 誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ
• マルチモーダルデータの利用情報技術 for ニュースメディアの特徴 17

• 編集者との協業 • 誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ
• マルチモーダルデータの利用情報技術 for ニュースメディアの特徴 18 第 2 章第 3 章

• コンテンツやユーザ行動が「データ」に • 情報技術を武器に、事業価値を高める仕事が登場 ◦ 収集・編集・提供・計測 ◦ 新機能開発：推薦、要約、質問応答など ◦
業務効率化：情報抽出、編集支援など • 日経でも研究開発を推進中第 1 章のまとめ 19

1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 ◦ 事前学習済みモデルの構築 ◦ 事例：日経電子版 T5 による編集支援
3. 事前学習済みモデルの課題本発表の概要 20

• 収集・編集・提供・計測における新機能開発や業務効率化に繋げる目的 • ニュースメディアとしての責任ある使い方を模索 ◦ 自動化できる業務と、人間が注力すべき業務 ◦ 何がどこまで実現できるのか、何が課題となるのか？
事前学習済みモデル構築プロジェクト 21

• [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用.
自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. • [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. 参考文献 (抜粋) 22

プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み多様なモデルの開発
や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や商用 API の活用第 0 期第 1 期第 2 期 23

• 経済情報特化の生成 AI、日経が開発　40 年分の記事学習, 日経電子版 • 実践：日本語文章生成　Transformersライブラリで学ぶ実装の守破離, PyCon
JP 2022 • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号開発の事例 24

• AI 編集支援ツール NIKKEI Tailor について　日経イノベーション・ラボが Minutes 向けに開発, Minutes
by NIKKEI • 日本経済新聞社、米AIファンドと提携　新事業創出めざす, 日経電子版利用の事例 25

単語列の生成確率をモデル化したもの言語モデルとは？吾輩は猫である P(吾輩は猫である): 単語列の生成確率 P(吾輩)
* P(は | 吾輩) * P(猫 | 吾輩は) * P(で | 吾輩は猫) * P(ある | 吾輩は猫で) 26

大量の文から、入力と出力の対を自動生成して、単語列の生成確率を推定する欧州連合（ EU は 13 日）
欧州連合（ ? 欧州連合（ ? EU … 事前学習 (自己教師あり学習) 27

学習に使ったテキストの言い回しに近づく可能性 => 記事の下書きや校正など、業務効率化に繋がる日経電子版での学習 28 欧州連合（ EU は
13 日）欧州連合（ ? 欧州連合（ ? EU …

• 独自の表記規則を、全てプロンプトに記述するのは現実的でない • 事前学習済み言語モデルの生成結果を、編集者が逐一修正していくのも手間 => 研究課題：日経電子版の記事を用いた事前学習済みモデルで、表記規則を模倣できないか？日経電子版特有の言語表現を獲得したい
29

• 日経電子版など、日経グループの記事の収集 • 権利面の確認や HTML タグの除去や重複排除などの前処理 • 計算資源の確保 •
Transformers ライブラリを駆使したモデルの事前学習事前学習済みモデルの構築 30

• T5 をフルスクラッチで事前学習 • 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文,
3 行まとめ} の対でファインチューニング • ファインチューニングに利用していないデータで、性能を他モデルと比較して評価 ◦ 一般的な T5 をファインチューニングしたモデル ◦ gpt-3.5-turbo に少数の事例を提供日経電子版 T5 の構築と評価 31

編集者の見出し・3 行まとめとの一致度合いで評価日経電子版 T5 で ROUGE が最良に 32 [石原ら24a] 表
7：3 行まとめの性能評価

• 複数候補を提示しユーザが選択・編集する (文字数や含める・含めない単語などを調整可能) [Ishihara21] •
予測 CTR も提示編集支援ツール 33 [石原ら24a] 図 2：スクリーンショット

• 2018 年末の BERT の登場以来、事前学習済みモデルの可能性を感じて技術検証を進めてきた • 日経電子版 T5 を用いて、一般的なモデルを比べ
編集者の文体を摸した生成を実現 • 要約以外の用途や、より大規模なモデルについても研究開発を推進中第 2 章のまとめ 34

1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題 ◦ 幻覚の分析 ◦ 時系列性能劣化
◦ 訓練データの暗記や抽出本発表の概要 35

• 事前学習済みモデルの開発や活用を進めるだけでなく、同時に課題に関しても検証 • ライブラリやツールが充実している時代だからこそ、新技術に付随する可能性がある課題を認識しておくことが大切 • 幻覚の分析 /
時系列性能劣化 / 訓練データの暗記や抽出について紹介事前学習済みモデルの課題の検証 36

• 幻覚の分析 • 時系列性能劣化 • 訓練データ • 編集者との協業 • 誤りが許容されづらい
• 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ • マルチモーダルデータの利用情報技術 for ニュースメディアの特徴 37 第 3 章

• ニュースメディアとして、発信する情報の誤りは致命的 • 事前学習済みモデルでどのような幻覚 (入力に対して不適切な生成) が発生するかを調査し、対策を模索しておくのは重要幻覚の分析
38

幻覚を含む場合、平均情報量が多い 39 [石原ら24a] 表 4：事前学習済み T5 での幻覚の有無の分析

事前学習コーパスに多い表現に引きずられる傾向特徴的な幻覚の例 40 [石原ら24a] 表 8：事前学習済み T5 での幻覚の例

カテゴリ別の詳細分析 41 [石原ら24a] 図 5：カテゴリ別のデータセットを使った分析

カテゴリが一致するほど、幻覚が少ない 42 [石原ら24a] 表 9：カテゴリ別のデータセットを使った分析

• 幻覚の原因の一つは、事前学習と評価でのコーパスの変化と推察される (時系列やカテゴリ) • 事前学習コーパスを分析することで、事前学習済みモデルの性能劣化を検知できるのでは？ ◦ 特に、単語の意味変化の度合いに着目 ◦
モデルの再学習に関する意思決定に繋がる時系列性能劣化 43

大規模な事前学習は費用がかかる • 「GPT-3 の学習には 460 万ドル（約 4 億 9000 万
円）かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も • 現状は GPT-3 を超える規模のモデルも提案されている状況 • 日経電子版の独自モデルは規模が小さいが、当然無視できないコストがかかる 44

言葉は日々変化 [高橋ら22] 図 1 を改変 45 • 時期の異なる日経電子版記事で構築した 2
つの単語分散表現のベクトル空間を比較 • 「コロナ」の周辺単語がコロナ前と以後で変化

skip-gram: 中心のある単語から周辺の単語を予測し，単語の埋め込み表現を獲得 • コロナビールで乾杯 •
コロナで療養中単語分散表現（本研究では word2vec） Corpus 2019 単語分散表現 46 [石原ら24b] 図 2 を解説用に改変

Twitter コーパスを用いて、新型コロナウイルス感染症による単語の意味変化を分析した Guo らの手法 Guo らの手法：単語の意味変化の安定性
Corpus 2019 Corpus 2020 単語分散表現頻出単語両方向へのマッピング 47

提案：平均を変化の代表値として採用「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現頻出単語
両方向へのマッピング ※コサイン類似度の平均値なので、小さいほど変化が大きい実装： https://github.com /Nikkei/semantic-s hift-stability 48

日本語 (Nikkei) でも英語 (NOW) でも 2019-2020 年の値が最も小さい => 意味変化が最も大きい Semantic
Shift Stability の変遷 49 [石原ら24b] 図 5 を解説用に改変

stab の頻度分布から、要因を分析 Nikkei NOW 50 [石原ら24b] 図 6 を解説用に改変

2019-2020 年の違いの分析 51

[石原ら24b] 表 6：Nikkei の「コロナ」の類義語上位 3 件の変遷 2020 年から「コロナ」の意味が変化 52

2015-2016 年の値も小さい Semantic Shift Stability が Nikkei で 3 番目
，NOW で 2 番目に小さい 53

2015-2016 年の違いの分析 54

2016 年から「トランプ」の意味が変化 55 [石原ら24b] 表 9：Nikkei の「トランプ」の類義語上位 3 件の変遷

12 の日経電子版 RoBERTa を構築 56 1 年ずつ学習コーパスを増やしながら 12 の
RoBERTa を構築 [石原ら24b] 表 2：構築した RoBERTa モデルごとの学習コーパス

12 の日経電子版 RoBERTa を評価 57 新しいコーパスに対し Pseudo-perplexity (PPPL) で時系列性能劣化を計測
• 新しいコーパス：学習コーパスから 1 年ごとに 100,000 記事ずつを抽出 • PPPL：穴埋め問題の予測がどれくらい正確かという指標欧州連合（は 13 日） ?

前年からの性能の差分を数値化 12 の日経電子版 RoBERTa の性能劣化 2016 と 2020 でモデルは大きく劣化 58
[石原ら24b] 表 4：評価セットの年ごとの性能劣化幅

• 事前学習済みモデルは、時に訓練データを暗記し、そのまま出力する => 著作権やプライバシーの観点で懸念あり ◦ NYT は OpenAI
や Microsoft を提訴 • 英語の一般的なコーパスでの議論だけでなく、日本語でも事前学習済みモデルの暗記を検証しておく意義は大きい訓練データの暗記や抽出 59

日経電子版で GPT-2 を事前学習（複数エポックで保存）し、記憶の度合いを検証日経電子版記事を用いた検証 60 [Ishihara+24] Figure 2

入力：「（前略…）年明け以降の新型コロナウイルスの新規感染者数が大幅に増加するとの懸念が一定の重荷になっている。」実際にやってみると…… 出力： 61

文字列が記憶されており、抽出できる 62 [Ishihara+24] Table 3 を解説用に改変

エポック数が増えるほど、記憶が進む 63 [Ishihara+24] Table 1 を解説用に改変

メンバーシップ推論の性能を調査 64 [Ishihara+24] Table 4 を解説用に改変

コーパスの前処理、事前学習時の工夫、モデルの後処理などで対応 => サーベイ論文 [Ishihara23] どう対策するべき？ Defense: Training Defense: Pre-processing
Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 65 [Ishihara23] Figure 2 を解説用に改変

対策の難しさ記憶は必ずしも悪ではない • ある一般市民の逮捕を永遠に記憶するのは望ましくない（「忘れられる権利」） • しかし、田中角栄元首相が逮捕された「ロッキード事件」などは、歴史的な知識として記憶が許容される場合もある 66

• ニュースメディアの特徴とも関連する、事前学習済みモデルの課題を検証中 ◦ 幻覚の分析 ◦ 時系列性能劣化 ◦ 訓練データの暗記や抽出第
3 章のまとめ 67

1. ニュースメディアの昔と今 ◦ コンテンツやユーザ行動が「データ」に 2. 事前学習済みモデルの可能性 ◦ 一般的なモデルと比べた応用を模索中 3. 事前学習済みモデルの課題
◦ 幻覚 / 時系列性能劣化 / 訓練データの暗記本発表の振り返り 68

• 事前学習済みモデルの可能性の模索 ◦ 日経電子版特化 /自社ならではのメタデータの活用 (記事公開日やユーザ行動など) • 事前学習済みモデルの課題への対応
◦ 幻覚の制御 / 知識編集 / 再学習など今後の展望 69

• [Ishihara+21] Shotaro Ishihara, Yuta Matsuda, and Norihiko Sawa (2021).
Editors-in-the-loop News Article Summarization Framework with Sentence Selection and Compression. Proceedings of HMData 2021. • [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. • [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. • [Ishihara23] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of TrustNLP 2023. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. 参考文献 https://hack.nikkei.com/publications/ 70

• [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization
and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. • [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. • [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号. • [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Eﬀect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. • [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向けた日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. • [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変量シフト問題の抑制. 第14回データ工学と情報マネジメントに関するフォーラム. • [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる意味変化検出. 言語処理学会第28回年次大会発表論文集. 71

• [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に：日常風景からのニュース推薦.
第210回情報処理学会ヒューマンコンピュータインタラクション研究会. • [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) • [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおける解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. • [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告書の判読の試み. 2024年度日本選挙学会総会・研究会. 72

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

More Decks by Shotaro Ishihara

Other Decks in Research

Featured

Transcript