Slide 1

Slide 1 text

石原祥太郎 [email protected] 日本経済新聞社 日経イノベーション・ラボ 上席研究員 IBIS2024 企画セッション 3「ビジネスと機械学習」 2024 年 11 月 7 日 ニュースメディアにおけ る事前学習済みモデルの 可能性と課題

Slide 2

Slide 2 text

● 2013〜2017 年:大学時代 ○ 大学新聞で記者・編集長・データ分析など ○ 工学部でデータ分析 ● 2017 年〜:日本経済新聞社 ○ 事業部門:データ分析やサービス企画・開発 ○ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 2

Slide 3

Slide 3 text

● プレスリリースや取材に基づく科学記事執筆 ● 野球・アメフトなどスポーツ取材 ● 記事の校閲、見出し付け、レイアウト編成 ● 就職先ランキング作成プログラムの構築 ● デジタル版のアクセス数の集計 ● 広告営業やタイアップ記事の作成 大学新聞で記者・編集長・データ分析など 3

Slide 4

Slide 4 text

● 事業部門: ○ 法人向け情報サービスのデータ分析基盤の構築 や、営業・マーケティング支援、新規事業など ● 研究開発部門: ○ 自然言語処理や機械学習を駆使した事業支援の 可能性を模索 日本経済新聞社で事業&研究開発部門 4

Slide 5

Slide 5 text

研究開発部門に異動して初期の論文 5 Proceedings of the ACM SIGIR Workshop on eCommerce 2021 https://sigir-ecom.github.io/ecom2021/accepted-papers.html

Slide 6

Slide 6 text

本企画セッションの講演者 6 Proceedings of the ACM SIGIR Workshop on eCommerce https://sigir-ecom.github.io/ecom2021/accepted-papers.html 講演者 1 講演者 2 講演者 3 の同僚

Slide 7

Slide 7 text

1. ニュースメディアの昔と今 ○ 何が変わったのか? ○ 何をしているのか? 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題 本発表の概要 7

Slide 8

Slide 8 text

紙の新聞だけだった時代 8

Slide 9

Slide 9 text

1. 収集:記者の取材、プレスリリース など 2. 編集:記事執筆、校正、見出し生成 など 3. 提供:紙面編成 など 日々大量の情報を処理 9

Slide 10

Slide 10 text

インターネットが普及した時代 10

Slide 11

Slide 11 text

1. 収集:インターネット上の大量の情報も対象に 2. 編集:情報技術を駆使した効率化も可能に 3. 提供:推薦の需要の増加、記事データベース化、 ウェブ・スマホ向けアプリ開発 など 4. 計測:顧客の反響が即座に得られるように コンテンツやユーザ行動が「データ」に 11

Slide 12

Slide 12 text

情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める ● 新機能開発:推薦、要約、質問応答 など ● 業務効率化:情報抽出、編集支援 など ※ 約 100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者 新時代のニュースメディアを創る 12

Slide 13

Slide 13 text

● 衛星データの解析 (日経ビジュアルデータ) ● 決算短信からの業績要因文の抽出 [大村ら23] ● 政治資金収支報告書からの情報抽出 [山田&青田24] 事例:収集 13

Slide 14

Slide 14 text

● 日経電子版に特化した事前学習済みモデルの構築 [石原ら24a] => 後ほど詳しく ● ニュース記事に由来する用語を数多く含むクロス ワードパズルの自動生成 [Majima&Ishihara23] 事例:編集 14

Slide 15

Slide 15 text

● 記事推薦と多様性の関連性 [Sonoda+24] ● 閲覧履歴を用いた記事推薦 ● ユーザ入力画像からの記事推薦 [田邉ら24] ● 見出しの意味具体化 [白井&石原24] ● 企業名の抽出と曖昧性解消 [澤田ら24] ● 非上場企業への業界ラベル付与 [増田ら22] 事例:提供 15

Slide 16

Slide 16 text

● 記事のエンゲージメント指標の開発 ● 閲覧頻度・量に基づく解約予測 [山田ら22] ● クリック率や滞在時間の予測 [Ishihara&Nakama22a, 22b] 事例:計測 16

Slide 17

Slide 17 text

● 編集者との協業 ● 誤りが許容されづらい ● 時系列による変化が起きやすい ● 著作権への配慮 ● 最適化すべき指標の難しさ ● マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 17

Slide 18

Slide 18 text

● 編集者との協業 ● 誤りが許容されづらい ● 時系列による変化が起きやすい ● 著作権への配慮 ● 最適化すべき指標の難しさ ● マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 18 第 2 章 第 3 章

Slide 19

Slide 19 text

● コンテンツやユーザ行動が「データ」に ● 情報技術を武器に、事業価値を高める仕事が登場 ○ 収集・編集・提供・計測 ○ 新機能開発:推薦、要約、質問応答 など ○ 業務効率化:情報抽出、編集支援 など ● 日経でも研究開発を推進中 第 1 章のまとめ 19

Slide 20

Slide 20 text

1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 ○ 事前学習済みモデルの構築 ○ 事例:日経電子版 T5 による編集支援 3. 事前学習済みモデルの課題 本発表の概要 20

Slide 21

Slide 21 text

● 収集・編集・提供・計測における新機能開発や業 務効率化に繋げる目的 ● ニュースメディアとしての責任ある使い方を模索 ○ 自動化できる業務と、人間が注力すべき業務 ○ 何がどこまで実現できるのか、何が課題となる のか? 事前学習済みモデル構築プロジェクト 21

Slide 22

Slide 22 text

● [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本 語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの 構築と活用. 自然言語処理, 2024, 31巻, 4号. ● [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモ デルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. ● [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. 参考文献 (抜粋) 22

Slide 23

Slide 23 text

プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発 や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 23

Slide 24

Slide 24 text

● 経済情報特化の生成 AI、日経が開発 40 年分の記事学 習, 日経電子版 ● 実践:日本語文章生成 Transformersライブラリで学 ぶ実装の守破離, PyCon JP 2022 ● [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 開発の事例 24

Slide 25

Slide 25 text

● AI 編集支援ツール NIKKEI Tailor について 日経イノ ベーション・ラボが Minutes 向けに開発, Minutes by NIKKEI ● 日本経済新聞社、米AIファンドと提携 新事業創出めざ す, 日経電子版 利用の事例 25

Slide 26

Slide 26 text

単語列の生成確率をモデル化したもの 言語モデルとは? 吾輩 は 猫 で ある P(吾輩は猫である): 単語列の生成確率 P(吾輩) * P(は | 吾輩) * P(猫 | 吾輩は) * P(で | 吾 輩は猫) * P(ある | 吾輩は猫で) 26

Slide 27

Slide 27 text

大量の文から、入力と出力の対を自動生成して、 単語列の生成確率を推定する 欧州 連合 ( EU は 13 日 ) 欧州 連合 ( ? 欧州 連合 ( ? EU … 事前学習 (自己教師あり学習) 27

Slide 28

Slide 28 text

学習に使ったテキストの言い回しに近づく可能性 => 記事の下書きや校正など、業務効率化に繋がる 日経電子版での学習 28 欧州 連合 ( EU は 13 日 ) 欧州 連合 ( ? 欧州 連合 ( ? EU …

Slide 29

Slide 29 text

● 独自の表記規則を、全てプロンプトに記述するの は現実的でない ● 事前学習済み言語モデルの生成結果を、編集者が 逐一修正していくのも手間 => 研究課題:日経電子版の記事を用いた事前学習済 みモデルで、表記規則を模倣できないか? 日経電子版特有の言語表現を獲得したい 29

Slide 30

Slide 30 text

● 日経電子版など、日経グループの記事の収集 ● 権利面の確認や HTML タグの除去や重複排除 などの前処理 ● 計算資源の確保 ● Transformers ライブラリを駆使したモデルの 事前学習 事前学習済みモデルの構築 30

Slide 31

Slide 31 text

● T5 をフルスクラッチで事前学習 ● 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文, 3 行まとめ} の対でファインチューニング ● ファインチューニングに利用していないデータで、 性能を他モデルと比較して評価 ○ 一般的な T5 をファインチューニングしたモデル ○ gpt-3.5-turbo に少数の事例を提供 日経電子版 T5 の構築と評価 31

Slide 32

Slide 32 text

編集者の見出し・3 行まとめとの一致度合いで評価 日経電子版 T5 で ROUGE が最良に 32 [石原ら24a] 表 7:3 行まとめの性能評価

Slide 33

Slide 33 text

● 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] ● 予測 CTR も提示 編集支援ツール 33 [石原ら24a] 図 2:スクリー ンショット

Slide 34

Slide 34 text

● 2018 年末の BERT の登場以来、事前学習済みモ デルの可能性を感じて技術検証を進めてきた ● 日経電子版 T5 を用いて、一般的なモデルを比べ 編集者の文体を摸した生成を実現 ● 要約以外の用途や、より大規模なモデルについて も研究開発を推進中 第 2 章のまとめ 34

Slide 35

Slide 35 text

1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題 ○ 幻覚の分析 ○ 時系列性能劣化 ○ 訓練データの暗記や抽出 本発表の概要 35

Slide 36

Slide 36 text

● 事前学習済みモデルの開発や活用を進めるだけで なく、同時に課題に関しても検証 ● ライブラリやツールが充実している時代だからこ そ、新技術に付随する可能性がある課題を認識し ておくことが大切 ● 幻覚の分析 / 時系列性能劣化 / 訓練データの暗記 や抽出 について紹介 事前学習済みモデルの課題の検証 36

Slide 37

Slide 37 text

● 幻覚の分析 ● 時系列性能劣化 ● 訓練データ ● 編集者との協業 ● 誤りが許容されづらい ● 時系列による変化が起きやすい ● 著作権への配慮 ● 最適化すべき指標の難しさ ● マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 37 第 3 章

Slide 38

Slide 38 text

● ニュースメディアとして、発信する情報の誤りは 致命的 ● 事前学習済みモデルでどのような幻覚 (入力に対 して不適切な生成) が発生するかを調査し、対策 を模索しておくのは重要 幻覚の分析 38

Slide 39

Slide 39 text

幻覚を含む場合、平均情報量が多い 39 [石原ら24a] 表 4:事前学習済み T5 での幻覚の有無の分析

Slide 40

Slide 40 text

事前学習コーパスに多い表現に引きずられる傾向 特徴的な幻覚の例 40 [石原ら24a] 表 8:事前学習済み T5 での幻覚の例

Slide 41

Slide 41 text

カテゴリ別の詳細分析 41 [石原ら24a] 図 5:カテゴリ別のデータセットを使った分析

Slide 42

Slide 42 text

カテゴリが一致するほど、幻覚が少ない 42 [石原ら24a] 表 9:カテゴリ別のデータセットを使った分析

Slide 43

Slide 43 text

● 幻覚の原因の一つは、事前学習と評価でのコーパ スの変化と推察される (時系列やカテゴリ) ● 事前学習コーパスを分析することで、事前学習済 みモデルの性能劣化を検知できるのでは? ○ 特に、単語の意味変化の度合いに着目 ○ モデルの再学習に関する意思決定に繋がる 時系列性能劣化 43

Slide 44

Slide 44 text

大規模な事前学習は費用がかかる ● 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万 円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も ● 現状は GPT-3 を超える規模のモデルも提案されて いる状況 ● 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 44

Slide 45

Slide 45 text

言葉は日々変化 [高橋ら22] 図 1 を改変 45 ● 時期の異なる日経電子版 記事で構築した 2 つの 単語分散表現のベクトル 空間を比較 ● 「コロナ」の周辺単語が コロナ前と以後で変化

Slide 46

Slide 46 text

skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 ● コロナ ビール で 乾杯 ● コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 46 [石原ら24b] 図 2 を解説用に改変

Slide 47

Slide 47 text

Twitter コーパスを用いて、新型コロナ ウイルス感染症による単語の意味変化 を 分析した Guo ら の手法 Guo らの手法:単語の意味変化の安定性 Corpus 2019 Corpus 2020 単語分散表現 頻出単語 両方向へのマッピング 47

Slide 48

Slide 48 text

提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語 両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 48

Slide 49

Slide 49 text

日本語 (Nikkei) でも英語 (NOW) でも 2019-2020 年の値が最も小さい => 意味変化が最も大きい Semantic Shift Stability の変遷 49 [石原ら24b] 図 5 を解説用に改変

Slide 50

Slide 50 text

stab の頻度分布から、要因を分析 Nikkei NOW 50 [石原ら24b] 図 6 を解説用に改変

Slide 51

Slide 51 text

2019-2020 年の違いの分析 51

Slide 52

Slide 52 text

[石原ら24b] 表 6:Nikkei の「コロナ」の類義語上位 3 件の変遷 2020 年から「コロナ」の意味が変化 52

Slide 53

Slide 53 text

2015-2016 年の値も小さい Semantic Shift Stability が Nikkei で 3 番目 ,NOW で 2 番目に小さい 53

Slide 54

Slide 54 text

2015-2016 年の違いの分析 54

Slide 55

Slide 55 text

2016 年から「トランプ」の意味が変化 55 [石原ら24b] 表 9:Nikkei の「トランプ」の類義語上位 3 件の変遷

Slide 56

Slide 56 text

12 の日経電子版 RoBERTa を構築 56 1 年ずつ学習コーパス を増やしながら 12 の RoBERTa を構築 [石原ら24b] 表 2:構築した RoBERTa モデ ルごとの学習コーパス

Slide 57

Slide 57 text

12 の日経電子版 RoBERTa を評価 57 新しいコーパスに対し Pseudo-perplexity (PPPL) で 時系列性能劣化を計測 ● 新しいコーパス:学習コーパスから 1 年ごとに 100,000 記事ずつを抽出 ● PPPL:穴埋め問題の予測がどれくらい正確かと いう指標 欧州 連合 ( は 13 日 ) ?

Slide 58

Slide 58 text

前年からの性能の差分を数値化 12 の日経電子版 RoBERTa の性能劣化 2016 と 2020 でモデルは大きく劣化 58 [石原ら24b] 表 4:評価セットの年ごとの性能劣化幅

Slide 59

Slide 59 text

● 事前学習済みモデルは、時に訓練データを暗記 し、そのまま出力する => 著作権やプライバシー の観点で懸念あり ○ NYT は OpenAI や Microsoft を提訴 ● 英語の一般的なコーパスでの議論だけでなく、日 本語でも事前学習済みモデルの暗記を検証してお く意義は大きい 訓練データの暗記や抽出 59

Slide 60

Slide 60 text

日経電子版で GPT-2 を事前学習(複数エポックで保 存)し、記憶の度合いを検証 日経電子版記事を用いた検証 60 [Ishihara+24] Figure 2

Slide 61

Slide 61 text

入力:「(前略…)年明け以降の新型コロナウイルス の新規感染者数が大幅に増加するとの懸念が一定の重 荷になっている。」 実際にやってみると…… 出力: 61

Slide 62

Slide 62 text

文字列が記憶されており、抽出できる 62 [Ishihara+24] Table 3 を解説用に改変

Slide 63

Slide 63 text

エポック数が増えるほど、記憶が進む 63 [Ishihara+24] Table 1 を解説用に改変

Slide 64

Slide 64 text

メンバーシップ推論の性能を調査 64 [Ishihara+24] Table 4 を解説用に改変

Slide 65

Slide 65 text

コーパスの前処理、事前学習時の工夫、モデルの後処 理などで対応 => サーベイ論文 [Ishihara23] どう対策するべき? Defense: Training Defense: Pre-processing Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 65 [Ishihara23] Figure 2 を解説用に改変

Slide 66

Slide 66 text

対策の難しさ 記憶は必ずしも悪ではない ● ある一般市民の逮捕を永遠に記憶するのは望まし くない(「忘れられる権利」) ● しかし、田中角栄元首相が逮捕された「ロッキー ド事件」などは、歴史的な知識として記憶が許容 される場合もある 66

Slide 67

Slide 67 text

● ニュースメディアの特徴とも関連する、事前学習 済みモデルの課題を検証中 ○ 幻覚の分析 ○ 時系列性能劣化 ○ 訓練データの暗記や抽出 第 3 章のまとめ 67

Slide 68

Slide 68 text

1. ニュースメディアの昔と今 ○ コンテンツやユーザ行動が「データ」に 2. 事前学習済みモデルの可能性 ○ 一般的なモデルと比べた応用を模索中 3. 事前学習済みモデルの課題 ○ 幻覚 / 時系列性能劣化 / 訓練データの暗記 本発表の振り返り 68

Slide 69

Slide 69 text

● 事前学習済みモデルの可能性の模索 ○ 日経電子版特化 /自社ならではのメタデータの 活用 (記事公開日やユーザ行動 など) ● 事前学習済みモデルの課題への対応 ○ 幻覚の制御 / 知識編集 / 再学習 など 今後の展望 69

Slide 70

Slide 70 text

● [Ishihara+21] Shotaro Ishihara, Yuta Matsuda, and Norihiko Sawa (2021). Editors-in-the-loop News Article Summarization Framework with Sentence Selection and Compression. Proceedings of HMData 2021. ● [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. ● [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. ● [Ishihara23] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of TrustNLP 2023. ● [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. ● [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の 意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. 参考文献 https://hack.nikkei.com/publications/ 70

Slide 71

Slide 71 text

● [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. ● [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの 業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. ● [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号. ● [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. ● [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向けた日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. ● [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変量シフト問題の 抑制. 第14回データ工学と情報マネジメントに関するフォーラム. ● [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる 意味変化検出. 言語処理学会第28回年次大会発表論文集. 71

Slide 72

Slide 72 text

● [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景 からのニュース推薦. 第210回情報処理学会ヒューマンコンピュータインタラクション研究会. ● [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) ● [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおけ る解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. ● [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告 書の判読の試み. 2024年度日本選挙学会総会・研究会. 72