Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

第27回情報論的学習理論ワークショップ (IBIS2024)
企画セッション 3 ビジネスと機械学習
https://ibisml.org/ibis2024/os/#os3

Shotaro Ishihara

October 07, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. • 2013〜2017 年:大学時代 ◦ 大学新聞で記者・編集長・データ分析など ◦ 工学部でデータ分析 • 2017 年〜:日本経済新聞社

    ◦ 事業部門:データ分析やサービス企画・開発 ◦ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 2
  2. 本企画セッションの講演者 6 Proceedings of the ACM SIGIR Workshop on eCommerce

    https://sigir-ecom.github.io/ecom2021/accepted-papers.html 講演者 1 講演者 2 講演者 3 の同僚
  3. 情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める • 新機能開発:推薦、要約、質問応答 など • 業務効率化:情報抽出、編集支援 など ※ 約

    100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者 新時代のニュースメディアを創る 12
  4. • 記事推薦と多様性の関連性 [Sonoda+24] • 閲覧履歴を用いた記事推薦 • ユーザ入力画像からの記事推薦 [田邉ら24] • 見出しの意味具体化

    [白井&石原24] • 企業名の抽出と曖昧性解消 [澤田ら24] • 非上場企業への業界ラベル付与 [増田ら22] 事例:提供 15
  5. • 編集者との協業 • 誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ

    • マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 18 第 2 章 第 3 章
  6. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本 語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの 構築と活用.

    自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモ デルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. • [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. 参考文献 (抜粋) 22
  7. プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発

    や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 23
  8. • 経済情報特化の生成 AI、日経が開発 40 年分の記事学 習, 日経電子版 • 実践:日本語文章生成 Transformersライブラリで学 ぶ実装の守破離, PyCon

    JP 2022 • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 開発の事例 24
  9. • AI 編集支援ツール NIKKEI Tailor について 日経イノ ベーション・ラボが Minutes 向けに開発, Minutes

    by NIKKEI • 日本経済新聞社、米AIファンドと提携 新事業創出めざ す, 日経電子版 利用の事例 25
  10. • T5 をフルスクラッチで事前学習 • 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文,

    3 行まとめ} の対でファインチューニング • ファインチューニングに利用していないデータで、 性能を他モデルと比較して評価 ◦ 一般的な T5 をファインチューニングしたモデル ◦ gpt-3.5-turbo に少数の事例を提供 日経電子版 T5 の構築と評価 31
  11. • 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] •

    予測 CTR も提示 編集支援ツール 33 [石原ら24a] 図 2:スクリー ンショット
  12. • 2018 年末の BERT の登場以来、事前学習済みモ デルの可能性を感じて技術検証を進めてきた • 日経電子版 T5 を用いて、一般的なモデルを比べ

    編集者の文体を摸した生成を実現 • 要約以外の用途や、より大規模なモデルについて も研究開発を推進中 第 2 章のまとめ 34
  13. • 幻覚の分析 • 時系列性能劣化 • 訓練データ • 編集者との協業 • 誤りが許容されづらい

    • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ • マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 37 第 3 章
  14. 大規模な事前学習は費用がかかる • 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万

    円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も • 現状は GPT-3 を超える規模のモデルも提案されて いる状況 • 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 44
  15. 言葉は日々変化 [高橋ら22] 図 1 を改変 45 • 時期の異なる日経電子版 記事で構築した 2

    つの 単語分散表現のベクトル 空間を比較 • 「コロナ」の周辺単語が コロナ前と以後で変化
  16. skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 • コロナ ビール で 乾杯 •

    コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 46 [石原ら24b] 図 2 を解説用に改変
  17. 提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語

    両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 48
  18. 12 の日経電子版 RoBERTa を構築 56 1 年ずつ学習コーパス を増やしながら 12 の

    RoBERTa を構築 [石原ら24b] 表 2:構築した RoBERTa モデ ルごとの学習コーパス
  19. 12 の日経電子版 RoBERTa を評価 57 新しいコーパスに対し Pseudo-perplexity (PPPL) で 時系列性能劣化を計測

    • 新しいコーパス:学習コーパスから 1 年ごとに 100,000 記事ずつを抽出 • PPPL:穴埋め問題の予測がどれくらい正確かと いう指標 欧州 連合 ( は 13 日 ) ?
  20. • 事前学習済みモデルは、時に訓練データを暗記 し、そのまま出力する => 著作権やプライバシー の観点で懸念あり ◦ NYT は OpenAI

    や Microsoft を提訴 • 英語の一般的なコーパスでの議論だけでなく、日 本語でも事前学習済みモデルの暗記を検証してお く意義は大きい 訓練データの暗記や抽出 59
  21. コーパスの前処理、事前学習時の工夫、モデルの後処 理などで対応 => サーベイ論文 [Ishihara23] どう対策するべき? Defense: Training Defense: Pre-processing

    Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 65 [Ishihara23] Figure 2 を解説用に改変
  22. • [Ishihara+21] Shotaro Ishihara, Yuta Matsuda, and Norihiko Sawa (2021).

    Editors-in-the-loop News Article Summarization Framework with Sentence Selection and Compression. Proceedings of HMData 2021. • [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. • [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. • [Ishihara23] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of TrustNLP 2023. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の 意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. 参考文献 https://hack.nikkei.com/publications/ 70
  23. • [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization

    and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. • [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの 業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. • [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号. • [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. • [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向けた日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. • [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変量シフト問題の 抑制. 第14回データ工学と情報マネジメントに関するフォーラム. • [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる 意味変化検出. 言語処理学会第28回年次大会発表論文集. 71
  24. • [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景 からのニュース推薦.

    第210回情報処理学会ヒューマンコンピュータインタラクション研究会. • [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) • [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおけ る解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. • [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告 書の判読の試み. 2024年度日本選挙学会総会・研究会. 72