Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce...

情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025

Avatar for Shotaro Ishihara

Shotaro Ishihara

September 30, 2025
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. インターネットの発展に伴い,事業を取り巻く環境が変化 • ニュース・出版・放送 ◦ 主に個人向け (Business to Consumer; B2C) •

    データベース ◦ 主に法人向け (Business to Business; B2B) • 広告・文化事業・教育事業 ◦ B2C & B2B 日本経済新聞社の事業 4
  2. 2017 年に社長直轄組織として設立し,現在は約 10 名の研究 員らが所属 • 各研究員が個別の専門性やテーマを持ち,案件を創出 • 編集部門 (約

    1500 人) や,複数の事業部門と連携 • 共通のデータ基盤やコンテンツ基盤を活用 • 事業応用 (サービスへの実装や業務効率化) や,中長的的な 視点での研究 (各研究員が推進) に従事 日経イノベーション・ラボ 10
  3. • 政治資金収支報告書の画像からの数値情報抽出 [1] • 決算短信からの業績要因文の抽出 [2] • 新聞記事を対象とした単語の意味変化の分析 [3] 収集:収集対象や方法を工夫する勘所が必要

    18 [1] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告書の判読 の試み. 2024年度日本選挙学会総会・研究会. [2] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業績要 因文の抽出. 言語処理学会第29回年次大会発表論文集. [3] Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai (2023). Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English. 9th International Conference on Computational Social Science.
  4. • 独自 T5 による要約生成 [4] • 記事の校正や校閲 [5] • 組合せ探索によるクロスワードパズル作成

    [6] 編集:記者を支援する枠組みを模索 20 [4] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイ ン特化事前学習済みモデルの構築と活用. 自然言語処理. [5] 岩本和真, 大村和正, 石原祥太郎 (2025). 人間が書いた文章を対象としたHallucination検出ベン チマークの構築と評価. 言語処理学会第31回年次大会発表論文集. [6] Kaito Majima, Shotaro Ishihara (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of the CIKM 2023.
  5. [9] 石原祥太郎 (2025). 生成的推薦の人気バイアスの分析:暗記の観点から. 2025年度人工知能学会 全国大会発表論文集. • 推薦システムと多様性の分析 with 東大・鳥海研

    [7] • ユーザ入力画像を用いた記事推薦 [8] • 生成的推薦による人気バイアスの分析 [9] 提供:閲覧数以外も考慮した推薦システム 22 [7] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access. [8] Kota Tanabe, Shotaro Ishihara, Kenta Yamada, Masaki Aota, and Yasutsuna Matayoshi (2025). Making News Familiar: News Recommendation from Daily Scenery. Proceedings of the KES2025.
  6. 計測:A/B テストによる記事提供 [10] 25 クリック率: 3 % クリック率: 1 %

    [10] Norihiko Sawa (2020). Test headlines on News Media by Multi-Armed Bandit: Case Study of Multi-Armed Bandit to raise CTR of Articles. Computation + Journalism Symposium 2020.
  7. 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発 や検証,デモや論文

    ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 プロジェクト変遷と世界の研究動向 31
  8. 単語列の生成確率をモデル化したもの 吾輩 は 猫 で ある P(吾輩は猫である): 単語列の生成確率 P(吾輩) *

    P(は | 吾輩) * P(猫 | 吾輩は) * P(で | 吾 輩は猫) * P(ある | 吾輩は猫で) 言語モデルとは 32
  9. • 日経電子版など,日経グループの記事の収集 • 権利面の確認や HTML タグの除去や重複排除など の前処理 • 計算資源の確保 •

    Transformers ライブラリを駆使したモデルの事前 学習 36 事前学習済みモデルの構築 (詳細は割愛)
  10. • T5 をフルスクラッチで事前学習 • 事前学習済み T5 を編集者作成の {本文, 見出し}, {本文,

    3 行まとめ} の対でファインチューニング • ファインチューニングに利用していないデータで 性能を他モデルと比較して評価 ◦ 一般的な T5 をファインチューニング ◦ gpt-3.5-turbo に少数の事例を提供 37 日経電子版 T5 の構築と評価
  11. 48 [11] Shotaro Ishihara, Hiromu Takahashi (2024). Quantifying Memorization and

    Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of the INLG2024. 文字列が記憶されており,抽出できる
  12. ドメイン特化のコーパスほど,急速に暗記される 49 [12] Hiromu Takahashi, Shotaro Ishihara (2025). Quantifying Memorization

    in Continual Pre-training with Japanese General or Industry-Specific Corpora. Proceedings of the L2M2 2025.
  13. [13] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language

    Models: A Survey. Proceedings of the TrustNLP 2023. コーパスの前処理,事前学習の工夫,モデルの後処理など[13] Defense: Training Defense: Pre-processing Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 50 どう対応するべき?