Upgrade to Pro — share decks privately, control downloads, hide ads and more …

記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024

記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024

Shotaro Ishihara

December 15, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Education

Transcript

  1. 今日の話題 2 • ニュースメディア x 情報技術 ◦ ニュースが皆さんに届 まで ◦

    情報技術 for ニュースメディアの特徴 ◦ 大規模言語モデルの可能性と課題 • 情報技術 for ◯◯◯ とは?
  2. • 2013〜2017 年:大学時代 ◦ 大学新聞で記者・編集長・データ分析など ◦ 工学部でデータ分析 • 2017 年〜:日本経済新聞社

    ◦ 事業部門:データ分析やサービス企画・開発 ◦ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 3
  3. • プレスリリースや取材に基づ 科学記事執筆 • 野球・アメフトなどスポーツ取材 • 記事の校閲、見出し付 、レイアウト編成 • 就職先ランキング作成プログラムの構築

    • デジタル版のアクセス数の集計 • 広告営業やタイアップ記事の作成 大学新聞で記者・編集長・データ分析など 4
  4. 今日の話題 7 • ニュースメディア x 情報技術 ◦ ニュースが皆さんに届 まで ◦

    情報技術 for ニュースメディアの特徴 ◦ 大規模言語モデルの可能性と課題 • 情報技術 for ◯◯◯ とは?
  5. • 社員数: 3,045 人 (2021 年 12月末) • 事業内容: 新聞を中核とする事業会社

    • 創刊: 1876 年 • 売上高: 1,807 億円 (2021 年 12 月期) 会社概要 29
  6. 情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める • 新機能開発:推薦、要約、質問応答 など • 業務効率化:情報抽出、編集支援 など ※ 約

    100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者 新時代のニュースメディアを創る 30
  7. • 記事推薦と多様性の関連性 [Sonoda+24] • 閲覧履歴を用いた記事推薦 • ユーザ入力画像からの記事推薦 [田邉ら24] • 見出しの意味具体化

    [白井&石原24] • 企業名の抽出と曖昧性解消 [澤田ら24] • 非上場企業への業界ラベル付与 [増田ら22] 事例:提供 34
  8. 今日の話題 39 • ニュースメディア x 情報技術 ◦ ニュースが皆さんに届 まで ◦

    情報技術 for ニュースメディアの特徴 ◦ 大規模言語モデルの可能性と課題 • 情報技術 for ◯◯◯ とは?
  9. 今日の話題 43 • ニュースメディア x 情報技術 ◦ ニュースが皆さんに届 まで ◦

    情報技術 for ニュースメディアの特徴 ◦ 大規模言語モデルの可能性と課題 • 情報技術 for ◯◯◯ とは?
  10. プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発

    や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 57
  11. • 経済情報特化の生成 AI、日経が開発 40 年分の記事学 習, 日経電子版 • 実践:日本語文章生成 Transformersライブラリで学 ぶ実装の守破離, PyCon

    JP 2022 • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 たドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 開発の事例 58
  12. • AI 編集支援ツール NIKKEI Tailor について 日経イノ ベーション・ラボが Minutes 向 に開発,

    Minutes by NIKKEI • 日本経済新聞社、米AIファンドと提携 新事業創出めざ す, 日経電子版 利用の事例 59
  13. • T5 をフルスクラッチで事前学習 • 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文,

    3 行まとめ} の対でファインチューニング • ファインチューニングに利用していないデータで、 性能を他モデルと比較して評価 ◦ 一般的な T5 をファインチューニングしたモデル ◦ gpt-3.5-turbo に少数の事例を提供 日経電子版 T5 の構築と評価 62
  14. • 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] •

    予測 CTR も提示 編集支援ツール 64 [石原ら24a] 図 2:スクリー ンショット
  15. • 幻覚の分析 • 時系列性能劣化 情報技術 for ニュースメディアの特徴 • 編集者との協業 •

    誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ • マルチモーダルデータの利用 66
  16. 大規模な事前学習は費用がかかる • 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万

    円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も • 現状は GPT-3 を超える規模のモデルも提案されて いる状況 • 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 73
  17. 言葉は日々変化 [高橋ら22] 図 1 を改変 • 時期の異なる日経電子版 記事で構築した 2 つの

    単語分散表現のベクトル 空間を比較 • 「コロナ」の周辺単語が コロナ前と以後で変化 74
  18. skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 • コロナ ビール で 乾杯 •

    コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 [石原ら24b] 図 2 を解説用に改変 75
  19. 提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語

    両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 77
  20. 今日の話題 86 • ニュースメディア x 情報技術 ◦ ニュースが皆さんに届 まで ◦

    情報技術 for ニュースメディアの特徴 ◦ 大規模言語モデルの可能性と課題 • 情報技術 for ◯◯◯ とは?
  21. 参考文献 https://hack.nikkei.com/publications/ 102 • [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama

    (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. • [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 たドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の 意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. • [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業 績要因文の抽出. 言語処理学会第29回年次大会発表論文集. • [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づ 日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号.
  22. 103 • [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima

    (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. • [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向 た日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. • [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測にお る共変量シフト問題の 抑制. 第14回データ工学と情報マネジメントに関するフォーラム. • [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる 意味変化検出. 言語処理学会第28回年次大会発表論文集. • [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景 からのニュース推薦. 第210回情報処理学会ヒューマンコンピュータインタラクション研究会. • [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) • [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにお る解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. • [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告 書の判読の試み. 2024年度日本選挙学会総会・研究会.