Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024

第27回情報論的学習理論ワークショップ (IBIS2024)
企画セッション 3 ビジネスと機械学習
https://ibisml.org/ibis2024/os/#os3

Shotaro Ishihara

October 07, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. • 2013〜2017 年:大学時代 ◦ 大学新聞で記者・編集長・データ分析など ◦ 工学部でデータ分析 • 2017 年〜:日本経済新聞社

    ◦ 事業部門:データ分析やサービス企画・開発 ◦ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 2
  2. 情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める • 新機能開発:推薦、要約、質問応答 など • 業務効率化:情報抽出、編集支援 など ※ 約

    100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 新時代のニュースメディアを創る 9
  3. • 日経電子版に特化した事前学習済みモデルの構築 [石原ら24a] => 後ほど詳しく • クリック率や滞在時間の予測 [Ishihara+22a, 22b] •

    ニュース記事に由来する用語を数多く含むクロス ワードパズルの自動生成 [Majima&Ishihara23] 事例:編集 11
  4. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理,

    2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変 化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. • [Ishihara+24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. • [Ishihara23] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of TrustNLP 2023. • [Ishihara+22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. • [Ishihara+22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. • [Ishihara+21] Shotaro Ishihara, Yuta Matsuda, and Norihiko Sawa (2021). Editors-in-the-loop News Article Summarization Framework with Sentence Selection and Compression. Proceedings of HMData 2021. 参考文献 https://hack.nikkei.com/publications/ 14
  5. • [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業績要因 文の抽出. 言語処理学会第29回年次大会発表論文集.

    • [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業 名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号. • [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. • [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる意味変 化検出. 言語処理学会第28回年次大会発表論文集. • [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景からの ニュース推薦. 第210回情報処理学会ヒューマンコンピュータインタラクション研究会. • [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) • [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおける解約 予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. • [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告書の判 読の試み. 2024年度日本選挙学会総会・研究会. 15
  6. プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発

    や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 18
  7. • 開発: ◦ 経済情報特化の生成 AI、日経が開発 40 年分の記事学習, 日経 電子版 ◦ 実践:日本語文章生成 Transformersライブラリで学ぶ実装の

    守破離, PyCon JP 2022 ◦ [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済 みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 • 活用: ◦ AI 編集支援ツール NIKKEI Tailor について 日経イノベーショ ン・ラボが Minutes 向けに開発, Minutes by NIKKEI 19
  8. • 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] •

    予測 CTR も提示 編集支援ツール 26 [石原ら24a] 図 2:スクリー ンショット
  9. • 2018 年末の BERT の登場以来、事前学習済みモ デルの可能性を感じて技術検証を進めてきた • 日経電子版 T5 を用いて、一般的なモデルを比べ

    編集者の文体を摸した生成を実現 • より大規模なモデルについても研究開発を推進中 第 2 章のまとめ 27
  10. 大規模な事前学習は費用がかかる • 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万

    円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も • 現状は GPT-3 を超える規模のモデルも提案されて いる状況 • 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 36
  11. skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 • コロナ ビール で 乾杯 •

    コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 38 [石原ら24b] 図 2 を解説用に改変
  12. 提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語

    両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 40
  13. 12 の日経電子版 RoBERTa を構築 48 1 年ずつ学習コーパス を増やしながら 12 の

    RoBERTa を構築 [石原ら24b] 表 2:構築した RoBERTa モデ ルごとの学習コーパス
  14. 12 の日経電子版 RoBERTa を評価 49 新しいコーパスに対し Pseudo-perplexity (PPPL) で 時系列性能劣化を計測

    • 新しいコーパス:学習コーパスから 1 年ごとに 100,000 記事ずつを抽出 • PPPL:穴埋め問題の予測がどれくらい正確かと いう指標 欧州 連合 ( は 13 日 ) ?
  15. • 事前学習済みモデルは、時に訓練データを暗記 し、そのまま出力する => 著作権やプライバシー の観点で懸念あり ◦ NYT は OpenAI

    や Microsoft を提訴 • 英語の一般的なコーパスでの議論だけでなく、日 本語でも事前学習済みモデルの暗記を検証してお く意義は大きい 訓練データの暗記や抽出 51
  16. コーパスの前処理、事前学習時の工夫、モデルの後処 理などで対応 => サーベイ論文 [Ishihara23] どう対策するべき? Defense: Training Defense: Pre-processing

    Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 57 [Ishihara23] Figure 2 を解説用に改変