Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shotaro Ishihara
October 07, 2024
Research
1.5k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
第27回情報論的学習理論ワークショップ (IBIS2024)
企画セッション 3 ビジネスと機械学習
https://ibisml.org/ibis2024/os/#os3
Shotaro Ishihara
October 07, 2024
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
大規模言語モデルは誰を覚えているか / Who Do Large Language Models Memorize?
upura
0
70
[ACL 2026 Demo] Fast-MIA: Efficient and Scalable Membership Inference for LLMs
upura
0
52
Fast-MIA: Efficient and Scalable Membership Inference for LLMs
upura
0
38
JAPAN AI CUP Prediction Tutorial
upura
2
1.2k
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
390
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
720
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
120
JOAI2025講評 / joai2025-review
upura
0
1.6k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
260
Other Decks in Research
See All in Research
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.2k
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
220
長時間動画QAにおけるマルチエージェント推論 ・SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration
murakawatakuya
1
130
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
320
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
870
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
560
R&Dチームを起ち上げる
shibuiwilliam
1
270
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
810
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
AIで最適化を解けるか?
mickey_kubo
0
120
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
300
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
Featured
See All Featured
Utilizing Notion as your number one productivity tool
mfonobong
4
320
The browser strikes back
jonoalderson
0
1.3k
BBQ
matthewcrist
89
10k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
A designer walks into a library…
pauljervisheath
211
24k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
Rails Girls Zürich Keynote
gr2m
96
14k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
エンジニアに許された特別な時間の終わり
watany
107
250k
Transcript
石原祥太郎
[email protected]
日本経済新聞社 日経イノベーション・ラボ 上席研究員 IBIS2024 企画セッション 3「ビジネスと機械学習」 2024 年
11 月 7 日 ニュースメディアにおけ る事前学習済みモデルの 可能性と課題
• 2013〜2017 年:大学時代 ◦ 大学新聞で記者・編集長・データ分析など ◦ 工学部でデータ分析 • 2017 年〜:日本経済新聞社
◦ 事業部門:データ分析やサービス企画・開発 ◦ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 2
• プレスリリースや取材に基づく科学記事執筆 • 野球・アメフトなどスポーツ取材 • 記事の校閲、見出し付け、レイアウト編成 • 就職先ランキング作成プログラムの構築 • デジタル版のアクセス数の集計
• 広告営業やタイアップ記事の作成 大学新聞で記者・編集長・データ分析など 3
• 事業部門: ◦ 法人向け情報サービスのデータ分析基盤の構築 や、営業・マーケティング支援、新規事業など • 研究開発部門: ◦ 自然言語処理や機械学習を駆使した事業支援の 可能性を模索
日本経済新聞社で事業&研究開発部門 4
研究開発部門に異動して初期の論文 5 Proceedings of the ACM SIGIR Workshop on eCommerce
2021 https://sigir-ecom.github.io/ecom2021/accepted-papers.html
本企画セッションの講演者 6 Proceedings of the ACM SIGIR Workshop on eCommerce
https://sigir-ecom.github.io/ecom2021/accepted-papers.html 講演者 1 講演者 2 講演者 3 の同僚
1. ニュースメディアの昔と今 ◦ 何が変わったのか? ◦ 何をしているのか? 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題
本発表の概要 7
紙の新聞だけだった時代 8
1. 収集:記者の取材、プレスリリース など 2. 編集:記事執筆、校正、見出し生成 など 3. 提供:紙面編成 など 日々大量の情報を処理
9
インターネットが普及した時代 10
1. 収集:インターネット上の大量の情報も対象に 2. 編集:情報技術を駆使した効率化も可能に 3. 提供:推薦の需要の増加、記事データベース化、 ウェブ・スマホ向けアプリ開発 など 4. 計測:顧客の反響が即座に得られるように
コンテンツやユーザ行動が「データ」に 11
情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める • 新機能開発:推薦、要約、質問応答 など • 業務効率化:情報抽出、編集支援 など ※ 約
100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者 新時代のニュースメディアを創る 12
• 衛星データの解析 (日経ビジュアルデータ) • 決算短信からの業績要因文の抽出 [大村ら23] • 政治資金収支報告書からの情報抽出 [山田&青田24] 事例:収集
13
• 日経電子版に特化した事前学習済みモデルの構築 [石原ら24a] => 後ほど詳しく • ニュース記事に由来する用語を数多く含むクロス ワードパズルの自動生成 [Majima&Ishihara23] 事例:編集
14
• 記事推薦と多様性の関連性 [Sonoda+24] • 閲覧履歴を用いた記事推薦 • ユーザ入力画像からの記事推薦 [田邉ら24] • 見出しの意味具体化
[白井&石原24] • 企業名の抽出と曖昧性解消 [澤田ら24] • 非上場企業への業界ラベル付与 [増田ら22] 事例:提供 15
• 記事のエンゲージメント指標の開発 • 閲覧頻度・量に基づく解約予測 [山田ら22] • クリック率や滞在時間の予測 [Ishihara&Nakama22a, 22b] 事例:計測
16
• 編集者との協業 • 誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ
• マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 17
• 編集者との協業 • 誤りが許容されづらい • 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ
• マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 18 第 2 章 第 3 章
• コンテンツやユーザ行動が「データ」に • 情報技術を武器に、事業価値を高める仕事が登場 ◦ 収集・編集・提供・計測 ◦ 新機能開発:推薦、要約、質問応答 など ◦
業務効率化:情報抽出、編集支援 など • 日経でも研究開発を推進中 第 1 章のまとめ 19
1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 ◦ 事前学習済みモデルの構築 ◦ 事例:日経電子版 T5 による編集支援
3. 事前学習済みモデルの課題 本発表の概要 20
• 収集・編集・提供・計測における新機能開発や業 務効率化に繋げる目的 • ニュースメディアとしての責任ある使い方を模索 ◦ 自動化できる業務と、人間が注力すべき業務 ◦ 何がどこまで実現できるのか、何が課題となる のか?
事前学習済みモデル構築プロジェクト 21
• [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本 語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの 構築と活用.
自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモ デルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. • [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. 参考文献 (抜粋) 22
プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発
や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 23
• 経済情報特化の生成 AI、日経が開発 40 年分の記事学 習, 日経電子版 • 実践:日本語文章生成 Transformersライブラリで学 ぶ実装の守破離, PyCon
JP 2022 • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 開発の事例 24
• AI 編集支援ツール NIKKEI Tailor について 日経イノ ベーション・ラボが Minutes 向けに開発, Minutes
by NIKKEI • 日本経済新聞社、米AIファンドと提携 新事業創出めざ す, 日経電子版 利用の事例 25
単語列の生成確率をモデル化したもの 言語モデルとは? 吾輩 は 猫 で ある P(吾輩は猫である): 単語列の生成確率 P(吾輩)
* P(は | 吾輩) * P(猫 | 吾輩は) * P(で | 吾 輩は猫) * P(ある | 吾輩は猫で) 26
大量の文から、入力と出力の対を自動生成して、 単語列の生成確率を推定する 欧州 連合 ( EU は 13 日 )
欧州 連合 ( ? 欧州 連合 ( ? EU … 事前学習 (自己教師あり学習) 27
学習に使ったテキストの言い回しに近づく可能性 => 記事の下書きや校正など、業務効率化に繋がる 日経電子版での学習 28 欧州 連合 ( EU は
13 日 ) 欧州 連合 ( ? 欧州 連合 ( ? EU …
• 独自の表記規則を、全てプロンプトに記述するの は現実的でない • 事前学習済み言語モデルの生成結果を、編集者が 逐一修正していくのも手間 => 研究課題:日経電子版の記事を用いた事前学習済 みモデルで、表記規則を模倣できないか? 日経電子版特有の言語表現を獲得したい
29
• 日経電子版など、日経グループの記事の収集 • 権利面の確認や HTML タグの除去や重複排除 などの前処理 • 計算資源の確保 •
Transformers ライブラリを駆使したモデルの 事前学習 事前学習済みモデルの構築 30
• T5 をフルスクラッチで事前学習 • 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文,
3 行まとめ} の対でファインチューニング • ファインチューニングに利用していないデータで、 性能を他モデルと比較して評価 ◦ 一般的な T5 をファインチューニングしたモデル ◦ gpt-3.5-turbo に少数の事例を提供 日経電子版 T5 の構築と評価 31
編集者の見出し・3 行まとめとの一致度合いで評価 日経電子版 T5 で ROUGE が最良に 32 [石原ら24a] 表
7:3 行まとめの性能評価
• 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] •
予測 CTR も提示 編集支援ツール 33 [石原ら24a] 図 2:スクリー ンショット
• 2018 年末の BERT の登場以来、事前学習済みモ デルの可能性を感じて技術検証を進めてきた • 日経電子版 T5 を用いて、一般的なモデルを比べ
編集者の文体を摸した生成を実現 • 要約以外の用途や、より大規模なモデルについて も研究開発を推進中 第 2 章のまとめ 34
1. ニュースメディアの昔と今 2. 事前学習済みモデルの可能性 3. 事前学習済みモデルの課題 ◦ 幻覚の分析 ◦ 時系列性能劣化
◦ 訓練データの暗記や抽出 本発表の概要 35
• 事前学習済みモデルの開発や活用を進めるだけで なく、同時に課題に関しても検証 • ライブラリやツールが充実している時代だからこ そ、新技術に付随する可能性がある課題を認識し ておくことが大切 • 幻覚の分析 /
時系列性能劣化 / 訓練データの暗記 や抽出 について紹介 事前学習済みモデルの課題の検証 36
• 幻覚の分析 • 時系列性能劣化 • 訓練データ • 編集者との協業 • 誤りが許容されづらい
• 時系列による変化が起きやすい • 著作権への配慮 • 最適化すべき指標の難しさ • マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 37 第 3 章
• ニュースメディアとして、発信する情報の誤りは 致命的 • 事前学習済みモデルでどのような幻覚 (入力に対 して不適切な生成) が発生するかを調査し、対策 を模索しておくのは重要 幻覚の分析
38
幻覚を含む場合、平均情報量が多い 39 [石原ら24a] 表 4:事前学習済み T5 での幻覚の有無の分析
事前学習コーパスに多い表現に引きずられる傾向 特徴的な幻覚の例 40 [石原ら24a] 表 8:事前学習済み T5 での幻覚の例
カテゴリ別の詳細分析 41 [石原ら24a] 図 5:カテゴリ別のデータセットを使った分析
カテゴリが一致するほど、幻覚が少ない 42 [石原ら24a] 表 9:カテゴリ別のデータセットを使った分析
• 幻覚の原因の一つは、事前学習と評価でのコーパ スの変化と推察される (時系列やカテゴリ) • 事前学習コーパスを分析することで、事前学習済 みモデルの性能劣化を検知できるのでは? ◦ 特に、単語の意味変化の度合いに着目 ◦
モデルの再学習に関する意思決定に繋がる 時系列性能劣化 43
大規模な事前学習は費用がかかる • 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万
円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も • 現状は GPT-3 を超える規模のモデルも提案されて いる状況 • 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 44
言葉は日々変化 [高橋ら22] 図 1 を改変 45 • 時期の異なる日経電子版 記事で構築した 2
つの 単語分散表現のベクトル 空間を比較 • 「コロナ」の周辺単語が コロナ前と以後で変化
skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 • コロナ ビール で 乾杯 •
コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 46 [石原ら24b] 図 2 を解説用に改変
Twitter コーパスを用いて、新型コロナ ウイルス感染症による単語の意味変化 を 分析した Guo ら の手法 Guo らの手法:単語の意味変化の安定性
Corpus 2019 Corpus 2020 単語分散表現 頻出単語 両方向へのマッピング 47
提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語
両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 48
日本語 (Nikkei) でも英語 (NOW) でも 2019-2020 年の値が最も小さい => 意味変化が最も大きい Semantic
Shift Stability の変遷 49 [石原ら24b] 図 5 を解説用に改変
stab の頻度分布から、要因を分析 Nikkei NOW 50 [石原ら24b] 図 6 を解説用に改変
2019-2020 年の違いの分析 51
[石原ら24b] 表 6:Nikkei の「コロナ」の類義語上位 3 件の変遷 2020 年から「コロナ」の意味が変化 52
2015-2016 年の値も小さい Semantic Shift Stability が Nikkei で 3 番目
,NOW で 2 番目に小さい 53
2015-2016 年の違いの分析 54
2016 年から「トランプ」の意味が変化 55 [石原ら24b] 表 9:Nikkei の「トランプ」の類義語上位 3 件の変遷
12 の日経電子版 RoBERTa を構築 56 1 年ずつ学習コーパス を増やしながら 12 の
RoBERTa を構築 [石原ら24b] 表 2:構築した RoBERTa モデ ルごとの学習コーパス
12 の日経電子版 RoBERTa を評価 57 新しいコーパスに対し Pseudo-perplexity (PPPL) で 時系列性能劣化を計測
• 新しいコーパス:学習コーパスから 1 年ごとに 100,000 記事ずつを抽出 • PPPL:穴埋め問題の予測がどれくらい正確かと いう指標 欧州 連合 ( は 13 日 ) ?
前年からの性能の差分を数値化 12 の日経電子版 RoBERTa の性能劣化 2016 と 2020 でモデルは大きく劣化 58
[石原ら24b] 表 4:評価セットの年ごとの性能劣化幅
• 事前学習済みモデルは、時に訓練データを暗記 し、そのまま出力する => 著作権やプライバシー の観点で懸念あり ◦ NYT は OpenAI
や Microsoft を提訴 • 英語の一般的なコーパスでの議論だけでなく、日 本語でも事前学習済みモデルの暗記を検証してお く意義は大きい 訓練データの暗記や抽出 59
日経電子版で GPT-2 を事前学習(複数エポックで保 存)し、記憶の度合いを検証 日経電子版記事を用いた検証 60 [Ishihara+24] Figure 2
入力:「(前略…)年明け以降の新型コロナウイルス の新規感染者数が大幅に増加するとの懸念が一定の重 荷になっている。」 実際にやってみると…… 出力: 61
文字列が記憶されており、抽出できる 62 [Ishihara+24] Table 3 を解説用に改変
エポック数が増えるほど、記憶が進む 63 [Ishihara+24] Table 1 を解説用に改変
メンバーシップ推論の性能を調査 64 [Ishihara+24] Table 4 を解説用に改変
コーパスの前処理、事前学習時の工夫、モデルの後処 理などで対応 => サーベイ論文 [Ishihara23] どう対策するべき? Defense: Training Defense: Pre-processing
Defense: Post-processing data deduplication data sanitization regularization differential privacy filterling confidence masking knowledge distillation 65 [Ishihara23] Figure 2 を解説用に改変
対策の難しさ 記憶は必ずしも悪ではない • ある一般市民の逮捕を永遠に記憶するのは望まし くない(「忘れられる権利」) • しかし、田中角栄元首相が逮捕された「ロッキー ド事件」などは、歴史的な知識として記憶が許容 される場合もある 66
• ニュースメディアの特徴とも関連する、事前学習 済みモデルの課題を検証中 ◦ 幻覚の分析 ◦ 時系列性能劣化 ◦ 訓練データの暗記や抽出 第
3 章のまとめ 67
1. ニュースメディアの昔と今 ◦ コンテンツやユーザ行動が「データ」に 2. 事前学習済みモデルの可能性 ◦ 一般的なモデルと比べた応用を模索中 3. 事前学習済みモデルの課題
◦ 幻覚 / 時系列性能劣化 / 訓練データの暗記 本発表の振り返り 68
• 事前学習済みモデルの可能性の模索 ◦ 日経電子版特化 /自社ならではのメタデータの 活用 (記事公開日やユーザ行動 など) • 事前学習済みモデルの課題への対応
◦ 幻覚の制御 / 知識編集 / 再学習 など 今後の展望 69
• [Ishihara+21] Shotaro Ishihara, Yuta Matsuda, and Norihiko Sawa (2021).
Editors-in-the-loop News Article Summarization Framework with Sentence Selection and Compression. Proceedings of HMData 2021. • [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. • [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. • [Ishihara23] Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of TrustNLP 2023. • [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. • [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の 意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. 参考文献 https://hack.nikkei.com/publications/ 70
• [Ishihara&Takahashi24] Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization
and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INLG 2024. • [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの 業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. • [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号. • [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. • [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向けた日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. • [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変量シフト問題の 抑制. 第14回データ工学と情報マネジメントに関するフォーラム. • [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる 意味変化検出. 言語処理学会第28回年次大会発表論文集. 71
• [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景 からのニュース推薦.
第210回情報処理学会ヒューマンコンピュータインタラクション研究会. • [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) • [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおけ る解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. • [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告 書の判読の試み. 2024年度日本選挙学会総会・研究会. 72