Slide 1

Slide 1 text

石原祥太郎 (日本経済新聞社 日経イノベーション ・ラボ 上席研究員) https://upura.github.io/ 開志専門職大学「トップランナー研究 I」 2024 年 12 月 20 日 記者・編集者との協働: 情報技術が変えるニュース メディア

Slide 2

Slide 2 text

今日の話題 2 ● ニュースメディア x 情報技術 ○ ニュースが皆さんに届 まで ○ 情報技術 for ニュースメディアの特徴 ○ 大規模言語モデルの可能性と課題 ● 情報技術 for ◯◯◯ とは?

Slide 3

Slide 3 text

● 2013〜2017 年:大学時代 ○ 大学新聞で記者・編集長・データ分析など ○ 工学部でデータ分析 ● 2017 年〜:日本経済新聞社 ○ 事業部門:データ分析やサービス企画・開発 ○ 研究開発部門:事前学習済みモデルの開発 自己紹介:新聞社✖情報技術 3

Slide 4

Slide 4 text

● プレスリリースや取材に基づ 科学記事執筆 ● 野球・アメフトなどスポーツ取材 ● 記事の校閲、見出し付 、レイアウト編成 ● 就職先ランキング作成プログラムの構築 ● デジタル版のアクセス数の集計 ● 広告営業やタイアップ記事の作成 大学新聞で記者・編集長・データ分析など 4

Slide 5

Slide 5 text

● 事業部門: ○ 法人向 情報サービスのデータ分析基盤の構築 や、営業・マーケティング支援、新規事業など ● 研究開発部門: ○ 自然言語処理や機械学習を駆使した事業支援の 可能性を模索 日本経済新聞社で事業&研究開発部門 5

Slide 6

Slide 6 text

● 国内外の学会で査読付き論文を発表。講談社から 3 冊、マイナビ出版から 1 冊書籍を出版。[URL] ● 国際ニュースメディア協会の若手表彰でアジア太 平洋地域の最優秀賞 (2020)。[URL] ● Kaggle Master (Competitions/Notebooks) [URL], Google Cloud Champion Innovator [URL]。 6 出版・受賞など

Slide 7

Slide 7 text

今日の話題 7 ● ニュースメディア x 情報技術 ○ ニュースが皆さんに届 まで ○ 情報技術 for ニュースメディアの特徴 ○ 大規模言語モデルの可能性と課題 ● 情報技術 for ◯◯◯ とは?

Slide 8

Slide 8 text

紙の新聞だけだった時代 25

Slide 9

Slide 9 text

インターネットが普及した時代 26

Slide 10

Slide 10 text

1. 収集:インターネット上の大量の情報も対象に 2. 編集:情報技術を駆使した効率化も可能に 3. 提供:推薦の需要の増加、記事データベース化、 ウェブ・スマホ向 アプリ開発 など 4. 計測:顧客の反響が即座に得られるように コンテンツやユーザ行動が「データ」に 27

Slide 11

Slide 11 text

質の高い報道とサービスで読者・ 顧客の判断を助 世界で最も公正 で信頼されるメディアになる 日本経済新聞社 28

Slide 12

Slide 12 text

● 社員数: 3,045 人 (2021 年 12月末) ● 事業内容: 新聞を中核とする事業会社 ● 創刊: 1876 年 ● 売上高: 1,807 億円 (2021 年 12 月期) 会社概要 29

Slide 13

Slide 13 text

情報技術を武器に、コンテンツとユーザ行動を主な 分析対象として、事業価値を高める ● 新機能開発:推薦、要約、質問応答 など ● 業務効率化:情報抽出、編集支援 など ※ 約 100 人のソフトウェアエンジニア・データサイ エンティスト・研究者・デザイナーが在籍 ※ 総従業員数は約 3000 人で半数が記者・編集者 新時代のニュースメディアを創る 30

Slide 14

Slide 14 text

● 衛星データの解析 (日経ビジュアルデータ) ● 決算短信からの業績要因文の抽出 [大村ら23] ● 政治資金収支報告書からの情報抽出 [山田&青田24] 事例:収集 31

Slide 15

Slide 15 text

● 日経電子版に特化した事前学習済みモデルの構築 [石原ら24a] ● ニュース記事に由来する用語を数多 含むクロス ワードパズルの自動生成 [Majima&Ishihara23] 事例:編集 32

Slide 16

Slide 16 text

● 記事推薦と多様性の関連性 [Sonoda+24] ● 閲覧履歴を用いた記事推薦 ● ユーザ入力画像からの記事推薦 [田邉ら24] ● 見出しの意味具体化 [白井&石原24] ● 企業名の抽出と曖昧性解消 [澤田ら24] ● 非上場企業への業界ラベル付与 [増田ら22] 事例:提供 34

Slide 17

Slide 17 text

● 記事のエンゲージメント指標の開発 ● 閲覧頻度・量に基づ 解約予測 [山田ら22] ● クリック率や滞在時間の予測 [Ishihara&Nakama22a, 22b] 事例:計測 37

Slide 18

Slide 18 text

今日の話題 39 ● ニュースメディア x 情報技術 ○ ニュースが皆さんに届 まで ○ 情報技術 for ニュースメディアの特徴 ○ 大規模言語モデルの可能性と課題 ● 情報技術 for ◯◯◯ とは?

Slide 19

Slide 19 text

● 編集者との協業 ● 誤りが許容されづらい ● 時系列による変化が起きやすい ● 著作権への配慮 ● 最適化すべき指標の難しさ ● マルチモーダルデータの利用 情報技術 for ニュースメディアの特徴 40

Slide 20

Slide 20 text

利点 41 ● 記者・編集者 1500 人 ● 独自データを保有 ● サブスクリプション事業で一定の収益 ● 「日経」ブランド

Slide 21

Slide 21 text

不利点 42 ● 「完璧」が求められる ● 過去の成功が足枷になり得る ● 利害関係者が多い ● 最適化すべきものが分かりづらい

Slide 22

Slide 22 text

今日の話題 43 ● ニュースメディア x 情報技術 ○ ニュースが皆さんに届 まで ○ 情報技術 for ニュースメディアの特徴 ○ 大規模言語モデルの可能性と課題 ● 情報技術 for ◯◯◯ とは?

Slide 23

Slide 23 text

単語列の生成確率をモデル化したもの 言語モデルとは? 吾輩 は 猫 で ある P(吾輩は猫である): 単語列の生成確率 P(吾輩) * P(は | 吾輩) * P(猫 | 吾輩は) * P(で | 吾 輩は猫) * P(ある | 吾輩は猫で) 45

Slide 24

Slide 24 text

大量の文から、入力と出力の対を自動生成して、 単語列の生成確率を推定する 欧州 連合 ( EU は 13 日 ) 欧州 連合 ( ? 欧州 連合 ( ? EU … 事前学習 (自己教師あり学習) 46

Slide 25

Slide 25 text

学習に使ったテキストの言い回しに近づ 可能性 => 記事の下書きや校正など、業務効率化に繋がる 日経電子版での学習 欧州 連合 ( EU は 13 日 ) 欧州 連合 ( ? 欧州 連合 ( ? EU … 47

Slide 26

Slide 26 text

文章を操るモデル パラメータ 文法獲得の入力 文法獲得の出力 モデル 大量の文章 文章を書 ための 汎用的なルール 48

Slide 27

Slide 27 text

本文と要約での微調整 パラメータ 記事の本文 要約 モデル 文章を書 ための 汎用的なルール 49 与えられた記事を 要約するルール

Slide 28

Slide 28 text

● 収集・編集・提供・計測にお る新機能開発や業 務効率化に繋 る目的 ● ニュースメディアとしての責任ある使い方を模索 ○ 自動化できる業務と、人間が注力すべき業務 ○ 何がど まで実現できるのか、何が課題となる のか? 事前学習済みモデル構築プロジェクト 56

Slide 29

Slide 29 text

プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発 や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 57

Slide 30

Slide 30 text

● 経済情報特化の生成 AI、日経が開発 40 年分の記事学 習, 日経電子版 ● 実践:日本語文章生成 Transformersライブラリで学 ぶ実装の守破離, PyCon JP 2022 ● [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 たドメイン 特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号 開発の事例 58

Slide 31

Slide 31 text

● AI 編集支援ツール NIKKEI Tailor について 日経イノ ベーション・ラボが Minutes 向 に開発, Minutes by NIKKEI ● 日本経済新聞社、米AIファンドと提携 新事業創出めざ す, 日経電子版 利用の事例 59

Slide 32

Slide 32 text

● 独自の表記規則を、全てプロンプトに記述するの は現実的でない ● 事前学習済み言語モデルの生成結果を、編集者が 逐一修正してい のも手間 => 研究課題:日経電子版の記事を用いた事前学習済 みモデルで、表記規則を模倣できないか? 日経電子版特有の言語表現を獲得したい 60

Slide 33

Slide 33 text

● 日経電子版など、日経グループの記事の収集 ● 権利面の確認や HTML タグの除去や重複排除 などの前処理 ● 計算資源の確保 ● Transformers ライブラリを駆使したモデルの 事前学習 事前学習済みモデルの構築 61

Slide 34

Slide 34 text

● T5 をフルスクラッチで事前学習 ● 事前学習済み T5 を、編集者作成の {本文, 見出し}, {本文, 3 行まとめ} の対でファインチューニング ● ファインチューニングに利用していないデータで、 性能を他モデルと比較して評価 ○ 一般的な T5 をファインチューニングしたモデル ○ gpt-3.5-turbo に少数の事例を提供 日経電子版 T5 の構築と評価 62

Slide 35

Slide 35 text

編集者の見出し・3 行まとめとの一致度合いで評価 日経電子版 T5 で ROUGE が最良に [石原ら24a] 表 7:3 行まとめの性能評価 63

Slide 36

Slide 36 text

● 複数候補を提示し ユーザが選択・編 集する (文字数や 含める・含めない 単語などを調整可 能) [Ishihara21] ● 予測 CTR も提示 編集支援ツール 64 [石原ら24a] 図 2:スクリー ンショット

Slide 37

Slide 37 text

● 事前学習済みモデルの開発や活用を進めるだ で な 、同時に課題に関しても検証 ● ライブラリやツールが充実している時代だから そ、新技術に付随する可能性がある課題を認識し てお とが大切 ● 幻覚の分析 / 時系列性能劣化 / 訓練データの暗記 や抽出 について紹介 事前学習済みモデルの課題の検証 65

Slide 38

Slide 38 text

● 幻覚の分析 ● 時系列性能劣化 情報技術 for ニュースメディアの特徴 ● 編集者との協業 ● 誤りが許容されづらい ● 時系列による変化が起きやすい ● 著作権への配慮 ● 最適化すべき指標の難しさ ● マルチモーダルデータの利用 66

Slide 39

Slide 39 text

● ニュースメディアとして、発信する情報の誤りは 致命的 ● 事前学習済みモデルでどのような幻覚 (入力に対 して不適切な生成) が発生するかを調査し、対策 を模索してお のは重要 幻覚の分析 67

Slide 40

Slide 40 text

幻覚を含む場合、平均情報量が多い [石原ら24a] 表 4:事前学習済み T5 での幻覚の有無の分析 68

Slide 41

Slide 41 text

事前学習コーパスに多い表現に引きずられる傾向 特徴的な幻覚の例 [石原ら24a] 表 8:事前学習済み T5 での幻覚の例 69

Slide 42

Slide 42 text

カテゴリ別の詳細分析 [石原ら24a] 図 5:カテゴリ別のデータセットを使った分析 70

Slide 43

Slide 43 text

カテゴリが一致するほど、幻覚が少ない [石原ら24a] 表 9:カテゴリ別のデータセットを使った分析 71

Slide 44

Slide 44 text

● 幻覚の原因の一つは、事前学習と評価でのコーパ スの変化と推察される (時系列やカテゴリ) ● 事前学習コーパスを分析する とで、事前学習済 みモデルの性能劣化を検知できるのでは? ○ 特に、単語の意味変化の度合いに着目 ○ モデルの再学習に関する意思決定に繋がる 時系列性能劣化 72

Slide 45

Slide 45 text

大規模な事前学習は費用がかかる ● 「GPT-3 の学習には 460 万ドル(約 4 億 9000 万 円)かかり、1 台の GPU を使用した場合は計算に 355 年かかる」との試算も ● 現状は GPT-3 を超える規模のモデルも提案されて いる状況 ● 日経電子版の独自モデルは規模が小さいが、当然 無視できないコストがかかる 73

Slide 46

Slide 46 text

言葉は日々変化 [高橋ら22] 図 1 を改変 ● 時期の異なる日経電子版 記事で構築した 2 つの 単語分散表現のベクトル 空間を比較 ● 「コロナ」の周辺単語が コロナ前と以後で変化 74

Slide 47

Slide 47 text

skip-gram: 中心のある単語から周辺 の単語を予測し,単語の埋め込み表現 を獲得 ● コロナ ビール で 乾杯 ● コロナ で 療養 中 単語分散表現(本研究では word2vec) Corpus 2019 単語分散表現 [石原ら24b] 図 2 を解説用に改変 75

Slide 48

Slide 48 text

Twitter コーパスを用いて、新型コロナ ウイルス感染症による単語の意味変化 を 分析した Guo ら の手法 Guo らの手法:単語の意味変化の安定性 Corpus 2019 Corpus 2020 単語分散表現 頻出単語 両方向へのマッピング 76

Slide 49

Slide 49 text

提案:平均を変化の代表値として採用 「Semantic Shift Stability」と呼ぶ Corpus 2019 Corpus 2020 単語分散表現 頻出単語 両方向へのマッピング ※コサイン類似度の 平均値なので、小さ いほど変化が大きい 実装: https://github.com /Nikkei/semantic-s hift-stability 77

Slide 50

Slide 50 text

日本語 (Nikkei) でも英語 (NOW) でも 2019-2020 年の値が最も小さい => 意味変化が最も大きい Semantic Shift Stability の変遷 [石原ら24b] 図 5 を解説用に改変 78

Slide 51

Slide 51 text

stab の頻度分布から、要因を分析 Nikkei NOW [石原ら24b] 図 6 を解説用に改変 79

Slide 52

Slide 52 text

2019-2020 年の違いの分析 80

Slide 53

Slide 53 text

[石原ら24b] 表 6:Nikkei の「コロナ」の類義語上位 3 件の変遷 2020 年から「コロナ」の意味が変化 81

Slide 54

Slide 54 text

2015-2016 年の値も小さい Semantic Shift Stability が Nikkei で 3 番目 ,NOW で 2 番目に小さい 82

Slide 55

Slide 55 text

2015-2016 年の違いの分析 83

Slide 56

Slide 56 text

2016 年から「トランプ」の意味が変化 [石原ら24b] 表 9:Nikkei の「トランプ」の類義語上位 3 件の変遷 84

Slide 57

Slide 57 text

● 事前学習済みモデルの可能性の模索 ○ 日経電子版特化 /自社ならではのメタデータの 活用 (記事公開日やユーザ行動 など) ● 事前学習済みモデルの課題への対応 ○ 幻覚の制御 / 知識編集 / 再学習 など 今後の展望 85

Slide 58

Slide 58 text

今日の話題 86 ● ニュースメディア x 情報技術 ○ ニュースが皆さんに届 まで ○ 情報技術 for ニュースメディアの特徴 ○ 大規模言語モデルの可能性と課題 ● 情報技術 for ◯◯◯ とは?

Slide 59

Slide 59 text

● 関心がある業界または会社を一つ思い浮 かべて ださい ● その業界または会社で、情報技術で自動 化すべき・自動化すべきでない とを、 それぞれ一つ以上教えて ださい 皆さんへの質問 87

Slide 60

Slide 60 text

情報技術は万能……ではない 88 適用先の特性を踏まえて ● そもそも使うべきか? ● 何を入出力・目的関数にすべき か?

Slide 61

Slide 61 text

そもそも使うべきか? 89 ● 公式がある・ない? ● 入出力がある・ない? ● 誤りが許容される・されない?

Slide 62

Slide 62 text

1. 収集:インターネット上の大量の情報も対象に 2. 編集:情報技術を駆使した効率化も可能に 3. 提供:推薦の需要の増加、記事データベース化、 ウェブ・スマホ向 アプリ開発 など 4. 計測:顧客の反響が即座に得られるように コンテンツやユーザ行動が「データ」に 90

Slide 63

Slide 63 text

人がやるべき部分に注 力できるよう、データ サイエンスを活用

Slide 64

Slide 64 text

何を入出力・目的関数にすべきか? 92 ● 目的関数を誤ると大変な とに ● 入出力はど まで信頼できる?

Slide 65

Slide 65 text

良いニュース記事? 93 ● クリック率が高い記事? ● 長 読まれる記事? ● 有料購読に繋がった記事?

Slide 66

Slide 66 text

良いニュース記事の推薦? 94 ● 過去に読んだ記 事と近い記事? ● 他にもある? NEW

Slide 67

Slide 67 text

本当にこれで良い? 95 ● フィルターバブル:自分の好みの内容だ が配信されて視野が狭 なる ● エコーチェンバー:自分と同じ意見ばか りに接する とで、自分の意見が絶対的 だと誤解してしまう

Slide 68

Slide 68 text

たくさん挑戦してください 100 得意・好き 苦手・嫌い NEW

Slide 69

Slide 69 text

いつでも質問・相談してください 石原祥太郎 https://upura.github.io/ 101

Slide 70

Slide 70 text

参考文献 https://hack.nikkei.com/publications/ 102 ● [Ishihara&Nakama22a] Shotaro Ishihara and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. Proceedings of C+J 2022. ● [Ishihara&Nakama22b] Shotaro Ishihara and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. Proceedings of BigData 2022. ● [石原ら24a] 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向 たドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. ● [石原ら24b] 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の 意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 2024, 31巻, 4号. ● [大村ら23] 大村和正, 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業 績要因文の抽出. 言語処理学会第29回年次大会発表論文集. ● [澤田ら24] 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づ 日経企業IDリンキングシステムの構築と分析. 自然言語処理, 2024, 31巻, 3号.

Slide 71

Slide 71 text

103 ● [Sonoda+24] Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima (2024). User Experiments on the Effect of the Diversity of Consumption on News Services. IEEE Access, vol. 12, pp. 31841-31852. ● [白井&石原24] 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向 た日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. ● [増田ら24] 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測にお る共変量シフト問題の 抑制. 第14回データ工学と情報マネジメントに関するフォーラム. ● [高橋ら22] 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる 意味変化検出. 言語処理学会第28回年次大会発表論文集. ● [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景 からのニュース推薦. 第210回情報処理学会ヒューマンコンピュータインタラクション研究会. ● [Majima&Ishihara23] Kaito Majima* and Shotaro Ishihara* (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of CIKM 2023. (*equal contribution) ● [山田ら22] 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにお る解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム. ● [山田&青田24] 山田健太, 青田雅輝 (2024). マルチモーダルな深層学習手法を用いた政治資金収支報告 書の判読の試み. 2024年度日本選挙学会総会・研究会.