Slide 1

Slide 1 text

Editors-in-the-loop な ニュース記事要約システムの提案 日本経済新聞社 石原祥太郎 Machine Learning Casual Talks #13 (Online) 2022 年 3 月 30 日

Slide 2

Slide 2 text

本発表の概要 2 ● 機械学習プロジェクトを企業の中で推進していく上で 「Human-in-the-loop」は意識しておきたい観点 ● ニュース記事の要約でも、編集者との相互作用を前提としたプロ ジェクト設計が大切となると考え、枠組みを提案 ○ 2021 年度人工知能学会全国大会(優秀賞受賞) ○ 「The 5th IEEE Workshop on Human-in-the-Loop Methods and Future of Work in BigData」に論文採択 ● 実運用を見据えた取り組みの概要を紹介します

Slide 3

Slide 3 text

自己紹介:石原祥太郎 3 ● 日本経済新聞社の研究開発部署で機械学習や自然言語処理技術 を活用したサービス開発・業務支援に従事 ● 2013 〜 17年、大学新聞で編集長(紙・デジタル)などを歴任 ● 事業貢献も踏まえた研究・論文執筆に精力的に取り組み、 個人活動として Kaggle などの機械学習コンテストにも参加。 スポーツに関するデータ分析にも関心がある。 ● 2020年に国際ニュースメディア協会「30 Under 30 Awards」でアジ ア太平洋部門の最優秀賞を受賞した

Slide 4

Slide 4 text

研究開発部署 4 ● ニュース記事は伝統的に多くの研究の題材として活用されており, 研究の成果を事業に還元しやすい ● 2017年には社長直轄の「日経イノベーション・ラボ」を設立 ○ 業務貢献 ■ 編集 ■ 文化事業 https://prtimes.jp/main/html/rd/p/000000422.000011115.html ○ 論文 https://hack.nikkei.com/publications/

Slide 5

Slide 5 text

目次 5 ● Editors-in-the-loop なニュース記事要約システムの提案 ○ 背景・目的 ○ 提案する枠組み ○ 実験結果・考察 ● Human-in-the-loop 関連の将来的な展望 ○ 高度な要約モデルの導入 ○ 要約システムを超えた展開 ○ 学会参加を通じて感じたこと

Slide 6

Slide 6 text

Editors-in-the-loop なニュース記事 要約システムの提案

Slide 7

Slide 7 text

プロジェクトの目的 7 本プロジェクトでは,日本語のニュース記事から,短文のまとめを自動的 に生成する手法を考える 編集者が作成した日経電子版のニュース記事の要約(赤枠)の例

Slide 8

Slide 8 text

背景 8 ● 日経電子版のトップ記事における「 3 行まとめ」は編集者が作成 しているが,一定のスキルや労働負荷を必要とする ● 自動でニュース記事を要約する仕組みが作れれば,編集者の負 担を減らしつつ,新たな視点での作成を支援できる ● 利用できるデータ量・計算量を考慮しつつ,編集者が理解・活用し やすい枠組みの構築を目指す 日経電子版: https://www.nikkei.com/

Slide 9

Slide 9 text

関連研究:記事要約 9 ● 抽象型要約 ○ 株式会社朝日新聞社の見出し生成モデル [Yamada 21] ○ Encoder-Decoder モデルでは大規模学習が必要で,制御の難易度も高い ● 抽出型要約 ○ [田中 16] は原文から文融合・文分割を経て候補文を生成した後,構文解析 で文を圧縮し,最後に整数計画問題を解く ○ 文法的な破綻は発生しづらいが、文の表現力が乏しい

Slide 10

Slide 10 text

関連研究:Human-in-the-loop 10 ● 編集者との連携を前提としたシステム構築 ○ 表現力の欠如に対処 ○ [田中 16] への工夫で,文を選択してから圧縮 ● 要約 × Human-in-the-loop ○ Yahoo! の事例などが存在 [Murao 19; Stiennon 20; Laban 20]

Slide 11

Slide 11 text

提案する枠組み 11 1. 文の選択 2. 文の圧縮 3. 出力の活用と編集者の フィードバックの反映

Slide 12

Slide 12 text

提案手法 ①文の選択 12 sentence や document のベクトル化には doc2vec[Quoc 14],類似度にはコサイン類似度 を採用 選ばれた N 文の関連性と新規性に基づく指標 MMR [Jaime 98] を計算する

Slide 13

Slide 13 text

文の選択の例 13 全ての 3 文の取り出し方から MMR を最大化する組み合わせを選ぶ

Slide 14

Slide 14 text

14 ● y は 0 or 1 で、その sentence (si) を選んだか否か ● document (D) は N 文の sentence で構成される ● 第 1 項 -> document とベクトルが似ている sentence があればそれぞれ加点 ○ 記事全体をより良く表す文の候補 ● 第 2 項 -> 選ばれた 3 文が類似し過ぎていたら減点 ○ 多様性のある sentence の組み合わせを評価 MMRによる文選択の定性的な解釈

Slide 15

Slide 15 text

提案手法 ②文の圧縮 15 構文解析を実施しTF-IDF [Juan 03] で計算した重要な 単語を残すように,文を列挙していく

Slide 16

Slide 16 text

構文解析の例 16 ● 根を含む部分木を全列挙する ● 最小文字数と最大文字数を事 前に設定し,要件に合う中で最 も TF-IDF の値が大きくなる文 を選択する ● 実装には KNP[Daisuke 06] を 用いた

Slide 17

Slide 17 text

提案手法③実際の運用の想定 17 ● 一つの記事から 1 通りの要約を出力するのではなく,定量的な指 標が高い複数の要約候補を列挙する ● 編集者の作業: ○ 自動生成された要約候補を確認しながら作業 ○ 修正・加筆・組み合わせなどを経て最終決定 ○ 特定の要素に重みを与えやすいシステム設計

Slide 18

Slide 18 text

実験 18 ● 日経電子版で 2019 年 7 月〜 2020 年 2 月に実際に掲載した 70 記事分の 3 行まとめを用いた ● 提案手法の要約結果を,実際の編集者の成果物と比較 ○ 結果を手動で確認したところ 210 文中 56 文が同一の内容に言及していた ○ MMR による文選択の有用性を確認 ● 全ての結果は,手動で定性的に確認 ○ TF-IDF による文圧縮に問題がないかなどを確認

Slide 19

Slide 19 text

19 実験結果の例

Slide 20

Slide 20 text

20 手動による確認結果 約 26.7 %は決して高い値ではないが,文法などの観点を含めて単体とし ては誤った要約と言い切れない内容が多かった

Slide 21

Slide 21 text

カテゴリごとの特徴 21 ● 実験でのエラー分析を通じて,ニュース記事のジャンルごとに編 集者の成果物に次のような傾向があると分かった ○ 政治:「誰が」が多く含まれる ○ 経済:「具体的な金額」が多く含まれる ○ 企業:「企業名」が多く含まれる ● 提案手法は,編集者の意図を組み込みやすい利点がある ○ たとえば MMR による文抽出や TF-IDF による文圧縮の際に,ジャンルご とに特定の要素に重み付け

Slide 22

Slide 22 text

結論 22 ● 本研究では,MMR による文選択と TF-IDF による文圧縮を用いた ニュース記事要約手法を提案した ● 実験を通じ,約 26.7 %の正答率で編集者の成果物と内容が一致し ,一致しなかった結果も要約として不適切とは言えない文が多いと 確認した ● 提案手法には編集者の意図を組み込みやすい利点があり,編集者 の負担を減らしながら運用に載せやすい特徴がある

Slide 23

Slide 23 text

Human-in-the-loop 関連の将来的な 展望

Slide 24

Slide 24 text

高度な要約モデルの導入 24 ● 抽象型要約についても研究開発を進めている ○ BertSumを用いた日本語ニュース記事の抽象型要約 [石原 21] ○ 日経電子版の記事で学習した大規模言語モデル(T5, RoBERTa, GPT-2 な ど) ● ここでも,編集者との連携を前提としたシステム構築が大切にな ると考えている ● ドメイン知識 × データ分析技術を活かしていきたい

Slide 25

Slide 25 text

要約システムを超えた展開 25 ● 要約するだけでなく,それぞれのクリック率の予測も提示することで ,編集者の意思決定の更なる補助に貢献 ● 2022 年度人工知能学会全国大会で報告予定 ○ 新聞記事のクリック率予測に向けたペアワイズ学習用データセットの 構築手法の検討

Slide 26

Slide 26 text

学会参加を通じて感じたこと 26 ● 基調講演は Google の Lora Aroyo さんによる ”Data Excellence: Better Data for Better AI”. ● 人間の連携を前提としたシステムやクラウドソーシングの活用など, 多種多様な発表 ● 日本からの発表もかなり多かった https://humanmachinedata.org/

Slide 27

Slide 27 text

まとめ 27 ● Editors-in-the-loop なニュース記事要約システムの提案 ○ 背景・目的 ○ 提案する枠組み ○ 実験結果・考察 ● Human-in-the-loop 関連の将来的な展望 ○ 高度な要約モデルの導入 ○ 要約システムを超えた展開 ○ 学会参加を通じて感じたこと

Slide 28

Slide 28 text

謝辞 28 ● 共著者である松田祐汰さん(2020 年当時北海道大学大学院) ● 共著者である澤紀彦さんをはじめ日本経済新聞社の皆さま ● 学会などで議論してくださった皆さま

Slide 29

Slide 29 text

参考文献 29 ● [Laban 20] Laban, Philippe, Andrew Hsi, John Canny, and Marti A. Hearst. 2020. “The Summary Loop: Learning to Write Abstractive Summaries Without Examples.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5135–50. ● [Murao 19] Murao, Kazuma, Ken Kobayashi, Hayato Kobayashi, Taichi Yatsuka, Takeshi Masuyama, Tatsuru Higurashi, and Yoshimune Tabuchi. 2019. “A Case Study on Neural Headline Generation for Editing Support.” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers), 73–82. ● [Stiennon 20] Stiennon, Nisan, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F. Christiano. 2020. “Learning to Summarize with Human Feedback.” Advances in Neural Information Processing Systems 33: 3008–21. ● [Yamada 21] Yamada, Kosuke, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, and Koichi Takeda. 2021. “Transformer-Based Lexically Constrained Headline Generation.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 4085–90. ● [石原 21] 石原慧人, 石原祥太郎, 白井穂乃 (2021). BertSumを用いた日本語ニュース記事の抽象型要約手法の検討. 2021年 度人工知能学会全国大会(第35回)論文集. ● [田中 16] 田中駿, 笹野遼平, 高村大也, 奥村学. 2016. “要約長,文長,文数制約付きニュース記事要約.” 言語処理学会第22回 年次大会発表論文集.

Slide 30

Slide 30 text

ご関心のある方へ 30 ● 日本経済新聞社では,メディアの未来を切り拓く人材を 新卒・キャリア採用を問わず積極的に募集しています ● 少しでもご関心ある方は,ぜひ技術ブログ https://hack.nikkei.com/ をご参照ください ● カジュアル面談も大歓迎です