Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

Editors-in-the-loop なニュース記事要約システムの提案日本経済新聞社石原祥太郎 Machine Learning Casual Talks #13
(Online) 2022 年 3 月 30 日

本発表の概要 2 • 機械学習プロジェクトを企業の中で推進していく上で「Human-in-the-loop」は意識しておきたい観点 • ニュース記事の要約でも、編集者との相互作用を前提としたプロジェクト設計が大切となると考え、枠組みを提案 ◦ 2021
年度人工知能学会全国大会（優秀賞受賞） ◦ 「The 5th IEEE Workshop on Human-in-the-Loop Methods and Future of Work in BigData」に論文採択 • 実運用を見据えた取り組みの概要を紹介します

自己紹介：石原祥太郎 3 • 日本経済新聞社の研究開発部署で機械学習や自然言語処理技術を活用したサービス開発・業務支援に従事 • 2013 〜 17年、大学新聞で編集長（紙・デジタル）などを歴任 •
事業貢献も踏まえた研究・論文執筆に精力的に取り組み、個人活動として Kaggle などの機械学習コンテストにも参加。スポーツに関するデータ分析にも関心がある。 • 2020年に国際ニュースメディア協会「30 Under 30 Awards」でアジア太平洋部門の最優秀賞を受賞した

研究開発部署 4 • ニュース記事は伝統的に多くの研究の題材として活用されており，研究の成果を事業に還元しやすい • 2017年には社長直轄の「日経イノベーション・ラボ」を設立 ◦ 業務貢献 ▪
編集 ▪ 文化事業 https://prtimes.jp/main/html/rd/p/000000422.000011115.html ◦ 論文 https://hack.nikkei.com/publications/

目次 5 • Editors-in-the-loop なニュース記事要約システムの提案 ◦ 背景・目的 ◦ 提案する枠組み ◦
実験結果・考察 • Human-in-the-loop 関連の将来的な展望 ◦ 高度な要約モデルの導入 ◦ 要約システムを超えた展開 ◦ 学会参加を通じて感じたこと

Editors-in-the-loop なニュース記事要約システムの提案

プロジェクトの目的 7 本プロジェクトでは，日本語のニュース記事から，短文のまとめを自動的に生成する手法を考える編集者が作成した日経電子版のニュース記事の要約(赤枠)の例

背景 8 • 日経電子版のトップ記事における「 3 行まとめ」は編集者が作成しているが，一定のスキルや労働負荷を必要とする • 自動でニュース記事を要約する仕組みが作れれば，編集者の負担を減らしつつ，新たな視点での作成を支援できる
• 利用できるデータ量・計算量を考慮しつつ，編集者が理解・活用しやすい枠組みの構築を目指す日経電子版: https://www.nikkei.com/

関連研究：記事要約 9 • 抽象型要約 ◦ 株式会社朝日新聞社の見出し生成モデル [Yamada 21] ◦ Encoder-Decoder
モデルでは大規模学習が必要で，制御の難易度も高い • 抽出型要約 ◦ [田中 16] は原文から文融合・文分割を経て候補文を生成した後，構文解析で文を圧縮し，最後に整数計画問題を解く ◦ 文法的な破綻は発生しづらいが、文の表現力が乏しい

関連研究：Human-in-the-loop 10 • 編集者との連携を前提としたシステム構築 ◦ 表現力の欠如に対処 ◦ [田中 16] への工夫で，文を選択してから圧縮
• 要約 × Human-in-the-loop ◦ Yahoo! の事例などが存在 [Murao 19; Stiennon 20; Laban 20]

提案する枠組み 11 1. 文の選択 2. 文の圧縮 3. 出力の活用と編集者のフィードバックの反映

提案手法 ①文の選択 12 sentence や document のベクトル化には doc2vec[Quoc 14]，類似度にはコサイン類似度を採用
選ばれた N 文の関連性と新規性に基づく指標 MMR [Jaime 98] を計算する

文の選択の例 13 全ての 3 文の取り出し方から MMR を最大化する組み合わせを選ぶ

14 • y は 0 or 1 で、その sentence (si)
を選んだか否か • document (D) は N 文の sentence で構成される • 第 1 項 -> document とベクトルが似ている sentence があればそれぞれ加点 ◦ 記事全体をより良く表す文の候補 • 第 2 項 -> 選ばれた 3 文が類似し過ぎていたら減点 ◦ 多様性のある sentence の組み合わせを評価 MMRによる文選択の定性的な解釈

提案手法 ②文の圧縮 15 構文解析を実施しTF-IDF [Juan 03] で計算した重要な単語を残すように，文を列挙していく

構文解析の例 16 • 根を含む部分木を全列挙する • 最小文字数と最大文字数を事前に設定し，要件に合う中で最も TF-IDF の値が大きくなる文
を選択する • 実装には KNP[Daisuke 06] を用いた

提案手法③実際の運用の想定 17 • 一つの記事から 1 通りの要約を出力するのではなく，定量的な指標が高い複数の要約候補を列挙する • 編集者の作業： ◦
自動生成された要約候補を確認しながら作業 ◦ 修正・加筆・組み合わせなどを経て最終決定 ◦ 特定の要素に重みを与えやすいシステム設計

実験 18 • 日経電子版で 2019 年 7 月〜 2020 年
2 月に実際に掲載した 70 記事分の 3 行まとめを用いた • 提案手法の要約結果を，実際の編集者の成果物と比較 ◦ 結果を手動で確認したところ 210 文中 56 文が同一の内容に言及していた ◦ MMR による文選択の有用性を確認 • 全ての結果は，手動で定性的に確認 ◦ TF-IDF による文圧縮に問題がないかなどを確認

19 実験結果の例

20 手動による確認結果約 26.7 %は決して高い値ではないが，文法などの観点を含めて単体としては誤った要約と言い切れない内容が多かった

カテゴリごとの特徴 21 • 実験でのエラー分析を通じて，ニュース記事のジャンルごとに編集者の成果物に次のような傾向があると分かった ◦ 政治:「誰が」が多く含まれる ◦ 経済:「具体的な金額」が多く含まれる ◦
企業:「企業名」が多く含まれる • 提案手法は，編集者の意図を組み込みやすい利点がある ◦ たとえば MMR による文抽出や TF-IDF による文圧縮の際に，ジャンルごとに特定の要素に重み付け

結論 22 • 本研究では，MMR による文選択と TF-IDF による文圧縮を用いたニュース記事要約手法を提案した • 実験を通じ，約
26.7 %の正答率で編集者の成果物と内容が一致し，一致しなかった結果も要約として不適切とは言えない文が多いと確認した • 提案手法には編集者の意図を組み込みやすい利点があり，編集者の負担を減らしながら運用に載せやすい特徴がある

Human-in-the-loop 関連の将来的な展望

高度な要約モデルの導入 24 • 抽象型要約についても研究開発を進めている ◦ BertSumを用いた日本語ニュース記事の抽象型要約 [石原 21] ◦ 日経電子版の記事で学習した大規模言語モデル（T5,
RoBERTa, GPT-2 など） • ここでも，編集者との連携を前提としたシステム構築が大切になると考えている • ドメイン知識 × データ分析技術を活かしていきたい

要約システムを超えた展開 25 • 要約するだけでなく，それぞれのクリック率の予測も提示することで，編集者の意思決定の更なる補助に貢献 • 2022 年度人工知能学会全国大会で報告予定 ◦ 新聞記事のクリック率予測に向けたペアワイズ学習用データセットの
構築手法の検討

学会参加を通じて感じたこと 26 • 基調講演は Google の Lora Aroyo さんによる ”Data
Excellence: Better Data for Better AI”． • 人間の連携を前提としたシステムやクラウドソーシングの活用など，多種多様な発表 • 日本からの発表もかなり多かった https://humanmachinedata.org/

まとめ 27 • Editors-in-the-loop なニュース記事要約システムの提案 ◦ 背景・目的 ◦ 提案する枠組み ◦
実験結果・考察 • Human-in-the-loop 関連の将来的な展望 ◦ 高度な要約モデルの導入 ◦ 要約システムを超えた展開 ◦ 学会参加を通じて感じたこと

謝辞 28 • 共著者である松田祐汰さん（2020 年当時北海道大学大学院） • 共著者である澤紀彦さんをはじめ日本経済新聞社の皆さま • 学会などで議論してくださった皆さま

参考文献 29 • [Laban 20] Laban, Philippe, Andrew Hsi, John
Canny, and Marti A. Hearst. 2020. “The Summary Loop: Learning to Write Abstractive Summaries Without Examples.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5135–50. • [Murao 19] Murao, Kazuma, Ken Kobayashi, Hayato Kobayashi, Taichi Yatsuka, Takeshi Masuyama, Tatsuru Higurashi, and Yoshimune Tabuchi. 2019. “A Case Study on Neural Headline Generation for Editing Support.” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers), 73–82. • [Stiennon 20] Stiennon, Nisan, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F. Christiano. 2020. “Learning to Summarize with Human Feedback.” Advances in Neural Information Processing Systems 33: 3008–21. • [Yamada 21] Yamada, Kosuke, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, and Koichi Takeda. 2021. “Transformer-Based Lexically Constrained Headline Generation.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 4085–90. • [石原 21] 石原慧人, 石原祥太郎, 白井穂乃 (2021). BertSumを用いた日本語ニュース記事の抽象型要約手法の検討. 2021年度人工知能学会全国大会（第35回）論文集. • [田中 16] 田中駿, 笹野遼平, 高村大也, 奥村学. 2016. “要約長，文長，文数制約付きニュース記事要約.” 言語処理学会第22回年次大会発表論文集.

ご関心のある方へ 30 • 日本経済新聞社では，メディアの未来を切り拓く人材を新卒・キャリア採用を問わず積極的に募集しています • 少しでもご関心ある方は，ぜひ技術ブログ https://hack.nikkei.com/ をご参照ください •
カジュアル面談も大歓迎です

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-...

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Business

Featured

Transcript

Editors-in-the-loop なニュース記事要約システムの提案日本経済新聞社石原祥太郎 Machine Learning Casual Talks #13

自己紹介：石原祥太郎 3 • 日本経済新聞社の研究開発部署で機械学習や自然言語処理技術を活用したサービス開発・業務支援に従事 • 2013 〜 17年、大学新聞で編集長（紙・デジタル）などを歴任 •

研究開発部署 4 • ニュース記事は伝統的に多くの研究の題材として活用されており，研究の成果を事業に還元しやすい • 2017年には社長直轄の「日経イノベーション・ラボ」を設立 ◦ 業務貢献 ▪

目次 5 • Editors-in-the-loop なニュース記事要約システムの提案 ◦ 背景・目的 ◦ 提案する枠組み ◦