Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

「Machine Learning Casual Talks #13 (Online)」での発表資料です。
- connpass: https://mlct.connpass.com/event/239953/
- paper: https://ieeexplore.ieee.org/document/9671300

Shotaro Ishihara

March 30, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Business

Transcript

  1. 本発表の概要 2 • 機械学習プロジェクトを企業の中で推進していく上で 「Human-in-the-loop」は意識しておきたい観点 • ニュース記事の要約でも、編集者との相互作用を前提としたプロ ジェクト設計が大切となると考え、枠組みを提案 ◦ 2021

    年度人工知能学会全国大会(優秀賞受賞) ◦ 「The 5th IEEE Workshop on Human-in-the-Loop Methods and Future of Work in BigData」に論文採択 • 実運用を見据えた取り組みの概要を紹介します
  2. 自己紹介:石原祥太郎 3 • 日本経済新聞社の研究開発部署で機械学習や自然言語処理技術 を活用したサービス開発・業務支援に従事 • 2013 〜 17年、大学新聞で編集長(紙・デジタル)などを歴任 •

    事業貢献も踏まえた研究・論文執筆に精力的に取り組み、 個人活動として Kaggle などの機械学習コンテストにも参加。 スポーツに関するデータ分析にも関心がある。 • 2020年に国際ニュースメディア協会「30 Under 30 Awards」でアジ ア太平洋部門の最優秀賞を受賞した
  3. 目次 5 • Editors-in-the-loop なニュース記事要約システムの提案 ◦ 背景・目的 ◦ 提案する枠組み ◦

    実験結果・考察 • Human-in-the-loop 関連の将来的な展望 ◦ 高度な要約モデルの導入 ◦ 要約システムを超えた展開 ◦ 学会参加を通じて感じたこと
  4. 関連研究:記事要約 9 • 抽象型要約 ◦ 株式会社朝日新聞社の見出し生成モデル [Yamada 21] ◦ Encoder-Decoder

    モデルでは大規模学習が必要で,制御の難易度も高い • 抽出型要約 ◦ [田中 16] は原文から文融合・文分割を経て候補文を生成した後,構文解析 で文を圧縮し,最後に整数計画問題を解く ◦ 文法的な破綻は発生しづらいが、文の表現力が乏しい
  5. 14 • y は 0 or 1 で、その sentence (si)

    を選んだか否か • document (D) は N 文の sentence で構成される • 第 1 項 -> document とベクトルが似ている sentence があればそれぞれ加点 ◦ 記事全体をより良く表す文の候補 • 第 2 項 -> 選ばれた 3 文が類似し過ぎていたら減点 ◦ 多様性のある sentence の組み合わせを評価 MMRによる文選択の定性的な解釈
  6. 提案手法③実際の運用の想定 17 • 一つの記事から 1 通りの要約を出力するのではなく,定量的な指 標が高い複数の要約候補を列挙する • 編集者の作業: ◦

    自動生成された要約候補を確認しながら作業 ◦ 修正・加筆・組み合わせなどを経て最終決定 ◦ 特定の要素に重みを与えやすいシステム設計
  7. 実験 18 • 日経電子版で 2019 年 7 月〜 2020 年

    2 月に実際に掲載した 70 記事分の 3 行まとめを用いた • 提案手法の要約結果を,実際の編集者の成果物と比較 ◦ 結果を手動で確認したところ 210 文中 56 文が同一の内容に言及していた ◦ MMR による文選択の有用性を確認 • 全ての結果は,手動で定性的に確認 ◦ TF-IDF による文圧縮に問題がないかなどを確認
  8. カテゴリごとの特徴 21 • 実験でのエラー分析を通じて,ニュース記事のジャンルごとに編 集者の成果物に次のような傾向があると分かった ◦ 政治:「誰が」が多く含まれる ◦ 経済:「具体的な金額」が多く含まれる ◦

    企業:「企業名」が多く含まれる • 提案手法は,編集者の意図を組み込みやすい利点がある ◦ たとえば MMR による文抽出や TF-IDF による文圧縮の際に,ジャンルご とに特定の要素に重み付け
  9. 結論 22 • 本研究では,MMR による文選択と TF-IDF による文圧縮を用いた ニュース記事要約手法を提案した • 実験を通じ,約

    26.7 %の正答率で編集者の成果物と内容が一致し ,一致しなかった結果も要約として不適切とは言えない文が多いと 確認した • 提案手法には編集者の意図を組み込みやすい利点があり,編集者 の負担を減らしながら運用に載せやすい特徴がある
  10. 高度な要約モデルの導入 24 • 抽象型要約についても研究開発を進めている ◦ BertSumを用いた日本語ニュース記事の抽象型要約 [石原 21] ◦ 日経電子版の記事で学習した大規模言語モデル(T5,

    RoBERTa, GPT-2 な ど) • ここでも,編集者との連携を前提としたシステム構築が大切にな ると考えている • ドメイン知識 × データ分析技術を活かしていきたい
  11. 学会参加を通じて感じたこと 26 • 基調講演は Google の Lora Aroyo さんによる ”Data

    Excellence: Better Data for Better AI”. • 人間の連携を前提としたシステムやクラウドソーシングの活用など, 多種多様な発表 • 日本からの発表もかなり多かった https://humanmachinedata.org/
  12. まとめ 27 • Editors-in-the-loop なニュース記事要約システムの提案 ◦ 背景・目的 ◦ 提案する枠組み ◦

    実験結果・考察 • Human-in-the-loop 関連の将来的な展望 ◦ 高度な要約モデルの導入 ◦ 要約システムを超えた展開 ◦ 学会参加を通じて感じたこと
  13. 参考文献 29 • [Laban 20] Laban, Philippe, Andrew Hsi, John

    Canny, and Marti A. Hearst. 2020. “The Summary Loop: Learning to Write Abstractive Summaries Without Examples.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5135–50. • [Murao 19] Murao, Kazuma, Ken Kobayashi, Hayato Kobayashi, Taichi Yatsuka, Takeshi Masuyama, Tatsuru Higurashi, and Yoshimune Tabuchi. 2019. “A Case Study on Neural Headline Generation for Editing Support.” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers), 73–82. • [Stiennon 20] Stiennon, Nisan, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F. Christiano. 2020. “Learning to Summarize with Human Feedback.” Advances in Neural Information Processing Systems 33: 3008–21. • [Yamada 21] Yamada, Kosuke, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, and Koichi Takeda. 2021. “Transformer-Based Lexically Constrained Headline Generation.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 4085–90. • [石原 21] 石原慧人, 石原祥太郎, 白井穂乃 (2021). BertSumを用いた日本語ニュース記事の抽象型要約手法の検討. 2021年 度人工知能学会全国大会(第35回)論文集. • [田中 16] 田中駿, 笹野遼平, 高村大也, 奥村学. 2016. “要約長,文長,文数制約付きニュース記事要約.” 言語処理学会第22回 年次大会発表論文集.