Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

Editors-in-the-loop なニュース記事要約システムの提案 / Editors-in-the-loop News Article Summarization Framework

「Machine Learning Casual Talks #13 (Online)」での発表資料です。
- connpass: https://mlct.connpass.com/event/239953/
- paper: https://ieeexplore.ieee.org/document/9671300

Shotaro Ishihara

March 30, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Business

Transcript

  1. Editors-in-the-loop な
    ニュース記事要約システムの提案
    日本経済新聞社 石原祥太郎
    Machine Learning Casual Talks #13 (Online)
    2022 年 3 月 30 日

    View Slide

  2. 本発表の概要
    2
    ● 機械学習プロジェクトを企業の中で推進していく上で
    「Human-in-the-loop」は意識しておきたい観点
    ● ニュース記事の要約でも、編集者との相互作用を前提としたプロ
    ジェクト設計が大切となると考え、枠組みを提案
    ○ 2021 年度人工知能学会全国大会(優秀賞受賞)
    ○ 「The 5th IEEE Workshop on Human-in-the-Loop Methods and Future of
    Work in BigData」に論文採択
    ● 実運用を見据えた取り組みの概要を紹介します

    View Slide

  3. 自己紹介:石原祥太郎
    3
    ● 日本経済新聞社の研究開発部署で機械学習や自然言語処理技術
    を活用したサービス開発・業務支援に従事
    ● 2013 〜 17年、大学新聞で編集長(紙・デジタル)などを歴任
    ● 事業貢献も踏まえた研究・論文執筆に精力的に取り組み、
    個人活動として Kaggle などの機械学習コンテストにも参加。
    スポーツに関するデータ分析にも関心がある。
    ● 2020年に国際ニュースメディア協会「30 Under 30 Awards」でアジ
    ア太平洋部門の最優秀賞を受賞した

    View Slide

  4. 研究開発部署
    4
    ● ニュース記事は伝統的に多くの研究の題材として活用されており,
    研究の成果を事業に還元しやすい
    ● 2017年には社長直轄の「日経イノベーション・ラボ」を設立
    ○ 業務貢献
    ■ 編集
    ■ 文化事業 https://prtimes.jp/main/html/rd/p/000000422.000011115.html
    ○ 論文 https://hack.nikkei.com/publications/

    View Slide

  5. 目次
    5
    ● Editors-in-the-loop なニュース記事要約システムの提案
    ○ 背景・目的
    ○ 提案する枠組み
    ○ 実験結果・考察
    ● Human-in-the-loop 関連の将来的な展望
    ○ 高度な要約モデルの導入
    ○ 要約システムを超えた展開
    ○ 学会参加を通じて感じたこと

    View Slide

  6. Editors-in-the-loop なニュース記事
    要約システムの提案

    View Slide

  7. プロジェクトの目的
    7
    本プロジェクトでは,日本語のニュース記事から,短文のまとめを自動的
    に生成する手法を考える
    編集者が作成した日経電子版のニュース記事の要約(赤枠)の例

    View Slide

  8. 背景
    8
    ● 日経電子版のトップ記事における「 3 行まとめ」は編集者が作成
    しているが,一定のスキルや労働負荷を必要とする
    ● 自動でニュース記事を要約する仕組みが作れれば,編集者の負
    担を減らしつつ,新たな視点での作成を支援できる
    ● 利用できるデータ量・計算量を考慮しつつ,編集者が理解・活用し
    やすい枠組みの構築を目指す
    日経電子版: https://www.nikkei.com/

    View Slide

  9. 関連研究:記事要約
    9
    ● 抽象型要約
    ○ 株式会社朝日新聞社の見出し生成モデル [Yamada 21]
    ○ Encoder-Decoder モデルでは大規模学習が必要で,制御の難易度も高い
    ● 抽出型要約
    ○ [田中 16] は原文から文融合・文分割を経て候補文を生成した後,構文解析
    で文を圧縮し,最後に整数計画問題を解く
    ○ 文法的な破綻は発生しづらいが、文の表現力が乏しい

    View Slide

  10. 関連研究:Human-in-the-loop
    10
    ● 編集者との連携を前提としたシステム構築
    ○ 表現力の欠如に対処
    ○ [田中 16] への工夫で,文を選択してから圧縮
    ● 要約 × Human-in-the-loop
    ○ Yahoo! の事例などが存在 [Murao 19; Stiennon 20; Laban 20]

    View Slide

  11. 提案する枠組み
    11
    1. 文の選択
    2. 文の圧縮
    3. 出力の活用と編集者の
    フィードバックの反映

    View Slide

  12. 提案手法 ①文の選択
    12
    sentence や document のベクトル化には
    doc2vec[Quoc 14],類似度にはコサイン類似度
    を採用
    選ばれた N 文の関連性と新規性に基づく指標 MMR
    [Jaime 98] を計算する

    View Slide

  13. 文の選択の例
    13
    全ての 3 文の取り出し方から MMR を最大化する組み合わせを選ぶ

    View Slide

  14. 14
    ● y は 0 or 1 で、その sentence (si) を選んだか否か
    ● document (D) は N 文の sentence で構成される
    ● 第 1 項 -> document とベクトルが似ている sentence があればそれぞれ加点
    ○ 記事全体をより良く表す文の候補
    ● 第 2 項 -> 選ばれた 3 文が類似し過ぎていたら減点
    ○ 多様性のある sentence の組み合わせを評価
    MMRによる文選択の定性的な解釈

    View Slide

  15. 提案手法 ②文の圧縮
    15
    構文解析を実施しTF-IDF [Juan 03] で計算した重要な
    単語を残すように,文を列挙していく

    View Slide

  16. 構文解析の例
    16
    ● 根を含む部分木を全列挙する
    ● 最小文字数と最大文字数を事
    前に設定し,要件に合う中で最
    も TF-IDF の値が大きくなる文
    を選択する
    ● 実装には KNP[Daisuke 06] を
    用いた

    View Slide

  17. 提案手法③実際の運用の想定
    17
    ● 一つの記事から 1 通りの要約を出力するのではなく,定量的な指
    標が高い複数の要約候補を列挙する
    ● 編集者の作業:
    ○ 自動生成された要約候補を確認しながら作業
    ○ 修正・加筆・組み合わせなどを経て最終決定
    ○ 特定の要素に重みを与えやすいシステム設計

    View Slide

  18. 実験
    18
    ● 日経電子版で 2019 年 7 月〜 2020 年 2 月に実際に掲載した
    70 記事分の 3 行まとめを用いた
    ● 提案手法の要約結果を,実際の編集者の成果物と比較
    ○ 結果を手動で確認したところ 210 文中 56 文が同一の内容に言及していた
    ○ MMR による文選択の有用性を確認
    ● 全ての結果は,手動で定性的に確認
    ○ TF-IDF による文圧縮に問題がないかなどを確認

    View Slide

  19. 19
    実験結果の例

    View Slide

  20. 20
    手動による確認結果
    約 26.7 %は決して高い値ではないが,文法などの観点を含めて単体とし
    ては誤った要約と言い切れない内容が多かった

    View Slide

  21. カテゴリごとの特徴
    21
    ● 実験でのエラー分析を通じて,ニュース記事のジャンルごとに編
    集者の成果物に次のような傾向があると分かった
    ○ 政治:「誰が」が多く含まれる
    ○ 経済:「具体的な金額」が多く含まれる
    ○ 企業:「企業名」が多く含まれる
    ● 提案手法は,編集者の意図を組み込みやすい利点がある
    ○ たとえば MMR による文抽出や TF-IDF による文圧縮の際に,ジャンルご
    とに特定の要素に重み付け

    View Slide

  22. 結論
    22
    ● 本研究では,MMR による文選択と TF-IDF による文圧縮を用いた
    ニュース記事要約手法を提案した
    ● 実験を通じ,約 26.7 %の正答率で編集者の成果物と内容が一致し
    ,一致しなかった結果も要約として不適切とは言えない文が多いと
    確認した
    ● 提案手法には編集者の意図を組み込みやすい利点があり,編集者
    の負担を減らしながら運用に載せやすい特徴がある

    View Slide

  23. Human-in-the-loop 関連の将来的な
    展望

    View Slide

  24. 高度な要約モデルの導入
    24
    ● 抽象型要約についても研究開発を進めている
    ○ BertSumを用いた日本語ニュース記事の抽象型要約 [石原 21]
    ○ 日経電子版の記事で学習した大規模言語モデル(T5, RoBERTa, GPT-2 な
    ど)
    ● ここでも,編集者との連携を前提としたシステム構築が大切にな
    ると考えている
    ● ドメイン知識 × データ分析技術を活かしていきたい

    View Slide

  25. 要約システムを超えた展開
    25
    ● 要約するだけでなく,それぞれのクリック率の予測も提示することで
    ,編集者の意思決定の更なる補助に貢献
    ● 2022 年度人工知能学会全国大会で報告予定
    ○ 新聞記事のクリック率予測に向けたペアワイズ学習用データセットの
    構築手法の検討

    View Slide

  26. 学会参加を通じて感じたこと
    26
    ● 基調講演は Google の Lora Aroyo さんによる ”Data Excellence:
    Better Data for Better AI”.
    ● 人間の連携を前提としたシステムやクラウドソーシングの活用など,
    多種多様な発表
    ● 日本からの発表もかなり多かった
    https://humanmachinedata.org/

    View Slide

  27. まとめ
    27
    ● Editors-in-the-loop なニュース記事要約システムの提案
    ○ 背景・目的
    ○ 提案する枠組み
    ○ 実験結果・考察
    ● Human-in-the-loop 関連の将来的な展望
    ○ 高度な要約モデルの導入
    ○ 要約システムを超えた展開
    ○ 学会参加を通じて感じたこと

    View Slide

  28. 謝辞
    28
    ● 共著者である松田祐汰さん(2020 年当時北海道大学大学院)
    ● 共著者である澤紀彦さんをはじめ日本経済新聞社の皆さま
    ● 学会などで議論してくださった皆さま

    View Slide

  29. 参考文献
    29
    ● [Laban 20] Laban, Philippe, Andrew Hsi, John Canny, and Marti A. Hearst. 2020. “The Summary Loop: Learning to Write
    Abstractive Summaries Without Examples.” In Proceedings of the 58th Annual Meeting of the Association for
    Computational Linguistics, 5135–50.
    ● [Murao 19] Murao, Kazuma, Ken Kobayashi, Hayato Kobayashi, Taichi Yatsuka, Takeshi Masuyama, Tatsuru Higurashi,
    and Yoshimune Tabuchi. 2019. “A Case Study on Neural Headline Generation for Editing Support.” In Proceedings of the
    2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language
    Technologies, Volume 2 (Industry Papers), 73–82.
    ● [Stiennon 20] Stiennon, Nisan, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario
    Amodei, and Paul F. Christiano. 2020. “Learning to Summarize with Human Feedback.” Advances in Neural Information
    Processing Systems 33: 3008–21.
    ● [Yamada 21] Yamada, Kosuke, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, and Koichi
    Takeda. 2021. “Transformer-Based Lexically Constrained Headline Generation.” In Proceedings of the 2021 Conference
    on Empirical Methods in Natural Language Processing, 4085–90.
    ● [石原 21] 石原慧人, 石原祥太郎, 白井穂乃 (2021). BertSumを用いた日本語ニュース記事の抽象型要約手法の検討. 2021年
    度人工知能学会全国大会(第35回)論文集.
    ● [田中 16] 田中駿, 笹野遼平, 高村大也, 奥村学. 2016. “要約長,文長,文数制約付きニュース記事要約.” 言語処理学会第22回
    年次大会発表論文集.

    View Slide

  30. ご関心のある方へ
    30
    ● 日本経済新聞社では,メディアの未来を切り拓く人材を
    新卒・キャリア採用を問わず積極的に募集しています
    ● 少しでもご関心ある方は,ぜひ技術ブログ
    https://hack.nikkei.com/ をご参照ください
    ● カジュアル面談も大歓迎です

    View Slide