要約事例を用例として模倣利用したニュース記事要約

 要約事例を用例として模倣利用したニュース記事要約

牧野 恵. 要約事例を用例として模倣利用したニュース記事要約. 長岡技術科学大学修士論文 (2008.3)

Transcript

  1. 5.

    情報へ効率よくアクセスするために  現在の言語処理技術において ✔ ユーザに対する支援技術のシステム • 情報検索 • 文書クラスタリング  

           ✔ システムが提示した候補(文書) • 本当に探している情報なのか? • その候補(文書)の中を読まなくてはならないのが現状 ・・・
  2. 8.

    重要文抽出と文圧縮  対象別にみる要約手法 ✔ ① 文書 ⇒ 1文または複数文へ   ✔ 重要文抽出手法 [Brandow+,95; Zechner,96] タイトル情報

    1 2 3 4 5 6 7 8 9 1 2 3 4 5 … 文の位置 単語の頻度情報 1 3 2 入力:文書 文に対して   重要度を計算 要約 出力: 最も重要だと  判定された文 。
  3. 9.

    重要文抽出と文圧縮  対象別にみる要約手法 ✔ ② 1文 ⇒ 1文へ圧縮   ✔ 文圧縮手法 [Jing+,99; Mani+,04] 1

    2 3 4 5 6 7 8 9 入力:1文 単語や文節に対して   重要度を計算 要約 出力:1文 金融機関の破たん時に、   預金などの払い戻し保証を   一定額までとする「ペイオフ」の   凍結解除を1年延期することが   決まった。 冗長な表現を削除 (不要部分の削除) 単語の頻度情報 「ペイオフ」の凍結解除を1 年延期。
  4. 10.

    文や文節、単語に重要度  既存研究の多くは ✔ 文や文節、単語に重要度を付与して要約 ✔ 文を抽出 or 文を圧縮 

    人間が要約するときには ✔ 多くの情報を考慮している • 経験(どんな内容で要約したらよいのか) • 知識(文法、語の繋がりの知識) ... etc. ✔ 複数文の情報を含んだ要約を作成する  人間と同じような重要度の設定ができるのか?  文抽出や文圧縮では、複数文の情報を含む要約を 作ることができない
  5. 12.

    人間が作成するような要約を  Goal ✔ 重要度の設定なしで、 ✔ 複数文の情報を含んだ、要約文を作成したい  Idea ✔

    入力は1文書 ✔ 複数の文から文節を取ってきて組み合わせる ✔ 要約事例を用例として使用し、 ✔ それを模倣して要約を作成する • 要約事例 : 人間が作った要約文          人間の経験、知識を含んでいる
  6. 14.

    比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  7. 15.

    比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  8. 17.

    類似用例文の検索方法 参入 拡大 入力ニュース記事 要約事例DB 。 。 。 。 。

    。 入力の述語群 参入 改善 決める 着工 類似単語データベース[Lin,98] 参入:[進出|出店|上場] 拡大:[強化|増加|改善] 完成:[開業|開通|着工] 完成 用例文の述語群 +[開業|開通|着工] +[進出|出店|上場] +[強化|増加|改善] 比較 ~参入、...拡大。 ~完成。 入力と述語が一致した用例文 述語一致数   用例文 3 3 2 2 1 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・  ① 述語に注目して検索
  9. 18.

    類似用例文の検索方法  ② 内容語に注目して検索 入力と述語が一致した用例 述語一致数  用例文 3 3   2

    2 1 。 。 。 。 。 入力ニュース記事 。 。 。 。 入力の内容語群 社長 日 狙い 事業 … 社長, 日, 会社, 狙い ... 用例文の内容語群 と 内容語数 半導体,業種, 事業, ... 比較 9形態素 8形態素 類似用例文の出力 順位 述語一致数 内容語一致率     用例文 1 2 3 4 5 3 3 2 2 1 0.8 0.6 0.7 0.5 0.4 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・ ・・・ 。
  10. 19.

    比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  11. 20.

    文節の対応付け  類似用例文と入力ニュース記事の文節を比較 ✔ 類似している文節を対応付ける ✔ 1 対 多 で対応付け 

    3つの対応付け尺度 ✔ 助詞の一致 ✔ 固有表現タグの一致 ✔ 単語間類似度 類似用例文の文節 入力ニュース記事の文節
  12. 21.

    文節の対応付け  助詞の一致 ✔ 目的 • 同じような使われ方をしている文節を対応付ける • (主語、目的語など) 

    固有表現タグの一致 ✔ 目的 • 固有表現のまとまりが同じ単語を含む文節を対応付ける 私が    彼が (ガ格) 計画を   予定を  (ヲ格) ソニーを Panasonicに (ORGANIZATION) 21日、   昨年 (DATE)   
  13. 22.

    文節の対応付け  単語間類似度 ✔ 目的 • 意味の似ている単語、使われ方の似ている単語を含む 文節を対応付ける ✔ 類似単語データベース[Lin,98]を使用

    • 新聞10年分のテキストを使用し、あらかじめDBを自動作成した • 同じような係り受けをもつ単語は類似度が高い ✔ 類似用例文の文節1つに対して、  類似度の高かった入力の文節上位3つを対応付ける 事務所 :: 支店(0.22)、室 (0.22)、センター(0.21)、… 値上げ :: 引き上げ(0.24)、値下げ(0.22)、引き下げ(0.22)、… スポーツ :: サッカー(0.16)、ゴルフ(0.15)、ビジネス(0.14)、… 類似度
  14. 23.

    文節の対応付け例 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … 助詞の一致: 東芝は 同社は 固有表現タグの一致: 東芝は 単語間類似度: 東芝は NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  15. 24.

    NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度:    ~CTを   文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  16. 25.

    NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: (なし) 固有表現タグの一致: (なし) 単語間類似度: 実用化した。   文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  17. 26.

    NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: (なし) 固有表現タグの一致: 来年六月に 単語間類似度: 来年六月に 文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  18. 27.

    NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度: 発売を 文節の対応付け例
  19. 28.

    NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: (なし) 固有表現タグの一致: (なし) 単語間類似度: 始め、 文節の対応付け例
  20. 30.

    比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  21. 31.

    対応文節の組合せ  文節の対応付け ✔ 1 対 多 の文節対応  得られた対応文節を組み合わせて要約文を出力 

    どんな要約文を作るか?(目的) ✔ 内容がまとまっている方が良い ✔ ① 要約文は類似用例文の文節に似ている文節で構成さ れていること。 ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。
  22. 35.

     どんな要約文を作るか?(目的) ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。  エッジスコア 対応文節の組合せ

    ノードniの文節が入力記事の何文目に含まれているか ノードni-1が3文目 ⇒ ノードniが1文目  のように文節が逆に戻る
  23. 36.

     ラティスを作る 類似用例文 <s> a c d </s> e b

    A L D O E Best path : <s> A L O D E </s> 対応文節の組合せ 1 1 1 1 2 2 2 2 2 2 5 5 7 7 10 10 1 1
  24. 39.

    評価実験 ~実験条件~  どのくらいの精度で要約文が作れるのか? ✔ 自動評価 ✔ 人手による評価  テストデータ ✔

    要約事例データベース • 27036文の用例文(メール配信されているニュース速報の文) ✔ 入力するニュース記事(日経新聞98年版) • 1から3文(短めの記事)で構成されているニュース記事100件 • 4から10文(長めの記事)で構成されているニュース記事100件  比較手法 [Hori,02] ✔ 複数文の語を組み合わせて要約文を作成 • 重要度(tf*idf)+ • 語の繋がり(2gram)  を最大にするパスを見つける 未 現在、被験者3人で評価を実施しているところ。
  25. 40.

     自動評価 ✔ 評価型Workshop[DUC;TSC]で用いられている評価尺度 ✔ BLEUスコア (Min:0, Max:1) • 正解文との類似度を測る(1~4

    gram までの適合率) ✔ ROUGE-N (Min:0, Max:1) • 正解文との類似度を測る • ROUGE-1(1gramの再現率) • ROUGE-2(2gramの再現率) ✔ 複数の正解文に対応した尺度 ✔ 3人それぞれがテストデータを読み、正解文を作成 評価実験 ~実験条件~
  26. 42.

    評価結果  BLEUスコアによる評価結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果  長めの記事を入力 ✔

    精度低下率が少ない テストデータの種類 比較手法 本手法 0.299 0.598 0.131 0.424 1-3文:短めの入力データ 4-10文:長めの入力データ 56% 29%
  27. 43.

    評価結果  ROUGE-1、ROUGE-2の結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果 評価尺度 テストデータの種類 比較手法

    本手法 ROUGE-1 0.462 0.631 0.318 0.509 ROUGE-2 0.345 0.536 0.193 0.381 1-3文:短めの入力データ 4-10文:長めの入力データ 1-3文:短めの入力データ 4-10文:長めの入力データ
  28. 44.

    作成された要約文について  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事 

    テストデータ:4から10文で構成されている入力記事 圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中)
  29. 45.

     何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事  テストデータ:4から10文で構成されている入力記事

    圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 作成された要約文について 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文
  30. 46.

     何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事  テストデータ:4から10文で構成されている入力記事

    圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文 作成された要約文について 複数の文を1文に圧縮することができた
  31. 47.

    出力した要約文の観察より  現在の手法 ✔ 類似用例文1文を検索、それを真似て要約文作成  1位の類似用例文だけが本当にいいのか?  まずは観察してみた ✔

    上位N位の類似用例文を検索 ✔ それぞれから要約文を作成 ✔ 観察により、1位以外の類似用例文に模倣利用して作った 要約文でもよいのはある
  32. 48.
  33. 49.

     BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A B

    C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 出力した要約文の観察より BLEUスコア 0.462
  34. 50.

     BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A B

    C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 BLEUスコア 0.542 出力した要約文の観察より … 0.482 0.542 0.523
  35. 51.

     BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合  上位10件まで用いた方が良い結果に。 ✔ 文を作成してから、

    ✔ その文がどれだけ良いのか(異なる尺度で測る) ✔ リランキング 出力した要約文の観察より テストデータの種類 0.598 0.807 1位 上位10位まで 1-3文:短めの入力データ 未 Skip2gram, 2gram, 品詞2gramを使った尺度で実装中
  36. 53.

    結論  人間が要約文を作成するときはいろいろな知識、経 験を生かしている  そのため重要度の設定は難しい  重要度の設定をせずに、要約事例を用例として使っ た要約手法を提案 

    結果  複数文の文節を組み合わせて1文へ要約することができ た  自動評価BLEU、ROUGEを行った結果、比較手法より優 れた結果が得られた
  37. 62.

    得られた要約文の例1 • 複数文を一文へ 複数文を一文へ • 三十日午後二時十分ごろ、剣淵町の国道40号で、旭川市東旭 川町下兵村二二八、農業南部正さんの乗用車と、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突した。 乗用車の四人のうち、南部さんと妻の喜美子さん、士別市東山町 三〇二、無職池沢一郎さんの三人が頭を打つなどして死亡、旭

    川市東旭川北一条四ノ一ノ二八、無職真岩高子さんも左足の骨 を折る重傷を負った。原さんにけがはなかった。  • イラク中部で28日深夜、油送管が爆発し74人が死亡   • 剣淵町の国道40号で三十日午後二時十分ごろ、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突し南部 さんと妻の喜美子さん、士別市東山町三〇二、無職池沢一郎さ んの三人が死亡