Upgrade to Pro — share decks privately, control downloads, hide ads and more …

要約事例を用例として模倣利用したニュース記事要約

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 要約事例を用例として模倣利用したニュース記事要約

牧野 恵. 要約事例を用例として模倣利用したニュース記事要約. 長岡技術科学大学修士論文 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 情報へ効率よくアクセスするために  現在の言語処理技術において ✔ ユーザに対する支援技術のシステム • 情報検索 • 文書クラスタリング  

           ✔ システムが提示した候補(文書) • 本当に探している情報なのか? • その候補(文書)の中を読まなくてはならないのが現状 ・・・
  2. 重要文抽出と文圧縮  対象別にみる要約手法 ✔ ① 文書 ⇒ 1文または複数文へ   ✔ 重要文抽出手法 [Brandow+,95; Zechner,96] タイトル情報

    1 2 3 4 5 6 7 8 9 1 2 3 4 5 … 文の位置 単語の頻度情報 1 3 2 入力:文書 文に対して   重要度を計算 要約 出力: 最も重要だと  判定された文 。
  3. 重要文抽出と文圧縮  対象別にみる要約手法 ✔ ② 1文 ⇒ 1文へ圧縮   ✔ 文圧縮手法 [Jing+,99; Mani+,04] 1

    2 3 4 5 6 7 8 9 入力:1文 単語や文節に対して   重要度を計算 要約 出力:1文 金融機関の破たん時に、   預金などの払い戻し保証を   一定額までとする「ペイオフ」の   凍結解除を1年延期することが   決まった。 冗長な表現を削除 (不要部分の削除) 単語の頻度情報 「ペイオフ」の凍結解除を1 年延期。
  4. 文や文節、単語に重要度  既存研究の多くは ✔ 文や文節、単語に重要度を付与して要約 ✔ 文を抽出 or 文を圧縮 

    人間が要約するときには ✔ 多くの情報を考慮している • 経験(どんな内容で要約したらよいのか) • 知識(文法、語の繋がりの知識) ... etc. ✔ 複数文の情報を含んだ要約を作成する  人間と同じような重要度の設定ができるのか?  文抽出や文圧縮では、複数文の情報を含む要約を 作ることができない
  5. 人間が作成するような要約を  Goal ✔ 重要度の設定なしで、 ✔ 複数文の情報を含んだ、要約文を作成したい  Idea ✔

    入力は1文書 ✔ 複数の文から文節を取ってきて組み合わせる ✔ 要約事例を用例として使用し、 ✔ それを模倣して要約を作成する • 要約事例 : 人間が作った要約文          人間の経験、知識を含んでいる
  6. 比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  7. 比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  8. 類似用例文の検索方法 参入 拡大 入力ニュース記事 要約事例DB 。 。 。 。 。

    。 入力の述語群 参入 改善 決める 着工 類似単語データベース[Lin,98] 参入:[進出|出店|上場] 拡大:[強化|増加|改善] 完成:[開業|開通|着工] 完成 用例文の述語群 +[開業|開通|着工] +[進出|出店|上場] +[強化|増加|改善] 比較 ~参入、...拡大。 ~完成。 入力と述語が一致した用例文 述語一致数   用例文 3 3 2 2 1 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・  ① 述語に注目して検索
  9. 類似用例文の検索方法  ② 内容語に注目して検索 入力と述語が一致した用例 述語一致数  用例文 3 3   2

    2 1 。 。 。 。 。 入力ニュース記事 。 。 。 。 入力の内容語群 社長 日 狙い 事業 … 社長, 日, 会社, 狙い ... 用例文の内容語群 と 内容語数 半導体,業種, 事業, ... 比較 9形態素 8形態素 類似用例文の出力 順位 述語一致数 内容語一致率     用例文 1 2 3 4 5 3 3 2 2 1 0.8 0.6 0.7 0.5 0.4 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・ ・・・ 。
  10. 比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  11. 文節の対応付け  類似用例文と入力ニュース記事の文節を比較 ✔ 類似している文節を対応付ける ✔ 1 対 多 で対応付け 

    3つの対応付け尺度 ✔ 助詞の一致 ✔ 固有表現タグの一致 ✔ 単語間類似度 類似用例文の文節 入力ニュース記事の文節
  12. 文節の対応付け  助詞の一致 ✔ 目的 • 同じような使われ方をしている文節を対応付ける • (主語、目的語など) 

    固有表現タグの一致 ✔ 目的 • 固有表現のまとまりが同じ単語を含む文節を対応付ける 私が    彼が (ガ格) 計画を   予定を  (ヲ格) ソニーを Panasonicに (ORGANIZATION) 21日、   昨年 (DATE)   
  13. 文節の対応付け  単語間類似度 ✔ 目的 • 意味の似ている単語、使われ方の似ている単語を含む 文節を対応付ける ✔ 類似単語データベース[Lin,98]を使用

    • 新聞10年分のテキストを使用し、あらかじめDBを自動作成した • 同じような係り受けをもつ単語は類似度が高い ✔ 類似用例文の文節1つに対して、  類似度の高かった入力の文節上位3つを対応付ける 事務所 :: 支店(0.22)、室 (0.22)、センター(0.21)、… 値上げ :: 引き上げ(0.24)、値下げ(0.22)、引き下げ(0.22)、… スポーツ :: サッカー(0.16)、ゴルフ(0.15)、ビジネス(0.14)、… 類似度
  14. 文節の対応付け例 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … 助詞の一致: 東芝は 同社は 固有表現タグの一致: 東芝は 単語間類似度: 東芝は NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  15. NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度:    ~CTを   文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  16. NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: (なし) 固有表現タグの一致: (なし) 単語間類似度: 実用化した。   文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  17. NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … 助詞の一致: (なし) 固有表現タグの一致: 来年六月に 単語間類似度: 来年六月に 文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  18. NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度: 発売を 文節の対応付け例
  19. NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事> <類似用例文>

    比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: (なし) 固有表現タグの一致: (なし) 単語間類似度: 始め、 文節の対応付け例
  20. 比較 a b c d e 。 A B C

    D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の検索  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  21. 対応文節の組合せ  文節の対応付け ✔ 1 対 多 の文節対応  得られた対応文節を組み合わせて要約文を出力 

    どんな要約文を作るか?(目的) ✔ 内容がまとまっている方が良い ✔ ① 要約文は類似用例文の文節に似ている文節で構成さ れていること。 ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。
  22.  どんな要約文を作るか?(目的) ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。  エッジスコア 対応文節の組合せ

    ノードniの文節が入力記事の何文目に含まれているか ノードni-1が3文目 ⇒ ノードniが1文目  のように文節が逆に戻る
  23.  ラティスを作る 類似用例文 <s> a c d </s> e b

    A L D O E Best path : <s> A L O D E </s> 対応文節の組合せ 1 1 1 1 2 2 2 2 2 2 5 5 7 7 10 10 1 1
  24. 評価実験 ~実験条件~  どのくらいの精度で要約文が作れるのか? ✔ 自動評価 ✔ 人手による評価  テストデータ ✔

    要約事例データベース • 27036文の用例文(メール配信されているニュース速報の文) ✔ 入力するニュース記事(日経新聞98年版) • 1から3文(短めの記事)で構成されているニュース記事100件 • 4から10文(長めの記事)で構成されているニュース記事100件  比較手法 [Hori,02] ✔ 複数文の語を組み合わせて要約文を作成 • 重要度(tf*idf)+ • 語の繋がり(2gram)  を最大にするパスを見つける 未 現在、被験者3人で評価を実施しているところ。
  25.  自動評価 ✔ 評価型Workshop[DUC;TSC]で用いられている評価尺度 ✔ BLEUスコア (Min:0, Max:1) • 正解文との類似度を測る(1~4

    gram までの適合率) ✔ ROUGE-N (Min:0, Max:1) • 正解文との類似度を測る • ROUGE-1(1gramの再現率) • ROUGE-2(2gramの再現率) ✔ 複数の正解文に対応した尺度 ✔ 3人それぞれがテストデータを読み、正解文を作成 評価実験 ~実験条件~
  26. 評価結果  BLEUスコアによる評価結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果  長めの記事を入力 ✔

    精度低下率が少ない テストデータの種類 比較手法 本手法 0.299 0.598 0.131 0.424 1-3文:短めの入力データ 4-10文:長めの入力データ 56% 29%
  27. 評価結果  ROUGE-1、ROUGE-2の結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果 評価尺度 テストデータの種類 比較手法

    本手法 ROUGE-1 0.462 0.631 0.318 0.509 ROUGE-2 0.345 0.536 0.193 0.381 1-3文:短めの入力データ 4-10文:長めの入力データ 1-3文:短めの入力データ 4-10文:長めの入力データ
  28. 作成された要約文について  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事 

    テストデータ:4から10文で構成されている入力記事 圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中)
  29.  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事  テストデータ:4から10文で構成されている入力記事

    圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 作成された要約文について 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文
  30.  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事  テストデータ:4から10文で構成されている入力記事

    圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文 作成された要約文について 複数の文を1文に圧縮することができた
  31. 出力した要約文の観察より  現在の手法 ✔ 類似用例文1文を検索、それを真似て要約文作成  1位の類似用例文だけが本当にいいのか?  まずは観察してみた ✔

    上位N位の類似用例文を検索 ✔ それぞれから要約文を作成 ✔ 観察により、1位以外の類似用例文に模倣利用して作った 要約文でもよいのはある
  32.  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A B

    C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 出力した要約文の観察より BLEUスコア 0.462
  33.  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A B

    C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 BLEUスコア 0.542 出力した要約文の観察より … 0.482 0.542 0.523
  34.  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合  上位10件まで用いた方が良い結果に。 ✔ 文を作成してから、

    ✔ その文がどれだけ良いのか(異なる尺度で測る) ✔ リランキング 出力した要約文の観察より テストデータの種類 0.598 0.807 1位 上位10位まで 1-3文:短めの入力データ 未 Skip2gram, 2gram, 品詞2gramを使った尺度で実装中
  35. 結論  人間が要約文を作成するときはいろいろな知識、経 験を生かしている  そのため重要度の設定は難しい  重要度の設定をせずに、要約事例を用例として使っ た要約手法を提案 

    結果  複数文の文節を組み合わせて1文へ要約することができ た  自動評価BLEU、ROUGEを行った結果、比較手法より優 れた結果が得られた
  36. 得られた要約文の例1 • 複数文を一文へ 複数文を一文へ • 三十日午後二時十分ごろ、剣淵町の国道40号で、旭川市東旭 川町下兵村二二八、農業南部正さんの乗用車と、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突した。 乗用車の四人のうち、南部さんと妻の喜美子さん、士別市東山町 三〇二、無職池沢一郎さんの三人が頭を打つなどして死亡、旭

    川市東旭川北一条四ノ一ノ二八、無職真岩高子さんも左足の骨 を折る重傷を負った。原さんにけがはなかった。  • イラク中部で28日深夜、油送管が爆発し74人が死亡   • 剣淵町の国道40号で三十日午後二時十分ごろ、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突し南部 さんと妻の喜美子さん、士別市東山町三〇二、無職池沢一郎さ んの三人が死亡