Upgrade to Pro — share decks privately, control downloads, hide ads and more …

要約文の選定による用例利用型要約の可読性向上

 要約文の選定による用例利用型要約の可読性向上

牧野 恵, 山本 和英. 要約文の選定による用例利用型要約の可読性向上. 言語処理学会第14回年次大会, pp.500-503 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 情報へ効率よくアクセスするために  情報爆発時代の到来 ✔ インターネットの普及 ✔ 企業に対するe-文書法の施行  現在の言語処理技術において

    ✔ ユーザに対する支援技術のシステム • 情報検索 • 文書クラスタリング          ✔ 自動要約の技術に注目 ✔ 文書の要約文を提示する ✔ ユーザは効率的に文書を読むことができる ・・・
  2. 3 既存研究 : 文抽出と文圧縮  文抽出手法 [Brandow+,95; Zechner,96] ✔ 1文書 ⇒ 重要な文を取り出す

     文圧縮手法 [Jing+,99; Mani+,04] ✔ 1文 ⇒ 1文へ圧縮    既存研究の多くは ✔ 文や文節、単語に重要度を付与して要約
  3. 4 人間が行う要約  人間が要約するときには ✔ 多くの情報を考慮している • 経験(どんな内容で要約したらよいのか) • 知識(文法、語の繋がりの知識) ...

    etc. ✔ 複数文の情報を含んだ要約文を作成する  人間と同じような重要度の設定ができるのか?   既存研究では、複数文の情報を含む                 要約文を作ることができない
  4. 6 人間が作成するような要約を  Goal ✔ 重要度の設定を行わずに、 ✔ 複数文の情報を含んだ、要約文の作成  Idea

    ✔ 要約事例を用例として使用し、 ✔ それを模倣して要約を作成する • 要約事例 : 人間が作った要約文          人間の経験、知識を含んでいる ✔ 入力は1文書
  5. 7 • 入力記事    三十日午後二時十分ごろ、剣淵町の国道40号で、旭川市東旭川町 下兵村二二八、農業南部正さんの乗用車と、旭川市流通団地二条二ノ 四三、運転手原政運さんのトラックが正面衝突した。乗用車の四人のう ち、南部さんと妻の喜美子さん、士別市東山町三〇二、無職池沢一郎さ んの三人が頭を打つなどして死亡、旭川市東旭川北一条四ノ一ノ二八、 無職真岩高子さんも左足の骨を折る重傷を負った。原さんにけがはなか った。 

     要約事例    イラク中部で28日深夜、油送管が爆発し74人が死亡  出力する要約文    剣淵町の国道40号で三十日午後二時十分ごろ、旭川市流通団地二 条二ノ四三、運転手原政運さんのトラックが正面衝突し南部さんと妻の 喜美子さん、士別市東山町三〇二、無職池沢一郎さんの三人が死亡。 重要度の設定をせずに複数文を1文へ
  6. 8 比較 a b c d e 。 A B

    C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 1文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の獲得  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  7. 9 比較 a b c d e 。 A B

    C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の獲得  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける 類似用例文 1文 a b c d e 。
  8. 10 類似用例文の獲得  内容の類似性をどこで測るのか? ✔ 述語  • 文の形(格)を決める • 文の主題となる

    ✔ 内容語 (名詞、動詞、形容詞などの語) • 文の具体的な内容を表す  類似用例文の獲得 ✔ 入力記事と要約事例を比較 ✔ ① 述語一致数が多いもので要約事例を絞込む ✔ ② 内容語一致数が多いものを類似用例文として獲得
  9. 11 比較 a b c d e 。 A B

    C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の獲得  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける 類似用例文 1文 a b c d e 。
  10. 12 文節の対応付け  類似用例文と入力ニュース記事の文節を比較 ✔ 類似している文節を対応付ける ✔ 1  対  多 で対応付け

     3つの対応付け尺度 ✔ 助詞の一致 ✔ 固有表現タグの一致 ✔ 単語間類似度 ✔ 係り受け関係が似ている語の類似度が高い[Lin,98] ✔ あらかじめ新聞10年分のテキストから類似度DBを作成 ✔ 1文節に対して類似度の高かった上位3文節を対応付け 類似用例文の文節 入力ニュース記事の文節 (入力記事に含まれるものでDBにも存在するもの)
  11. 13 文節の対応付け例 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 …

    <入力ニュース記事> <類似用例文> 比較 … 助詞の一致: 東芝は 同社は 固有表現タグの一致: 東芝は 単語間類似度: 東芝は NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  12. 14 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度:    ~CTを   文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  13. 16 比較 a b c d e 。 A B

    C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 1文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 1. 類似用例文の獲得  要約事例DBから  入力の内容に類似した  用例文を探す 2.文節の           対応付け  類似用例文の   文節に類似した入力の  文節を対応付ける 3.対応文節の           組合せ  全体で最もスコアの  高くなるパスを  見つける
  14. 18  ラティスを作る 類似用例文 類似用例文の文節 a に対応する入力の文節 <s> a c

    d </s> e b A L D O E Best path : <s> A L O D E </s> 対応文節の組合せ G
  15. 19  ノードスコア ✔ 類似用例文を模倣して要約文を作っている ✔ ① 要約文は類似用例文の文節に似ている文節で構成さ れていること。 ✔ 文節の対応付けで用いた3つの尺度

                       信頼度の重み付き和 対応文節の組合せ 助詞の一致 固有表現タグの一致 単語間類似度
  16. 20  エッジスコア ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。   対応文節の組合せ

    スコア小 : 離れた文から文節を取ってきて                組み合わせたもの loc(ni) : 対応付けらた文節niが 入力記事のれ何文目に含まれているのか
  17. 22 性能評価 ~実験条件~  使用したデータ ✔ 要約事例データベース • 27036文の用例文(メール配信されているニュース速報の文) ✔ 入力するニュース記事(日経新聞98年版) 100件

     従来手法 [Hori,02] ✔ 複数文の語を組み合わせて要約文を作成 • 重要度(tf*idf)+ • 語の繋がり(2gram)  を最大にするパスを見つける
  18. 24 主観評価の結果  4段階評価: 1(Good) > 2 > 3 > 4(Bad)

    ✔ 可読性の評価(すらすら読めるのか) ✔ 内容適切性の評価(要約文として適切な内容か) 66 79 88 評価値2 26 17 10 評価値3 6 3 2 2 1 0 本手法の平均値 1.44 1.26 1.14 従来手法の平均値 1.94 2.38 1.94 評価者A 評価者B 評価者C 評価値1(Good) 評価値4(Bad)
  19. 25 主観評価の結果  4段階評価: 1(Good) > 2 > 3 > 4(Bad)

    ✔ 可読性の評価(すらすら読めるのか) ✔ 内容適切性の評価(要約文として適切な内容か) 56 79 92 評価値2 24 18 8 評価値3 14 2 0 6 1 0 本手法の平均値 1.70 1.25 1.08 従来手法の平均値 3.22 3.01 3.04 評価者A 評価者B 評価者C 評価値1(Good) 評価値4(Bad)
  20. 26 ここまでのまとめ  3つのステップで要約文を作成 ✔ 類似用例文を獲得 ✔ 文節の対応付け ✔ 対応文節の組合せ

     従来手法に比べ、       可読性、内容適切性 共に優位な結果  しかし...
  21. 27 ここまでのまとめ  3つのステップで要約文を作成 ✔ 類似用例文を獲得 ✔ 文節の対応付け ✔ 対応文節の組合せ

     従来手法に比べ、       可読性、内容適切性 共に優位な結果  用例文は約3万件  要約文を作るのに有用な用例文が他にもあるのでは?
  22. 28 予備調査 比較 a b c d e 。 A

    B C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 類似用例文 a b c d e 。 類似用例文を 上位10件獲得
  23. 29 予備調査 比較 a b c d e 。 A

    B C D E。 F G H I J K L。 M N O P。 要約事例DB 入力ニュース記事 。 。 … 類似用例文 a b c d e 。 a b c d e。 A D E I P J N O B E L H E 対応文節 a b c d e。 A D E I P J N O B E L H E 出力要約文 J D O B P。 類似用例文それぞれから 要約文を作成 要約文を10文出力
  24. 30 予備調査  評価者2人  出力した10個の要約文のなかで ✔ ①可読性の評価で最も良い評価値1  ✔ ②内容適切性の評価でも最も良い評価値1

             が1つでもあれば、その要約課題は正解 評価者A 100 評価者B 69 評価値1を獲得した件数(100要約課題)
  25. 34 まとめ  ユーザの負担をもっと減らす ✔ 自動要約の技術に注目  人間が要約文を作成するとき ✔ いろいろな知識、経験を生かしている

     既存研究のような重要度の設定は難しい  重要度の設定を必要としない要約手法を提案  要約事例を模倣することで要約 ✔ 可読性、内容適切性の高い要約文を得ることができた  文節の組合せ時とは異なる尺度を用いることでより 良い要約文を上位へ
  26. 41 類似用例文の獲得方法 参入 拡大 入力ニュース記事 要約事例DB 。 。 。 。

    。 。 入力の述語群 参入 改善 決める 着工 類似単語データベース[Lin,98] 参入:[進出|出店|上場] 拡大:[強化|増加|改善] 完成:[開業|開通|着工] 完成 用例文の述語群 +[開業|開通|着工] +[進出|出店|上場] +[強化|増加|改善] 比較 ~参入、...拡大。 ~完成。 入力と述語が一致した用例文 述語一致数   用例文 3 3 2 2 1 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・  ① 述語に注目して獲得
  27. 42 類似用例文の獲得方法  ② 内容語に注目して検索 入力と述語が一致した用例 述語一致数  用例文 3 3  

    2 2 1 。 。 。 。 。 入力ニュース記事 。 。 。 。 入力の内容語群 社長 日 狙い 事業 … 社長, 日, 会社, 狙い ... 用例文の内容語群 と 内容語数 半導体,業種, 事業, ... 比較 9形態素 8形態素 類似用例文の出力 順位 述語一致数 内容語一致率     用例文 1 2 3 4 5 3 3 2 2 1 0.8 0.6 0.7 0.5 0.4 。 。 。 。 。 ・・・ ・・・ ・・・ ・・・ ・・・ 。
  28. 45 文節の対応付け  助詞の一致 ✔ 同じような使われ方をしている文節を対応付ける • (主語、目的語など)  固有表現タグの一致

    ✔ 固有表現のまとまりが同じ単語を含む文節を対応付ける 私が    彼が (ガ格) 計画を   予定を  (ヲ格) 21日、   昨年 (DATE)   ソニーを Panasonicに (ORGANIZATION)  
  29. 46 文節の対応付け  単語間類似度 ✔ 意味の似ている単語、使われ方の似ている単語を含む文節を対応 付ける ✔ 類似単語データベース[Lin,98]を使用 •

    新聞10年分のテキストを使用し、あらかじめDB作成した ✔ 類似用例文の文節1つに対して、  類似度の高かった入力の文節上位3つを対応付ける 事務所 ::   支店(0.22: 1.00)、室 (0.22: 0.99)、センター(0.21: 0.95)、… 値上げ ::   引き上げ(0.24: 1.00)、値下げ(0.22: 0.92)、引き下げ(0.22: 0.91)、… スポーツ ::   サッカー(0.16: 1.00)、ゴルフ(0.15: 0.94)、ビジネス(0.14: 0.88)、…
  30. 47 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … 助詞の一致: (なし) 固有表現タグの一致: 来年六月に 単語間類似度: 来年六月に 文節の対応付け例 NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。
  31. 48 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: ~CTを 発売を ~三百億円を 固有表現タグの一致: (なし) 単語間類似度: 発売を 文節の対応付け例
  32. 49 NTTは光通信並みの無線ネット技 術を開発、今秋にもサービスを開始 する。 東芝はがん診断に活用できるヘリカル CTを実用化した。 同社は来年六月に発売を始め、年商三 百億円を目指す。 … <入力ニュース記事>

    <類似用例文> 比較 … NTTは ~の無線ネット技術を 開発、 今秋にも サービスを 開始する。 助詞の一致: (なし) 固有表現タグの一致: (なし) 単語間類似度: 始め、 文節の対応付け例
  33. 51  ノードスコア ✔ 類似用例文を模倣して要約文を作っている ✔ ① 要約文は類似用例文の文節に似ている文節で構成さ れていること。  エッジスコア

    ✔ 読みやすい方が良い ✔ ② 要約文は文節間の繋がりが良く、日本語としての連接 が良いこと。 対応文節の組合せ
  34. 55  自動評価 ✔ 評価型Workshop[DUC;TSC]で用いられている評価尺度 ✔ BLEU (Min:0, Max:1) •

    正解文との類似度を測る(1~4 gram までの適合率)  主観評価  3人が主観評価 ✔ 可読性の評価(すらすら読めるのか?) ✔ 内容適切性の評価(要約文として内容は適切なのか?) 性能評価 ~評価尺度~
  35. 60  BLEUによる評価結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果  テストデータの種類 従来手法

    本手法 0.299 0.598 0.131 0.424 1-3文:短めの入力データ 4-10文:長めの入力データ 評価結果
  36. 61 評価結果  BLEUによる評価結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果  長めの記事を入力

    ✔ 精度低下率が少ない テストデータの種類 従来手法 本手法 0.299 0.598 0.131 0.424 1-3文:短めの入力データ 4-10文:長めの入力データ 56% 29%
  37. 62 評価結果  ROUGE-1、ROUGE-2の結果  短めの入力、長めの入力 ✔ どちらに対しても本手法の方が良好な結果 評価尺度 テストデータの種類

    比較手法 本手法 ROUGE-1 0.462 0.631 0.318 0.509 ROUGE-2 0.345 0.536 0.193 0.381 1-3文:短めの入力データ 4-10文:長めの入力データ 1-3文:短めの入力データ 4-10文:長めの入力データ
  38. 67 作成された要約文について  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事

     テストデータ:4から10文で構成されている入力記事 圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中)
  39. 68  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事 

    テストデータ:4から10文で構成されている入力記事 圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 作成された要約文について 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文
  40. 69  何文の情報を含んでいるか ✔ (何文の情報を1文に圧縮できているのか?) ✔ システム出力の要約文と入力記事との単語比較  テストデータ:1から3文で構成されている入力記事 

    テストデータ:4から10文で構成されている入力記事 圧縮された文数 1 40 2 47 3 13 入力記事数(100件中) 圧縮された文数 1 20 2 27 3 21 4 17 5 12 6 2 7 1 入力記事数(100件中) 60%が2文以上から 作成された要約文 80%が2文以上から 作成された要約文 作成された要約文について 複数の文を1文に圧縮することができた
  41. 70 出力した要約文の観察より  現在の手法 ✔ 類似用例文1文を検索、それを真似て要約文作成  1位の類似用例文だけが本当にいいのか?  観察

    ✔ 上位N位、類似用例文を検索 ✔ それぞれから要約文を作成 ✔ 観察により、類似用例文1位以外に真似て作った要約文 でもよいのはありそう。
  42. 72  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A

    B C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 出力した要約文の観察より BLEUスコア 0.462
  43. 73  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合 システム出力 1. A

    B C D E 2. A E Y S E 3. E Y H 4. 5. 6. 7. 8. 9. 10. 。 。 。 。 。 。 。 。 。 。 正解データ Ref.1 Ref.2 Ref.3 BLEUスコア 0.542 出力した要約文の観察より … 0.482 0.542 0.523
  44. 75 作成された要約文の例 • 重要度の設定をせずに、複数文を一文へ  重要度の設定をせずに、複数文を一文へ  • 三十日午後二時十分ごろ、剣淵町の国道40号で、旭川市東旭 川町下兵村二二八、農業南部正さんの乗用車と、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突した。 乗用車の四人のうち、南部さんと妻の喜美子さん、士別市東山町

    三〇二、無職池沢一郎さんの三人が頭を打つなどして死亡、旭 川市東旭川北一条四ノ一ノ二八、無職真岩高子さんも左足の骨 を折る重傷を負った。原さんにけがはなかった。  • イラク中部で28日深夜、油送管が爆発し74人が死亡 • 剣淵町の国道40号で三十日午後二時十分ごろ、旭川市流通団 地二条二ノ四三、運転手原政運さんのトラックが正面衝突し南部 さんと妻の喜美子さん、士別市東山町三〇二、無職池沢一郎さ んの三人が死亡
  45. 76  BLEUスコアで比較 ✔ 類似用例文上位1件のみを使用した場合 ✔ 類似用例文上位10件を使用した場合  上位10件まで用いた方が良い結果に。 ✔

    文を作成してから、 ✔ 異なる尺度でその文に評価値を与え、 ✔ リランキング 出力した要約文の観察より テストデータの種類 0.598 0.807 1位 上位10位まで 1-3文:短めの入力データ Skip2gram, 2gram, 品詞2gramを使った評価値
  46. 78 電子化文書が膨大に  情報爆発時代の到来 ✔ インターネットの普及 ✔ 企業に対するe-文書法の施行  人間の文書処理能力の限界

    ✔ 多くの時間を費やしている • 必要な情報を探す、 • 情報を取捨選択する ✔ 今後もさらに電子化文書は増え続ける
  47. 80 既存研究 : 重要文抽出  対象別にみる要約手法 ✔ ① 文書 ⇒ 1文または複数文へ   ✔ 重要文抽出手法

    [Brandow+,95; Zechner,96] タイトル情報 1 2 3 4 5 6 7 8 9 1 2 3 4 5 … 文の位置 単語の頻度情報 1 3 2 入力:文書 文に対して   重要度を計算 要約 出力: 最も重要だと  判定された文 。
  48. 81 重要文抽出と文圧縮  対象別にみる要約手法 ✔ ② 1文 ⇒ 1文へ圧縮   ✔ 文圧縮手法 [Jing+,99; Mani+,04]

    1 2 3 4 5 6 7 8 9 入力:1文 単語や文節に対して   重要度を計算 要約 出力:1文 金融機関の破たん時に、   預金などの払い戻し保証を   一定額までとする「ペイオフ」の   凍結解除を1年延期することが   決まった。 冗長な表現を削除 (不要部分の削除) 単語の頻度情報 「ペイオフ」の凍結解除を1 年延期。