タイトルパタンによる文書の一文概要生成

 タイトルパタンによる文書の一文概要生成

長安 義夫. タイトルパタンによる文書の一文概要生成. 長岡技術科学大学課題研究報告書 (2007.3)

Transcript

  1. 1     タイトルパタンによる 長岡技術科学大学 電気系 自然言語処理研究室 報告者 長安義夫 指導教員

    山本和英助教授 2007 年 2 月 27 日 文書の一文概要生成
  2. 2 はじめに Web 検索では必要なのは網羅性と提示方法 Web 検索結果は膨大な量にのぼり、検索は一瞬 → 網羅性は実用的レベル 検索結果の提示法は文書の抜粋が一般的 →

    検索結果の提示法としてはまだまだ不十分 文書の抜粋とは別の検索指標も必要
  3. 3 目的 タイトルパタンを用いて一文概要を自動生成する ・文を生成するための枠組 ・既存のタイトルを汎化 ・困難な文生成を簡易化 タイトルパタンとは? は  を 。 

    名詞 名詞 動詞 が  の 。   名詞 名詞 動詞 と  。  名詞 名詞 Ex.
  4. 4 処理概要 1. 事前準備 2. タイトルパタン生成 3. 概要生成

  5. 5 1. 事前準備 (1/2) 1. 名詞のクラスタリング  大規模テキスト中の名詞をクラスタリング  →タイトルパタンの汎化 大学 小学校

    専門学校 高校 硅素 フッ素 ヘリウム アンチモン 液晶テレビ 掃除機 カーナビ MP3 プレーヤ C ID3 C ID2 C ID1
  6. 6 1. 事前準備 (2/2) 2. 名詞の重要度 ・ Support Vector Machine(SVM)

    による学習  →タイトルに含まれやすい名詞を学習 ・大規模テキストからの頻度情報 (IDF)  →一般的な名詞の排除 Score(W i ) = Rank SVM (W i ) 1 Rank IDF (W i ) 1 + Wi: 名詞 Rank SVM (W i ):SVM による W i の順位 Rank IDF (W i ): 単語の頻度情報による W i の順位
  7. 7 2. タイトルパタン生成例 重要文節 より / よい / C ID1

    を / “ 動詞節” / C ID2 より / よい / 防衛協力指針を / つくる / 視点 より / よい / 防衛協力指針を / つくる / 視点
  8. 8 3. 概要生成 (1/3) 入力文書 北朝鮮外交 0.88 C ID2 拉致問題

    0.63 C ID1 安部総理 0.35 C ID7 予算審議 0.32 C ID6 …… 抽出名詞 重要度 クラスタ ID
  9. 9 3. 概要生成 (2/3)             を た C

    ID1 を / “ 動詞節”た / C ID2 重要文節 (重要語) 政府 , 与党 , 拉致問題 C ID1 動詞節 北朝鮮外交 C ID2 動い , 驚い , 圧倒し
  10. 10 3. 概要生成 (3/3) 政府を動いた北朝鮮外交 0.025 政府を圧倒した北朝鮮外交 0.36 政府を驚いた北朝鮮外交 0.094

    与党を動いた北朝鮮外交 0.052 与党を圧倒した北朝鮮外交 0.44 与党を驚いた北朝鮮外交 0.088 拉致問題を動いた北朝鮮外交 0.033 拉致問題を圧倒した北朝鮮外交 0.21 拉致問題を驚いた北朝鮮外交 0.014 生成した概要 連接確率
  11. 11 実験と評価 ・入力に用いた文書データ  →日経新聞の社説記事 50 記事 ・評価方法  →社説 1 記事に対して最多上位

    30 文までの文を出力    出力文全てに可読性と内容一致性の評価を行ってもらう    可読性 = 日本語として読むことが可能かどうか    内容一致性 = 入力文の概要としてふさわしいかどうか
  12. 12 実験結果と考察 (1/2) 全出力数: 967 文 1 記事あたりの平均出力数: 18.3 候補

    正解とした被験者数 1 ≧ 2 ≧ 可読性 内容一致性 =3 524/967 (54.2%) 262/967 (27.1%) 125/967 (12.9%) 76/967 (7.9%) 8/967 (0.8%) 2/967 (0.2%) Table.1 可読性と内容一致性の評価 内容一致性が著しく悪い結果となった
  13. 13 実験結果と考察 (2/2) 内容一致性の精度 (1)重要度スコアの問題   順位の逆数の和ではスコアに偏りが出る        →重要度が正しくスコアリングできていなかった (2)課題の難易度   名詞や動詞の全ての組み合わせは   

    10 万〜 100 万オーダー        →最適解の推定が量的に困難
  14. 14 終わりに ▪ タイトルパタンによる文書の一文概要生成を提案 ・社説 50 記事に対し、総数 967 文を出力 ・可読性は

    27.1% 、内容一致性は 0.8% の精度を得た ・一定の成果を見せた可読性に対し、内容一致性では 名詞の重要語スコアの式が悪く、また重要語抽出に依 存したために精度が著しく低くなった ・内容一致性を向上させるためのスコア導入が必要
  15. 15 ご清聴ありがとうございました

  16. 16 処理の流れ 入力文書 抽出単語 社説タイトル タイトルパタン 出力文 事前準備 1. 名詞のクラスタリング

    2. 重要語分類モデルの学習 3. 単語の頻度情報の獲得
  17. 17 頻度情報による重要語抽出 議員立法活性化 鉄建公団事件 最優先課題 統括服務管理官 同法制定 贈答品受領 講演寄稿 服務管理官

    公務員倫理没 官僚自身 国会 措置 基準 業者 過去 人 従来 内容 場合 政府 上位 10 位 下位 10 位
  18. 18 実験結果 (1) 不正経理分で明らかに   なった群馬県の対応 (2) 企業テロを見逃すべき    ではない背景 可読性の正解例 (1)

    留任した山崎拓政調会長ら (2) 内向き体質が困難にした   解決と今回の事件 内容一致性の正解例 (1) 程度かかわりを提出された交際 (2) 指名した経済優先政策 (3) 中国の核関連技術で途絶えていた一九八九年の天安門 事件以降への二十四日と諸問題 生成失敗例
  19. 19 実験結果と考察 記事数 可読性 46/50 (92%) 内容一致性 8/50(16%) Table.2  正解が

    1 文でも 含まれている記事数 可読な候補 33.2% 内容一致している候補 1.7% 1記事あたりの割合 Table.3   1 記事あたりに 含まれる正解の割合 ・可読な文が記事の 92% に含まれている ・可読な文の割合は 1 記事あたり約 30% → 内容の面は悪いが、自然な文の生成には一定の成果がある ◦ 被験者 2 人以上が正解と判断した文を正解とする
  20. 20 考察 1. 内容一致性の低精度について (1) 重要語抽出の問題   順位の逆数の和では SVM と頻度情報のスコアを等価的 に扱えない。より正確なスコアへと改善する必要がある

    (2) 内容一致のスコアの考慮  内容一致性が重要語抽出に完全に依存  重要語以外に内容一致を表すスコアがない 重要語以外の指標によるスコアリングを加える必要がある
  21. 21 考察 2. 生成失敗例について (1) 程度かかわりを提出された交際  「程度かかわり」が本文の文脈と切り離されている  →文脈を保持できる語を補間 (2) 指名した経済優先政策

     文の目的語がない  →文法的側面からの単語の補間 (3) 中国の核関連技術で……と諸問題  一文が長すぎる  →長文にも対応できるスコアの考慮  →長文を回避するようなタイトルパタンの生成
  22. 22 タイトルパタン生成 1. 事実文の抽出 意見文:  例 「中年」よ、どこへ行く   →口語的表現や倒置などが多く     パタンとするには複雑 事実文:  例 核軍縮の長い道のり

     →事実や内容を端的に表し、表現も簡易で    パタンとして適切 コーパス中の社説タイトルから事実文だけを抽出
  23. 23 事前準備 名詞の分類 ( シソーラス )

  24. 24 事前準備 閾値例:2〜3単語 選択階層: P4P5,P6 名詞の分類 ( シソーラス )

  25. 25 一文概要生成 3. 生成文のランキング 2 つの連接確率を総合して文の可読性の得点とする (1) 連続する単語の連接確率   =局所的スコア( Score

    2-gram ) (2) 動詞を中心とした連接確率   =大局的スコア( Score Verb ) Score(S i ) = S i : 生成された文 スコア計算時は複合名詞の長さに依存させないために 複合名詞は主辞のみを見る 例:防衛協力指針をつくる視点 → 指針をつくる視点 argmaxScore Verb (S i ) Score Verb (S i ) argmaxScore 2-gram (S i ) Score 2-gram (S i ) +
  26. 26 一文概要生成   連続する単語の連接確率 P(w i+1 |w i ) を文末まで求め   各連接確率の相乗平均をとる。

      例:指針をつくる視点   C( を ) = 1000   C( を | 指針 ) = 400     P( を | 指針 ) = 400 / 1000 = 0.400    C(x) :コーパス中での単語 x の出現頻度 (1) 連続する単語の連接確率
  27. 27 一文概要生成   生成された文の係受け関係から   「動詞節にかかる名詞節の助詞」   「動詞節」   「動詞節がかかる名詞節の名詞」   の連接確率をコーパスから求める  例:指針をつくる視点     C(*|

    つくる ) = 500   C( つくる |*) = 700 C( 視点 | つくる ) = 100   C( つくる | を ) = 150     P( 視点 | をつくる ) = (100/500) * (150/700) = 0.0428 (2) 動詞を中心とした連接確率