Upgrade to Pro — share decks privately, control downloads, hide ads and more …

タイトルパタンによる文書の一文概要生成

 タイトルパタンによる文書の一文概要生成

長安 義夫. タイトルパタンによる文書の一文概要生成. 長岡技術科学大学課題研究報告書 (2007.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 5 1. 事前準備 (1/2) 1. 名詞のクラスタリング  大規模テキスト中の名詞をクラスタリング  →タイトルパタンの汎化 大学 小学校

    専門学校 高校 硅素 フッ素 ヘリウム アンチモン 液晶テレビ 掃除機 カーナビ MP3 プレーヤ C ID3 C ID2 C ID1
  2. 6 1. 事前準備 (2/2) 2. 名詞の重要度 ・ Support Vector Machine(SVM)

    による学習  →タイトルに含まれやすい名詞を学習 ・大規模テキストからの頻度情報 (IDF)  →一般的な名詞の排除 Score(W i ) = Rank SVM (W i ) 1 Rank IDF (W i ) 1 + Wi: 名詞 Rank SVM (W i ):SVM による W i の順位 Rank IDF (W i ): 単語の頻度情報による W i の順位
  3. 7 2. タイトルパタン生成例 重要文節 より / よい / C ID1

    を / “ 動詞節” / C ID2 より / よい / 防衛協力指針を / つくる / 視点 より / よい / 防衛協力指針を / つくる / 視点
  4. 8 3. 概要生成 (1/3) 入力文書 北朝鮮外交 0.88 C ID2 拉致問題

    0.63 C ID1 安部総理 0.35 C ID7 予算審議 0.32 C ID6 …… 抽出名詞 重要度 クラスタ ID
  5. 9 3. 概要生成 (2/3)             を た C

    ID1 を / “ 動詞節”た / C ID2 重要文節 (重要語) 政府 , 与党 , 拉致問題 C ID1 動詞節 北朝鮮外交 C ID2 動い , 驚い , 圧倒し
  6. 10 3. 概要生成 (3/3) 政府を動いた北朝鮮外交 0.025 政府を圧倒した北朝鮮外交 0.36 政府を驚いた北朝鮮外交 0.094

    与党を動いた北朝鮮外交 0.052 与党を圧倒した北朝鮮外交 0.44 与党を驚いた北朝鮮外交 0.088 拉致問題を動いた北朝鮮外交 0.033 拉致問題を圧倒した北朝鮮外交 0.21 拉致問題を驚いた北朝鮮外交 0.014 生成した概要 連接確率
  7. 11 実験と評価 ・入力に用いた文書データ  →日経新聞の社説記事 50 記事 ・評価方法  →社説 1 記事に対して最多上位

    30 文までの文を出力    出力文全てに可読性と内容一致性の評価を行ってもらう    可読性 = 日本語として読むことが可能かどうか    内容一致性 = 入力文の概要としてふさわしいかどうか
  8. 12 実験結果と考察 (1/2) 全出力数: 967 文 1 記事あたりの平均出力数: 18.3 候補

    正解とした被験者数 1 ≧ 2 ≧ 可読性 内容一致性 =3 524/967 (54.2%) 262/967 (27.1%) 125/967 (12.9%) 76/967 (7.9%) 8/967 (0.8%) 2/967 (0.2%) Table.1 可読性と内容一致性の評価 内容一致性が著しく悪い結果となった
  9. 14 終わりに ▪ タイトルパタンによる文書の一文概要生成を提案 ・社説 50 記事に対し、総数 967 文を出力 ・可読性は

    27.1% 、内容一致性は 0.8% の精度を得た ・一定の成果を見せた可読性に対し、内容一致性では 名詞の重要語スコアの式が悪く、また重要語抽出に依 存したために精度が著しく低くなった ・内容一致性を向上させるためのスコア導入が必要
  10. 17 頻度情報による重要語抽出 議員立法活性化 鉄建公団事件 最優先課題 統括服務管理官 同法制定 贈答品受領 講演寄稿 服務管理官

    公務員倫理没 官僚自身 国会 措置 基準 業者 過去 人 従来 内容 場合 政府 上位 10 位 下位 10 位
  11. 18 実験結果 (1) 不正経理分で明らかに   なった群馬県の対応 (2) 企業テロを見逃すべき    ではない背景 可読性の正解例 (1)

    留任した山崎拓政調会長ら (2) 内向き体質が困難にした   解決と今回の事件 内容一致性の正解例 (1) 程度かかわりを提出された交際 (2) 指名した経済優先政策 (3) 中国の核関連技術で途絶えていた一九八九年の天安門 事件以降への二十四日と諸問題 生成失敗例
  12. 19 実験結果と考察 記事数 可読性 46/50 (92%) 内容一致性 8/50(16%) Table.2  正解が

    1 文でも 含まれている記事数 可読な候補 33.2% 内容一致している候補 1.7% 1記事あたりの割合 Table.3   1 記事あたりに 含まれる正解の割合 ・可読な文が記事の 92% に含まれている ・可読な文の割合は 1 記事あたり約 30% → 内容の面は悪いが、自然な文の生成には一定の成果がある ◦ 被験者 2 人以上が正解と判断した文を正解とする
  13. 20 考察 1. 内容一致性の低精度について (1) 重要語抽出の問題   順位の逆数の和では SVM と頻度情報のスコアを等価的 に扱えない。より正確なスコアへと改善する必要がある

    (2) 内容一致のスコアの考慮  内容一致性が重要語抽出に完全に依存  重要語以外に内容一致を表すスコアがない 重要語以外の指標によるスコアリングを加える必要がある
  14. 21 考察 2. 生成失敗例について (1) 程度かかわりを提出された交際  「程度かかわり」が本文の文脈と切り離されている  →文脈を保持できる語を補間 (2) 指名した経済優先政策

     文の目的語がない  →文法的側面からの単語の補間 (3) 中国の核関連技術で……と諸問題  一文が長すぎる  →長文にも対応できるスコアの考慮  →長文を回避するようなタイトルパタンの生成
  15. 25 一文概要生成 3. 生成文のランキング 2 つの連接確率を総合して文の可読性の得点とする (1) 連続する単語の連接確率   =局所的スコア( Score

    2-gram ) (2) 動詞を中心とした連接確率   =大局的スコア( Score Verb ) Score(S i ) = S i : 生成された文 スコア計算時は複合名詞の長さに依存させないために 複合名詞は主辞のみを見る 例:防衛協力指針をつくる視点 → 指針をつくる視点 argmaxScore Verb (S i ) Score Verb (S i ) argmaxScore 2-gram (S i ) Score 2-gram (S i ) +
  16. 26 一文概要生成   連続する単語の連接確率 P(w i+1 |w i ) を文末まで求め   各連接確率の相乗平均をとる。

      例:指針をつくる視点   C( を ) = 1000   C( を | 指針 ) = 400     P( を | 指針 ) = 400 / 1000 = 0.400    C(x) :コーパス中での単語 x の出現頻度 (1) 連続する単語の連接確率
  17. 27 一文概要生成   生成された文の係受け関係から   「動詞節にかかる名詞節の助詞」   「動詞節」   「動詞節がかかる名詞節の名詞」   の連接確率をコーパスから求める  例:指針をつくる視点     C(*|

    つくる ) = 500   C( つくる |*) = 700 C( 視点 | つくる ) = 100   C( つくる | を ) = 150     P( 視点 | をつくる ) = (100/500) * (150/700) = 0.0428 (2) 動詞を中心とした連接確率