Upgrade to Pro — share decks privately, control downloads, hide ads and more …

連想知識を用いた端的な要約の生成

 連想知識を用いた端的な要約の生成

瀧川 和樹, 村田 真樹, 土田 正明, De Saeger, Stijn, 山本 和英, 鳥澤 健太郎. 連想知識を用いた端的な要約の生成. 言語処理学会第16回年次大会, pp.298-301 (2010.3)

Transcript

  1. 連想知識を用いた 端的な要約の生成 瀧川和樹† 村田真樹‡ 土田正明‡ De Saeger Stijn ‡ 山本和英†

    鳥澤健太郎‡ † 長岡技術科学大学 {takigawa,yamamoto}@jnlp.org ‡ 独立行政法人研究機構 MASTARプロジェクト言語基盤グループ {murata,m-tsuchida,stijn,torisawa}@nict.go.jp
  2. 爆弾が爆発した。 死傷者が出た。 反政府運動がきっかけである。 研究背景(1) 目的:端的な要約の生成を目指す テロ 本研究で望む要約 このような要約を生成するには? ①

  3. 研究背景(2) • 連想知識として共起語を使用 • 連想知識を使用して入力を換言 (i) 要約結果から十分に原文の内容を連想できる (ii) 要約結果からなるべく原文の内容にないものが 連想されない

    テロ 爆弾が爆発した。 死傷者が出た。 反政府運動がきっかけである。 交通 事故 ②
  4. 既存研究との比較 • 言い換えを使用した要約 – 近藤ら[96] • EDR辞書を用いて複数の動作を1語に換言 – 本研究 •

    換言する対象を動作に限っていない • 出力する要約を1つに絞れる • 一般的な要約手法 – 重要箇所抽出などの原文の一部を抜き出す手法 ③
  5. 提案手法の手順 1. 要約候補を取得 2. 要約候補の評価値を算出 3. 要約候補を評価値の高い順に 並び替え 4. 評価値の高い要約候補を出力

  6. 要約候補の取得 ※共起語:その語との共起頻度が高い順から50語 •要約としてふさわしい出力 →原文の内容を連想させる語(入力内名詞の関連語) 入力: 良い企業に内定をもらうため、面接の練習を毎日行う。 就職活動 企業 説明会 学生

    要約候補: 1. 入力文にある名詞をすべて取得 2. 各入力名詞の共起語を取得(関連語≒共起語) 3. 得られた共起語すべて → 要約候補 ⑤
  7. 要約候補の評価値算出(1) 要約の共起語が入力にない名詞 を含まないほど良い (誤りの情報を持たないほど良い) 適合率 (Precision) に類似 再現率 (Recall) に類似

    要約の共起語が入力にある 名詞をよりカバーするほど良い (正解の情報を多く持つほど良い) 要約結果から十分に原文の内容を連想できる <基準(i)> 要約結果からなるべく原文の内容にないものが連想されない <基準(ii)> ⑥
  8. 要約候補の評価値算出(2) (c) Precision c Recall c Precision c Recall c

    measure F i i + × × = ) ( ) ( ) ( 2 ) ( ‐ | | | ) ( | ) ( IW IW c RW c Recall ∩ = IW :入力から取得した名詞 ) (x RW : から連想される語( から取得される共起語) x x | ) ( | | ))) ( ( ( ) ( | ) ( 2 c RW i RW IW c RW c Precision IW i∈ ∪ ∪ ∩ = :評価対象となる出力候補 c ⑦
  9. 流れ クリエイティブ系 就職難 会社情報 高校生 本格 成功 大学生 機能 多数

    皆さん あなた 際 苦戦 開始 時期 入力: 良い企業に内定をもらうため、面接の練習を毎日行う。 実行例 「要約候補:就職活動」 就職活動 ゴルフ ピアノ 収集 ホームページ ため 練習 学生 情報 支援 基本 個人 私 サイト 提供 就職 今 利用 求人情報 皆様 サポート 自分 アドバイス 為 先輩 転職 仕事 現在 応援 紹介 面接 毎日 自己PR 毎日 面接 毎日 毎日 企業 内定 入力内の名詞 Recall:橙/赤 Precision (緑+橙)/ 入力名詞の 共起語群 「就職活動」の 共起語 ⑧
  10. 要約候補の並び替え ※評価値が同じ要約候補がある場合 → 他の評価値が高い方を優先 •Recall(c)を優先 •Precision(c)を優先 •F-measure(c)を優先 ⑨

  11. 評価実験 • 評価用の入力文を24文用意 • 要約候補の並び替え結果を被験者1人で評価 (1)正解率:正解が1位 (2)正解率:正解が5位以内 (3)正解率:正解が10位以内 (4)MRR strict

    : 正しい回答のみを正解とする lenient : 正しい回答、およびそれに近いものを正解とする <評価方法> M r i MRR M i i データ数 が持つ最高正解順位 データ ∑ = = 1 / 1 ⑩
  12. 評価結果 優先評価値 1位 5位以内 10位以内 MRR Recall 0.33 0.58 0.75

    0.45 lenient 優先評価値 1位 5位以内 10位以内 MRR Recall 0.17 0.29 0.38 0.22 strict Recallで並び替える手法が最も良い結果に! ⑪
  13. 結果例 • 食事制限をし、毎日ジョギングなどの運動を 行う。 • 実験の目的や理論をまとめ、図書館を利用し て課題を作成する。 上位5語 1. 実習

    2. 研究 3. 考察 4. 分析 5. 資料 上位5語 1.ダイエット 2.消費エネルギー 3.脂肪燃焼 4.プロモデル 5.減量 赤:strictで正解 青:lenientで正解 ⑫
  14. まとめ „ 1つめの基準(Recall)を優先的に扱 うことで最も良い結果に „ 今後の展望 –出力を1単語 → 複数の単語・文へ –全体的な精度向上

    „ 端的な要約を実現させるため、 2つの基準を基にした評価値を用意 ⑬