Upgrade to Pro — share decks privately, control downloads, hide ads and more …

連想知識を用いた端的な要約の生成

 連想知識を用いた端的な要約の生成

瀧川 和樹, 村田 真樹, 土田 正明, De Saeger, Stijn, 山本 和英, 鳥澤 健太郎. 連想知識を用いた端的な要約の生成. 言語処理学会第16回年次大会, pp.298-301 (2010.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 連想知識を用いた 端的な要約の生成 瀧川和樹† 村田真樹‡ 土田正明‡ De Saeger Stijn ‡ 山本和英†

    鳥澤健太郎‡ † 長岡技術科学大学 {takigawa,yamamoto}@jnlp.org ‡ 独立行政法人研究機構 MASTARプロジェクト言語基盤グループ {murata,m-tsuchida,stijn,torisawa}@nict.go.jp
  2. 既存研究との比較 • 言い換えを使用した要約 – 近藤ら[96] • EDR辞書を用いて複数の動作を1語に換言 – 本研究 •

    換言する対象を動作に限っていない • 出力する要約を1つに絞れる • 一般的な要約手法 – 重要箇所抽出などの原文の一部を抜き出す手法 ③
  3. 要約候補の評価値算出(1) 要約の共起語が入力にない名詞 を含まないほど良い (誤りの情報を持たないほど良い) 適合率 (Precision) に類似 再現率 (Recall) に類似

    要約の共起語が入力にある 名詞をよりカバーするほど良い (正解の情報を多く持つほど良い) 要約結果から十分に原文の内容を連想できる <基準(i)> 要約結果からなるべく原文の内容にないものが連想されない <基準(ii)> ⑥
  4. 要約候補の評価値算出(2) (c) Precision c Recall c Precision c Recall c

    measure F i i + × × = ) ( ) ( ) ( 2 ) ( ‐ | | | ) ( | ) ( IW IW c RW c Recall ∩ = IW :入力から取得した名詞 ) (x RW : から連想される語( から取得される共起語) x x | ) ( | | ))) ( ( ( ) ( | ) ( 2 c RW i RW IW c RW c Precision IW i∈ ∪ ∪ ∩ = :評価対象となる出力候補 c ⑦
  5. 流れ クリエイティブ系 就職難 会社情報 高校生 本格 成功 大学生 機能 多数

    皆さん あなた 際 苦戦 開始 時期 入力: 良い企業に内定をもらうため、面接の練習を毎日行う。 実行例 「要約候補:就職活動」 就職活動 ゴルフ ピアノ 収集 ホームページ ため 練習 学生 情報 支援 基本 個人 私 サイト 提供 就職 今 利用 求人情報 皆様 サポート 自分 アドバイス 為 先輩 転職 仕事 現在 応援 紹介 面接 毎日 自己PR 毎日 面接 毎日 毎日 企業 内定 入力内の名詞 Recall:橙/赤 Precision (緑+橙)/ 入力名詞の 共起語群 「就職活動」の 共起語 ⑧
  6. 評価実験 • 評価用の入力文を24文用意 • 要約候補の並び替え結果を被験者1人で評価 (1)正解率:正解が1位 (2)正解率:正解が5位以内 (3)正解率:正解が10位以内 (4)MRR strict

    : 正しい回答のみを正解とする lenient : 正しい回答、およびそれに近いものを正解とする <評価方法> M r i MRR M i i データ数 が持つ最高正解順位 データ ∑ = = 1 / 1 ⑩
  7. 評価結果 優先評価値 1位 5位以内 10位以内 MRR Recall 0.33 0.58 0.75

    0.45 lenient 優先評価値 1位 5位以内 10位以内 MRR Recall 0.17 0.29 0.38 0.22 strict Recallで並び替える手法が最も良い結果に! ⑪
  8. 結果例 • 食事制限をし、毎日ジョギングなどの運動を 行う。 • 実験の目的や理論をまとめ、図書館を利用し て課題を作成する。 上位5語 1. 実習

    2. 研究 3. 考察 4. 分析 5. 資料 上位5語 1.ダイエット 2.消費エネルギー 3.脂肪燃焼 4.プロモデル 5.減量 赤:strictで正解 青:lenientで正解 ⑫