Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機能語の補完による文生成を用いた濃縮還元型要約モデル

 機能語の補完による文生成を用いた濃縮還元型要約モデル

池田 諭史, 牧野 恵, 山本 和英. 機能語の補完による文生成を用いた濃縮還元型要約モデル. 言語処理学会第13回年次大会, pp.1152-1155 (2007.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 既存の要約研究の問題点 • 現在の文単位での自動要約では – 文より冗長表現を削除する • 不要部分の削除 – 文の必要な部分を抜き出し並べる

    • 重要部分の抽出 • 自然な要約が出来ないことがある • より自然な要約文を生成したい … ダイエーについて、支援を決定した場合でも… ↓ … ダイエーへの支援が決定した場合でも…
  2. 3 濃縮還元型要約モデル ( 池田ら 2006) • 人間が要約を行う際 – 原文から必要な単語の抽出 –

    抽出した単語の並び替え – 単語からの文の生成 という手順で要約を行うことがある • 機械的に同様の手法が行えるのでは – 単語の抽出 ( 濃縮 ) – 単語群からの文の生成 ( 還元 )
  3. 4 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 ( 池田ら 2006) – 複合語の同定 – 文生成部 ( 池田ら 2006) – 生成文の並び替え
  4. 5 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 ( 池田ら 2006) – 複合語の同定 – 文生成部 ( 池田ら 2006) – 生成文の並び替え 要 約 文 の 生 成
  5. 6 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 ( 池田ら 2006) – 複合語の同定 – 文生成部 ( 池田ら 2006) – 生成文の並び替え よ り 良 い   要 約 文 の 出 力
  6. 8 前処理部 • 原文中の括弧を削除する – 括弧内は不要な単語である • 述語の同定のための文末の整形 – 述語となりうる品詞は名詞、動詞とする

    – 文末の名詞、動詞が述語になるように整形 – 単語抽出部で必ず抽出するため – パターンマッチで行う ( 畑山ら 2002, 山本ら 2005) 自民党との最終調整に入る意向を示した。 ↓ 自民党との最終調整に入る意向。
  7. 10 単語抽出部 • 文を生成する際に必要な単語 – 速読の際に内容語だけを読むことがある • 要約文に不要な語 – 要約文を作成する際、修飾節は省くことが多い

    • 抽出する単語は名詞、動詞とする – 2値分類器 SVM で抽出単語の決定 – 学習は原文と要約文の対を用いる • 日本語には述語が必要    ⇒述語は必ず抽出
  8. 12 複合語の同定 (1/2) 手法 • 複合語の同定には Google を使用 – 以下の式でスコアを求める

    – 閾値を定め閾値以上の候補を複合語とする • A,B を複合語とすることで 3 単語以上にも対応 Score A ,B = ∣"AB "∣ ∣" A " a nd "B "∣ Score A ,B : AB 複合語 のスコア ∣A∣:Google A での のヒット件数
  9. 13 複合語の同定 (2/2) 一意に同定 • 抽出単語群に作成した複合語を適応する • 一意に複合語が決まらないことがある   {…,

    人質 , 事件 , 解決 ,…}   ⇒人質事件 , 事件解決 どちらを複合語に?   {…, 米 , 映画 , 制作 , 会社 ,…} ⇒ 米映画 , 映画制作 , 制作会社 どれを? • 基本的にあわせて 1 つの複合語にはしない • 複合語の主辞 ( 最後の単語 ) の品詞で決定 – サ変や動詞は単語となりやすいルール
  10. 15 文生成部 (1/2) 補完候補 • 補完箇所は抽出単語群の間全てとする { 日興 , 個人向け国債

    , 販売 ,JTB, 提携 } • 補完候補はコーパスを用いて出力 – 補完箇所の前後の語の主辞を用いる    { 日興 , 個人向け国債 }  ⇒日興と国債にはさまれた機能語を全て候補に – 候補とする機能語は出現頻度で絞込み (54 単語 ) • 補完候補から補完する機能語を一意に決定
  11. 16 文生成部 (2/2) 手法 • HMM でのタグ付与における – 観測 x

    を抽出単語列 – ラベル列 y を補完する機能語列 水 は 生命 の 源 だ x y argmax y ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  T :ラベル数 P x t ∣y t :出力確率  2gram 後方からの 確率 P y t ∣y t −1 :遷移確率  2gram 機能語の 確率 
  12. 18 生成文の並び替え • 文生成では連接確率を用いるために – 大局的な文のスコアが存在しない • 大局的な文のスコアを導入 – 局所的、大局的両方を加味したスコアに

    • スコア最大の文を要約文とする • 2つのスコアを新たに導入 – 係り受けスコア ⇒CaboCha の係り関係のスコアの総和 – 機能語スコア ⇒ 述語に対する機能語の使われ方
  13. 19 生成文の並び替え (1/2) 機能語スコア • 述語に対する機能語の使われ方を利用 – 使われ方はコーパスより学習 • 使われ方は以下の手順で求める

    – コーパスを 1 文単位で区切り、述語を抜き出す – 1 文単位で機能語の単語ベクトルを生成する – 同じ述語の単語ベクトルの算術平均をとる • 生成文も同様に機能語の単語ベクトルを作成 • 生成文と機能語の単語ベクトルのコサイン距離
  14. 20 評価実験 • 要約対 – 原文 :NIKKEI-NET の Web ニュース記事

    – 要約文 :Nikkei-goo のメールサービスの記事 – 記事対応を取り各1文目を要約対とする – 3300 要約対で 5 分割交差検定 ( 単語抽出部 ) • 連接確率及び補完候補の出力 – 日経新聞 1996-2004 年度版 9 年分
  15. 21 結果 評価 選択肢1 選択肢2 選択肢3 選択肢4 可読性の評価 13文 11文

    18文 58文 意味の評価 18文 54文 28文 • 10 人の被験者が独立に 100 文を評価 • 1 番多い選択肢をその文の評価とする • 可読性の評価は正解に近いものも含めて 42 文 • 意味の評価は 72 文
  16. 22 考察 ( 単語抽出について ) • 単語抽出の精度を測るために抽出単語群から 人手で文の生成を行った • 生成に使用した単語群は結果で用いた

    100 文 • 約半数の単語群において、人間が意味を取り 違える – 単語の抽出方法に問題がある • 単語の抽出方法を変更する必要がある 可読性の評価 意味同一性の評価 被験者A 被験者B 75文 73文 44文 45文
  17. 23 考察 ( 生成の性能 ) • 文生成部を候補群からの枝刈りと考えると • 100 文に絞ったときに可読性の評価が正解

    – 100 文中 70 文 • 人手で文生成したときに可読性の評価が正解 – 100 文中74文 • 正解の機能語列をなくすことなく枝刈り可   ⇒並び替え性能の向上で人手の生成に近づく
  18. 24 結論 • 濃縮還元モデルを用いた要約手法を提案した – 要約に必要な単語を抽出して、その単語から要約文 を生成するモデル • 正解に近い文も正解とした正解率は –

    可読性の評価で 42 % – 意味の評価で 72 % • 100 -best 出力で人手と同等の文生成能力 • 単語抽出の方法の見直し
  19. 26 複合語同定の例 • 3 単語以上の例 (1161/4788) – JR羽越線 / 特急

    / いなほ / 14号 / 脱線 / 事故 – イラク / 邦人 / 人質 / 事件 / 対策 / 本部 – カメラ付き / 携帯 / 電話 – 小一 / 女児 / 誘拐 / 殺害 / 事件 – 新潟県中越 / 大震災 / 復興 / 宝くじ – 村上世彰氏 / 率いる / 投資 / ファンド • 2 単語の例 (3627/4788) – ごみ / 集積所 – ご当地 / ナンバー – 住民 / 投票
  20. 27 単語抽出率を変えたときの精度 (F 値 ) 0 10 20 30 40

    50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 本手法 予備実験 TF ・ IDF 単語抽出率 [%] F 値
  21. 28 各コストの有効度 ( 予備実験 ) • 全て昇順で並べた方が良い結果になっている 使用コスト 昇順降順の別 最初に正解が出現する順位

    連接コスト 降順 10.64 0.18 昇順 7.76 0.24 係り受けコスト 降順 9.26 0.08 昇順 8.88 0.12 機能語コスト 降順 9.06 0.18 昇順 7.26 0.22 本手法での重み 昇順 5.6 0.44 1位に正解が出現する確率
  22. 29 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 • 対象単語と前後各2単語の表層と品詞 • 対象単語に直接かかる単語の表層と品詞 • 対象単語が直接かかる単語の表層と品詞 • 対象単語にかかる単語が直前の1単語か否か • 対象単語がかかる単語が直後の1単語か否か – カーネル • 線形カーネル
  23. 30 単語抽出部 (1/2) 概要 • 文を生成する際に必要な単語とは – 内容語が必要となる • 即読する際に内容語のみを読むことがある

    • 要約に不要な単語は – 副詞、形容詞は省かれる傾向にある • 要約文では修飾節は不要になりやすい • 単語抽出部では名詞、動詞を抽出 • 日本語では主動詞が必要となる
  24. 31 文生成部 (3/7) HMM のタグ付与 • HMM でのタグ付与問題を基に行う – 観測

    x が与えられたときに確率最大となるラ ベル列 y を求める 水 は 生命 の 源 だ 名詞 名詞 名詞 助詞 助詞 助動詞 x y argmax y ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  T :ラベル数 P x t ∣y t :出力確率 P y t ∣y t −1 :遷移確率
  25. 32 補完候補となる機能語の数 • 全ての機能語を補完候補に – 166946( 約 16 万 )

    候補 • 頻度 1000 以上の候補 – 1320 候補 • 頻度 10000 以上の候補 – 280 候補 • 頻度 100000 以上の候補 – 54 候補
  26. 33 文生成部 (4/6) 確率値の扱い • 確率値は試行回数によって信頼区間が変わる – 試行回数が少ないほど信頼区間が広い  ⇒ 確率値が信頼できない  

      信頼度の低い確率値は値を小さく • 信頼区間の広さで確率値の補正を行う – 信頼区間の算出には Alan ら [1998] を用いる – 信頼区間は 0 ~1で与えられる – 1から信頼区間を引いた数を不信頼度 – 不信頼度を確率値にかけた値を新しい確率値に
  27. 34 文生成部 (5/6) 信頼区間の算定 • 確率値を p' • 不信頼度 •

    新しい確率値は p'×Ur p ' = s2 n4 p ' ±1.96  p ' 1− p '  n n : 1 g r a m の出現回数 s : 2 g r a m の出現回数 Ur=1− 2×1.96 p ' 1− p '  n  Agresti and Coull の信頼区間の推定
  28. 35 文生成部 (6/6) 確率をコストへ • 確率値はコストへ変換して計算を行う • コストは確率の対数の絶対値を用いる argmax y

    ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  = argmin y ∈∑ y T ∑ t =q T {C x t ∣y t C y t ∣y t −1 } T :ラベル数 P x t ∣y t :出力確率  2gram 後方からの 確率  P y t ∣y t −1 : 遷移確率  2gram 機能語の 確率  C x t ∣y t : P x t ∣y t のコスト化した値 対数の絶対値 
  29. 36 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  30. 37 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 前後 2 単語 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  31. 38 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 直接係り受け関係にある単語 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  32. 39 生成文の並び替え (2/4) コスト • 生成文の並び替えには – 文生成時に付与したコスト正規化 Costc –

    係り受けコスト Costd – 機能語コスト Costf • これら3つのコストを合成する • コストを昇順にソート c Cost= c Cost c  d Cost d  f Cost f  c =3  d =11.55  f =11.3
  33. 40 生成文の並び替え (3/4) 係り受けコスト • 係り受けコストには構文解析器 CaboCha • CaboCha の係り関係スコアを用いる

    • 係り関係スコアは文節ごとに付与される • 1文の係り受けコストは – 係り関係スコアを全て足した値 • N-best 出力内で正規化を行う
  34. 41 結果 ( 人手による評価 ) • 100 文を 3 人の被験者が独立に評価

    • 人による揺れが大きいことが分かる • 意味同一性の評価が人手による揺れが著しい – 名詞、動詞だけでは意味が取れない? 正解とした評価者数 1 ≧ 2 ≧ 可読性の評価 66 38 20 意味の同一性の評価 56 23 3 =3
  35. 42 考察 ( 先行研究との比較 ) • 比較する先行研究として堀ら (2000) の手法と比 較

    – これは DP で部分単語列の抽出を行うことで要約 – ノードは単語重要度、エッジは連接確率と係り受け のスコア • 先行研究に比べて悪くなってる 可読性の評価 意味の評価 可読性の評価 意味の評価 本手法 54% 46% 41% 14% 先行研究 64% 20% 48% 33% 被験者A 被験者B
  36. 43 考察 ( 先行研究との比較 ) • 間違った文の比較 – 全国の市町村を再編成する「平成の大合併」が 10

    月 1 日にピークを向かえ、過去最多50市町が誕生 する。 ⇒ 全国で市町村の大合併を向かえた過去最多の 50だ市町の誕生。 ⇒ 全国の再編成する「の大」が 10 月 1 日にを迎 え、過去50市町がする。 • 両方とも正しくないが間違い度合いが違う
  37. 44 文生成部 (1/3) 概要 • 抽出した単語群より文を生成 – 生成は機能語を補完することで行う • 補完候補はコーパスより出力

    • 補完候補の決定には HMM を用いたタグ付与問 題を応用する • 出力は N-best 出力する
  38. 45 考察 ( 並び替えの効果 ) • 並び替え前と並び替え後の精度を比較 – 文生成時に 100-best

    出力 – 人手で評価を行う – 正解が含まれていた文について並べ替えの効果 • 並べ替えを行うことで精度が向上している • 並べ替えは効果があるといえる 最初に正解が出現する順位 並び替えする 並べ替えしない 並べ替えする 並べ替えしない 6.57 8.21 0.44 0.31 10.34 11.22 0.46 0.37 1位に正解が出現する確率 可読性の評価(全70文) 意味の評価(全41文)
  39. 46 先行研究との比較 可読性の評価 意味の評価 手法 選択肢1 選択肢2 選択肢3 選択肢4 本手法

    13文 11文 18文 58文 先行研究(堀ら2002) 9文 30文 31文 30文 先行研究(池田ら 2006) 13文 15文 20文 52文 手法 選択肢1 選択肢2 選択肢3 本手法 18文 54文 28文 先行研究(堀ら 2002) 11文 66文 23文 先行研究(池田ら 2006) 17文 48文 45文
  40. 47 複合語の同定 (1/3) 概要 • 抽出語の連接から複合語の同定 – 抽出語は単語単位 – 複数の単語で意味をなすことがある

    • 同定には検索エンジンを利用 – 検索エンジンを大規模テキスト ( コーパス ) と考える
  41. 48 前処理部 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さん (45) を

    6 月 29 日付で執行役員待遇に昇格させていたこと を明らかにした。 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さんを 6 月 29 日付で執行役員待遇に昇格。 不要部の削除 文末の整形
  42. 49 単語抽出部 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さんを 6 月

    29 日付で執行役員待遇に昇格。 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月 29 日 , 付 , 執行 , 役員 , 待遇 , 昇格 要約に必要な単語を抽出
  43. 50 複合語の同定 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月

    29 日 , 付 , 執行 , 役員 , 待遇 , 昇格 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月 29 日付 , 執行役員待遇 , 昇格 複合語を作る
  44. 51 文生成部 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月

    29 日付 , 執行役員待遇 , 昇格 ・島津製作所でノーベル化学賞を田中耕一さんは   6 月 29 日付で執行役員待遇に昇格 ・島津製作所はノーベル化学賞の田中耕一さんを   6 月 29 日付で執行役員待遇に昇格 ・島津製作所がノーベル化学賞の田中耕一さんも   6 月 29 日付で執行役員待遇の昇格 文を作る ( 複数 )
  45. 52 生成文の並び替え ・島津製作所でノーベル化学賞を田中耕一さんは   6 月 29 日付で執行役員待遇に昇格 ・島津製作所はノーベル化学賞の田中耕一さんを  

    6 月 29 日付で執行役員待遇に昇格 ・島津製作所がノーベル化学賞の田中耕一さんも   6 月 29 日付で執行役員待遇の昇格 ・島津製作所はノーベル化学賞の田中耕一さんを   6 月 29 日付で執行役員待遇に昇格 1 番良い文を出力に
  46. 53 複合語の同定 (3/4) 一意に同定 • 2 つの複合語で決められない場合 – 前の主辞が動詞の場合 •

    2 つの複合語をあわせて 1 つの複合語に – 後ろの主辞が動詞の場合 • 前の複合語を複合語として採用 { 違法 = コピー , コピー = できる }⇒{ 違法コピー , できる } – 後ろの主辞がサ変名詞、前の主辞がサ変以外 • 前の複合語を複合語として採用 { 上院 = 議員 , 議員 = 提出 }⇒{ 上院議員 , 提出 } – 上記以外の場合 • 複合語スコアの大きいものを採用
  47. 54 複合語の同定 (4/4) 一意に同定 • 3 つ以上の複合語が決められない場合 – 主辞の品詞がサ変名詞が1つのみ •

    主辞がサ変の複合語の前の複合語を採用 { 米 = 映画 , 映画 = 製作 , 製作 = 会社 } ⇒{ 米映画 , 製作会社 } – 主辞の品詞がサ変名詞以外が1つのみ • 主辞がサ変以外の複合語を採用 { ゲーム = ソフト , ソフト = 開発 , 開発 = 協力 } ⇒{ ゲームソフト , 開発協力 } – それ以外 • スコアが 1 番大きいものを採用
  48. 55 • 島津製作所は 17 日、 2002 年にノーベル化学賞を 受賞した田中耕一さん (45) を

    6 月 29 日付で執行 役員待遇に昇格させていたことを明らかにした。 – 本手法の目標 ⇒ 島津製作所はノーベル化学賞の田中耕一さん  を 6 月 29 日付で執行役員待遇に昇格  – 既存研究の目標 ⇒ 島津製作所はノーベル化学賞を受賞した田中 耕一さんを 6 月 29 日付で執行役員待遇に昇格 • ノーベル化学賞を受賞した田中さん   →ノーベル化学賞の田中さん  要約目標の比較