機能語の補完による文生成を用いた濃縮還元型要約モデル

 機能語の補完による文生成を用いた濃縮還元型要約モデル

池田 諭史. 機能語の補完による文生成を用いた濃縮還元型要約モデル. 長岡技術科学大学修士論文 (2007.3)

Transcript

  1. 1 機能語の補完による文生成を用いた 濃縮還元型要約モデル 電気電子情報工学専攻 山本研究室 05530591 池田諭史

  2. 2 研究目的と対象 • 研究の目的 – 1 文単位の要約 • 対象とする文 –

    ニュース記事の 1 文
  3. 3 既存の自動要約 • 現在の文単位での自動要約では – 文より冗長表現を削除する • 不要部分の削除 – 文の必要な部分を抜き出し並べる

    • 重要部分の抽出 • 自然な要約が出来ないことがある • より自然な要約文を生成したい … ダイエーについて、支援を決定した場合でも… ↓ … ダイエーへの支援が決定した場合でも…
  4. 4 濃縮還元型要約モデルとは • 人間が要約を行う際 – 原文から必要な単語の抽出 – 抽出した単語の並び替え – 単語からの文の生成

    という手順で要約を行うことがある • 機械的に同様の手法が行えるのでは – 単語の抽出 ( 濃縮 ) – 単語群からの文の生成 ( 還元 )
  5. 5 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 – 複合語の同定 – 文生成部 – 生成文の並び替え
  6. 6 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 – 複合語の同定 – 文生成部 – 生成文の並び替え 要 約 文 の 生 成
  7. 7 提案手法 ( 濃縮還元要約モデル ) • 人手で行う際の手法を取り入れる • 以下の手順で要約を行う –

    前処理部 – 単語抽出部 – 複合語の同定 – 文生成部 – 生成文の並び替え よ り 良 い   要 約 文 の 出 力
  8. 8 前処理部 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さん (45) を

    6 月 29 日付で執行役員待遇に昇格させていたこと を明らかにした。 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さんを 6 月 29 日付で執行役員待遇に昇格。 不要部の削除 文末の整形
  9. 9 単語抽出部 島津製作所は 17 日、 2002 年にノーベル 化学賞を受賞した田中耕一さんを 6 月

    29 日付で執行役員待遇に昇格。 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月 29 日 , 付 , 執行 , 役員 , 待遇 , 昇格 要約に必要な単語を抽出
  10. 10 複合語の同定 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月

    29 日 , 付 , 執行 , 役員 , 待遇 , 昇格 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月 29 日付 , 執行役員待遇 , 昇格 複合語を作る
  11. 11 文生成部 島津製作所 , ノーベル化学賞 , 田中耕一さん , 6 月

    29 日付 , 執行役員待遇 , 昇格 ・島津製作所でノーベル化学賞を田中耕一さんは   6 月 29 日付で執行役員待遇に昇格 ・島津製作所はノーベル化学賞の田中耕一さんを   6 月 29 日付で執行役員待遇に昇格 ・島津製作所がノーベル化学賞の田中耕一さんも   6 月 29 日付で執行役員待遇の昇格 文を作る ( 複数 )
  12. 12 生成文の並び替え ・島津製作所でノーベル化学賞を田中耕一さんは   6 月 29 日付で執行役員待遇に昇格 ・島津製作所はノーベル化学賞の田中耕一さんを  

    6 月 29 日付で執行役員待遇に昇格 ・島津製作所がノーベル化学賞の田中耕一さんも   6 月 29 日付で執行役員待遇の昇格 ・島津製作所はノーベル化学賞の田中耕一さんを   6 月 29 日付で執行役員待遇に昇格 1 番良い文を出力に
  13. 13 要約目標の比較 • 島津製作所は 17 日、 2002 年にノーベル化学賞を 受賞した田中耕一さん (45)

    を 6 月 9 日付で執行役 員待遇に昇格させていたことを明らかにした。                            (68 文字 ) ⇒ 島津製作所はノーベル化学賞の田中耕一さん を 6 月 29 日付で執行役員待遇に昇格                          (37 文字 ) ⇒ 島津製作所はノーベル化学賞を受賞した田中 耕一さんを執行役員待遇に昇格                        (34 文字 )
  14. 14 濃縮還元型要約モデル • 前処理部 • 単語抽出部 • 複合語の同定 • 文生成部

    • 生成文の並び替え
  15. 15 前処理部 • 原文中の括弧を削除する – 括弧内は不要な単語である • 述語の同定のための文末の整形 – 述語となりうる品詞は名詞、動詞とする

    – 文末の名詞、動詞が述語になるように整形 – 単語抽出部で必ず抽出するため – パターンマッチングで行う 自民党との最終調整に入る意向を示した。 ↓ 自民党との最終調整に入る意向。
  16. 16 濃縮還元型要約モデル • 前処理部 • 単語抽出部 • 複合語の同定 • 文生成部

    • 生成文の並び替え
  17. 17 単語抽出部 (1/2) 概要 • 文を生成する際に必要な単語 – 速読の際に内容語だけを読むことがある   ⇒内容語があれば同じ意味の文が生成可能 •

    要約文に不要な語 – 要約文を作成する際、修飾節は省くことが多い   ⇒形容詞、副詞は不要である • 抽出する単語は名詞、動詞とする • 日本語には述語が必要    ⇒述語は必ず抽出
  18. 18 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  19. 19 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 前後 2 単語 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  20. 20 単語抽出部 (2/2) 手法 • SVM による単語抽出 – 要約対を用意する •

    要約文に存在する原文の単語を正例 • 要約文に存在しない原文の単語を負例 – 素性 直接係り受け関係にある単語 水は生命の源だ – カーネル • 線形カーネル 水 は 生命 の 源 だ <s> </s>
  21. 21 濃縮還元型要約モデル • 前処理部 • 単語抽出部 • 複合語の同定 • 文生成部

    • 生成文の並び替え
  22. 22 複合語の同定 (1/3) 概要 • 抽出語の連接から複合語の同定 – 抽出語は単語単位 – 複数の単語で意味をなすことがある

    • 同定には検索エンジンを利用 – 検索エンジンを大規模テキスト ( コーパス ) と考える
  23. 23 複合語の同定 (2/3) 手法 • 複合語の同定には Google を使用 – 以下の式でスコアを求める

    – 閾値を定め閾値以上の候補を複合語とする • A,B を複合語とすることで 3 単語以上にも対応 Score A ,B = ∣" AB "∣ ∣" A " a nd "B "∣ Score A ,B : AB 複合語 のスコア ∣A∣:Google A での のヒット件数
  24. 24 複合語の同定 (3/3) 一意に同定 • 抽出単語群に作成した複合語を適応する • 一意に複合語が決まらないことがある   {…,

    人質 , 事件 , 解決 ,…}   ⇒人質事件 , 事件解決 どちらを複合語に?   {…, 米 , 映画 , 制作 , 会社 ,…} ⇒ 米映画 , 映画制作 , 制作会社 どれを? • 基本的にあわせて 1 つの複合語にはしない • 複合語の主辞 ( 最後の単語 ) の品詞で決定
  25. 25 濃縮還元型要約モデル • 前処理部 • 単語抽出部 • 複合語の同定 • 文生成部

    • 生成文の並び替え
  26. 26 文生成部 (1/6) 概要 • 抽出した単語群より文を生成 – 生成は機能語を補完することで行う • 補完候補はコーパスより出力

    • 補完候補の決定には HMM を用いたタグ付与問 題を基にする • 出力はスコア上位 N 個 (N-best) 出力する 水 / は / 生命 / の / 源 / だ
  27. 27 文生成部 (2/6) 補完候補 • 補完箇所は抽出単語群の間全てとする { 日興 , 個人向け国債

    , 販売 ,JTB, 提携 } • 補完候補はコーパスを用いて出力 – 補完箇所の前後の語の主辞を用いる    { 日興 , 個人向け国債 }  ⇒日興と国債にはさまれた機能語を全て候補に – 候補とする機能語は出現頻度で絞込み (54 単語 ) • 補完候補から補完する機能語を一意に決定
  28. 28 文生成部 (3/6) 手法 • HMM でのタグ付与における – 観測 x

    を抽出単語列 – ラベル列 y を補完する機能語列 水 は 生命 の 源 だ x y argmax y ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  T :ラベル数 P x t ∣y t :出力確率  2gram 後方からの 確率  P y t ∣y t −1 :遷移確率  2gram 機能語の 確率 
  29. 29 文生成部 (4/6) 確率値の扱い • 確率値は試行回数によって信頼区間が変わる – 試行回数が少ないほど信頼区間が広い  ⇒ 確率値が信頼できない  

      信頼度の低い確率値は値を小さく • 信頼区間の広さで確率値の補正を行う – 信頼区間の算出には Alan ら [1998] を用いる – 信頼区間は 0 ~1で与えられる – 1から信頼区間を引いた数を不信頼度 – 不信頼度を確率値にかけた値を新しい確率値に
  30. 30 文生成部 (5/6) 信頼区間の算定 • 確率値を p' • 不信頼度 •

    新しい確率値は p'×Ur p ' = s2 n4 p ' ±1.96  p ' 1− p '  n n : 1gramの出現回数 s : 2gramの出現回数 Ur=1− 2×1.96 p ' 1− p'  n  Alan らの 信頼区間の推定
  31. 31 文生成部 (6/6) 確率をコストへ • 確率値はコストへ変換して計算を行う • コストは確率の対数の絶対値を用いる argmax y

    ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  = argmin y ∈∑ y T ∑ t=q T {C x t ∣y t C y t ∣y t−1 } T :ラベル数 P x t ∣y t :出力確率  2gram 後方からの 確率  P y t ∣y t −1 :遷移確率  2gram 機能語の 確率  C x t ∣y t : P x t ∣y t のコスト化した値 対数の絶対値 
  32. 32 濃縮還元型要約モデル • 前処理部 • 単語抽出部 • 複合語の同定 • 文生成部

    • 生成文の並び替え
  33. 33 生成文の並び替え (1/4) 概要 • 文生成では連接確率を用いるために – 大局的な文のコストが存在しない • 大局的な文のコストを導入

    – 局所的、大局的両方を加味したコストに • コスト最小の文を要約文とする
  34. 34 生成文の並び替え (2/4) コスト • 生成文の並び替えには – 文生成時に付与したコスト正規化 Costc –

    係り受けコスト Costd – 機能語コスト Costf • これら3つのコストを合成する • コストを昇順にソート c Cost= c Cost c  d Cost d  f Cost f  c =3  d =11.55  f =11.3
  35. 35 生成文の並び替え (3/4) 係り受けコスト • 係り受けコストには構文解析器 CaboCha • CaboCha の係り関係スコアを用いる

    • 係り関係スコアは文節ごとに付与される • 1文の係り受けコストは – 係り関係スコアを全て足した値 • N-best 出力内で正規化を行う
  36. 36 生成文の並び替え (4/4) 機能語コスト • 述語に対する機能語の使われ方を利用 – 使われ方はコーパスより学習 • 使われ方は以下の手順で求める

    – コーパスを 1 文単位で区切り、述語を抜き出す – 1 文単位で機能語の単語ベクトルを生成する – 同じ述語の単語ベクトルの算術平均をとる • 生成文も同様に機能語の単語ベクトルを作成 • コサイン距離の対数の絶対値を機能語コスト • N-best 出力内で正規化
  37. 37 実験 • 要約対 – 原文 :NIKKEI-NET の Web ニュース記事

    – 要約文 :Nikkei-goo のメールサービスの記事 – 記事対応を取り各1文目を要約対とする – 3300 要約対で 5 分割交差検定 ( 単語抽出部 ) • 連接確率及び補完候補の出力 – 日経新聞 1996-2004 年度版 9 年分
  38. 38 結果 ( 人手による評価 ) • 100 文を 3 人の被験者が独立に評価

    • 人による揺れが大きいことが分かる • 意味同一性の評価が人手による揺れが著しい – 名詞、動詞だけでは意味が取れない? 正解とした評価者数 1 ≧ 2 ≧ 可読性の評価 66 38 20 意味の同一性の評価 56 23 3 =3
  39. 39 考察 ( 単語抽出について ) • 単語抽出の精度を測るために抽出単語群から 人手で文の生成を行った • 生成に使用した単語群は結果で用いた

    100 文 • 約 7 割の文で生成が可能 • 約 5 割の文が意味を取り違える 可読性の評価 意味同一性の評価 被験者A 被験者B 75文 73文 44文 45文
  40. 40 考察 ( 生成の性能 ) • 機能語列を求める問題 – 文生成部を候補群からの足切と考えると •

    候補を 100 文に絞ったときに正解が含まれる数 – 100 文中 70 文 ( 可読性 ),41 文 ( 意味 ) • 人手で文生成したときに可読性の評価が正解 – 100 文中 74 文 ( 可読性 ),44 文 ( 意味 ) • 正解の機能語列をなくすことなく足切可   ⇒並び替え性能の向上で人での評価に近づく
  41. 41 考察 ( 並び替えの効果 ) • 並び替え前と並び替え後の精度を比較 – 文生成時に 100-best

    出力 – 人手で評価を行う – 正解が含まれていた文について並べ替えの効果 • 並べ替えを行うことで精度が向上している • 並べ替えは効果があるといえる 最初に正解が出現する順位 並び替えする 並べ替えしない 並べ替えする 並べ替えしない 6.57 8.21 0.44 0.31 10.34 11.22 0.46 0.37 1位に正解が出現する確率 可読性の評価(全70文) 意味の評価(全41文)
  42. 42 考察 ( 先行研究との比較 ) • 比較する先行研究として堀ら (2000) の手法と比 較

    – これは DP で部分単語列の抽出を行うことで要約 – ノードは単語重要度、エッジは連接確率と係り受け のスコア • 先行研究に比べて悪くなってる 可読性の評価 意味の評価 可読性の評価 意味の評価 本手法 54% 46% 41% 14% 先行研究 64% 20% 48% 33% 被験者A 被験者B
  43. 43 考察 ( 先行研究との比較 ) • 間違った文の比較 – 全国の市町村を再編成する「平成の大合併」が 10

    月 1 日にピークを向かえ、過去最多50市町が誕生 する。 ⇒ 全国で市町村の大合併を向かえた過去最多の 50だ市町の誕生。 ⇒ 全国の再編成する「の大」が 10 月 1 日にを迎 え、過去50市町がする。 • 両方とも正しくないが間違い度合いが違う
  44. 44 結論 • 文単位の要約の手法として濃縮還元型要約モ デルを提案した • 100 -best 出力で人手と同等の文生成能力 •

    先行研究と比較すると精度が悪くなっている – しかし、不正解の文が全体的に読みやすくなった • 文生成時に大局的なコストの導入
  45. 45 おわり

  46. 46 複合語同定の例 • 3 単語以上の例 (1161/4788) – JR羽越線 / 特急

    / いなほ / 14号 / 脱線 / 事故 – イラク / 邦人 / 人質 / 事件 / 対策 / 本部 – カメラ付き / 携帯 / 電話 – 小一 / 女児 / 誘拐 / 殺害 / 事件 – 新潟県中越 / 大震災 / 復興 / 宝くじ • 2 単語の例 (3627/4788) – ごみ / 集積所 – ご当地 / ナンバー – 住民 / 投票
  47. 47 単語抽出率を変えたときの精度 (F 値 ) 0 10 20 30 40

    50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 本手法 予備実験 TF ・ IDF 単語抽出率 [%] F 値
  48. 48 各コストの有効度 ( 予備実験 ) • 全て昇順で並べた方が良い結果になっている 使用コスト 昇順降順の別 最初に正解が出現する順位

    連接コスト 降順 10.64 0.18 昇順 7.76 0.24 係り受けコスト 降順 9.26 0.08 昇順 8.88 0.12 機能語コスト 降順 9.06 0.18 昇順 7.26 0.22 本手法での重み 昇順 5.6 0.44 1位に正解が出現する確率
  49. 49 複合語の同定 (4/5) 一意に同定 • 2 つの複合語で決められない場合 – 前の主辞が動詞の場合 •

    2 つの複合語をあわせて 1 つの複合語に – 後ろの主辞が動詞の場合 • 前の複合語を複合語として採用 { 違法 = コピー , コピー = できる }⇒{ 違法コピー , できる } – 後ろの主辞がサ変名詞、前の主辞がサ変以外 • 前の複合語を複合語として採用 { 上院 = 議員 , 議員 = 提出 }⇒{ 上院議員 , 提出 } – 上記以外の場合 • 複合語コストの大きいものを採用
  50. 50 複合語の同定 (5/5) 一意に同定 • 3 つ以上の複合語が決められない場合 – 主辞の品詞がサ変名詞が1つのみ •

    主辞がサ変の複合語の前の複合語を採用 { 米 = 映画 , 映画 = 製作 , 製作 = 会社 } ⇒{ 米映画 , 製作会社 } – 主辞の品詞がサ変名詞以外が1つのみ • 主辞がサ変以外の複合語を採用 { ゲーム = ソフト , ソフト = 開発 , 開発 = 協力 } ⇒{ ゲームソフト , 開発協力 } – それ以外 • コストが 1 番大きいものを採用
  51. 51 文生成部 (3/7) HMM のタグ付与 • HMM でのタグ付与問題を基に行う – 観測

    x が与えられたときに確率最大となるラ ベル列 y を求める 水 は 生命 の 源 だ 名詞 名詞 名詞 助詞 助詞 助動詞 x y argmax y ∈∑ y T ∏ t =1 T P x t ∣y t P y t ∣y t −1  T :ラベル数 P x t ∣y t :出力確率 P y t ∣y t −1 :遷移確率
  52. 52 補完候補となる機能語の数 • 全ての機能語を補完候補に – 166946( 約 16 万 )

    候補 • 頻度 1000 以上の候補 – 1320 候補 • 頻度 10000 以上の候補 – 280 候補 • 頻度 100000 万以上の候補 – 54 候補