「新幹線要約」のための文末の整形

 「新幹線要約」のための文末の整形

池田 諭史, 大橋 一輝, 山本 和英. 「新幹線要約」のための文末の整形. 情報処理学会 研究報告, NL163-22 / FI76-22 (2004.9)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

September 30, 2004
Tweet

Transcript

  1. 「新幹線要約」のための文末の整形 池田諭史 大橋一輝 山本和英 長岡技術科学大学 電気系 2004.9.17

  2. 新幹線要約 新幹線要約とは ・新幹線の電光掲示板でのニュース記事 新幹線要約文の特徴 ・名詞や助詞で終る文が多い ・和語に比べて漢語が多い 取り立てに関する会社幹部の関与の実態を解明へ へ。 日本人拉致疑惑などは与党の動向見極め判断 判断。

    与党は衆議院の定数削減法案を14日に採決する方針を決定 決定。
  3. 日経-gooのメールサービス 1日3回配信 1メールあたり5、6記事の新幹線要約文 1記事あたり約56文字 1999年12月~現在までの約4年半分を収集 40374文

  4. 新幹線要約文の文末の特徴 品詞 日本経済新聞 新幹線要約 名詞 23.70 55.92 動詞 28.66 15.91

    形容詞 1.80 0.19 副詞 0.20 0.22 助詞 1.56 8.83 助動詞 38.59 18.52 出現比率[%] (うちサ変名詞) (5.00) (39.90) (うち格助詞) (0.34) (6.41)
  5. 新幹線要約文の和語と漢語の比率 和語に対する漢語の比率 和語 漢語 b/a 見つかる 発見 1.059 2.658 2.510

    決める 決定 0.622 2.184 3.511 選ぶ 選出 0.210 2.643 12.586 分かる 判明 0.181 2.875 15.884 命じる 命令 1.132 3.841 3.393 述べる 発言 0.451 0.181 0.401 調べる 調査 6.284 53.333 8.487 2.712 7.271 2.681 日経(a) 新幹線要約(b) 以上7個の統計
  6. 関連研究 若尾ら(1997) ニュースの字幕と音声を比較して音声ニュ ースから字幕への要約手法について調査 佐藤ら(2004)  パソコン用と携帯用のニュース記事から文 末の言い換えパターンを抽出

  7. 要約の流れ 1.断定表現及び敬語表現の削除 2.「示す」の削除 3.サ変動詞の換言 4.「なる」の削除 5.「明らかに」の後の削除 6.和語の換言 7.「しまう」の削除 8.「立つ」の削除 9.未来の行動を示唆する表現の削除

    10.文末の複合名詞への換言
  8. 断定表現及び敬語表現の削除 断定表現  「だった」「である」「だ」 敬語表現  「ます」「です」 平和条約締結交渉にも影響するのは必至だ だ。 ↓ 平和条約締結交渉にも影響するのは必至。

  9. 「示す」の削除 「を示す」「を示した」を削除 自民党との最終調整に入る意向を示した を示した。 ↓ 自民党との最終調整に入る意向。

  10. サ変動詞の換言 サ変動詞の「する」以降を削除し体言止め  自立語が含まれれば処理せず 削除部に推定表現→文末に「か」 11規則を作成 逃走資金に困って自首した 自首したとみられる みられる。 ↓ 逃走資金に困って自首か

    自首か。
  11. 「なる」の削除 助詞+「なる」以降を削除  自立語が含まれれば処理せず 助詞が「に」「と」→文末に「に」 否定表現→文末に「ならず」 推進派は「静観」して論戦にならない にならない。 ↓ 推進派は「静観」して論戦にならず にならず。

  12. 「明らかに」の後の削除 「明らかに」の後を削除   名詞の自立語が含まれれば処理せず 否定表現+「れる」→文末に「されず」 否定表現→文末に「せず」 「することを明らかに」→「すること」を削除 ・直前が「助詞+サ変」 助詞「に」→「へ」 助詞「を」→「の」 代表役員を辞任することを明らかに

    を辞任することを明らかにした。 ↓ 代表役員の辞任を明らかに の辞任を明らかに。
  13. 和語の換言 和語と漢語の対応 和語以降を削除し漢語を付加  自立語が含まれれば処理せず 助詞「が」+「調査」以外 「が」→「を」 5規則を作成 マニュアルの作成に着手することを決めた することを決めた。 ↓

    マニュアルの作成に着手を決定 を決定。 和語 漢語 見つかる 発見 決める 決定 選ぶ 選出 分かる 判明 命じる 命令 述べる 発言 調べる 調査
  14. 「しまう」の削除 文が「しまう」で終わっている時  「しまう」を削除し、その前の単語を原形に 文中に「しまう」がある時  「しまう」と直前の一語を取り除く 宇宙開発は金縛り状態に陥ってしまっ しまったのだろうか。 ↓ 宇宙開発は金縛り状態に陥ったのだろうか。

  15. 「立つ」の削除 「立つ」以降を削除する  自立語を含む時は削除せず 以降に否定表現→文末に「立たず」 「立つ」を含む慣用表現の時は削除せず 「トップボーイ」はTVゲームの専門小売店の頂点に立つ 立つ。 ↓ 「トップボーイ」はTVゲームの専門小売店の頂点に。

  16. 未来の行動を示唆する表現の削除 「予定」「計画」「方向」「方針」 …、2001年度から実施する予定 する予定だ。 ↓ …、2001年度から実施へ へ。 これら以降を削除し、「へ」を付加 否定表現、「という」、読点を含む時処理せず

  17. 文末の複合名詞への変換 文末が「名詞+助詞+サ変名詞」の時  助詞を削除して文末を複合名詞に 助詞が「から」「で」「も」の時は処理をせず 助詞が「に」の時は、妥当性の判断を行う 3階の焼け跡から男性の遺体を発見 遺体を発見。 ↓ 3階の焼け跡から男性の遺体発見 遺体発見。

  18. 評価実験 毎日新聞2000年度版全記事を入力 232038文中73512文要約   ・文末の要約率の評価   ・人手による正解の評価   ・人手による文末の整形との比較   

  19. 文末の要約率(1/2) 原文と要約文を前方一致させ、異なる表 現になった文字以降を文末と定義 日本交通公社などが1月1日、社名を変更する を変更する。 ↓ 日本交通公社などが1月1日、社名変更 変更。 文末の要約率 2

    5 0.40
  20. 文末の要約率(2/2) 全体 和語 「明らかに」 断定表現及び敬 語表現 サ変動詞 「なる」 「立つ」 未来の行動を示

    唆する表現 「示す」 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 文末の要約率
  21. 人手による正解率(1/2) 無作為に1000文抽出 3人の被験者がそれぞれ判定  基準:文意の保持、違和感が少ない 多数決により判定

  22. 人手による正解率(2/2) 全体 全体 「しまう」 「しまう」 「明らかに」 「明らかに」 断定表現及び敬語表 断定表現及び敬語表 現

    現 未来の行動を示唆す 未来の行動を示唆す る表現 る表現 「示す」 「示す」 和語 和語 サ変動詞 サ変動詞 「なる」 「なる」 「立つ」 「立つ」 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 正解率
  23. 考察(1/5) 間違いについて 本当の顔は世界中の映画を取引する巨大な見本市なのだ だ。 ↓ 本当の顔は世界中の映画を取引する巨大な見本市なの なの。 表現の不足 シュターデ原発を2003年までに に廃止することを明らかにした。 ↓

    シュターデ原発を2003年までへ へ廃止を明らかに。 助詞の換言ミス
  24. 考察(2/5) 間違いについて 遊泳プールの水質基準を厳しくする方向 する方向で検討に入った。 ↓ 遊泳プールの水質基準を厳しくへ へ。 サ変以外の名詞 顔は喜怒哀楽の表情を積み重ね人柄を示す を示す。 ↓

    顔は喜怒哀楽の表情を積み重ね人柄。
  25. 人手による文末整形との比較 無作為に100文抽出 人手による文末の整形 本手法 人手による整形 文末の要約率 0.52 0.51 削減文字数 2.50

    2.90
  26. 考察(3/5) 人手による整形について 文意を取る際に意味を持たない語句の削除 同改正案は今月中に成立する見通しだ する見通しだ。 ↓ 同改正案は今月中に成立する見通し する見通し。 同改正案は今月中に成立へ へ。 …、今後になお課題を残した形だ

    残した形だ。 ↓ …、今後になお課題を残した形 残した形。 …、今後になお課題を残す 残す。
  27. 考察(4/5) 人手による整形について …、クレジットカードの利用を中止すると発表した を中止すると発表した。 ↓ …、クレジットカードの利用を中止すると発表 を中止すると発表。 …、クレジットカードの利用の中止を発表 の中止を発表。 …、合成DNAを使用した治療の臨床研究を承認したと発表した 承認したと発表した。

    ↓ …、合成DNAを使った治療の臨床研究を承認したと発表 承認したと発表。 …、合成DNAを使った治療の臨床研究を承認 承認。 文末の動詞についても削除 「すると」を削除
  28. 考察(5/5) 要約されなかった文 要約されなかった文158526文から無作為 に200文を抽出 要約を想定していた文が9文 自立語が存在 焼け跡から池本さんが遺体で発見され れた。 ↓ *焼け跡から池本さんが遺体で発見。

  29. まとめ 新幹線要約を目指し文末の整形を行った 文末の要約率 52%、正解率95% 今後の課題 ・表現の追加 ・助詞の換言の間違い ・助詞「も」で終わる文

  30. おわり 発表はここまでです。 次のスライドからは、 質疑応答のための補足資料です。

  31. 収集したニュースメールの情報 メール数 3365 記事数 21127 文数 40374

  32. 人による正解率のゆれ 正解率 0.98 0.95 0.91 1人以上が正解 2人以上が正解 3人が正解

  33. 文全体の要約率 全体 未来の行動を示唆する表 現 「しまう」 「明らかに」 「立つ」 「なる」 「示す」 サ変動詞

    断定表現及び敬語表現 和語 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 要約率
  34. 各手法の適用頻度 全体 「明らかに」 「立つ」 「しまう」 未来の行動を示唆する表 現 「示す」 和語 「なる」

    断定表現及び敬語表現 サ変動詞 0 10000 20000 30000 40000 50000 60000 70000 80000 適用頻度
  35. 「も」で終る文 改革派に配慮との見方も。 宇宙予算削減に批判も。 今後の貿易摩擦に影響も。 約500文が「も」で終る表現

  36. サ変動詞の換言(1/4) サ変動詞の「する」以降を削除し体言止め   自立語が含まれれば処理せず 削除部に推定表現→文末に「か」 削除部に否定表現→文末に「せず」 削除部に否定表現+「れる」→「されず」 逃走資金に困って自首した 自首したとみられる みられる。 ↓

    逃走資金に困って自首か 自首か。
  37. サ変動詞の換言(2/4) 「助詞 1 +名詞+すること+助詞 2 +サ変名詞」      →「すること」を削除  助詞 1 「を」「か」→「の」

    両国政府の実務者協議を2月にも開催することで合意した も開催することで合意した。 ↓ 両国政府の実務者協議を2月にも開催で合意 も開催で合意。
  38. サ変動詞の換言(3/4) 「初めて」を含む時 「するのは」「したのは」→サ変直前「初め て」 「して」→文末に「後初」   サ変直前の助詞「が」→「の」 空爆はイスラエルの平和推進派のバラク政権が発足して初めて が発足して初めて。 ↓ 空爆はイスラエルの平和推進派のバラク政権の発足後初

    の発足後初。
  39. サ変動詞の換言(4/4) 「初めて」を含む時 「発言」「言及」→サ変直前に「初めて」 「発言」「言及」以外 ・助詞「の」「が」+サ変→の+サ変+は初 ・助詞「を」「も」+サ変→「助詞+初めて+サ変」 ・上記以外→文末に「は初」 推定表現→文末に「か」 ロシア軍幹部が撤退に言及した 言及したのは初めて

    初めて。 ↓ ロシア軍幹部が撤退に初めて言及 初めて言及。
  40. 和語の換言(1/2) 和語と漢語の対応 和語以降を削除し漢語を付加  自立語が含まれれば処理せず 「することを+漢語」    →「すること」を削除 マニュアルの作成に着手することを決めた することを決めた。 ↓ マニュアルの作成に着手を決定

    を決定。 和語 漢語 見つかる 発見 決める 決定 選ぶ 選出 分かる 判明 命じる 命令 述べる 発言 調べる 調査
  41. 和語の換言(2/2) 助詞「が」+「調査」以外   「が」→「を」 助詞「が」+名詞+助詞「で」+漢語   「が」→「の」 「調査」+削除部に「ている」   文末に「中」 「は判明」→処理せず 西淀川署で出火原因を調べている 調べている。

    ↓ 西淀川署で出火原因を調査中 調査中。