理解補助を目指した動詞句の換言

 理解補助を目指した動詞句の換言

大田 浩志, 山本 和英. 理解補助を目指した動詞句の換言. 言語処理学会第13回年次大会, pp.907-910 (2007.3)

Transcript

  1. 1 理解補助を目指した動詞句の換言 大田浩志 山本和英 長岡技術科学大学 電気系 2007.3.22

  2. 2 はじめに  ガス臭いようなところがありましたらマッチ を擦ったり、照明のスイッチをつけたり、消 したり、ということはしないでください。                                火を使わないでください。 

    やさしい日本語 [弘前大学]  災害時における情報弱者をなくす  同義性より分かりやすさを重視した換言
  3. 3 目的  円滑な情報伝達  語彙, 概念の不足が問題  語の変化により分かりやすさは変化 

    同義性にこだわらない換言 ⇒ 換言可能な表現対の収集 暖かくする ⇔ 服をたくさん着る マッチを擦る ⇔ 火をつける
  4. 4 動詞句対の収集 マッチを擦って火をつける。 “マッチを 擦る” “火を つける” 名詞 + 助詞

    動詞  係り受け関係にある動詞句同士には換言となる場合があ る 名詞 + 助詞 動詞
  5. 5 換言可能な動詞句対の収集  動詞句対の収集  換言候補の絞り込み  周辺単語一致度スコア  係り先動詞句頻度(格要素スコア,述語スコア)

    係り元(換言元)   係り先(換言候補) マッチで点ける      紙を燃やす マッチを擦る       ケースへ入れる マッチを擦る       ランプにともす マッチを擦る       火を起こす マッチをする        煙草をつける マッチを握る    火をつける  
  6. 6 周辺単語一致度スコア  同様の箇所で使われる動詞句対ほど換言 対らしい  ・・・箱から取り出しマッチを擦る。火が燃え 移る火事になる・・・  ・・・紙に火をつけると火はどんどん大きくな った。そして、火事につながった・・・

  7. 7  各単語の持つスコア =各単語が両動詞句で持つ  スコアの相乗平均  全単語のスコアの合計 =両クエリの周辺単語一致度 周辺単語一致度スコア(続き) “マッチを擦る”

     “火をつける” スコア 順位 単語 1 1 火 0.5 2 火事 0.33 3 箱 スコア 順位 単語 1 1 火事 0.5 2 紙 0.33 3 火 単語  スコア 火 0.57 火事 0.71 箱 0 紙 0  各周辺単語の頻度に基づいたランキング
  8. 8 係り先動詞句の頻度情報 係り元      係り先 マッチで点ける    紙を燃やす マッチを擦る     ケースへ入れる マッチを擦る 

      ランプにともす マッチを擦る    火を起こす マッチをする      煙草をつける マッチを握る     火をともす マッチを使う    火を起こす マッチを用意する  針金でつくる マッチ棒を羅列する マッチを補完する  換言となる対 関連性が高い - 共起頻度高い
  9. 9 係り元      係り先 マッチを擦る     ケースへ入れ マッチを擦る    ランプにともす マッチを擦る   

    火を起こす マッチをする      煙草をつける マッチを使う     火を起こす マッチを握る    火をともす マッチを用意する  針金でつくる  係り先動詞句の格要素頻度         スコア 順位 候補 1 3 0.67 2 0.67 2 火を起こす ケースへ入れる ランプをともす 1回:ケース 1回:ランプ 3回:火 候補数3
  10. 10 係り先動詞句の述語頻度 係り元      係り先 マッチを擦る     ケースへ入れる マッチを擦る    ランプにともす

    マッチを擦る    火を起こす マッチをする      煙草をつける マッチを使う     火を起こす マッチを握る    火をともす マッチを用意する  針金でつくる  スコア 順位 候補 1 3 1 3 0.33 1 火を起こす ランプをともす ケースへ入れる 入れる:1回 ともす :2回 起こす :2回
  11. 11 実験  動詞句対の収集  Webコーパス [関口ら2003]  8800万文から動詞句対650万組 

    換言元動詞句  閾値決定実験, 評価実験 各200個
  12. 12 評価  動詞句を換言元として入力し、全ての換言 候補を人手評価  判定基準  「置き換えたとき概ねの意味が保持される 文があれば正解」 

    評価者3人で多数決
  13. 13 閾値の決定:人手評価結果  全換言候補1270個  正解220個, 不正解1050個  最適な出力結果が得られる3つのスコアの 閾値及び正解ルールを決定

  14. 14 閾値の決定  各正解ルールに対する各スコアの最適な閾値 閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 精度 適合率

    正解ルール N V W (%) (%) 0.91 0.84 0.53 85 69 0.81 0.92 1.17 84 65 2スコア以上 0.99 0.95 1.14 83 52 0.99 0.99 1.97 77 32 3スコア 2スコア以上(W含む) 1スコア以上 閾値を超えた数
  15. 15 正解ルールの決定  評価用データに対して、最適な正解ルール を採用する 閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 適合率

    正解ルール N V W (%) 0.91 0.84 0.53 8 0.81 0.92 1.17 39 2スコア以上 0.99 0.95 1.14 33 0.99 0.99 1.97 20 3スコア 2スコア以上(W含む) 1スコア以上
  16. 16 結果  出力換言対 239組  正解 39%(95組)  動詞句単位で換言可能 78%

    知恵を出し合う - 一緒に考える 人気を集める - 好評を博す  内容語単位で換言可能 感じを受ける - 印象を受ける
  17. 17 考察1:換言表現の関係 係り元動詞句  関係助詞 係り先動詞句 マッチをする   none 火をつける て とともに      と

    たり    ば 名詞 + 助詞 動詞 名詞 + 助詞 動詞 助詞   換言となる動詞句間の関係が知りたい
  18. 18 考察1:換言表現の関係 3% 1% 28% 43% 全動詞句対 3% 1% 26%

    46% 不正解動詞句対 3% 3% 29% 52% 正解動詞句対 たり とともに て none 対象 「none(中止形)」 並列 「て」 因果, 付帯状況・様態, 並列 「とともに」 並列, 相関 「たり」 並列
  19. 19 考察2:換言候補の数  換言候補数により結果が異なる  フィルタリングは機能している  ランキングを用いている為、候補数が少な い場合尤もらしくないものでも正解とされる 55%

    52% 45% 43% 39% 適合率 ≧200 ≧150 ≧100 ≧50 ≧1
  20. 20 考察3:不正解の文について  反意  安打を放つ - 安打を止める  関連 社長を務める

    - 会長に就任する  その他 環境を整える - 人が生活できる 他の指標導入により削れる場合もある
  21. 21 今後の課題  分かりやすさの判定  明確な指標が必要  換言可能な文脈の特定  限定された場面での換言表現を収集している

     動詞句対の収集ルール  本手法は対応できない換言対がある
  22. 22 まとめ  理解しやすい日本語への換言を目指し、 概ね同義な換言のための動詞句対を収集  係り受け関係となる動詞句対を対象  収集を目指した対は全出力のうち3割 

    適合率の改善は見込める  収集した動詞句対を使うための調査
  23. 23 おわり