Upgrade to Pro — share decks privately, control downloads, hide ads and more …

理解補助を目指した動詞句の換言

 理解補助を目指した動詞句の換言

大田 浩志, 山本 和英. 理解補助を目指した動詞句の換言. 言語処理学会第13回年次大会, pp.907-910 (2007.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 1
    理解補助を目指した動詞句の換言
    大田浩志 山本和英
    長岡技術科学大学 電気系
    2007.3.22

    View Slide

  2. 2
    はじめに
     ガス臭いようなところがありましたらマッチ
    を擦ったり、照明のスイッチをつけたり、消
    したり、ということはしないでください。   
                              
     火を使わないでください。
     やさしい日本語 [弘前大学]
     災害時における情報弱者をなくす
     同義性より分かりやすさを重視した換言

    View Slide

  3. 3
    目的
     円滑な情報伝達
     語彙, 概念の不足が問題
     語の変化により分かりやすさは変化
     同義性にこだわらない換言
    ⇒ 換言可能な表現対の収集
    暖かくする ⇔ 服をたくさん着る
    マッチを擦る ⇔ 火をつける

    View Slide

  4. 4
    動詞句対の収集
    マッチを擦って火をつける。
    “マッチを 擦る” “火を つける”
    名詞 + 助詞 動詞
     係り受け関係にある動詞句同士には換言となる場合があ

    名詞 + 助詞 動詞

    View Slide

  5. 5
    換言可能な動詞句対の収集
     動詞句対の収集
     換言候補の絞り込み
     周辺単語一致度スコア
     係り先動詞句頻度(格要素スコア,述語スコア)
    係り元(換言元)   係り先(換言候補)
    マッチで点ける      紙を燃やす
    マッチを擦る       ケースへ入れる
    マッチを擦る       ランプにともす
    マッチを擦る       火を起こす
    マッチをする        煙草をつける
    マッチを握る    火をつける
     

    View Slide

  6. 6
    周辺単語一致度スコア
     同様の箇所で使われる動詞句対ほど換言
    対らしい
     ・・・箱から取り出しマッチを擦る。火が燃え
    移る火事になる・・・
     ・・・紙に火をつけると火はどんどん大きくな
    った。そして、火事につながった・・・

    View Slide

  7. 7
     各単語の持つスコア
    =各単語が両動詞句で持つ
     スコアの相乗平均
     全単語のスコアの合計
    =両クエリの周辺単語一致度
    周辺単語一致度スコア(続き)
    “マッチを擦る”  “火をつける”
    スコア 順位 単語
    1 1 火
    0.5 2 火事
    0.33 3 箱
    スコア 順位 単語
    1 1 火事
    0.5 2 紙
    0.33 3 火
    単語  スコア
    火 0.57
    火事 0.71
    箱 0
    紙 0
     各周辺単語の頻度に基づいたランキング

    View Slide

  8. 8
    係り先動詞句の頻度情報
    係り元      係り先
    マッチで点ける    紙を燃やす
    マッチを擦る     ケースへ入れる
    マッチを擦る    ランプにともす
    マッチを擦る    火を起こす
    マッチをする      煙草をつける
    マッチを握る     火をともす
    マッチを使う    火を起こす
    マッチを用意する  針金でつくる
    マッチ棒を羅列する マッチを補完する

    換言となる対
    関連性が高い - 共起頻度高い

    View Slide

  9. 9
    係り元      係り先
    マッチを擦る     ケースへ入れ
    マッチを擦る    ランプにともす
    マッチを擦る    火を起こす
    マッチをする      煙草をつける
    マッチを使う     火を起こす
    マッチを握る    火をともす
    マッチを用意する  針金でつくる 
    係り先動詞句の格要素頻度
     
     
       
    スコア 順位 候補
    1 3
    0.67 2
    0.67 2
    火を起こす
    ケースへ入れる
    ランプをともす
    1回:ケース
    1回:ランプ
    3回:火
    候補数3

    View Slide

  10. 10
    係り先動詞句の述語頻度
    係り元      係り先
    マッチを擦る     ケースへ入れる
    マッチを擦る    ランプにともす
    マッチを擦る    火を起こす
    マッチをする      煙草をつける
    マッチを使う     火を起こす
    マッチを握る    火をともす
    マッチを用意する  針金でつくる 
    スコア 順位 候補
    1 3
    1 3
    0.33 1
    火を起こす
    ランプをともす
    ケースへ入れる
    入れる:1回
    ともす :2回
    起こす :2回

    View Slide

  11. 11
    実験
     動詞句対の収集

    Webコーパス [関口ら2003]

    8800万文から動詞句対650万組
     換言元動詞句
     閾値決定実験, 評価実験 各200個

    View Slide

  12. 12
    評価
     動詞句を換言元として入力し、全ての換言
    候補を人手評価
     判定基準
     「置き換えたとき概ねの意味が保持される
    文があれば正解」
     評価者3人で多数決

    View Slide

  13. 13
    閾値の決定:人手評価結果
     全換言候補1270個
     正解220個, 不正解1050個
     最適な出力結果が得られる3つのスコアの
    閾値及び正解ルールを決定

    View Slide

  14. 14
    閾値の決定
     各正解ルールに対する各スコアの最適な閾値
    閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 精度 適合率
    正解ルール N V W (%) (%)
    0.91 0.84 0.53 85 69
    0.81 0.92 1.17 84 65
    2スコア以上 0.99 0.95 1.14 83 52
    0.99 0.99 1.97 77 32
    3スコア
    2スコア以上(W含む)
    1スコア以上
    閾値を超えた数

    View Slide

  15. 15
    正解ルールの決定
     評価用データに対して、最適な正解ルール
    を採用する
    閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 適合率
    正解ルール N V W (%)
    0.91 0.84 0.53 8
    0.81 0.92 1.17 39
    2スコア以上 0.99 0.95 1.14 33
    0.99 0.99 1.97 20
    3スコア
    2スコア以上(W含む)
    1スコア以上

    View Slide

  16. 16
    結果
     出力換言対 239組
     正解 39%(95組)
     動詞句単位で換言可能 78%
    知恵を出し合う - 一緒に考える
    人気を集める - 好評を博す
     内容語単位で換言可能
    感じを受ける - 印象を受ける

    View Slide

  17. 17
    考察1:換言表現の関係
    係り元動詞句  関係助詞 係り先動詞句
    マッチをする   none 火をつける

    とともに
         と
    たり
       ば
    名詞 + 助詞 動詞 名詞 + 助詞 動詞
    助詞

     換言となる動詞句間の関係が知りたい

    View Slide

  18. 18
    考察1:換言表現の関係
    3%
    1%
    28%
    43%
    全動詞句対
    3%
    1%
    26%
    46%
    不正解動詞句対
    3%
    3%
    29%
    52%
    正解動詞句対
    たり
    とともに

    none
    対象
    「none(中止形)」 並列
    「て」 因果, 付帯状況・様態, 並列
    「とともに」 並列, 相関
    「たり」 並列

    View Slide

  19. 19
    考察2:換言候補の数
     換言候補数により結果が異なる
     フィルタリングは機能している
     ランキングを用いている為、候補数が少な
    い場合尤もらしくないものでも正解とされる
    55%
    52%
    45%
    43%
    39%
    適合率
    ≧200
    ≧150
    ≧100
    ≧50
    ≧1

    View Slide

  20. 20
    考察3:不正解の文について
     反意
     安打を放つ - 安打を止める
     関連
    社長を務める - 会長に就任する
     その他
    環境を整える - 人が生活できる
    他の指標導入により削れる場合もある

    View Slide

  21. 21
    今後の課題
     分かりやすさの判定
     明確な指標が必要
     換言可能な文脈の特定
     限定された場面での換言表現を収集している
     動詞句対の収集ルール
     本手法は対応できない換言対がある

    View Slide

  22. 22
    まとめ
     理解しやすい日本語への換言を目指し、
    概ね同義な換言のための動詞句対を収集
     係り受け関係となる動詞句対を対象
     収集を目指した対は全出力のうち3割
     適合率の改善は見込める
     収集した動詞句対を使うための調査

    View Slide

  23. 23
    おわり

    View Slide