大田 浩志, 山本 和英. 理解補助を目指した動詞句の換言. 言語処理学会第13回年次大会, pp.907-910 (2007.3)
1理解補助を目指した動詞句の換言大田浩志 山本和英長岡技術科学大学 電気系2007.3.22
View Slide
2はじめに ガス臭いようなところがありましたらマッチを擦ったり、照明のスイッチをつけたり、消したり、ということはしないでください。 火を使わないでください。 やさしい日本語 [弘前大学] 災害時における情報弱者をなくす 同義性より分かりやすさを重視した換言
3目的 円滑な情報伝達 語彙, 概念の不足が問題 語の変化により分かりやすさは変化 同義性にこだわらない換言⇒ 換言可能な表現対の収集暖かくする ⇔ 服をたくさん着るマッチを擦る ⇔ 火をつける
4動詞句対の収集マッチを擦って火をつける。“マッチを 擦る” “火を つける”名詞 + 助詞 動詞 係り受け関係にある動詞句同士には換言となる場合がある名詞 + 助詞 動詞
5換言可能な動詞句対の収集 動詞句対の収集 換言候補の絞り込み 周辺単語一致度スコア 係り先動詞句頻度(格要素スコア,述語スコア)係り元(換言元) 係り先(換言候補)マッチで点ける 紙を燃やすマッチを擦る ケースへ入れるマッチを擦る ランプにともすマッチを擦る 火を起こすマッチをする 煙草をつけるマッチを握る 火をつける
6周辺単語一致度スコア 同様の箇所で使われる動詞句対ほど換言対らしい ・・・箱から取り出しマッチを擦る。火が燃え移る火事になる・・・ ・・・紙に火をつけると火はどんどん大きくなった。そして、火事につながった・・・
7 各単語の持つスコア=各単語が両動詞句で持つ スコアの相乗平均 全単語のスコアの合計=両クエリの周辺単語一致度周辺単語一致度スコア(続き)“マッチを擦る” “火をつける”スコア 順位 単語1 1 火0.5 2 火事0.33 3 箱スコア 順位 単語1 1 火事0.5 2 紙0.33 3 火単語 スコア火 0.57火事 0.71箱 0紙 0 各周辺単語の頻度に基づいたランキング
8係り先動詞句の頻度情報係り元 係り先マッチで点ける 紙を燃やすマッチを擦る ケースへ入れるマッチを擦る ランプにともすマッチを擦る 火を起こすマッチをする 煙草をつけるマッチを握る 火をともすマッチを使う 火を起こすマッチを用意する 針金でつくるマッチ棒を羅列する マッチを補完する換言となる対関連性が高い - 共起頻度高い
9係り元 係り先マッチを擦る ケースへ入れマッチを擦る ランプにともすマッチを擦る 火を起こすマッチをする 煙草をつけるマッチを使う 火を起こすマッチを握る 火をともすマッチを用意する 針金でつくる 係り先動詞句の格要素頻度 スコア 順位 候補1 30.67 20.67 2火を起こすケースへ入れるランプをともす1回:ケース1回:ランプ3回:火候補数3
10係り先動詞句の述語頻度係り元 係り先マッチを擦る ケースへ入れるマッチを擦る ランプにともすマッチを擦る 火を起こすマッチをする 煙草をつけるマッチを使う 火を起こすマッチを握る 火をともすマッチを用意する 針金でつくる スコア 順位 候補1 31 30.33 1火を起こすランプをともすケースへ入れる入れる:1回ともす :2回起こす :2回
11実験 動詞句対の収集Webコーパス [関口ら2003]8800万文から動詞句対650万組 換言元動詞句 閾値決定実験, 評価実験 各200個
12評価 動詞句を換言元として入力し、全ての換言候補を人手評価 判定基準 「置き換えたとき概ねの意味が保持される文があれば正解」 評価者3人で多数決
13閾値の決定:人手評価結果 全換言候補1270個 正解220個, 不正解1050個 最適な出力結果が得られる3つのスコアの閾値及び正解ルールを決定
14閾値の決定 各正解ルールに対する各スコアの最適な閾値閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 精度 適合率正解ルール N V W (%) (%)0.91 0.84 0.53 85 690.81 0.92 1.17 84 652スコア以上 0.99 0.95 1.14 83 520.99 0.99 1.97 77 323スコア2スコア以上(W含む)1スコア以上閾値を超えた数
15正解ルールの決定 評価用データに対して、最適な正解ルールを採用する閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 適合率正解ルール N V W (%)0.91 0.84 0.53 80.81 0.92 1.17 392スコア以上 0.99 0.95 1.14 330.99 0.99 1.97 203スコア2スコア以上(W含む)1スコア以上
16結果 出力換言対 239組 正解 39%(95組) 動詞句単位で換言可能 78%知恵を出し合う - 一緒に考える人気を集める - 好評を博す 内容語単位で換言可能感じを受ける - 印象を受ける
17考察1:換言表現の関係係り元動詞句 関係助詞 係り先動詞句マッチをする none 火をつけるてとともに とたり ば名詞 + 助詞 動詞 名詞 + 助詞 動詞助詞 換言となる動詞句間の関係が知りたい
18考察1:換言表現の関係3%1%28%43%全動詞句対3%1%26%46%不正解動詞句対3%3%29%52%正解動詞句対たりとともにてnone対象「none(中止形)」 並列「て」 因果, 付帯状況・様態, 並列「とともに」 並列, 相関「たり」 並列
19考察2:換言候補の数 換言候補数により結果が異なる フィルタリングは機能している ランキングを用いている為、候補数が少ない場合尤もらしくないものでも正解とされる55%52%45%43%39%適合率≧200≧150≧100≧50≧1
20考察3:不正解の文について 反意 安打を放つ - 安打を止める 関連社長を務める - 会長に就任する その他環境を整える - 人が生活できる他の指標導入により削れる場合もある
21今後の課題 分かりやすさの判定 明確な指標が必要 換言可能な文脈の特定 限定された場面での換言表現を収集している 動詞句対の収集ルール 本手法は対応できない換言対がある
22まとめ 理解しやすい日本語への換言を目指し、概ね同義な換言のための動詞句対を収集 係り受け関係となる動詞句対を対象 収集を目指した対は全出力のうち3割 適合率の改善は見込める 収集した動詞句対を使うための調査
23おわり