Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
理解補助を目指した動詞句の換言
Search
自然言語処理研究室
March 31, 2007
Research
1
84
理解補助を目指した動詞句の換言
大田 浩志, 山本 和英. 理解補助を目指した動詞句の換言. 言語処理学会第13回年次大会, pp.907-910 (2007.3)
自然言語処理研究室
March 31, 2007
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
490
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
100
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
200
Other Decks in Research
See All in Research
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
10
5.5k
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
130
CoRL2025速報
rpc
1
2.1k
CVPR2025論文紹介:Unboxed
murakawatakuya
0
180
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
760
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
400
Nullspace MPC
mizuhoaoki
1
200
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
190
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
360
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
350
Submeter-level land cover mapping of Japan
satai
3
420
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
250
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1371
200k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Rails Girls Zürich Keynote
gr2m
95
14k
A Tale of Four Properties
chriscoyier
161
23k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
35
6.1k
Site-Speed That Sticks
csswizardry
13
910
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Become a Pro
speakerdeck
PRO
29
5.6k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Documentation Writing (for coders)
carmenintech
75
5.1k
Transcript
1 理解補助を目指した動詞句の換言 大田浩志 山本和英 長岡技術科学大学 電気系 2007.3.22
2 はじめに ガス臭いようなところがありましたらマッチ を擦ったり、照明のスイッチをつけたり、消 したり、ということはしないでください。 火を使わないでください。
やさしい日本語 [弘前大学] 災害時における情報弱者をなくす 同義性より分かりやすさを重視した換言
3 目的 円滑な情報伝達 語彙, 概念の不足が問題 語の変化により分かりやすさは変化
同義性にこだわらない換言 ⇒ 換言可能な表現対の収集 暖かくする ⇔ 服をたくさん着る マッチを擦る ⇔ 火をつける
4 動詞句対の収集 マッチを擦って火をつける。 “マッチを 擦る” “火を つける” 名詞 + 助詞
動詞 係り受け関係にある動詞句同士には換言となる場合があ る 名詞 + 助詞 動詞
5 換言可能な動詞句対の収集 動詞句対の収集 換言候補の絞り込み 周辺単語一致度スコア 係り先動詞句頻度(格要素スコア,述語スコア)
係り元(換言元) 係り先(換言候補) マッチで点ける 紙を燃やす マッチを擦る ケースへ入れる マッチを擦る ランプにともす マッチを擦る 火を起こす マッチをする 煙草をつける マッチを握る 火をつける
6 周辺単語一致度スコア 同様の箇所で使われる動詞句対ほど換言 対らしい ・・・箱から取り出しマッチを擦る。火が燃え 移る火事になる・・・ ・・・紙に火をつけると火はどんどん大きくな った。そして、火事につながった・・・
7 各単語の持つスコア =各単語が両動詞句で持つ スコアの相乗平均 全単語のスコアの合計 =両クエリの周辺単語一致度 周辺単語一致度スコア(続き) “マッチを擦る”
“火をつける” スコア 順位 単語 1 1 火 0.5 2 火事 0.33 3 箱 スコア 順位 単語 1 1 火事 0.5 2 紙 0.33 3 火 単語 スコア 火 0.57 火事 0.71 箱 0 紙 0 各周辺単語の頻度に基づいたランキング
8 係り先動詞句の頻度情報 係り元 係り先 マッチで点ける 紙を燃やす マッチを擦る ケースへ入れる マッチを擦る
ランプにともす マッチを擦る 火を起こす マッチをする 煙草をつける マッチを握る 火をともす マッチを使う 火を起こす マッチを用意する 針金でつくる マッチ棒を羅列する マッチを補完する 換言となる対 関連性が高い - 共起頻度高い
9 係り元 係り先 マッチを擦る ケースへ入れ マッチを擦る ランプにともす マッチを擦る
火を起こす マッチをする 煙草をつける マッチを使う 火を起こす マッチを握る 火をともす マッチを用意する 針金でつくる 係り先動詞句の格要素頻度 スコア 順位 候補 1 3 0.67 2 0.67 2 火を起こす ケースへ入れる ランプをともす 1回:ケース 1回:ランプ 3回:火 候補数3
10 係り先動詞句の述語頻度 係り元 係り先 マッチを擦る ケースへ入れる マッチを擦る ランプにともす
マッチを擦る 火を起こす マッチをする 煙草をつける マッチを使う 火を起こす マッチを握る 火をともす マッチを用意する 針金でつくる スコア 順位 候補 1 3 1 3 0.33 1 火を起こす ランプをともす ケースへ入れる 入れる:1回 ともす :2回 起こす :2回
11 実験 動詞句対の収集 Webコーパス [関口ら2003] 8800万文から動詞句対650万組
換言元動詞句 閾値決定実験, 評価実験 各200個
12 評価 動詞句を換言元として入力し、全ての換言 候補を人手評価 判定基準 「置き換えたとき概ねの意味が保持される 文があれば正解」
評価者3人で多数決
13 閾値の決定:人手評価結果 全換言候補1270個 正解220個, 不正解1050個 最適な出力結果が得られる3つのスコアの 閾値及び正解ルールを決定
14 閾値の決定 各正解ルールに対する各スコアの最適な閾値 閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 精度 適合率
正解ルール N V W (%) (%) 0.91 0.84 0.53 85 69 0.81 0.92 1.17 84 65 2スコア以上 0.99 0.95 1.14 83 52 0.99 0.99 1.97 77 32 3スコア 2スコア以上(W含む) 1スコア以上 閾値を超えた数
15 正解ルールの決定 評価用データに対して、最適な正解ルール を採用する 閾値 格要素頻度スコア 述語頻度スコア 周辺単語一致度スコア 適合率
正解ルール N V W (%) 0.91 0.84 0.53 8 0.81 0.92 1.17 39 2スコア以上 0.99 0.95 1.14 33 0.99 0.99 1.97 20 3スコア 2スコア以上(W含む) 1スコア以上
16 結果 出力換言対 239組 正解 39%(95組) 動詞句単位で換言可能 78%
知恵を出し合う - 一緒に考える 人気を集める - 好評を博す 内容語単位で換言可能 感じを受ける - 印象を受ける
17 考察1:換言表現の関係 係り元動詞句 関係助詞 係り先動詞句 マッチをする none 火をつける て とともに と
たり ば 名詞 + 助詞 動詞 名詞 + 助詞 動詞 助詞 換言となる動詞句間の関係が知りたい
18 考察1:換言表現の関係 3% 1% 28% 43% 全動詞句対 3% 1% 26%
46% 不正解動詞句対 3% 3% 29% 52% 正解動詞句対 たり とともに て none 対象 「none(中止形)」 並列 「て」 因果, 付帯状況・様態, 並列 「とともに」 並列, 相関 「たり」 並列
19 考察2:換言候補の数 換言候補数により結果が異なる フィルタリングは機能している ランキングを用いている為、候補数が少な い場合尤もらしくないものでも正解とされる 55%
52% 45% 43% 39% 適合率 ≧200 ≧150 ≧100 ≧50 ≧1
20 考察3:不正解の文について 反意 安打を放つ - 安打を止める 関連 社長を務める
- 会長に就任する その他 環境を整える - 人が生活できる 他の指標導入により削れる場合もある
21 今後の課題 分かりやすさの判定 明確な指標が必要 換言可能な文脈の特定 限定された場面での換言表現を収集している
動詞句対の収集ルール 本手法は対応できない換言対がある
22 まとめ 理解しやすい日本語への換言を目指し、 概ね同義な換言のための動詞句対を収集 係り受け関係となる動詞句対を対象 収集を目指した対は全出力のうち3割
適合率の改善は見込める 収集した動詞句対を使うための調査
23 おわり