Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動詞名詞換言辞書の構築と敬語の常体への換言
Search
nishi-k
March 14, 2016
Research
0
440
動詞名詞換言辞書の構築と敬語の常体への換言
nishi-k
March 14, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
300
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
180
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
140
質問応答に基づく対災害情報分析システム
nishiyama
0
210
対話システム
nishiyama
0
240
情報検索2
nishiyama
0
84
2016/02/17 情報検索
nishiyama
0
120
文脈の解析
nishiyama
0
310
Other Decks in Research
See All in Research
Weekly AI Agents News!
masatoto
25
24k
[2024.08.30] Gemma-Ko, 오픈 언어모델에 한국어 입히기 @ 머신러닝부트캠프2024
beomi
0
710
ICLR2024: Reading "Training Unbiased Diffusion Models From Biased Dataset"
hotekagi
0
110
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
490
EBPMにおける生成AI活用について
daimoriwaki
0
160
ミニ四駆AI用制御装置の事例紹介
aks3g
0
160
Weekly AI Agents News! 7月号 プロダクト/ニュースのアーカイブ
masatoto
0
160
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
2.4k
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
140
Isotropy, Clusters, and Classifiers
hpprc
3
630
20240918 交通くまもとーく 未来の鉄道網編(こねくま)
trafficbrain
0
220
最近のVisual Odometryと Depth Estimation
sgk
1
270
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
The World Runs on Bad Software
bkeepers
PRO
65
11k
What's in a price? How to price your products and services
michaelherold
243
12k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
Designing the Hi-DPI Web
ddemaree
280
34k
Building Applications with DynamoDB
mza
90
6.1k
A designer walks into a library…
pauljervisheath
203
24k
Bash Introduction
62gerente
608
210k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Adopting Sorbet at Scale
ufuk
73
9.1k
How STYLIGHT went responsive
nonsquared
95
5.2k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Transcript
動詞名詞対応辞書の構築と 敬語の常体への換言 長岡技術科学大学 山本 和英, 高橋 寛治, ◦西山 浩気
背景と目的 2 常体 ・ 聞く ・ 話す 敬語表現 ・ お聞きする
・ お話しする 敬意 ・ 丁寧さ 敬語を常体に 換言 • 日本語には待遇表現のひとつとして「敬語表現」が ある。 – 同一の事象を表すが、表記が異なっている。 • テキストマイニングや情報検索では表記の違いで 別の語と認識される。 – 同一の表現を1つにまとめる(正規化する)必要がある。 • 日本語学習者にとって敬語の扱いは一般的には 困難。 – 敬語表現を常体へと換言した文章に直して提示するこ とで理解の促進につながる。
• 対象とする敬語表現を2つに分ける 1. 規則変化 - 何らかの敬語表現が付加されるもの ・ 話す ⇒ お話しになる
2. 不規則変化 - 常体に換言すると全く異なる表現になるもの ・ 言う ⇒ おっしゃる 対象とする敬語表現 3
1. 規則変化 – 「~される」「~られる」は曖昧性解消が必要な語 e.g. ご参加される, 来られる – 接頭辞「お」 +
名詞の形で接頭辞を取り除くと意味が 変化するもの(6種類) - お子さん, お産, お蔵入り, お辞儀, お吸い物, おしゃべり ⇒ 雪だるまの単語辞書に登録し「単語化」することで対応 2.不規則変化 – 「いらっしゃる」などの曖昧性解消が必要な語 – 敬体のみしか存在しない語 e.g. ごめんください, おしゃべり 対象外とする敬語表現 4
敬語を常体に換言する際の問題点 1. 「いらっしゃる」 ⇒ 「来る」 「居る」 「行く」 → 語が表す意味を特定しなければ換言できないため 今回は対象外とした
2. 「お気に召す」 ⇒ 「気に入る」 → 不規則に変化する動詞は換言後の語と対応させた 辞書が必要 3.「お知り合いになる」 ⇒ 「知り合う」 → 名詞「知り合い」 が動詞「知り合う」と対応している ことを示す辞書が必要 5
の作成 • 不規則に変化する敬語を 常体に換言するために辞書を作成 • 辞書は以下を参考に作成 ・ [菊池 康人, 敬語,
株式会社講談社, (1997.2)] • 現在は10語が登録 6 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う
の作成 • 名詞と動詞の対応付けが必要な敬語 に対して辞書を作成 • 日本語解析システム雪だるまの単語辞書 に含まれる動詞 : 26,945語 •
簡単な規則によって抽出し、人手によって整備した 動詞名詞対応辞書内に含まれる動詞 : 2,700 語 7 動詞 名詞 動く 動き 考える 考え 送り出す 送り出し
敬語表現の換言規則 (1/2) • 1) 助動詞「ます」 – 「ます」を削除しても文意は保てると考え、 「ます」を削除 • 彼が来ました
→ 彼が来た • 2) 置き換え形式 ー に登録している語に対して換言 • ご覧になる → 見る • 3) 「接頭辞「お/ご」 + 動詞 + になる」形式 – 接頭辞「お/ご」 と 「になる」 を削除し、動詞を抽出 • お申し込みになる ⇒ 申し込む 8
敬語表現の換言規則 (2/2) • 4) 「お/ご + 名詞 + する/いたす」形式 –
i. 接頭辞, 「する/いたす」を削除 – ii. に対応している語であれ ば動詞を名詞に置き換える • お知らせいたします ⇒ 知らせる • 5) 「接頭辞 + 名詞」 形式 – 接頭辞の「お/ ご」を削除する • お買い物 → 買い物 • ご指摘 → 指摘 9
換言精度の評価実験と結果 • 5つの換言規則がどの程度の精度で換言できるかを評価 • 【手法】 1.現代日本語書き言葉均衡コーパス(BCCWJ)から換言規則 が適応できる文を100文ずつ抜き出す. 2. 換言が適切かどうか人手で評価を行う. •
【結果】 ⇒ 適応可能な換言対象は BCCWJ全体の 約 16[%] 10 規則 誤り 助動詞「~ます」 0 置き換え形式 6 「接頭辞「お/ご」 + 動詞 + になる」形式 3 「お/ご + 名詞 + する/いたす」形式 22 接頭辞 + 名詞 6
失敗例と考察 (1/2) • 「お連れする」 ⇒ 「連れる」 - に「案内する」を登録すること で対応 •
「お伝えください」 ⇒ 「伝える ください」 → - “~してください”: - “~してくれ” に置き換え 11
e.g. 「もしお望みでしたら ~」 ⇒「もし望みでしたら ~」 → 「もし望んでいるのであれば、 ~」 : e.g.
「いいおさらいになる」 ⇒「いいさらいになる」 → 「おさらい」が単語辞書に登録されていなかったため 接頭辞の「お」と名詞の「さらい」に解析 - することで対応できる 12 失敗例と考察 (1/2)
まとめ • i. 不規則変化辞書を作成 • ii. 動詞名詞対応辞書を作成 • iii. 5つの換言規則を作成
– 適応可能な換言対象はBCCWJ全体の約 16[%] 13
BCCWJ中のN-gram 統計量による比較 • 敬語表現の換言を行ったことで、 言語表現がどれほど集約されたかを確認 → 縮約率は 0.5[%]程度改善 14 N-gram
異なり数 換言後の異なり数 縮約率[%] 1gram 296,986 295,103 99.4 2gram 7,353,271 7,324,711 99.6 3gram 30,683,400 30,597,200 99.7
動詞名詞対応辞書の作成 • 辞書は以下の規則で作成 • 著者一名(西山)の主観で全確認 【作成手順】 i. 雪だるまの単語辞書からサ変動詞 (「~する」で終わる動詞)を除く、和語動詞を取得 ii.
2文字以上の動詞の場合は、2文字目のひらがなを「う」 の音から「い」の音へ変換 e.g. 「働く」 → 「働き」 iii. 3文字以上の動詞の場合は、最後の1文字の音を手順iiと同様 に変換、 あるいは最後の1文字を削除 e.g. 「生まれる」 → 「生まれ」 iv. 手順ii,iiiで生成した単語が雪だるまに名詞として存在していれば 採用
16 N-gram 異なり数 換言後の異なり数 差分 1gram 296,986 295,103 1,883 2gram
7,353,271 7,324,711 28,560 3gram 30,683,400 30,597,200 86,200
• 言い換えが必要なもの – お伝えくださいお願いいたします。 • 単語化するひつようのあるもの – おさらいする – おかわりする
• 不規則変化辞書に追加 – お近づきになる ⇒ 知り合う – お見えになる ⇒ 来る – お出でになる ⇒ 来る
• 不規則変化辞書だけでは対応不十分 – お答え申し上げます ⇒ 答え 言う ⇒ 答えを言う –
お願い申し上げる ⇒ 願い 言う ⇒ 願いを言う • 動詞名詞対応辞書に追加 – お付き合いする ⇒ 付き合う – お通しする ⇒ 通す – お調べになる ⇒ 調べる – お笑いになる ⇒ 笑う
• お気に召す 気に入る • 拝見する 見る • お目にかかる 会う •
おっしゃる 言う • 申し上げる 言う • 教授する 受け取る • 思し召す 思う • 存ずる 知る • 拝借する 借りる • 拝聴する 聞く