Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動詞名詞換言辞書の構築と敬語の常体への換言
Search
nishi-k
March 14, 2016
Research
0
530
動詞名詞換言辞書の構築と敬語の常体への換言
nishi-k
March 14, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
360
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1.1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
210
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
180
質問応答に基づく対災害情報分析システム
nishiyama
0
250
対話システム
nishiyama
0
300
情報検索2
nishiyama
0
110
2016/02/17 情報検索
nishiyama
0
150
文脈の解析
nishiyama
0
450
Other Decks in Research
See All in Research
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
470
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
CoRL2025速報
rpc
2
3.4k
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
310
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
4
1.7k
単施設でできる臨床研究の考え方
shuntaros
0
3.3k
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
satai
3
390
POI: Proof of Identity
katsyoshi
0
110
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
410
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
220
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
170
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
250
Featured
See All Featured
For a Future-Friendly Web
brad_frost
180
10k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Thoughts on Productivity
jonyablonski
73
5k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Become a Pro
speakerdeck
PRO
30
5.7k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Unsuck your backbone
ammeep
671
58k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Rails Girls Zürich Keynote
gr2m
95
14k
Transcript
動詞名詞対応辞書の構築と 敬語の常体への換言 長岡技術科学大学 山本 和英, 高橋 寛治, ◦西山 浩気
背景と目的 2 常体 ・ 聞く ・ 話す 敬語表現 ・ お聞きする
・ お話しする 敬意 ・ 丁寧さ 敬語を常体に 換言 • 日本語には待遇表現のひとつとして「敬語表現」が ある。 – 同一の事象を表すが、表記が異なっている。 • テキストマイニングや情報検索では表記の違いで 別の語と認識される。 – 同一の表現を1つにまとめる(正規化する)必要がある。 • 日本語学習者にとって敬語の扱いは一般的には 困難。 – 敬語表現を常体へと換言した文章に直して提示するこ とで理解の促進につながる。
• 対象とする敬語表現を2つに分ける 1. 規則変化 - 何らかの敬語表現が付加されるもの ・ 話す ⇒ お話しになる
2. 不規則変化 - 常体に換言すると全く異なる表現になるもの ・ 言う ⇒ おっしゃる 対象とする敬語表現 3
1. 規則変化 – 「~される」「~られる」は曖昧性解消が必要な語 e.g. ご参加される, 来られる – 接頭辞「お」 +
名詞の形で接頭辞を取り除くと意味が 変化するもの(6種類) - お子さん, お産, お蔵入り, お辞儀, お吸い物, おしゃべり ⇒ 雪だるまの単語辞書に登録し「単語化」することで対応 2.不規則変化 – 「いらっしゃる」などの曖昧性解消が必要な語 – 敬体のみしか存在しない語 e.g. ごめんください, おしゃべり 対象外とする敬語表現 4
敬語を常体に換言する際の問題点 1. 「いらっしゃる」 ⇒ 「来る」 「居る」 「行く」 → 語が表す意味を特定しなければ換言できないため 今回は対象外とした
2. 「お気に召す」 ⇒ 「気に入る」 → 不規則に変化する動詞は換言後の語と対応させた 辞書が必要 3.「お知り合いになる」 ⇒ 「知り合う」 → 名詞「知り合い」 が動詞「知り合う」と対応している ことを示す辞書が必要 5
の作成 • 不規則に変化する敬語を 常体に換言するために辞書を作成 • 辞書は以下を参考に作成 ・ [菊池 康人, 敬語,
株式会社講談社, (1997.2)] • 現在は10語が登録 6 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う
の作成 • 名詞と動詞の対応付けが必要な敬語 に対して辞書を作成 • 日本語解析システム雪だるまの単語辞書 に含まれる動詞 : 26,945語 •
簡単な規則によって抽出し、人手によって整備した 動詞名詞対応辞書内に含まれる動詞 : 2,700 語 7 動詞 名詞 動く 動き 考える 考え 送り出す 送り出し
敬語表現の換言規則 (1/2) • 1) 助動詞「ます」 – 「ます」を削除しても文意は保てると考え、 「ます」を削除 • 彼が来ました
→ 彼が来た • 2) 置き換え形式 ー に登録している語に対して換言 • ご覧になる → 見る • 3) 「接頭辞「お/ご」 + 動詞 + になる」形式 – 接頭辞「お/ご」 と 「になる」 を削除し、動詞を抽出 • お申し込みになる ⇒ 申し込む 8
敬語表現の換言規則 (2/2) • 4) 「お/ご + 名詞 + する/いたす」形式 –
i. 接頭辞, 「する/いたす」を削除 – ii. に対応している語であれ ば動詞を名詞に置き換える • お知らせいたします ⇒ 知らせる • 5) 「接頭辞 + 名詞」 形式 – 接頭辞の「お/ ご」を削除する • お買い物 → 買い物 • ご指摘 → 指摘 9
換言精度の評価実験と結果 • 5つの換言規則がどの程度の精度で換言できるかを評価 • 【手法】 1.現代日本語書き言葉均衡コーパス(BCCWJ)から換言規則 が適応できる文を100文ずつ抜き出す. 2. 換言が適切かどうか人手で評価を行う. •
【結果】 ⇒ 適応可能な換言対象は BCCWJ全体の 約 16[%] 10 規則 誤り 助動詞「~ます」 0 置き換え形式 6 「接頭辞「お/ご」 + 動詞 + になる」形式 3 「お/ご + 名詞 + する/いたす」形式 22 接頭辞 + 名詞 6
失敗例と考察 (1/2) • 「お連れする」 ⇒ 「連れる」 - に「案内する」を登録すること で対応 •
「お伝えください」 ⇒ 「伝える ください」 → - “~してください”: - “~してくれ” に置き換え 11
e.g. 「もしお望みでしたら ~」 ⇒「もし望みでしたら ~」 → 「もし望んでいるのであれば、 ~」 : e.g.
「いいおさらいになる」 ⇒「いいさらいになる」 → 「おさらい」が単語辞書に登録されていなかったため 接頭辞の「お」と名詞の「さらい」に解析 - することで対応できる 12 失敗例と考察 (1/2)
まとめ • i. 不規則変化辞書を作成 • ii. 動詞名詞対応辞書を作成 • iii. 5つの換言規則を作成
– 適応可能な換言対象はBCCWJ全体の約 16[%] 13
BCCWJ中のN-gram 統計量による比較 • 敬語表現の換言を行ったことで、 言語表現がどれほど集約されたかを確認 → 縮約率は 0.5[%]程度改善 14 N-gram
異なり数 換言後の異なり数 縮約率[%] 1gram 296,986 295,103 99.4 2gram 7,353,271 7,324,711 99.6 3gram 30,683,400 30,597,200 99.7
動詞名詞対応辞書の作成 • 辞書は以下の規則で作成 • 著者一名(西山)の主観で全確認 【作成手順】 i. 雪だるまの単語辞書からサ変動詞 (「~する」で終わる動詞)を除く、和語動詞を取得 ii.
2文字以上の動詞の場合は、2文字目のひらがなを「う」 の音から「い」の音へ変換 e.g. 「働く」 → 「働き」 iii. 3文字以上の動詞の場合は、最後の1文字の音を手順iiと同様 に変換、 あるいは最後の1文字を削除 e.g. 「生まれる」 → 「生まれ」 iv. 手順ii,iiiで生成した単語が雪だるまに名詞として存在していれば 採用
16 N-gram 異なり数 換言後の異なり数 差分 1gram 296,986 295,103 1,883 2gram
7,353,271 7,324,711 28,560 3gram 30,683,400 30,597,200 86,200
• 言い換えが必要なもの – お伝えくださいお願いいたします。 • 単語化するひつようのあるもの – おさらいする – おかわりする
• 不規則変化辞書に追加 – お近づきになる ⇒ 知り合う – お見えになる ⇒ 来る – お出でになる ⇒ 来る
• 不規則変化辞書だけでは対応不十分 – お答え申し上げます ⇒ 答え 言う ⇒ 答えを言う –
お願い申し上げる ⇒ 願い 言う ⇒ 願いを言う • 動詞名詞対応辞書に追加 – お付き合いする ⇒ 付き合う – お通しする ⇒ 通す – お調べになる ⇒ 調べる – お笑いになる ⇒ 笑う
• お気に召す 気に入る • 拝見する 見る • お目にかかる 会う •
おっしゃる 言う • 申し上げる 言う • 教授する 受け取る • 思し召す 思う • 存ずる 知る • 拝借する 借りる • 拝聴する 聞く