Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動詞名詞換言辞書の構築と敬語の常体への換言
Search
nishi-k
March 14, 2016
Research
0
450
動詞名詞換言辞書の構築と敬語の常体への換言
nishi-k
March 14, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
300
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
180
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
140
質問応答に基づく対災害情報分析システム
nishiyama
0
210
対話システム
nishiyama
0
240
情報検索2
nishiyama
0
84
2016/02/17 情報検索
nishiyama
0
120
文脈の解析
nishiyama
0
330
Other Decks in Research
See All in Research
論文読み会 KDD2024 | Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations
cocomoff
0
110
Composed image retrieval for remote sensing
satai
2
130
Whoisの闇
hirachan
3
160
129 2 th
0325
0
240
機械学習でヒトの行動を変える
hiromu1996
1
380
機械学習による言語パフォーマンスの評価
langstat
6
800
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
690
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
300
ミニ四駆AI用制御装置の事例紹介
aks3g
0
180
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
370
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
520
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
4
910
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
440
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Building Applications with DynamoDB
mza
91
6.1k
How GitHub (no longer) Works
holman
311
140k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
KATA
mclloyd
29
14k
RailsConf 2023
tenderlove
29
940
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Typedesign – Prime Four
hannesfritz
40
2.4k
For a Future-Friendly Web
brad_frost
175
9.4k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
280
Transcript
動詞名詞対応辞書の構築と 敬語の常体への換言 長岡技術科学大学 山本 和英, 高橋 寛治, ◦西山 浩気
背景と目的 2 常体 ・ 聞く ・ 話す 敬語表現 ・ お聞きする
・ お話しする 敬意 ・ 丁寧さ 敬語を常体に 換言 • 日本語には待遇表現のひとつとして「敬語表現」が ある。 – 同一の事象を表すが、表記が異なっている。 • テキストマイニングや情報検索では表記の違いで 別の語と認識される。 – 同一の表現を1つにまとめる(正規化する)必要がある。 • 日本語学習者にとって敬語の扱いは一般的には 困難。 – 敬語表現を常体へと換言した文章に直して提示するこ とで理解の促進につながる。
• 対象とする敬語表現を2つに分ける 1. 規則変化 - 何らかの敬語表現が付加されるもの ・ 話す ⇒ お話しになる
2. 不規則変化 - 常体に換言すると全く異なる表現になるもの ・ 言う ⇒ おっしゃる 対象とする敬語表現 3
1. 規則変化 – 「~される」「~られる」は曖昧性解消が必要な語 e.g. ご参加される, 来られる – 接頭辞「お」 +
名詞の形で接頭辞を取り除くと意味が 変化するもの(6種類) - お子さん, お産, お蔵入り, お辞儀, お吸い物, おしゃべり ⇒ 雪だるまの単語辞書に登録し「単語化」することで対応 2.不規則変化 – 「いらっしゃる」などの曖昧性解消が必要な語 – 敬体のみしか存在しない語 e.g. ごめんください, おしゃべり 対象外とする敬語表現 4
敬語を常体に換言する際の問題点 1. 「いらっしゃる」 ⇒ 「来る」 「居る」 「行く」 → 語が表す意味を特定しなければ換言できないため 今回は対象外とした
2. 「お気に召す」 ⇒ 「気に入る」 → 不規則に変化する動詞は換言後の語と対応させた 辞書が必要 3.「お知り合いになる」 ⇒ 「知り合う」 → 名詞「知り合い」 が動詞「知り合う」と対応している ことを示す辞書が必要 5
の作成 • 不規則に変化する敬語を 常体に換言するために辞書を作成 • 辞書は以下を参考に作成 ・ [菊池 康人, 敬語,
株式会社講談社, (1997.2)] • 現在は10語が登録 6 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う
の作成 • 名詞と動詞の対応付けが必要な敬語 に対して辞書を作成 • 日本語解析システム雪だるまの単語辞書 に含まれる動詞 : 26,945語 •
簡単な規則によって抽出し、人手によって整備した 動詞名詞対応辞書内に含まれる動詞 : 2,700 語 7 動詞 名詞 動く 動き 考える 考え 送り出す 送り出し
敬語表現の換言規則 (1/2) • 1) 助動詞「ます」 – 「ます」を削除しても文意は保てると考え、 「ます」を削除 • 彼が来ました
→ 彼が来た • 2) 置き換え形式 ー に登録している語に対して換言 • ご覧になる → 見る • 3) 「接頭辞「お/ご」 + 動詞 + になる」形式 – 接頭辞「お/ご」 と 「になる」 を削除し、動詞を抽出 • お申し込みになる ⇒ 申し込む 8
敬語表現の換言規則 (2/2) • 4) 「お/ご + 名詞 + する/いたす」形式 –
i. 接頭辞, 「する/いたす」を削除 – ii. に対応している語であれ ば動詞を名詞に置き換える • お知らせいたします ⇒ 知らせる • 5) 「接頭辞 + 名詞」 形式 – 接頭辞の「お/ ご」を削除する • お買い物 → 買い物 • ご指摘 → 指摘 9
換言精度の評価実験と結果 • 5つの換言規則がどの程度の精度で換言できるかを評価 • 【手法】 1.現代日本語書き言葉均衡コーパス(BCCWJ)から換言規則 が適応できる文を100文ずつ抜き出す. 2. 換言が適切かどうか人手で評価を行う. •
【結果】 ⇒ 適応可能な換言対象は BCCWJ全体の 約 16[%] 10 規則 誤り 助動詞「~ます」 0 置き換え形式 6 「接頭辞「お/ご」 + 動詞 + になる」形式 3 「お/ご + 名詞 + する/いたす」形式 22 接頭辞 + 名詞 6
失敗例と考察 (1/2) • 「お連れする」 ⇒ 「連れる」 - に「案内する」を登録すること で対応 •
「お伝えください」 ⇒ 「伝える ください」 → - “~してください”: - “~してくれ” に置き換え 11
e.g. 「もしお望みでしたら ~」 ⇒「もし望みでしたら ~」 → 「もし望んでいるのであれば、 ~」 : e.g.
「いいおさらいになる」 ⇒「いいさらいになる」 → 「おさらい」が単語辞書に登録されていなかったため 接頭辞の「お」と名詞の「さらい」に解析 - することで対応できる 12 失敗例と考察 (1/2)
まとめ • i. 不規則変化辞書を作成 • ii. 動詞名詞対応辞書を作成 • iii. 5つの換言規則を作成
– 適応可能な換言対象はBCCWJ全体の約 16[%] 13
BCCWJ中のN-gram 統計量による比較 • 敬語表現の換言を行ったことで、 言語表現がどれほど集約されたかを確認 → 縮約率は 0.5[%]程度改善 14 N-gram
異なり数 換言後の異なり数 縮約率[%] 1gram 296,986 295,103 99.4 2gram 7,353,271 7,324,711 99.6 3gram 30,683,400 30,597,200 99.7
動詞名詞対応辞書の作成 • 辞書は以下の規則で作成 • 著者一名(西山)の主観で全確認 【作成手順】 i. 雪だるまの単語辞書からサ変動詞 (「~する」で終わる動詞)を除く、和語動詞を取得 ii.
2文字以上の動詞の場合は、2文字目のひらがなを「う」 の音から「い」の音へ変換 e.g. 「働く」 → 「働き」 iii. 3文字以上の動詞の場合は、最後の1文字の音を手順iiと同様 に変換、 あるいは最後の1文字を削除 e.g. 「生まれる」 → 「生まれ」 iv. 手順ii,iiiで生成した単語が雪だるまに名詞として存在していれば 採用
16 N-gram 異なり数 換言後の異なり数 差分 1gram 296,986 295,103 1,883 2gram
7,353,271 7,324,711 28,560 3gram 30,683,400 30,597,200 86,200
• 言い換えが必要なもの – お伝えくださいお願いいたします。 • 単語化するひつようのあるもの – おさらいする – おかわりする
• 不規則変化辞書に追加 – お近づきになる ⇒ 知り合う – お見えになる ⇒ 来る – お出でになる ⇒ 来る
• 不規則変化辞書だけでは対応不十分 – お答え申し上げます ⇒ 答え 言う ⇒ 答えを言う –
お願い申し上げる ⇒ 願い 言う ⇒ 願いを言う • 動詞名詞対応辞書に追加 – お付き合いする ⇒ 付き合う – お通しする ⇒ 通す – お調べになる ⇒ 調べる – お笑いになる ⇒ 笑う
• お気に召す 気に入る • 拝見する 見る • お目にかかる 会う •
おっしゃる 言う • 申し上げる 言う • 教授する 受け取る • 思し召す 思う • 存ずる 知る • 拝借する 借りる • 拝聴する 聞く