Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動詞名詞換言辞書の構築と敬語の常体への換言
Search
nishi-k
March 14, 2016
Research
0
550
動詞名詞換言辞書の構築と敬語の常体への換言
nishi-k
March 14, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
370
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1.2k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
220
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
180
質問応答に基づく対災害情報分析システム
nishiyama
0
260
対話システム
nishiyama
0
320
情報検索2
nishiyama
0
130
2016/02/17 情報検索
nishiyama
0
160
文脈の解析
nishiyama
0
470
Other Decks in Research
See All in Research
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
310
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
880
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
270
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
170
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
210
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
210
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
350
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
200
LLMアプリケーションの透明性について
fufufukakaka
0
200
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
140
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
190
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
250
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Practical Orchestrator
shlominoach
191
11k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
780
Building the Perfect Custom Keyboard
takai
2
720
A better future with KSS
kneath
240
18k
Unsuck your backbone
ammeep
672
58k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
250
A designer walks into a library…
pauljervisheath
210
24k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Transcript
動詞名詞対応辞書の構築と 敬語の常体への換言 長岡技術科学大学 山本 和英, 高橋 寛治, ◦西山 浩気
背景と目的 2 常体 ・ 聞く ・ 話す 敬語表現 ・ お聞きする
・ お話しする 敬意 ・ 丁寧さ 敬語を常体に 換言 • 日本語には待遇表現のひとつとして「敬語表現」が ある。 – 同一の事象を表すが、表記が異なっている。 • テキストマイニングや情報検索では表記の違いで 別の語と認識される。 – 同一の表現を1つにまとめる(正規化する)必要がある。 • 日本語学習者にとって敬語の扱いは一般的には 困難。 – 敬語表現を常体へと換言した文章に直して提示するこ とで理解の促進につながる。
• 対象とする敬語表現を2つに分ける 1. 規則変化 - 何らかの敬語表現が付加されるもの ・ 話す ⇒ お話しになる
2. 不規則変化 - 常体に換言すると全く異なる表現になるもの ・ 言う ⇒ おっしゃる 対象とする敬語表現 3
1. 規則変化 – 「~される」「~られる」は曖昧性解消が必要な語 e.g. ご参加される, 来られる – 接頭辞「お」 +
名詞の形で接頭辞を取り除くと意味が 変化するもの(6種類) - お子さん, お産, お蔵入り, お辞儀, お吸い物, おしゃべり ⇒ 雪だるまの単語辞書に登録し「単語化」することで対応 2.不規則変化 – 「いらっしゃる」などの曖昧性解消が必要な語 – 敬体のみしか存在しない語 e.g. ごめんください, おしゃべり 対象外とする敬語表現 4
敬語を常体に換言する際の問題点 1. 「いらっしゃる」 ⇒ 「来る」 「居る」 「行く」 → 語が表す意味を特定しなければ換言できないため 今回は対象外とした
2. 「お気に召す」 ⇒ 「気に入る」 → 不規則に変化する動詞は換言後の語と対応させた 辞書が必要 3.「お知り合いになる」 ⇒ 「知り合う」 → 名詞「知り合い」 が動詞「知り合う」と対応している ことを示す辞書が必要 5
の作成 • 不規則に変化する敬語を 常体に換言するために辞書を作成 • 辞書は以下を参考に作成 ・ [菊池 康人, 敬語,
株式会社講談社, (1997.2)] • 現在は10語が登録 6 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う
の作成 • 名詞と動詞の対応付けが必要な敬語 に対して辞書を作成 • 日本語解析システム雪だるまの単語辞書 に含まれる動詞 : 26,945語 •
簡単な規則によって抽出し、人手によって整備した 動詞名詞対応辞書内に含まれる動詞 : 2,700 語 7 動詞 名詞 動く 動き 考える 考え 送り出す 送り出し
敬語表現の換言規則 (1/2) • 1) 助動詞「ます」 – 「ます」を削除しても文意は保てると考え、 「ます」を削除 • 彼が来ました
→ 彼が来た • 2) 置き換え形式 ー に登録している語に対して換言 • ご覧になる → 見る • 3) 「接頭辞「お/ご」 + 動詞 + になる」形式 – 接頭辞「お/ご」 と 「になる」 を削除し、動詞を抽出 • お申し込みになる ⇒ 申し込む 8
敬語表現の換言規則 (2/2) • 4) 「お/ご + 名詞 + する/いたす」形式 –
i. 接頭辞, 「する/いたす」を削除 – ii. に対応している語であれ ば動詞を名詞に置き換える • お知らせいたします ⇒ 知らせる • 5) 「接頭辞 + 名詞」 形式 – 接頭辞の「お/ ご」を削除する • お買い物 → 買い物 • ご指摘 → 指摘 9
換言精度の評価実験と結果 • 5つの換言規則がどの程度の精度で換言できるかを評価 • 【手法】 1.現代日本語書き言葉均衡コーパス(BCCWJ)から換言規則 が適応できる文を100文ずつ抜き出す. 2. 換言が適切かどうか人手で評価を行う. •
【結果】 ⇒ 適応可能な換言対象は BCCWJ全体の 約 16[%] 10 規則 誤り 助動詞「~ます」 0 置き換え形式 6 「接頭辞「お/ご」 + 動詞 + になる」形式 3 「お/ご + 名詞 + する/いたす」形式 22 接頭辞 + 名詞 6
失敗例と考察 (1/2) • 「お連れする」 ⇒ 「連れる」 - に「案内する」を登録すること で対応 •
「お伝えください」 ⇒ 「伝える ください」 → - “~してください”: - “~してくれ” に置き換え 11
e.g. 「もしお望みでしたら ~」 ⇒「もし望みでしたら ~」 → 「もし望んでいるのであれば、 ~」 : e.g.
「いいおさらいになる」 ⇒「いいさらいになる」 → 「おさらい」が単語辞書に登録されていなかったため 接頭辞の「お」と名詞の「さらい」に解析 - することで対応できる 12 失敗例と考察 (1/2)
まとめ • i. 不規則変化辞書を作成 • ii. 動詞名詞対応辞書を作成 • iii. 5つの換言規則を作成
– 適応可能な換言対象はBCCWJ全体の約 16[%] 13
BCCWJ中のN-gram 統計量による比較 • 敬語表現の換言を行ったことで、 言語表現がどれほど集約されたかを確認 → 縮約率は 0.5[%]程度改善 14 N-gram
異なり数 換言後の異なり数 縮約率[%] 1gram 296,986 295,103 99.4 2gram 7,353,271 7,324,711 99.6 3gram 30,683,400 30,597,200 99.7
動詞名詞対応辞書の作成 • 辞書は以下の規則で作成 • 著者一名(西山)の主観で全確認 【作成手順】 i. 雪だるまの単語辞書からサ変動詞 (「~する」で終わる動詞)を除く、和語動詞を取得 ii.
2文字以上の動詞の場合は、2文字目のひらがなを「う」 の音から「い」の音へ変換 e.g. 「働く」 → 「働き」 iii. 3文字以上の動詞の場合は、最後の1文字の音を手順iiと同様 に変換、 あるいは最後の1文字を削除 e.g. 「生まれる」 → 「生まれ」 iv. 手順ii,iiiで生成した単語が雪だるまに名詞として存在していれば 採用
16 N-gram 異なり数 換言後の異なり数 差分 1gram 296,986 295,103 1,883 2gram
7,353,271 7,324,711 28,560 3gram 30,683,400 30,597,200 86,200
• 言い換えが必要なもの – お伝えくださいお願いいたします。 • 単語化するひつようのあるもの – おさらいする – おかわりする
• 不規則変化辞書に追加 – お近づきになる ⇒ 知り合う – お見えになる ⇒ 来る – お出でになる ⇒ 来る
• 不規則変化辞書だけでは対応不十分 – お答え申し上げます ⇒ 答え 言う ⇒ 答えを言う –
お願い申し上げる ⇒ 願い 言う ⇒ 願いを言う • 動詞名詞対応辞書に追加 – お付き合いする ⇒ 付き合う – お通しする ⇒ 通す – お調べになる ⇒ 調べる – お笑いになる ⇒ 笑う
• お気に召す 気に入る • 拝見する 見る • お目にかかる 会う •
おっしゃる 言う • 申し上げる 言う • 教授する 受け取る • 思し召す 思う • 存ずる 知る • 拝借する 借りる • 拝聴する 聞く