Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
動詞名詞換言辞書の構築と敬語の常体への換言
Search
nishi-k
March 14, 2016
Research
0
460
動詞名詞換言辞書の構築と敬語の常体への換言
nishi-k
March 14, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
310
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
180
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
150
質問応答に基づく対災害情報分析システム
nishiyama
0
220
対話システム
nishiyama
0
250
情報検索2
nishiyama
0
87
2016/02/17 情報検索
nishiyama
0
120
文脈の解析
nishiyama
0
350
Other Decks in Research
See All in Research
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
10
2.5k
The Economics of Platforms 輪読会 第1章
tomonatu8
0
140
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
240
Weekly AI Agents News!
masatoto
30
53k
CoRL2024サーベイ
rpc
1
1.5k
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
2
150
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.3k
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
ran350
8
3.8k
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
340
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
150
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
440
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
2
130
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Git: the NoSQL Database
bkeepers
PRO
427
64k
A Tale of Four Properties
chriscoyier
158
23k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
9
440
The Language of Interfaces
destraynor
156
24k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Designing for humans not robots
tammielis
250
25k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
Producing Creativity
orderedlist
PRO
344
39k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.1k
Transcript
動詞名詞対応辞書の構築と 敬語の常体への換言 長岡技術科学大学 山本 和英, 高橋 寛治, ◦西山 浩気
背景と目的 2 常体 ・ 聞く ・ 話す 敬語表現 ・ お聞きする
・ お話しする 敬意 ・ 丁寧さ 敬語を常体に 換言 • 日本語には待遇表現のひとつとして「敬語表現」が ある。 – 同一の事象を表すが、表記が異なっている。 • テキストマイニングや情報検索では表記の違いで 別の語と認識される。 – 同一の表現を1つにまとめる(正規化する)必要がある。 • 日本語学習者にとって敬語の扱いは一般的には 困難。 – 敬語表現を常体へと換言した文章に直して提示するこ とで理解の促進につながる。
• 対象とする敬語表現を2つに分ける 1. 規則変化 - 何らかの敬語表現が付加されるもの ・ 話す ⇒ お話しになる
2. 不規則変化 - 常体に換言すると全く異なる表現になるもの ・ 言う ⇒ おっしゃる 対象とする敬語表現 3
1. 規則変化 – 「~される」「~られる」は曖昧性解消が必要な語 e.g. ご参加される, 来られる – 接頭辞「お」 +
名詞の形で接頭辞を取り除くと意味が 変化するもの(6種類) - お子さん, お産, お蔵入り, お辞儀, お吸い物, おしゃべり ⇒ 雪だるまの単語辞書に登録し「単語化」することで対応 2.不規則変化 – 「いらっしゃる」などの曖昧性解消が必要な語 – 敬体のみしか存在しない語 e.g. ごめんください, おしゃべり 対象外とする敬語表現 4
敬語を常体に換言する際の問題点 1. 「いらっしゃる」 ⇒ 「来る」 「居る」 「行く」 → 語が表す意味を特定しなければ換言できないため 今回は対象外とした
2. 「お気に召す」 ⇒ 「気に入る」 → 不規則に変化する動詞は換言後の語と対応させた 辞書が必要 3.「お知り合いになる」 ⇒ 「知り合う」 → 名詞「知り合い」 が動詞「知り合う」と対応している ことを示す辞書が必要 5
の作成 • 不規則に変化する敬語を 常体に換言するために辞書を作成 • 辞書は以下を参考に作成 ・ [菊池 康人, 敬語,
株式会社講談社, (1997.2)] • 現在は10語が登録 6 敬語 常体 お気に召す 気に入る 拝見する 見る おっしゃる 言う
の作成 • 名詞と動詞の対応付けが必要な敬語 に対して辞書を作成 • 日本語解析システム雪だるまの単語辞書 に含まれる動詞 : 26,945語 •
簡単な規則によって抽出し、人手によって整備した 動詞名詞対応辞書内に含まれる動詞 : 2,700 語 7 動詞 名詞 動く 動き 考える 考え 送り出す 送り出し
敬語表現の換言規則 (1/2) • 1) 助動詞「ます」 – 「ます」を削除しても文意は保てると考え、 「ます」を削除 • 彼が来ました
→ 彼が来た • 2) 置き換え形式 ー に登録している語に対して換言 • ご覧になる → 見る • 3) 「接頭辞「お/ご」 + 動詞 + になる」形式 – 接頭辞「お/ご」 と 「になる」 を削除し、動詞を抽出 • お申し込みになる ⇒ 申し込む 8
敬語表現の換言規則 (2/2) • 4) 「お/ご + 名詞 + する/いたす」形式 –
i. 接頭辞, 「する/いたす」を削除 – ii. に対応している語であれ ば動詞を名詞に置き換える • お知らせいたします ⇒ 知らせる • 5) 「接頭辞 + 名詞」 形式 – 接頭辞の「お/ ご」を削除する • お買い物 → 買い物 • ご指摘 → 指摘 9
換言精度の評価実験と結果 • 5つの換言規則がどの程度の精度で換言できるかを評価 • 【手法】 1.現代日本語書き言葉均衡コーパス(BCCWJ)から換言規則 が適応できる文を100文ずつ抜き出す. 2. 換言が適切かどうか人手で評価を行う. •
【結果】 ⇒ 適応可能な換言対象は BCCWJ全体の 約 16[%] 10 規則 誤り 助動詞「~ます」 0 置き換え形式 6 「接頭辞「お/ご」 + 動詞 + になる」形式 3 「お/ご + 名詞 + する/いたす」形式 22 接頭辞 + 名詞 6
失敗例と考察 (1/2) • 「お連れする」 ⇒ 「連れる」 - に「案内する」を登録すること で対応 •
「お伝えください」 ⇒ 「伝える ください」 → - “~してください”: - “~してくれ” に置き換え 11
e.g. 「もしお望みでしたら ~」 ⇒「もし望みでしたら ~」 → 「もし望んでいるのであれば、 ~」 : e.g.
「いいおさらいになる」 ⇒「いいさらいになる」 → 「おさらい」が単語辞書に登録されていなかったため 接頭辞の「お」と名詞の「さらい」に解析 - することで対応できる 12 失敗例と考察 (1/2)
まとめ • i. 不規則変化辞書を作成 • ii. 動詞名詞対応辞書を作成 • iii. 5つの換言規則を作成
– 適応可能な換言対象はBCCWJ全体の約 16[%] 13
BCCWJ中のN-gram 統計量による比較 • 敬語表現の換言を行ったことで、 言語表現がどれほど集約されたかを確認 → 縮約率は 0.5[%]程度改善 14 N-gram
異なり数 換言後の異なり数 縮約率[%] 1gram 296,986 295,103 99.4 2gram 7,353,271 7,324,711 99.6 3gram 30,683,400 30,597,200 99.7
動詞名詞対応辞書の作成 • 辞書は以下の規則で作成 • 著者一名(西山)の主観で全確認 【作成手順】 i. 雪だるまの単語辞書からサ変動詞 (「~する」で終わる動詞)を除く、和語動詞を取得 ii.
2文字以上の動詞の場合は、2文字目のひらがなを「う」 の音から「い」の音へ変換 e.g. 「働く」 → 「働き」 iii. 3文字以上の動詞の場合は、最後の1文字の音を手順iiと同様 に変換、 あるいは最後の1文字を削除 e.g. 「生まれる」 → 「生まれ」 iv. 手順ii,iiiで生成した単語が雪だるまに名詞として存在していれば 採用
16 N-gram 異なり数 換言後の異なり数 差分 1gram 296,986 295,103 1,883 2gram
7,353,271 7,324,711 28,560 3gram 30,683,400 30,597,200 86,200
• 言い換えが必要なもの – お伝えくださいお願いいたします。 • 単語化するひつようのあるもの – おさらいする – おかわりする
• 不規則変化辞書に追加 – お近づきになる ⇒ 知り合う – お見えになる ⇒ 来る – お出でになる ⇒ 来る
• 不規則変化辞書だけでは対応不十分 – お答え申し上げます ⇒ 答え 言う ⇒ 答えを言う –
お願い申し上げる ⇒ 願い 言う ⇒ 願いを言う • 動詞名詞対応辞書に追加 – お付き合いする ⇒ 付き合う – お通しする ⇒ 通す – お調べになる ⇒ 調べる – お笑いになる ⇒ 笑う
• お気に召す 気に入る • 拝見する 見る • お目にかかる 会う •
おっしゃる 言う • 申し上げる 言う • 教授する 受け取る • 思し召す 思う • 存ずる 知る • 拝借する 借りる • 拝聴する 聞く