Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2016年_年次大会_発表資料
Search
MIKAMI-YUKI
March 22, 2016
Education
0
120
2016年_年次大会_発表資料
MIKAMI-YUKI
March 22, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
Multimodal Interaction - Lecture 3 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.5k
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.6k
中野区ミライ★ライター倶楽部presents『MINT』
nakamuramikumirai
0
780
Ch4_-_Partie_2.pdf
bernhardsvt
0
100
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
5 Things Every L&D Pro Should Steal from Marketing
tmiket
0
160
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
2.7k
JAWS-UGを通じてアウトプット活動を楽しんでみませんか? #jawsug_tochigi
masakiokuda
0
260
Генезис казарменной архитектуры
pnuslide
0
190
Monaca Education 活用事例セミナー:「年間通してMonaca Educationを活用する授業実践のご報告」
asial_edu
0
160
OnShapeの紹介-概要編
shiba_8ro
0
110
Informasi Program Coding Camp 2025 powered by DBS Foundation
futura_dicoding29
0
120
Featured
See All Featured
Scaling GitHub
holman
459
140k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Visualization
eitanlees
146
15k
Code Reviewing Like a Champion
maltzj
521
39k
BBQ
matthewcrist
87
9.5k
Raft: Consensus for Rubyists
vanstee
137
6.8k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
The Language of Interfaces
destraynor
156
24k
4 Signs Your Business is Dying
shpigford
183
22k
Thoughts on Productivity
jonyablonski
69
4.5k
Rails Girls Zürich Keynote
gr2m
94
13k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Transcript
長岡技術科学大学 山本和英, 三上侑城 語義曖昧性解消としての かな漢字換言システムの開発 1
研究背景・目的(1/2) 2 言語処理において、テキストの解析を行う際に 語義の曖昧性が問題となる時がある。 (例)日英翻訳 その曖昧性を解消することを語義曖昧性解消 と呼び、古くから様々な手法が提案されてきた。 貰った犬を飼う
I buy the dog which I got. 貰った犬をかう 貰った犬をかう
研究背景・目的(2/2) しかし現状では... 3 公開されている日本語の 語義曖昧性解消ツールは無い 語義曖昧性解消ツールの 作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである “ひらがな”に着目し、これを適切な“漢字”に 換言することで語義曖昧性解消をおこなう。 4 切符をかう 切符を買う 切符を飼う ?
?
換言候補の収集(1/2) 5 大規模コーパス (BCCWJ)の中で出現 する数 同じ語義の語が記載さ れている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、 正確に換言できないものを除外。 → 精度の向上 ひらがなの頻度20未満はノイズとして除外し、 頻度1万以上はひらがなが正しいとした。 6
頻度20未満 頻度1万以上 ひらがな頻度20~9999 対象にしない (ノイズ) 換言対象 ひらがなを 正解とする
かな漢字換言手法 ① 入力文から換言対象のひらがなを検出 ② 文脈から手がかりとする語を選定 ③ 漢字候補と手がかり語との共起度を計算 ④ 計算結果の値によって漢字を選出 7
かな漢字換言の例 8 ① ② ③ ④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力 文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、 このプロセスを通さず、その漢字に決定。 9
② 手がかり語の選定 10 対象のひらがなから前後4単語を検索し、 情報を持った語を品詞で選定する。 ・ひらがなが動詞 → 名詞 の語を選択
・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常 この漢字が使われるという(共起)情報を 使用。 特定の語との共起度合を数値化するため、 自己相互情報量(PMI)を使用し、出力 値が最大の漢字を選択。 ③ 自己相互情報量
11
誤答を減らすために閾値を設ける。閾値を決め るため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。 ④ 閾値の設定 12 PMI値 PMI値
さらなる精度向上のため、作成したかな漢字 換言器で、対象のひらがなが入った文章を換 言処理。 その結果をひらがな毎に20個判断し、16個 (8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個 (9割)以上とした。
換言できないものの除外 13
換言対象となるひらがな全てに対し、かな漢字 換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。 実験と結果 14 漢字候補 対応数 テスト数
正解数 正解率 1つのみ 95 1,900 1,886 99.3% 2つ以上 90 1,800 1,683 93.5% 合計 185 3,700 3,569 96.5% 測定箇所 20未満 20~9999 1万以上 総頻度 16,052 886,649 9,470,468 内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを 見た時、90のひらがなに対し出現頻度の合計 が99,530であったので51.8%を網羅したこと になり、93.5%の精度で換言ができた。 ※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上 は全て正解(ひらがなが正解)であるので、出現 頻度で本換言器の網羅率は93.0%であった。
考察 15