Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2016年_年次大会_発表資料
Search
MIKAMI-YUKI
March 22, 2016
Education
0
120
2016年_年次大会_発表資料
MIKAMI-YUKI
March 22, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
280
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
82
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
88
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
97
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
550
Other Decks in Education
See All in Education
Design Guidelines and Models - Lecture 5 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
720
自分にあった読書方法を探索するワークショップ / Reading Catalog Workshop
aki_moon
0
200
"数学" をプログラミングしてもらう際に気をつけていること / Key Considerations When Programming "Mathematics"
guvalif
0
610
Library Prefects 2024-2025
cbtlibrary
0
120
情報処理工学問題集 /infoeng_practices
kfujita
0
150
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
2.5k
20241004_Microsoft認定資格のFundamentals全部取ってみた
ponponmikankan
2
370
Adobe Express
matleenalaakso
1
7.6k
2024年度秋学期 統計学 第2回 統計資料の収集と読み方(授業前配付用) (2024. 10. 2)
akiraasano
PRO
0
100
HTML5 and the Open Web Platform - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
1
2.6k
Nodiレクチャー 「CGと数学」講義資料 2024/11/19
masatatsu
1
250
Web Application Frameworks - Lecture 4 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Building Applications with DynamoDB
mza
91
6.1k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Being A Developer After 40
akosma
87
590k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Adopting Sorbet at Scale
ufuk
73
9.1k
Music & Morning Musume
bryan
46
6.2k
Statistics for Hackers
jakevdp
796
220k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
How to Think Like a Performance Engineer
csswizardry
22
1.2k
Transcript
長岡技術科学大学 山本和英, 三上侑城 語義曖昧性解消としての かな漢字換言システムの開発 1
研究背景・目的(1/2) 2 言語処理において、テキストの解析を行う際に 語義の曖昧性が問題となる時がある。 (例)日英翻訳 その曖昧性を解消することを語義曖昧性解消 と呼び、古くから様々な手法が提案されてきた。 貰った犬を飼う
I buy the dog which I got. 貰った犬をかう 貰った犬をかう
研究背景・目的(2/2) しかし現状では... 3 公開されている日本語の 語義曖昧性解消ツールは無い 語義曖昧性解消ツールの 作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである “ひらがな”に着目し、これを適切な“漢字”に 換言することで語義曖昧性解消をおこなう。 4 切符をかう 切符を買う 切符を飼う ?
?
換言候補の収集(1/2) 5 大規模コーパス (BCCWJ)の中で出現 する数 同じ語義の語が記載さ れている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、 正確に換言できないものを除外。 → 精度の向上 ひらがなの頻度20未満はノイズとして除外し、 頻度1万以上はひらがなが正しいとした。 6
頻度20未満 頻度1万以上 ひらがな頻度20~9999 対象にしない (ノイズ) 換言対象 ひらがなを 正解とする
かな漢字換言手法 ① 入力文から換言対象のひらがなを検出 ② 文脈から手がかりとする語を選定 ③ 漢字候補と手がかり語との共起度を計算 ④ 計算結果の値によって漢字を選出 7
かな漢字換言の例 8 ① ② ③ ④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力 文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、 このプロセスを通さず、その漢字に決定。 9
② 手がかり語の選定 10 対象のひらがなから前後4単語を検索し、 情報を持った語を品詞で選定する。 ・ひらがなが動詞 → 名詞 の語を選択
・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常 この漢字が使われるという(共起)情報を 使用。 特定の語との共起度合を数値化するため、 自己相互情報量(PMI)を使用し、出力 値が最大の漢字を選択。 ③ 自己相互情報量
11
誤答を減らすために閾値を設ける。閾値を決め るため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。 ④ 閾値の設定 12 PMI値 PMI値
さらなる精度向上のため、作成したかな漢字 換言器で、対象のひらがなが入った文章を換 言処理。 その結果をひらがな毎に20個判断し、16個 (8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個 (9割)以上とした。
換言できないものの除外 13
換言対象となるひらがな全てに対し、かな漢字 換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。 実験と結果 14 漢字候補 対応数 テスト数
正解数 正解率 1つのみ 95 1,900 1,886 99.3% 2つ以上 90 1,800 1,683 93.5% 合計 185 3,700 3,569 96.5% 測定箇所 20未満 20~9999 1万以上 総頻度 16,052 886,649 9,470,468 内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを 見た時、90のひらがなに対し出現頻度の合計 が99,530であったので51.8%を網羅したこと になり、93.5%の精度で換言ができた。 ※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上 は全て正解(ひらがなが正解)であるので、出現 頻度で本換言器の網羅率は93.0%であった。
考察 15