Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2016年_年次大会_発表資料
Search
MIKAMI-YUKI
March 22, 2016
Education
0
110
2016年_年次大会_発表資料
MIKAMI-YUKI
March 22, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
240
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
91
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
74
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
71
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
81
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
110
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
370
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
390
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
500
Other Decks in Education
See All in Education
【潔能講堂】永續環境、擁抱綠能 太陽能光電發展現況與產業製程解析
learnenergy2
0
120
MonacaEducation導入手引き2024年第1版
asial_edu
1
160
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.1k
[SemanaX-UFCG-2024] Guia descomplicado de entrevistas FAANG
hugaomarques
2
450
3 занятие. Канва бизнес-модели #ideaNN 2.02.2024.
karlov
0
200
インターアクトクラブについて:国際ロータリー第2720地区インターアクト委員会 委員長・大分東ロータリークラブ 阿部 克哉 氏
2720japanoke
0
670
Gesture-based Interaction - Lecture 8 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.2k
Frederick Douglass versus George Fitzhugh
oripsolob
0
610
4 занятие. Разбор бизнес-моделей и метод красной нити #ideaNN 9.02.2024.
karlov
0
230
令和6年度 無料トライアルキャンペーン説明会
asial_edu
0
840
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
第33回 JAWS-UG札幌 クラウド女子会コラボ 勉強会
nagisa53
2
360
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
319
37k
Building Effective Engineering Teams - LeadDev
addyosmani
28
1.8k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
244
20k
Scaling GitHub
holman
457
140k
GitHub's CSS Performance
jonrohan
1025
450k
The Invisible Side of Design
smashingmag
294
49k
No one is an island. Learnings from fostering a developers community.
thoeni
16
2.1k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
It's Worth the Effort
3n
180
27k
The Brand Is Dead. Long Live the Brand.
mthomps
49
29k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
21
1.6k
Transcript
長岡技術科学大学 山本和英, 三上侑城 語義曖昧性解消としての かな漢字換言システムの開発 1
研究背景・目的(1/2) 2 言語処理において、テキストの解析を行う際に 語義の曖昧性が問題となる時がある。 (例)日英翻訳 その曖昧性を解消することを語義曖昧性解消 と呼び、古くから様々な手法が提案されてきた。 貰った犬を飼う
I buy the dog which I got. 貰った犬をかう 貰った犬をかう
研究背景・目的(2/2) しかし現状では... 3 公開されている日本語の 語義曖昧性解消ツールは無い 語義曖昧性解消ツールの 作成を目的とした。
語義曖昧性解消の対象 本研究では、曖昧さを出す要因の一つである “ひらがな”に着目し、これを適切な“漢字”に 換言することで語義曖昧性解消をおこなう。 4 切符をかう 切符を買う 切符を飼う ?
?
換言候補の収集(1/2) 5 大規模コーパス (BCCWJ)の中で出現 する数 同じ語義の語が記載さ れている辞書
換言候補の収集(2/2) 先に候補を集めておくことで、対象を絞り、 正確に換言できないものを除外。 → 精度の向上 ひらがなの頻度20未満はノイズとして除外し、 頻度1万以上はひらがなが正しいとした。 6
頻度20未満 頻度1万以上 ひらがな頻度20~9999 対象にしない (ノイズ) 換言対象 ひらがなを 正解とする
かな漢字換言手法 ① 入力文から換言対象のひらがなを検出 ② 文脈から手がかりとする語を選定 ③ 漢字候補と手がかり語との共起度を計算 ④ 計算結果の値によって漢字を選出 7
かな漢字換言の例 8 ① ② ③ ④
① 換言対象の検出 換言候補の収集で集めたひらがなが入力 文に入っていたら、換言プロセスに入る。 ただし、漢字の候補が1つのみのものは、 このプロセスを通さず、その漢字に決定。 9
② 手がかり語の選定 10 対象のひらがなから前後4単語を検索し、 情報を持った語を品詞で選定する。 ・ひらがなが動詞 → 名詞 の語を選択
・ひらがなが名詞 → 動詞 と 名詞 の語を選択
文章において、この語が出た時には、通常 この漢字が使われるという(共起)情報を 使用。 特定の語との共起度合を数値化するため、 自己相互情報量(PMI)を使用し、出力 値が最大の漢字を選択。 ③ 自己相互情報量
11
誤答を減らすために閾値を設ける。閾値を決め るため、換言処理を行いその結果を考察した。 間違いを1割以下にするため、閾値を5にした。 ④ 閾値の設定 12 PMI値 PMI値
さらなる精度向上のため、作成したかな漢字 換言器で、対象のひらがなが入った文章を換 言処理。 その結果をひらがな毎に20個判断し、16個 (8割)以上正解できないものは対象から除外。 ただし、漢字候補が1つしかないものは18個 (9割)以上とした。
換言できないものの除外 13
換言対象となるひらがな全てに対し、かな漢字 換言を行い、その時の正解率を求めた。 また各ひらがなにおける総頻度を求めた。 実験と結果 14 漢字候補 対応数 テスト数
正解数 正解率 1つのみ 95 1,900 1,886 99.3% 2つ以上 90 1,800 1,683 93.5% 合計 185 3,700 3,569 96.5% 測定箇所 20未満 20~9999 1万以上 総頻度 16,052 886,649 9,470,468 内2つ以上 (未調査) 192,035 (未調査)
本題である、漢字候補が2つ以上のものだけを 見た時、90のひらがなに対し出現頻度の合計 が99,530であったので51.8%を網羅したこと になり、93.5%の精度で換言ができた。 ※漢字候補1つのみは頻度合計81,800 全体で見た時には、ひらがなの頻度1万以上 は全て正解(ひらがなが正解)であるので、出現 頻度で本換言器の網羅率は93.0%であった。
考察 15