Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
Search
MIKAMI-YUKI
July 13, 2015
Education
0
390
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
MIKAMI-YUKI
July 13, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
300
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
91
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
保育士チームが実践している連続的な観察と多面的な観察を共有するための振り返り / Reflection to share “continuous and multifaceted observations” as practiced by a team of childcare professionals
psj59129
0
3.9k
Policing the Poor
oripsolob
0
430
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
360
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
2.3k
Sanapilvet opetuksessa
matleenalaakso
0
32k
プログラミング教育する大学、ZEN大学
sifue
1
440
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
Training Alchemy: Converting ordinary training into memorable experiences
tmiket
1
110
HCL Domino 14.5 EAP2 Domino IQ について
harunakano
0
110
OCIでインスタンス構築してみた所感
masakiokuda
0
190
第1回大学院理工学系説明会|東京科学大学(Science Tokyo)
sciencetokyo
PRO
0
1.9k
ふりかえり研修2025
pokotyamu
0
510
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
5
560
The Language of Interfaces
destraynor
157
25k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
We Have a Design System, Now What?
morganepeng
52
7.5k
Adopting Sorbet at Scale
ufuk
76
9.3k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
KATA
mclloyd
29
14k
Optimizing for Happiness
mojombo
377
70k
Done Done
chrislema
183
16k
Testing 201, or: Great Expectations
jmmastey
42
7.5k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Side Projects
sachag
453
42k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年7月14日 結合価パターンを用いた 仮名漢字変換候補の選択 自然言語処理研究室 1
出典 結合価パターンを用いた仮名漢字変換 候補の選択 吉田 真司 ,徳久 雅人 ,村上 仁一 ,池
原 悟 第10回年次大会 (2004) 2
概要 単語連鎖確率を用いた、かな漢字変換 では同音異義語での誤変換が問題。 結合価パターンが作成されたことにより、 意味解析の構築が実現した。 本稿は単語連鎖確率に結合価パターン を用い、その有効性を示した。 3
かな漢字変換アルゴリズム 単語連鎖確率を用いた、かな漢字変換 は、変換候補を大量に出力することがで きる。 結合値パターンを用いると、意味的な適 切性が判断できる。 両方を統合したアルゴリズムを作成。 4
かな漢字変換アルゴリズム 手順1:候補作成 手順2:不適切な文法の削除 手順3:不適切な意味の削除 手順4:慣用表現の優先 手順5:補欠選択 5
変換候補の作成 6 入力文の単語列で隣接する単語 間の連鎖確率を計算し、出現確率 を求め、高い順から候補とする。 入力されたひらがな文に対して、 かな漢字変換を行い、出現確率の 高い上位32文の候補を作成。
不適切な文法の削除 文法的に不適切な文の削除を行う。 SLT-JAWSを用いた形態素解析を行い、 エラー時の出力を利用して、品詞間の接 続に誤りのある候補分を削除する。 7
不適切な意味の削除 候補文の全ての格要素と用言の間の意 味的結束性が正しくない文の削除を行う。 任意格が存在するために全ての格要素 の結束性が確認できない。 そこで、任意格を判定するために、任意 格のルールベースを用いる。 8
慣用表現の優先 日常的な文では、慣用表現の読みと同 じになるような漢字の使い方はしない。 そこで、慣用表現のパターンが当てはまる 候補文は、優先的に選択する。 9
評価実験の目的と方法 10 実験1:本手法の確認及び、任 意角のデータベース作成を目的 実験2:同音異義語に対する結 合価パターンの効果調査を目的 実験3:実際の文に対する結合 価パターンの効果の調査を目的
評価準備 11 評価は「正解文との完全一致を正 解とする基準」と、「人手で正解文と 見比べて判定する基準」の2つ 人手での判断を行う理由は、漢字 が絶対的には定まらないことにある。 (例)復習に時間を掛ける。 復讐に時間を掛ける。
実験結果 アルゴリズムの各段階での効果を比べる。 手順ごとに正解率を集計し、完全一致 と人手による判断の結果を示す。 12
実験1の結果 EDRコーパスの単文集を対象 13
実験2の結果(動詞) IPALにある多義のあるものを対象 14
実験2の結果(名詞) IPALにある多義のあるものを対象 15
実験3の結果 毎日新聞95年度記事の単文集を対象 16
考察 実験3の人手判断において、手順4ま でにより32個の候補が全て削除された 件数の割合が36%であった。 従って手順4までは64%の判断結果を 出力したことになり、候補を正しく選択す ることの適合率(正解数/出力数)は 86%となり、手順1のみの64%より高 い結果である。 17
考察 再現率は「~32位」まで見ても、手順4 までは60%であるが、手順1のみは 91%もある。 これらの関係から、「単語連鎖確率によ る候補作成」と、「統語的・意味的判断 による候補選択」の統合アルゴリズムは 全体において両者の利点が生かされてい ると定量的に結論づけられる。 18
まとめ 単語連鎖確率を用いたかな漢字変換の 候補文に対して、結合価パターンを用い た候補選択を行うという総合的なかな漢 字変換アルゴリズムを提案した。 実験結果より、1位の正解率はそれぞれ 12%,15%,9%の向上が見られ、本ア ルゴリズムの有効性が確認できた。 19
ご視聴ありがとうございました 20