Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
Search
MIKAMI-YUKI
July 13, 2015
Education
0
390
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
MIKAMI-YUKI
July 13, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
270
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
100
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
81
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
85
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
93
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
400
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
540
Other Decks in Education
See All in Education
AWS All Certが伝える 新AWS認定試験取得のコツ (Machine Learning Engineer - Associate)
nnydtmg
1
290
week15@tcue2024
nonxxxizm
0
560
Blogit opetuksessa
matleenalaakso
0
1.6k
week12@tcue2024
nonxxxizm
0
670
Matz に頼られたので張り切って2時間ほどドイツと日本の互いの Ruby 学習事情についてディスカッションした話
yasulab
1
360
Droid Knights 2024 Accessibility in Android
nanamare
0
320
"数学" をプログラミングしてもらう際に気をつけていること / Key Considerations When Programming "Mathematics"
guvalif
0
490
小・中・高等学校における情報教育の体系的な学習を目指したカリキュラムモデル案/curriculum model
codeforeveryone
1
1.6k
横浜国立大学大学院 国際社会科学府 経営学専攻博士課程前期(社会人専修コース)_在校生体験談
miki_small_pin
0
590
セキュリティ・キャンプ全国大会2024 S17 探査機自作ゼミ 事前学習・当日資料
sksat
3
740
2024年度春学期 統計学 第12回 分布の平均を推測する ー 区間推定 (2024. 6. 27)
akiraasano
PRO
1
160
Contentless Marketing
jonoalderson
0
1.3k
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
2
210
A Philosophy of Restraint
colly
202
16k
Automating Front-end Workflow
addyosmani
1365
200k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
125
18k
How GitHub Uses GitHub to Build GitHub
holman
473
290k
Bash Introduction
62gerente
608
210k
Designing on Purpose - Digital PM Summit 2013
jponch
114
6.9k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Debugging Ruby Performance
tmm1
73
12k
Design by the Numbers
sachag
278
19k
Six Lessons from altMBA
skipperchong
26
3.4k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年7月14日 結合価パターンを用いた 仮名漢字変換候補の選択 自然言語処理研究室 1
出典 結合価パターンを用いた仮名漢字変換 候補の選択 吉田 真司 ,徳久 雅人 ,村上 仁一 ,池
原 悟 第10回年次大会 (2004) 2
概要 単語連鎖確率を用いた、かな漢字変換 では同音異義語での誤変換が問題。 結合価パターンが作成されたことにより、 意味解析の構築が実現した。 本稿は単語連鎖確率に結合価パターン を用い、その有効性を示した。 3
かな漢字変換アルゴリズム 単語連鎖確率を用いた、かな漢字変換 は、変換候補を大量に出力することがで きる。 結合値パターンを用いると、意味的な適 切性が判断できる。 両方を統合したアルゴリズムを作成。 4
かな漢字変換アルゴリズム 手順1:候補作成 手順2:不適切な文法の削除 手順3:不適切な意味の削除 手順4:慣用表現の優先 手順5:補欠選択 5
変換候補の作成 6 入力文の単語列で隣接する単語 間の連鎖確率を計算し、出現確率 を求め、高い順から候補とする。 入力されたひらがな文に対して、 かな漢字変換を行い、出現確率の 高い上位32文の候補を作成。
不適切な文法の削除 文法的に不適切な文の削除を行う。 SLT-JAWSを用いた形態素解析を行い、 エラー時の出力を利用して、品詞間の接 続に誤りのある候補分を削除する。 7
不適切な意味の削除 候補文の全ての格要素と用言の間の意 味的結束性が正しくない文の削除を行う。 任意格が存在するために全ての格要素 の結束性が確認できない。 そこで、任意格を判定するために、任意 格のルールベースを用いる。 8
慣用表現の優先 日常的な文では、慣用表現の読みと同 じになるような漢字の使い方はしない。 そこで、慣用表現のパターンが当てはまる 候補文は、優先的に選択する。 9
評価実験の目的と方法 10 実験1:本手法の確認及び、任 意角のデータベース作成を目的 実験2:同音異義語に対する結 合価パターンの効果調査を目的 実験3:実際の文に対する結合 価パターンの効果の調査を目的
評価準備 11 評価は「正解文との完全一致を正 解とする基準」と、「人手で正解文と 見比べて判定する基準」の2つ 人手での判断を行う理由は、漢字 が絶対的には定まらないことにある。 (例)復習に時間を掛ける。 復讐に時間を掛ける。
実験結果 アルゴリズムの各段階での効果を比べる。 手順ごとに正解率を集計し、完全一致 と人手による判断の結果を示す。 12
実験1の結果 EDRコーパスの単文集を対象 13
実験2の結果(動詞) IPALにある多義のあるものを対象 14
実験2の結果(名詞) IPALにある多義のあるものを対象 15
実験3の結果 毎日新聞95年度記事の単文集を対象 16
考察 実験3の人手判断において、手順4ま でにより32個の候補が全て削除された 件数の割合が36%であった。 従って手順4までは64%の判断結果を 出力したことになり、候補を正しく選択す ることの適合率(正解数/出力数)は 86%となり、手順1のみの64%より高 い結果である。 17
考察 再現率は「~32位」まで見ても、手順4 までは60%であるが、手順1のみは 91%もある。 これらの関係から、「単語連鎖確率によ る候補作成」と、「統語的・意味的判断 による候補選択」の統合アルゴリズムは 全体において両者の利点が生かされてい ると定量的に結論づけられる。 18
まとめ 単語連鎖確率を用いたかな漢字変換の 候補文に対して、結合価パターンを用い た候補選択を行うという総合的なかな漢 字変換アルゴリズムを提案した。 実験結果より、1位の正解率はそれぞれ 12%,15%,9%の向上が見られ、本ア ルゴリズムの有効性が確認できた。 19
ご視聴ありがとうございました 20