Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
Search
MIKAMI-YUKI
July 13, 2015
Education
0
370
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
MIKAMI-YUKI
July 13, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
240
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
91
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
74
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
69
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
81
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
110
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
390
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
500
Other Decks in Education
See All in Education
生成AIを活用できる大学教職員になる-基本と実践-
gmoriki
0
300
子どもたち創造的活動機会の必要性に関する提言/creativehub
codeforeveryone
0
220
6 занятие. Четыре тактики метода "8 кубиков"бизнес-модели #ideaNN 1.03.2024.
karlov
0
150
Tips for the Presentation - Lecture 2 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
0
130
前期教育実習事前指導0221
naradai
0
130
SUMMER SCHOOL 2024
pnuslide
0
140
Switches
irocho
0
180
HCL Notes 14.0 「スタイルの変更」で「3 設定の確認」を深掘り
harunakano
0
2k
Pre-enrollment Information for UTokyo International Students
utokyoissr2360
0
4.8k
WordPressを教える人のための視点と考え方
crebowinfo
0
230
千葉県印西市立・原山小学校における新たな学び「情報探究の時間」実践報告』
codeforeveryone
1
700
Data Management and Analytics Specialisation
signer
PRO
0
980
Featured
See All Featured
Debugging Ruby Performance
tmm1
70
11k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
9
8.3k
The Power of CSS Pseudo Elements
geoffreycrofte
60
5k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
Product Roadmaps are Hard
iamctodd
44
9.7k
KATA
mclloyd
15
12k
Being A Developer After 40
akosma
57
580k
Build The Right Thing And Hit Your Dates
maggiecrowley
24
2k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
Practical Orchestrator
shlominoach
182
9.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
2
1.3k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年7月14日 結合価パターンを用いた 仮名漢字変換候補の選択 自然言語処理研究室 1
出典 結合価パターンを用いた仮名漢字変換 候補の選択 吉田 真司 ,徳久 雅人 ,村上 仁一 ,池
原 悟 第10回年次大会 (2004) 2
概要 単語連鎖確率を用いた、かな漢字変換 では同音異義語での誤変換が問題。 結合価パターンが作成されたことにより、 意味解析の構築が実現した。 本稿は単語連鎖確率に結合価パターン を用い、その有効性を示した。 3
かな漢字変換アルゴリズム 単語連鎖確率を用いた、かな漢字変換 は、変換候補を大量に出力することがで きる。 結合値パターンを用いると、意味的な適 切性が判断できる。 両方を統合したアルゴリズムを作成。 4
かな漢字変換アルゴリズム 手順1:候補作成 手順2:不適切な文法の削除 手順3:不適切な意味の削除 手順4:慣用表現の優先 手順5:補欠選択 5
変換候補の作成 6 入力文の単語列で隣接する単語 間の連鎖確率を計算し、出現確率 を求め、高い順から候補とする。 入力されたひらがな文に対して、 かな漢字変換を行い、出現確率の 高い上位32文の候補を作成。
不適切な文法の削除 文法的に不適切な文の削除を行う。 SLT-JAWSを用いた形態素解析を行い、 エラー時の出力を利用して、品詞間の接 続に誤りのある候補分を削除する。 7
不適切な意味の削除 候補文の全ての格要素と用言の間の意 味的結束性が正しくない文の削除を行う。 任意格が存在するために全ての格要素 の結束性が確認できない。 そこで、任意格を判定するために、任意 格のルールベースを用いる。 8
慣用表現の優先 日常的な文では、慣用表現の読みと同 じになるような漢字の使い方はしない。 そこで、慣用表現のパターンが当てはまる 候補文は、優先的に選択する。 9
評価実験の目的と方法 10 実験1:本手法の確認及び、任 意角のデータベース作成を目的 実験2:同音異義語に対する結 合価パターンの効果調査を目的 実験3:実際の文に対する結合 価パターンの効果の調査を目的
評価準備 11 評価は「正解文との完全一致を正 解とする基準」と、「人手で正解文と 見比べて判定する基準」の2つ 人手での判断を行う理由は、漢字 が絶対的には定まらないことにある。 (例)復習に時間を掛ける。 復讐に時間を掛ける。
実験結果 アルゴリズムの各段階での効果を比べる。 手順ごとに正解率を集計し、完全一致 と人手による判断の結果を示す。 12
実験1の結果 EDRコーパスの単文集を対象 13
実験2の結果(動詞) IPALにある多義のあるものを対象 14
実験2の結果(名詞) IPALにある多義のあるものを対象 15
実験3の結果 毎日新聞95年度記事の単文集を対象 16
考察 実験3の人手判断において、手順4ま でにより32個の候補が全て削除された 件数の割合が36%であった。 従って手順4までは64%の判断結果を 出力したことになり、候補を正しく選択す ることの適合率(正解数/出力数)は 86%となり、手順1のみの64%より高 い結果である。 17
考察 再現率は「~32位」まで見ても、手順4 までは60%であるが、手順1のみは 91%もある。 これらの関係から、「単語連鎖確率によ る候補作成」と、「統語的・意味的判断 による候補選択」の統合アルゴリズムは 全体において両者の利点が生かされてい ると定量的に結論づけられる。 18
まとめ 単語連鎖確率を用いたかな漢字変換の 候補文に対して、結合価パターンを用い た候補選択を行うという総合的なかな漢 字変換アルゴリズムを提案した。 実験結果より、1位の正解率はそれぞれ 12%,15%,9%の向上が見られ、本ア ルゴリズムの有効性が確認できた。 19
ご視聴ありがとうございました 20