Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
MIKAMI-YUKI
July 13, 2015
Education
420
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
MIKAMI-YUKI
July 13, 2015
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
140
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
100
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
120
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
160
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
600
Other Decks in Education
See All in Education
2026年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2026. 5. 7)
akiraasano
PRO
0
140
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
勾配ブースティングと決定木の話 / gradient boosting and decision trees
kaityo256
PRO
6
1.3k
Virtual and Augmented Reality - Lecture 8 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.3k
Laura Wilson - The Quarterly PR Pivot
laurawilsonbseo1
1
350
From Participation to Outcomes
territorium
PRO
0
470
Data Processing and Visualisation Frameworks - Lecture 6 - Information Visualisation (4019538FNR)
signer
PRO
1
3.1k
教育現場から見た Ruby on Rails
yasslab
PRO
0
170
【セーフィー】テクニカルライティング&コミュニケーション実践講座(26新卒エンジニア向け研修資料)
ymzaki_m4
0
220
看護マネジメントの現場に、生成 AI を迎えるには
icoxfog417
PRO
0
100
AI-Based Speaking Assessment of a Short-Term Study Abroad Program
uranoken
0
300
プロポーザルを書く技術とアンチパターン/proposal-writing-and-antipatterns
moriyuya
13
3.4k
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
970
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
How STYLIGHT went responsive
nonsquared
100
6.2k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Navigating Weather and Climate Data
rabernat
0
220
Automating Front-end Workflow
addyosmani
1370
210k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年7月14日 結合価パターンを用いた 仮名漢字変換候補の選択 自然言語処理研究室 1
出典 結合価パターンを用いた仮名漢字変換 候補の選択 吉田 真司 ,徳久 雅人 ,村上 仁一 ,池
原 悟 第10回年次大会 (2004) 2
概要 単語連鎖確率を用いた、かな漢字変換 では同音異義語での誤変換が問題。 結合価パターンが作成されたことにより、 意味解析の構築が実現した。 本稿は単語連鎖確率に結合価パターン を用い、その有効性を示した。 3
かな漢字変換アルゴリズム 単語連鎖確率を用いた、かな漢字変換 は、変換候補を大量に出力することがで きる。 結合値パターンを用いると、意味的な適 切性が判断できる。 両方を統合したアルゴリズムを作成。 4
かな漢字変換アルゴリズム 手順1:候補作成 手順2:不適切な文法の削除 手順3:不適切な意味の削除 手順4:慣用表現の優先 手順5:補欠選択 5
変換候補の作成 6 入力文の単語列で隣接する単語 間の連鎖確率を計算し、出現確率 を求め、高い順から候補とする。 入力されたひらがな文に対して、 かな漢字変換を行い、出現確率の 高い上位32文の候補を作成。
不適切な文法の削除 文法的に不適切な文の削除を行う。 SLT-JAWSを用いた形態素解析を行い、 エラー時の出力を利用して、品詞間の接 続に誤りのある候補分を削除する。 7
不適切な意味の削除 候補文の全ての格要素と用言の間の意 味的結束性が正しくない文の削除を行う。 任意格が存在するために全ての格要素 の結束性が確認できない。 そこで、任意格を判定するために、任意 格のルールベースを用いる。 8
慣用表現の優先 日常的な文では、慣用表現の読みと同 じになるような漢字の使い方はしない。 そこで、慣用表現のパターンが当てはまる 候補文は、優先的に選択する。 9
評価実験の目的と方法 10 実験1:本手法の確認及び、任 意角のデータベース作成を目的 実験2:同音異義語に対する結 合価パターンの効果調査を目的 実験3:実際の文に対する結合 価パターンの効果の調査を目的
評価準備 11 評価は「正解文との完全一致を正 解とする基準」と、「人手で正解文と 見比べて判定する基準」の2つ 人手での判断を行う理由は、漢字 が絶対的には定まらないことにある。 (例)復習に時間を掛ける。 復讐に時間を掛ける。
実験結果 アルゴリズムの各段階での効果を比べる。 手順ごとに正解率を集計し、完全一致 と人手による判断の結果を示す。 12
実験1の結果 EDRコーパスの単文集を対象 13
実験2の結果(動詞) IPALにある多義のあるものを対象 14
実験2の結果(名詞) IPALにある多義のあるものを対象 15
実験3の結果 毎日新聞95年度記事の単文集を対象 16
考察 実験3の人手判断において、手順4ま でにより32個の候補が全て削除された 件数の割合が36%であった。 従って手順4までは64%の判断結果を 出力したことになり、候補を正しく選択す ることの適合率(正解数/出力数)は 86%となり、手順1のみの64%より高 い結果である。 17
考察 再現率は「~32位」まで見ても、手順4 までは60%であるが、手順1のみは 91%もある。 これらの関係から、「単語連鎖確率によ る候補作成」と、「統語的・意味的判断 による候補選択」の統合アルゴリズムは 全体において両者の利点が生かされてい ると定量的に結論づけられる。 18
まとめ 単語連鎖確率を用いたかな漢字変換の 候補文に対して、結合価パターンを用い た候補選択を行うという総合的なかな漢 字変換アルゴリズムを提案した。 実験結果より、1位の正解率はそれぞれ 12%,15%,9%の向上が見られ、本ア ルゴリズムの有効性が確認できた。 19
ご視聴ありがとうございました 20