Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月21日)日本語入力システムの歩み
Search
MIKAMI-YUKI
January 20, 2015
Education
94
0
Share
B3勉強会(2015年1月21日)日本語入力システムの歩み
MIKAMI-YUKI
January 20, 2015
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
130
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
98
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
Other Decks in Education
See All in Education
この講義について / 00-setup
kaityo256
PRO
0
260
演習:Gitの基本操作 / 04-git-basic
kaityo256
PRO
0
370
Data Presentation - Lecture 5 - Information Visualisation (4019538FNR)
signer
PRO
0
3k
栃木県警サイバーセキュリティ研修会2026
nomizone
0
360
OSINT入門-CTF for GIRLS_SECCON14電脳会議
nomizone
1
1.2k
PE array testbench data order (data)
songchch
0
180
バージョン管理とは / 01-a-vcs
kaityo256
PRO
1
230
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
1
2.9k
Introduction - Lecture 1 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
4.6k
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
2.9k
0121
cbtlibrary
0
150
良い塩梅を実現する、AWSネットワーク3分クッキング
masakiokuda
1
200
Featured
See All Featured
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
79
Rails Girls Zürich Keynote
gr2m
96
14k
Done Done
chrislema
186
16k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
270
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
120
Speed Design
sergeychernyshev
33
1.6k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
97
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年1月21日 日本語入力システムの歩み 自然言語処理研究室 1
かな漢字変換の始まり 1970年頃にかな漢字変換の概念が 提案された。 しかし、当時のコンピュータの性能では 厳しかった。 1980年頃から実用化された。 2
かな漢字変換の始まり 単文節変換: 1回の入力で、1つの分節、もしくは文節 の位置を自分で指定する必要があった。 例:「だいがくのけんきゅう」 「だいがく」→「大学」,「の」→「の」, 「けんきゅう」→「研究」 3
かな漢字変換の始まり 連文節変換: 複数の文節を一気に変換することができ る。現在使われているもの。 例:「だいがくのけんきゅう」 「だいがく」「の」「けんきゅう」←自動 「大学の研究」 4
n文節最長一致法 連文節変換を実現する方法の一つ。 連文が最長になるようにする方法 高速でメモリの消費量が少ない。 5
n文節最長一致法の例 n=2とした時 例文:「かれはがくせいです」 まず、「かれは…」の一文字から始まる文 節を展開すると、 「彼」,「狩れ」,「彼は」,「枯葉が」 と、得られたとする。 次にそれぞれに後続する文節を展開する。 6
2文節最長一致法の例 7 彼 狩れ 歯 歯が 歯 歯が 彼は 学生
学生で 学生です 枯葉が 句 癖 最長
n文節最長一致法 なぜ上手くできるのか、現在でも理論的 に説明出来ない。 ↓ 「長い文節を選択したほうがうまくいくこと が多い」という経験から成り立っている。 8
n文節最長一致法の問題 原理的にうまく変換できない文がある。 大きく2つの問題点がある。 → 全部の可能性を試していない。 → 間違った文を訂正するのが難しい。 9
n文節最長一致法の改善 文節数以外の評価項目を使う。 全部の候補を検索し、最も良さそうなも のを選択する。 → 日本語は単語間に「つながりやすさ」 があり、これを考慮する。 → このような方法を接続強度法と言う。 10
n文節最長一致法の改善 接続強度法 例文:「ちかくしじょうちょうさをする」 正解:「近く市場調査をする」 1:「近く」,「市場」→形容詞+名詞 2:「地下」,「串」 →名詞+名詞 形容詞+名詞の方が良くある(高スコア) 11
ビタビアルゴリズム 隣接する単語間に対してスコアを定義す るもので、最適解を高速に求めることが できる。 パラメータの調整が重要になる。 12
ビタビアルゴリズム パラメータの調整法 人の手でパラメータを決めるのは非常に 厳しい。 ↓ 正解データからパラメータを学習させる、 機械学習を用いる。 13
まとめ 昔の日本語入力システムには、ハードウ エアの制約からn文節最長一致法が用 いられていた。 現在ではビタビアルゴリズムにて、機械学 習させて得たパラメータを用いて、文字の 変換を行っている。 14
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 15