Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月21日)日本語入力システムの歩み
Search
MIKAMI-YUKI
January 20, 2015
Education
0
80
B3勉強会(2015年1月21日)日本語入力システムの歩み
MIKAMI-YUKI
January 20, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
20250807_がんばらないコミュニティ運営
ponponmikankan
0
200
生態系ウォーズ - ルールブック
yui_itoshima
1
310
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
5.7k
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
2.6k
XML and Related Technologies - Lecture 7 - Web Technologies (1019888BNR)
signer
PRO
0
3k
QR-koodit opetuksessa
matleenalaakso
0
1.7k
H5P-työkalut
matleenalaakso
4
40k
理想の英語力に一直線!最高効率な英語学習のすゝめ
logica0419
6
440
附属科学技術高等学校の概要|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
1.7k
Padlet opetuksessa
matleenalaakso
5
14k
バケットポリシーの記述を誤りマネコンからS3バケットを操作できなくなりそうになった話
amarelo_n24
1
120
【ZEPメタバース校舎操作ガイド】
ainischool
0
440
Featured
See All Featured
Scaling GitHub
holman
463
140k
The Pragmatic Product Professional
lauravandoore
36
7k
Product Roadmaps are Hard
iamctodd
PRO
55
11k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
Typedesign – Prime Four
hannesfritz
42
2.8k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.2k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年1月21日 日本語入力システムの歩み 自然言語処理研究室 1
かな漢字変換の始まり 1970年頃にかな漢字変換の概念が 提案された。 しかし、当時のコンピュータの性能では 厳しかった。 1980年頃から実用化された。 2
かな漢字変換の始まり 単文節変換: 1回の入力で、1つの分節、もしくは文節 の位置を自分で指定する必要があった。 例:「だいがくのけんきゅう」 「だいがく」→「大学」,「の」→「の」, 「けんきゅう」→「研究」 3
かな漢字変換の始まり 連文節変換: 複数の文節を一気に変換することができ る。現在使われているもの。 例:「だいがくのけんきゅう」 「だいがく」「の」「けんきゅう」←自動 「大学の研究」 4
n文節最長一致法 連文節変換を実現する方法の一つ。 連文が最長になるようにする方法 高速でメモリの消費量が少ない。 5
n文節最長一致法の例 n=2とした時 例文:「かれはがくせいです」 まず、「かれは…」の一文字から始まる文 節を展開すると、 「彼」,「狩れ」,「彼は」,「枯葉が」 と、得られたとする。 次にそれぞれに後続する文節を展開する。 6
2文節最長一致法の例 7 彼 狩れ 歯 歯が 歯 歯が 彼は 学生
学生で 学生です 枯葉が 句 癖 最長
n文節最長一致法 なぜ上手くできるのか、現在でも理論的 に説明出来ない。 ↓ 「長い文節を選択したほうがうまくいくこと が多い」という経験から成り立っている。 8
n文節最長一致法の問題 原理的にうまく変換できない文がある。 大きく2つの問題点がある。 → 全部の可能性を試していない。 → 間違った文を訂正するのが難しい。 9
n文節最長一致法の改善 文節数以外の評価項目を使う。 全部の候補を検索し、最も良さそうなも のを選択する。 → 日本語は単語間に「つながりやすさ」 があり、これを考慮する。 → このような方法を接続強度法と言う。 10
n文節最長一致法の改善 接続強度法 例文:「ちかくしじょうちょうさをする」 正解:「近く市場調査をする」 1:「近く」,「市場」→形容詞+名詞 2:「地下」,「串」 →名詞+名詞 形容詞+名詞の方が良くある(高スコア) 11
ビタビアルゴリズム 隣接する単語間に対してスコアを定義す るもので、最適解を高速に求めることが できる。 パラメータの調整が重要になる。 12
ビタビアルゴリズム パラメータの調整法 人の手でパラメータを決めるのは非常に 厳しい。 ↓ 正解データからパラメータを学習させる、 機械学習を用いる。 13
まとめ 昔の日本語入力システムには、ハードウ エアの制約からn文節最長一致法が用 いられていた。 現在ではビタビアルゴリズムにて、機械学 習させて得たパラメータを用いて、文字の 変換を行っている。 14
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 15