Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月21日)日本語入力システムの歩み
Search
MIKAMI-YUKI
January 20, 2015
Education
0
80
B3勉強会(2015年1月21日)日本語入力システムの歩み
MIKAMI-YUKI
January 20, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
Презентация "Знаю Россию"
spilsart
0
260
情報科学類で学べる専門科目38選
momeemt
0
630
Google Gemini (Gem) の育成方法
mickey_kubo
2
140
万博非公式マップとFOSS4G
barsaka2
0
1.3k
尊敬語「くださる」と謙譲語「いただく」の使い分け
hysmrk
0
100
大学院進学について(2025年度版)
imash
0
130
[FUN Open Campus 2025] 何でもセンシングしていいですか?
pman0214
0
250
【品女100周年企画】Pitch Deck
shinagawajoshigakuin_100th
0
7.5k
DIP_1_Introduction
hachama
0
210
日本の情報系社会人院生のリアル -JAIST 修士編-
yurikomium
1
130
ÉTICA, INCLUSIÓN, EDUCACIÓN INTEGRAL Y NEURODERECHOS EN EL CONTEXTO DEL NEUROMANAGEMENT
jvpcubias
0
120
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
A Tale of Four Properties
chriscoyier
160
23k
Docker and Python
trallard
46
3.6k
Faster Mobile Websites
deanohume
310
31k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
61k
Optimizing for Happiness
mojombo
379
70k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Speed Design
sergeychernyshev
32
1.2k
Balancing Empowerment & Direction
lara
4
680
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年1月21日 日本語入力システムの歩み 自然言語処理研究室 1
かな漢字変換の始まり 1970年頃にかな漢字変換の概念が 提案された。 しかし、当時のコンピュータの性能では 厳しかった。 1980年頃から実用化された。 2
かな漢字変換の始まり 単文節変換: 1回の入力で、1つの分節、もしくは文節 の位置を自分で指定する必要があった。 例:「だいがくのけんきゅう」 「だいがく」→「大学」,「の」→「の」, 「けんきゅう」→「研究」 3
かな漢字変換の始まり 連文節変換: 複数の文節を一気に変換することができ る。現在使われているもの。 例:「だいがくのけんきゅう」 「だいがく」「の」「けんきゅう」←自動 「大学の研究」 4
n文節最長一致法 連文節変換を実現する方法の一つ。 連文が最長になるようにする方法 高速でメモリの消費量が少ない。 5
n文節最長一致法の例 n=2とした時 例文:「かれはがくせいです」 まず、「かれは…」の一文字から始まる文 節を展開すると、 「彼」,「狩れ」,「彼は」,「枯葉が」 と、得られたとする。 次にそれぞれに後続する文節を展開する。 6
2文節最長一致法の例 7 彼 狩れ 歯 歯が 歯 歯が 彼は 学生
学生で 学生です 枯葉が 句 癖 最長
n文節最長一致法 なぜ上手くできるのか、現在でも理論的 に説明出来ない。 ↓ 「長い文節を選択したほうがうまくいくこと が多い」という経験から成り立っている。 8
n文節最長一致法の問題 原理的にうまく変換できない文がある。 大きく2つの問題点がある。 → 全部の可能性を試していない。 → 間違った文を訂正するのが難しい。 9
n文節最長一致法の改善 文節数以外の評価項目を使う。 全部の候補を検索し、最も良さそうなも のを選択する。 → 日本語は単語間に「つながりやすさ」 があり、これを考慮する。 → このような方法を接続強度法と言う。 10
n文節最長一致法の改善 接続強度法 例文:「ちかくしじょうちょうさをする」 正解:「近く市場調査をする」 1:「近く」,「市場」→形容詞+名詞 2:「地下」,「串」 →名詞+名詞 形容詞+名詞の方が良くある(高スコア) 11
ビタビアルゴリズム 隣接する単語間に対してスコアを定義す るもので、最適解を高速に求めることが できる。 パラメータの調整が重要になる。 12
ビタビアルゴリズム パラメータの調整法 人の手でパラメータを決めるのは非常に 厳しい。 ↓ 正解データからパラメータを学習させる、 機械学習を用いる。 13
まとめ 昔の日本語入力システムには、ハードウ エアの制約からn文節最長一致法が用 いられていた。 現在ではビタビアルゴリズムにて、機械学 習させて得たパラメータを用いて、文字の 変換を行っている。 14
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 15