Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月21日)日本語入力システムの歩み
Search
MIKAMI-YUKI
January 20, 2015
Education
0
85
B3勉強会(2015年1月21日)日本語入力システムの歩み
MIKAMI-YUKI
January 20, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
1202
cbtlibrary
0
170
AIを使って最新研究 について調べて発表しよ う!
mickey_kubo
4
180
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
学習指導要領と解説に基づく学習内容の構造化の試み / Course of study Commentary LOD JAET 2025
masao
0
110
東大1年生にJulia教えてみた
matsui_528
7
11k
Réaliser un diagnostic externe
martine
0
840
Requirements Analysis and Prototyping - Lecture 3 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
1216
cbtlibrary
0
130
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
160
仏教の源流からの奈良県中南和_奈良まほろば館‗飛鳥・藤原DAO/asuka-fujiwara_Saraswati
tkimura12
0
170
Linguaxes de programación
irocho
0
510
Cifrado asimétrico
irocho
0
360
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Between Models and Reality
mayunak
0
150
Automating Front-end Workflow
addyosmani
1371
200k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
94
Believing is Seeing
oripsolob
0
16
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
520
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.2k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.3k
Building AI with AI
inesmontani
PRO
1
590
So, you think you're a good person
axbom
PRO
0
1.9k
The Curse of the Amulet
leimatthew05
0
5.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年1月21日 日本語入力システムの歩み 自然言語処理研究室 1
かな漢字変換の始まり 1970年頃にかな漢字変換の概念が 提案された。 しかし、当時のコンピュータの性能では 厳しかった。 1980年頃から実用化された。 2
かな漢字変換の始まり 単文節変換: 1回の入力で、1つの分節、もしくは文節 の位置を自分で指定する必要があった。 例:「だいがくのけんきゅう」 「だいがく」→「大学」,「の」→「の」, 「けんきゅう」→「研究」 3
かな漢字変換の始まり 連文節変換: 複数の文節を一気に変換することができ る。現在使われているもの。 例:「だいがくのけんきゅう」 「だいがく」「の」「けんきゅう」←自動 「大学の研究」 4
n文節最長一致法 連文節変換を実現する方法の一つ。 連文が最長になるようにする方法 高速でメモリの消費量が少ない。 5
n文節最長一致法の例 n=2とした時 例文:「かれはがくせいです」 まず、「かれは…」の一文字から始まる文 節を展開すると、 「彼」,「狩れ」,「彼は」,「枯葉が」 と、得られたとする。 次にそれぞれに後続する文節を展開する。 6
2文節最長一致法の例 7 彼 狩れ 歯 歯が 歯 歯が 彼は 学生
学生で 学生です 枯葉が 句 癖 最長
n文節最長一致法 なぜ上手くできるのか、現在でも理論的 に説明出来ない。 ↓ 「長い文節を選択したほうがうまくいくこと が多い」という経験から成り立っている。 8
n文節最長一致法の問題 原理的にうまく変換できない文がある。 大きく2つの問題点がある。 → 全部の可能性を試していない。 → 間違った文を訂正するのが難しい。 9
n文節最長一致法の改善 文節数以外の評価項目を使う。 全部の候補を検索し、最も良さそうなも のを選択する。 → 日本語は単語間に「つながりやすさ」 があり、これを考慮する。 → このような方法を接続強度法と言う。 10
n文節最長一致法の改善 接続強度法 例文:「ちかくしじょうちょうさをする」 正解:「近く市場調査をする」 1:「近く」,「市場」→形容詞+名詞 2:「地下」,「串」 →名詞+名詞 形容詞+名詞の方が良くある(高スコア) 11
ビタビアルゴリズム 隣接する単語間に対してスコアを定義す るもので、最適解を高速に求めることが できる。 パラメータの調整が重要になる。 12
ビタビアルゴリズム パラメータの調整法 人の手でパラメータを決めるのは非常に 厳しい。 ↓ 正解データからパラメータを学習させる、 機械学習を用いる。 13
まとめ 昔の日本語入力システムには、ハードウ エアの制約からn文節最長一致法が用 いられていた。 現在ではビタビアルゴリズムにて、機械学 習させて得たパラメータを用いて、文字の 変換を行っている。 14
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 15