Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年1月21日)日本語入力システムの歩み
Search
MIKAMI-YUKI
January 20, 2015
Education
0
93
B3勉強会(2015年1月21日)日本語入力システムの歩み
MIKAMI-YUKI
January 20, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
130
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
97
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
Other Decks in Education
See All in Education
高校数学とJulia言語
shimizudan
0
130
0203
cbtlibrary
0
130
栃木にいても「だいじ」だっぺ〜! 栃木&全国アジャイルコミュニティへの参加・運営の魅力
sasakendayo
1
170
小学校5,6年生向けキャリア教育 大人になるまでの道
sat
PRO
8
3.3k
Adobe Express
matleenalaakso
2
8.2k
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
2
450
Measuring your measuring
jonoalderson
2
720
悩める リーダー達に 届けたい書籍|レジリエントマネジメント 書籍イントロダクション-260126
mimoza60
1
390
Going over the Edge
jonoalderson
0
720
1216
cbtlibrary
0
160
バージョン管理とは / 01-a-vcs
kaityo256
PRO
1
140
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
3.2k
Featured
See All Featured
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
190
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
99
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
WENDY [Excerpt]
tessaabrams
9
36k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
140
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.2k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
How to Talk to Developers About Accessibility
jct
2
150
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
260
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年1月21日 日本語入力システムの歩み 自然言語処理研究室 1
かな漢字変換の始まり 1970年頃にかな漢字変換の概念が 提案された。 しかし、当時のコンピュータの性能では 厳しかった。 1980年頃から実用化された。 2
かな漢字変換の始まり 単文節変換: 1回の入力で、1つの分節、もしくは文節 の位置を自分で指定する必要があった。 例:「だいがくのけんきゅう」 「だいがく」→「大学」,「の」→「の」, 「けんきゅう」→「研究」 3
かな漢字変換の始まり 連文節変換: 複数の文節を一気に変換することができ る。現在使われているもの。 例:「だいがくのけんきゅう」 「だいがく」「の」「けんきゅう」←自動 「大学の研究」 4
n文節最長一致法 連文節変換を実現する方法の一つ。 連文が最長になるようにする方法 高速でメモリの消費量が少ない。 5
n文節最長一致法の例 n=2とした時 例文:「かれはがくせいです」 まず、「かれは…」の一文字から始まる文 節を展開すると、 「彼」,「狩れ」,「彼は」,「枯葉が」 と、得られたとする。 次にそれぞれに後続する文節を展開する。 6
2文節最長一致法の例 7 彼 狩れ 歯 歯が 歯 歯が 彼は 学生
学生で 学生です 枯葉が 句 癖 最長
n文節最長一致法 なぜ上手くできるのか、現在でも理論的 に説明出来ない。 ↓ 「長い文節を選択したほうがうまくいくこと が多い」という経験から成り立っている。 8
n文節最長一致法の問題 原理的にうまく変換できない文がある。 大きく2つの問題点がある。 → 全部の可能性を試していない。 → 間違った文を訂正するのが難しい。 9
n文節最長一致法の改善 文節数以外の評価項目を使う。 全部の候補を検索し、最も良さそうなも のを選択する。 → 日本語は単語間に「つながりやすさ」 があり、これを考慮する。 → このような方法を接続強度法と言う。 10
n文節最長一致法の改善 接続強度法 例文:「ちかくしじょうちょうさをする」 正解:「近く市場調査をする」 1:「近く」,「市場」→形容詞+名詞 2:「地下」,「串」 →名詞+名詞 形容詞+名詞の方が良くある(高スコア) 11
ビタビアルゴリズム 隣接する単語間に対してスコアを定義す るもので、最適解を高速に求めることが できる。 パラメータの調整が重要になる。 12
ビタビアルゴリズム パラメータの調整法 人の手でパラメータを決めるのは非常に 厳しい。 ↓ 正解データからパラメータを学習させる、 機械学習を用いる。 13
まとめ 昔の日本語入力システムには、ハードウ エアの制約からn文節最長一致法が用 いられていた。 現在ではビタビアルゴリズムにて、機械学 習させて得たパラメータを用いて、文字の 変換を行っている。 14
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 15