Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理の基礎 3章
Search
Yuta
December 19, 2014
Education
0
350
自然言語処理の基礎 3章
Yuta
December 19, 2014
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
情報科学類で学べる専門科目38選
momeemt
0
590
Test-NUTMEG紹介スライド
mugiiicha
0
160
JOAI2025講評 / joai2025-review
upura
0
430
Linuxのよく使うコマンドを解説
mickey_kubo
1
260
小学校女性教員向け プログラミング教育研修プログラム「SteP」の実践と課題
codeforeveryone
0
110
Pythonパッケージ管理 [uv] 完全入門
mickey_kubo
23
24k
附属科学技術高等学校の概要|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
180
社外コミュニティと「学び」を考える
alchemy1115
2
180
20250625_なんでもCopilot 一年の振り返り
ponponmikankan
0
360
Alumnote inc. Company Deck
yukinumata
0
2k
20250910_エンジニアの成長は自覚するところから_サポーターズ勉強会
ippei0923
0
230
American Airlines® USA Contact Numbers: The Ultimate 2025 Guide
lievliev
0
250
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Typedesign – Prime Four
hannesfritz
42
2.8k
We Have a Design System, Now What?
morganepeng
53
7.8k
Navigating Team Friction
lara
189
15k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
840
Speed Design
sergeychernyshev
32
1.1k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Six Lessons from altMBA
skipperchong
28
4k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Transcript
自然言語処理の基礎 3章 形態素解析 B3 須戸悠太
形態素解析とは ・形態素:意味を持つ最小の言語単位 形態素<単語<分<テキスト ・この形態素を対象とした解析プロセス →形態素解析
形態素解析とは ・形態素解析の処理は大きく3つ 1.単語分割 2.単語への品詞付与 3.単語の原形の復元
日本語の形態素解析 ・用いられる知識 1.単語辞書 2.連接可能性行列 連接可能性行列とは、どのような種類の 2単語が文中に出現しうるかを示す
日本語の形態素解析 ・二つの知識が与えられると、これらを参照 しながら次の2ステップを繰り返す 1.単語辞書を参照し、各文字から 始まる単語を取り出しノードとする 2.連接可能性行列を参照し、 連接可能な2単語をリンクでつなぐ
日本語の形態素解析 ・これにより、単語をノードとし、その間を リンクでつないだグラフ(ラティス)が 得られ、これが形態素解析の結果となる ・制約(知識)だけを用いると、複数の 解析結果が出力され、後の処理に問題 →選好を導入
日本語の形態素解析 ・最長一致法 できるだけ長い単語で構成される 解析結果を優先して選択 ・形態素数(文節数)最小法 入力文字列を構成する形態素数が 少ない解析結果を優先して選択
日本語の形態素解析 ・プログラムでは → コスト最小法 ラティス中のノードとリンクにコストを与え、 コスト最小のパスを最適解として選択する ・コスト最小の解 → ビダビアルゴリズム 各ノードにおいて、そのノードまでの
部分コストの最小値、及びその最小値を 与えるリンクを記憶
日本語の形態素解析 ・単語辞書を引くことで単語分割を行う →登録されていない未知語が含まれる場合、 解析機能を劣化させてしまう可能性あり ・品詞付与、原形の復元については 単語分割のプロセスで同時に実現できている
英語の形態素解析 ・品詞付与が重要 単語列に対し最も適切な品詞列を出力 →統計的言語モデルを用いる
英語の形態素解析 ・品詞付与の問題を以下のように定式化 「単語列 = 1 ⋯ が入力されたとき、 品詞列 = 1
⋯ を出力。このとき、 与えられた単語列に対する品詞列の 条件付確率 を最大とするを求める」
英語の形態素解析 ・ は個々の単語-品詞の条件付確率 ≈ =1 となる。 は 「各単語について、複数の品詞の中で、 どの品詞が出来やすく、 どの品詞はほとんど出てこないか」
を表す確率となる
英語の形態素解析 ・品詞タグ付コーパスがあれば コーパスから以下のように計算可能 = , ・ベイズの定理を用いると = × のように変形できる
英語の形態素解析 ・ある品詞が出現する確率は、直前の一つの 品詞の出現にだけ依存すると近似すると ≈ −1 × =1 となる ・ −1
, はそれぞれ遷移確率、 単語出力確率と呼ばれる
英語の形態素解析 ・このモデルはコスト最小法と対応している ・遷移確率と単語出力確率で品詞付与の 問題を定式化 →雑音のある通信路モデル