Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
b3semi_9.pdf
Search
MARUYAMA
April 06, 2017
0
95
b3semi_9.pdf
MARUYAMA
April 06, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
180
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
190
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
180
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
170
20191028_literature-review.pdf
tmaru0204
0
160
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
140
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
170
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
160
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
369
20k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Speed Design
sergeychernyshev
32
1.2k
Context Engineering - Making Every Token Count
addyosmani
7
270
Docker and Python
trallard
46
3.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
The Cult of Friendly URLs
andyhume
79
6.6k
Why Our Code Smells
bkeepers
PRO
340
57k
Reflections from 52 weeks, 52 projects
jeffersonlam
353
21k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Transcript
自然言語処理のための機械学習 第9回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング
1. 必要な数学的知識
5. 系列ラベリング 3 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1
系列ラベリングとは 5.5 チャンキングへの適用
5.1系列ラベリングとは 4 ▪ 系列ラベリング : 系列内のそれぞれの要素にラベルを付けること Ex.) Nurture[名詞] passes[動詞] nature[名詞]
例えば, 品詞の数が10であるとして, 単語トークン20の文を入力 可能な品詞列は10#$ 分類器を作成するような形では解けない
5.2隠れマルコフモデル(HMM) 5 ▪ HMMの導入 仮定: 各状態はその直前の状態にのみ依存する 系列, ラベル列 ・ (*
, * )は, *./ , *./ にのみ依存する ・ * は*./ にのみ依存し, * は* にのみ依存する との同時確率 , = 2 (* , * |*./ , *./ ) = 2 (* |* )(* |*./ ) ここで, / , / $ , $ = / , / , / $ = (/ )とする
5.2隠れマルコフモデル(HMM) 6 ▪ パラメータの推定 訓練データ = { / , /
, … , ( 9 ), ( 9 ) } 最尤推定によりパラメータを決定する = > (), () (), () ∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 B|C = (|), C|CG = (|′)
5.2隠れマルコフモデル(HMM) 7 ▪ パラメータの推定 = > (), () (), ()
∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 ラグランジュ法により, パラメータを求めると B|C = ( , , ) ∑ ( , , ) B C|CG = ( ′, , ) ∑ ( ′, , ) C
5.2隠れマルコフモデル(HMM) 8 ▪ HMMの推論 = (, ) を解きたい ヴィタビアルゴリズム(Viterbi algorithm)
先頭の要素から計算を始め, 「その要素がある値をとるとしたら, 直前の要素は何であったか」を決めていく
5.3通常の分類器の逐次適用 9 ▪ 分類器を逐次的に用いた系列ラベリング トークン* のラベル* は何であるか 各について独立に解く * のベクトル表現
一般に計算時間は多くなるが, より高精度な分類が可能 太枠内の情報が素性として利用可能
5.4 条件付確率場 10 ▪ 条件付確率場の導入 条件付確率場(conditional random fields: CRF) 訓練データ
= { / , / , … , ( 9 ), ( 9 ) } 対数線形モデルを系列ラベリングに適用したもの | = 1 B,Q (・ , ) B,Q = > (・ , ) C : 素性に対する重みベクトル ∗ = 1 B,Q ・ , = (・ , ) 分類する時は,
5.4 条件付確率場 11 ▪ 条件付確率場の導入 CRFでは, と表せるという仮定をおく , = >
(, X , X./ ) X ・ , = ・ > (, X , X./ ) X = > ・ (, X , X./ ) X より, 分類においては次の最大化問題を解けばよい ∗ = ・ , = > ・ (, X , X./ ) X ヴィタビアルゴリズム
5.5 チャンキングへの適用 12 ▪ チャンキング 言語表現の意味的あるいは文法的にまとまった部分を発見する研究課題 After stubbing out the
cigarette, Lunvalet talked to me. 周囲の情報から人名であることを推測 Ex.) 人を表している部分の抽出 人を指している表現が一語からなるとは限らない
5.5 チャンキングへの適用 13 ▪ IOB2タグ Suddenly, the tall German guy
talked to me. O O O O I I I B B (beginning): 人を指す表現の開始地点 I (inside): 人を指す表現の内部 O (outside): 人を指す表現の外部 系列ラベリング問題
5. 系列ラベリング 14 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1
系列ラベリングとは 5.5 チャンキングへの適用