Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
b3semi_9.pdf
Search
MARUYAMA
April 06, 2017
0
94
b3semi_9.pdf
MARUYAMA
April 06, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
180
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
190
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
180
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
20191028_literature-review.pdf
tmaru0204
0
150
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
140
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
170
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
150
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
150
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Six Lessons from altMBA
skipperchong
28
4k
The Cult of Friendly URLs
andyhume
79
6.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Statistics for Hackers
jakevdp
799
220k
How to train your dragon (web standard)
notwaldorf
96
6.2k
A better future with KSS
kneath
239
17k
Embracing the Ebb and Flow
colly
87
4.8k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Scaling GitHub
holman
463
140k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
113
20k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Transcript
自然言語処理のための機械学習 第9回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング
1. 必要な数学的知識
5. 系列ラベリング 3 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1
系列ラベリングとは 5.5 チャンキングへの適用
5.1系列ラベリングとは 4 ▪ 系列ラベリング : 系列内のそれぞれの要素にラベルを付けること Ex.) Nurture[名詞] passes[動詞] nature[名詞]
例えば, 品詞の数が10であるとして, 単語トークン20の文を入力 可能な品詞列は10#$ 分類器を作成するような形では解けない
5.2隠れマルコフモデル(HMM) 5 ▪ HMMの導入 仮定: 各状態はその直前の状態にのみ依存する 系列, ラベル列 ・ (*
, * )は, *./ , *./ にのみ依存する ・ * は*./ にのみ依存し, * は* にのみ依存する との同時確率 , = 2 (* , * |*./ , *./ ) = 2 (* |* )(* |*./ ) ここで, / , / $ , $ = / , / , / $ = (/ )とする
5.2隠れマルコフモデル(HMM) 6 ▪ パラメータの推定 訓練データ = { / , /
, … , ( 9 ), ( 9 ) } 最尤推定によりパラメータを決定する = > (), () (), () ∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 B|C = (|), C|CG = (|′)
5.2隠れマルコフモデル(HMM) 7 ▪ パラメータの推定 = > (), () (), ()
∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 ラグランジュ法により, パラメータを求めると B|C = ( , , ) ∑ ( , , ) B C|CG = ( ′, , ) ∑ ( ′, , ) C
5.2隠れマルコフモデル(HMM) 8 ▪ HMMの推論 = (, ) を解きたい ヴィタビアルゴリズム(Viterbi algorithm)
先頭の要素から計算を始め, 「その要素がある値をとるとしたら, 直前の要素は何であったか」を決めていく
5.3通常の分類器の逐次適用 9 ▪ 分類器を逐次的に用いた系列ラベリング トークン* のラベル* は何であるか 各について独立に解く * のベクトル表現
一般に計算時間は多くなるが, より高精度な分類が可能 太枠内の情報が素性として利用可能
5.4 条件付確率場 10 ▪ 条件付確率場の導入 条件付確率場(conditional random fields: CRF) 訓練データ
= { / , / , … , ( 9 ), ( 9 ) } 対数線形モデルを系列ラベリングに適用したもの | = 1 B,Q (・ , ) B,Q = > (・ , ) C : 素性に対する重みベクトル ∗ = 1 B,Q ・ , = (・ , ) 分類する時は,
5.4 条件付確率場 11 ▪ 条件付確率場の導入 CRFでは, と表せるという仮定をおく , = >
(, X , X./ ) X ・ , = ・ > (, X , X./ ) X = > ・ (, X , X./ ) X より, 分類においては次の最大化問題を解けばよい ∗ = ・ , = > ・ (, X , X./ ) X ヴィタビアルゴリズム
5.5 チャンキングへの適用 12 ▪ チャンキング 言語表現の意味的あるいは文法的にまとまった部分を発見する研究課題 After stubbing out the
cigarette, Lunvalet talked to me. 周囲の情報から人名であることを推測 Ex.) 人を表している部分の抽出 人を指している表現が一語からなるとは限らない
5.5 チャンキングへの適用 13 ▪ IOB2タグ Suddenly, the tall German guy
talked to me. O O O O I I I B B (beginning): 人を指す表現の開始地点 I (inside): 人を指す表現の内部 O (outside): 人を指す表現の外部 系列ラベリング問題
5. 系列ラベリング 14 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1
系列ラベリングとは 5.5 チャンキングへの適用