Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 ゼミ
Search
miyanishi
January 28, 2013
0
110
B3 ゼミ
miyanishi
January 28, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
Teambox: Starting and Learning
jrom
128
8.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
261
12k
GraphQLとの向き合い方2022年版
quramy
33
13k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.5k
Rebuilding a faster, lazier Slack
samanthasiow
74
8.3k
Visualization
eitanlees
137
14k
Robots, Beer and Maslow
schacon
PRO
155
8k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
23
1.7k
Gamification - CAS2011
davidbonilla
77
4.6k
The Language of Interfaces
destraynor
151
23k
Adopting Sorbet at Scale
ufuk
69
8.6k
Transcript
宮西 由貴 B3 ゼミ ー形態素周辺確率を用いた分かち書きの一般化と その応用ー
BOW(Bag Of Words) 形態素の頻度付集合 形態素解析の応用の一つ BOWの応用分野
情報検索 テキストマイニング 文書分類 etc・・・ テキストを数値ベクトルで表現
BOWに変更する際の問題点 語の抽出単位の「曖昧性」や「ずれ」 (例)本部長→本部/長?本/部長? 複合語を用いた固有名詞 (例)横浜市役所→横浜/市/役所?横浜/市役所?
解析器自身の不整合 (例)ChaSen+ipadic 成田空港(一語),宮崎/空港(二語)
表記の「ずれ」について 何がダメなのか? 形態素解析を用いた全文検索で漏れができる (例)「成田」で検索しても「成田空港」は出ない 省略表記のテキスト間類似度が正しく求まらない
(例)京大と京都大学のテキスト間類似度が0 最適な単位とは? 分野によって様々! 工学分野においても統一することは不可能
「ずれ」をなくすには? 形態素という区切りを使わない 1文字=1単語として分かち書きを行う 再現率が向上する 問題点は・・・
検索ノイズが無視できない (例)「京都」を検索して「東京都」が見つかる
提案手法(概要) 提案手法の利点 形態素区切り&一文字区切りの「いいとこ取り」 再現率を上げる&検索ノイズを抑える 2つの両極端の立場を単一化
提案手法 一意の解だけでなく 可能な解すべてを使用 連接・単語生起コスト を反映
提案手法 可能すべての解を使用 コストを反映した確率値とともに出力 BOWは可能な分割方法それぞれの期待値 コストが反映
ノイズが少ない 辞書にマッチする可能な単語すべてが対象 再現率が良い
最小コスト法 形態素解析器には最小コスト法を使用 形態素解析の出力:y = , 1 , 2
, ⋯ , 各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + , 最小コストの = ∈ [()]
マルコフ確率場 確率モデル ; = exp [−(′) ∙ ] exp
[−(′) ∙ ] ′∈ Θは逆温度定数 ; は全候補Yの中でどれだけ出力しやすいか ; を大きくするyはコスト最小法の解に Θが大きいと→最適解を重要視する Θが小さいと→出力確率P(y|x)は均一に
周辺化 形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯
, ( , )} ∈ ℝ f(ω,y):系列yに単語ωが出現する回数 Lは総単語断り数 入力xに対するF(x)∈ℝは・・・ 全系列y∈Y(x)に対応するΦの期待値を取る 最終的なBOWベクトル=G(x;Θ)
周辺化まとめ 全候補の列挙 可能なすべての分割方法を考慮 頻度の一般化 コストを考慮した分割
ノイズの影響が抑えられる Θによる制御 ユーザがパラメータのバランスをいじれる
動的アルゴリズムでの計算 出力系列の数→指数的に増える 普通に計算してもダメ Forward-Backward法 動的アルゴリズムの一種
計算量は文の長さのみに依存 効率よく計算が可能