Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 ゼミ
Search
miyanishi
January 28, 2013
0
120
B3 ゼミ
miyanishi
January 28, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
Practical Orchestrator
shlominoach
190
11k
Navigating Team Friction
lara
190
15k
Making Projects Easy
brettharned
120
6.4k
YesSQL, Process and Tooling at Scale
rocio
174
15k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Pragmatic Product Professional
lauravandoore
36
7k
GraphQLとの向き合い方2022年版
quramy
49
14k
Gamification - CAS2011
davidbonilla
81
5.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.7k
Speed Design
sergeychernyshev
32
1.2k
For a Future-Friendly Web
brad_frost
180
10k
Transcript
宮西 由貴 B3 ゼミ ー形態素周辺確率を用いた分かち書きの一般化と その応用ー
BOW(Bag Of Words) 形態素の頻度付集合 形態素解析の応用の一つ BOWの応用分野
情報検索 テキストマイニング 文書分類 etc・・・ テキストを数値ベクトルで表現
BOWに変更する際の問題点 語の抽出単位の「曖昧性」や「ずれ」 (例)本部長→本部/長?本/部長? 複合語を用いた固有名詞 (例)横浜市役所→横浜/市/役所?横浜/市役所?
解析器自身の不整合 (例)ChaSen+ipadic 成田空港(一語),宮崎/空港(二語)
表記の「ずれ」について 何がダメなのか? 形態素解析を用いた全文検索で漏れができる (例)「成田」で検索しても「成田空港」は出ない 省略表記のテキスト間類似度が正しく求まらない
(例)京大と京都大学のテキスト間類似度が0 最適な単位とは? 分野によって様々! 工学分野においても統一することは不可能
「ずれ」をなくすには? 形態素という区切りを使わない 1文字=1単語として分かち書きを行う 再現率が向上する 問題点は・・・
検索ノイズが無視できない (例)「京都」を検索して「東京都」が見つかる
提案手法(概要) 提案手法の利点 形態素区切り&一文字区切りの「いいとこ取り」 再現率を上げる&検索ノイズを抑える 2つの両極端の立場を単一化
提案手法 一意の解だけでなく 可能な解すべてを使用 連接・単語生起コスト を反映
提案手法 可能すべての解を使用 コストを反映した確率値とともに出力 BOWは可能な分割方法それぞれの期待値 コストが反映
ノイズが少ない 辞書にマッチする可能な単語すべてが対象 再現率が良い
最小コスト法 形態素解析器には最小コスト法を使用 形態素解析の出力:y = , 1 , 2
, ⋯ , 各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + , 最小コストの = ∈ [()]
マルコフ確率場 確率モデル ; = exp [−(′) ∙ ] exp
[−(′) ∙ ] ′∈ Θは逆温度定数 ; は全候補Yの中でどれだけ出力しやすいか ; を大きくするyはコスト最小法の解に Θが大きいと→最適解を重要視する Θが小さいと→出力確率P(y|x)は均一に
周辺化 形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯
, ( , )} ∈ ℝ f(ω,y):系列yに単語ωが出現する回数 Lは総単語断り数 入力xに対するF(x)∈ℝは・・・ 全系列y∈Y(x)に対応するΦの期待値を取る 最終的なBOWベクトル=G(x;Θ)
周辺化まとめ 全候補の列挙 可能なすべての分割方法を考慮 頻度の一般化 コストを考慮した分割
ノイズの影響が抑えられる Θによる制御 ユーザがパラメータのバランスをいじれる
動的アルゴリズムでの計算 出力系列の数→指数的に増える 普通に計算してもダメ Forward-Backward法 動的アルゴリズムの一種
計算量は文の長さのみに依存 効率よく計算が可能