Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 ゼミ
Search
miyanishi
January 28, 2013
0
120
B3 ゼミ
miyanishi
January 28, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
Are puppies a ranking factor?
jonoalderson
0
2.6k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
140
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
140
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
230
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
58
41k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
0
34
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.5k
Transcript
宮西 由貴 B3 ゼミ ー形態素周辺確率を用いた分かち書きの一般化と その応用ー
BOW(Bag Of Words) 形態素の頻度付集合 形態素解析の応用の一つ BOWの応用分野
情報検索 テキストマイニング 文書分類 etc・・・ テキストを数値ベクトルで表現
BOWに変更する際の問題点 語の抽出単位の「曖昧性」や「ずれ」 (例)本部長→本部/長?本/部長? 複合語を用いた固有名詞 (例)横浜市役所→横浜/市/役所?横浜/市役所?
解析器自身の不整合 (例)ChaSen+ipadic 成田空港(一語),宮崎/空港(二語)
表記の「ずれ」について 何がダメなのか? 形態素解析を用いた全文検索で漏れができる (例)「成田」で検索しても「成田空港」は出ない 省略表記のテキスト間類似度が正しく求まらない
(例)京大と京都大学のテキスト間類似度が0 最適な単位とは? 分野によって様々! 工学分野においても統一することは不可能
「ずれ」をなくすには? 形態素という区切りを使わない 1文字=1単語として分かち書きを行う 再現率が向上する 問題点は・・・
検索ノイズが無視できない (例)「京都」を検索して「東京都」が見つかる
提案手法(概要) 提案手法の利点 形態素区切り&一文字区切りの「いいとこ取り」 再現率を上げる&検索ノイズを抑える 2つの両極端の立場を単一化
提案手法 一意の解だけでなく 可能な解すべてを使用 連接・単語生起コスト を反映
提案手法 可能すべての解を使用 コストを反映した確率値とともに出力 BOWは可能な分割方法それぞれの期待値 コストが反映
ノイズが少ない 辞書にマッチする可能な単語すべてが対象 再現率が良い
最小コスト法 形態素解析器には最小コスト法を使用 形態素解析の出力:y = , 1 , 2
, ⋯ , 各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + , 最小コストの = ∈ [()]
マルコフ確率場 確率モデル ; = exp [−(′) ∙ ] exp
[−(′) ∙ ] ′∈ Θは逆温度定数 ; は全候補Yの中でどれだけ出力しやすいか ; を大きくするyはコスト最小法の解に Θが大きいと→最適解を重要視する Θが小さいと→出力確率P(y|x)は均一に
周辺化 形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯
, ( , )} ∈ ℝ f(ω,y):系列yに単語ωが出現する回数 Lは総単語断り数 入力xに対するF(x)∈ℝは・・・ 全系列y∈Y(x)に対応するΦの期待値を取る 最終的なBOWベクトル=G(x;Θ)
周辺化まとめ 全候補の列挙 可能なすべての分割方法を考慮 頻度の一般化 コストを考慮した分割
ノイズの影響が抑えられる Θによる制御 ユーザがパラメータのバランスをいじれる
動的アルゴリズムでの計算 出力系列の数→指数的に増える 普通に計算してもダメ Forward-Backward法 動的アルゴリズムの一種
計算量は文の長さのみに依存 効率よく計算が可能