Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 ゼミ
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
January 28, 2013
0
120
B3 ゼミ
miyanishi
January 28, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Utilizing Notion as your number one productivity tool
mfonobong
3
220
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
Skip the Path - Find Your Career Trail
mkilby
0
56
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Navigating Team Friction
lara
192
16k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Balancing Empowerment & Direction
lara
5
890
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
250
sira's awesome portfolio website redesign presentation
elsirapls
0
150
Information Architects: The Missing Link in Design Systems
soysaucechin
0
780
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
330
Transcript
宮西 由貴 B3 ゼミ ー形態素周辺確率を用いた分かち書きの一般化と その応用ー
BOW(Bag Of Words) 形態素の頻度付集合 形態素解析の応用の一つ BOWの応用分野
情報検索 テキストマイニング 文書分類 etc・・・ テキストを数値ベクトルで表現
BOWに変更する際の問題点 語の抽出単位の「曖昧性」や「ずれ」 (例)本部長→本部/長?本/部長? 複合語を用いた固有名詞 (例)横浜市役所→横浜/市/役所?横浜/市役所?
解析器自身の不整合 (例)ChaSen+ipadic 成田空港(一語),宮崎/空港(二語)
表記の「ずれ」について 何がダメなのか? 形態素解析を用いた全文検索で漏れができる (例)「成田」で検索しても「成田空港」は出ない 省略表記のテキスト間類似度が正しく求まらない
(例)京大と京都大学のテキスト間類似度が0 最適な単位とは? 分野によって様々! 工学分野においても統一することは不可能
「ずれ」をなくすには? 形態素という区切りを使わない 1文字=1単語として分かち書きを行う 再現率が向上する 問題点は・・・
検索ノイズが無視できない (例)「京都」を検索して「東京都」が見つかる
提案手法(概要) 提案手法の利点 形態素区切り&一文字区切りの「いいとこ取り」 再現率を上げる&検索ノイズを抑える 2つの両極端の立場を単一化
提案手法 一意の解だけでなく 可能な解すべてを使用 連接・単語生起コスト を反映
提案手法 可能すべての解を使用 コストを反映した確率値とともに出力 BOWは可能な分割方法それぞれの期待値 コストが反映
ノイズが少ない 辞書にマッチする可能な単語すべてが対象 再現率が良い
最小コスト法 形態素解析器には最小コスト法を使用 形態素解析の出力:y = , 1 , 2
, ⋯ , 各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + , 最小コストの = ∈ [()]
マルコフ確率場 確率モデル ; = exp [−(′) ∙ ] exp
[−(′) ∙ ] ′∈ Θは逆温度定数 ; は全候補Yの中でどれだけ出力しやすいか ; を大きくするyはコスト最小法の解に Θが大きいと→最適解を重要視する Θが小さいと→出力確率P(y|x)は均一に
周辺化 形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯
, ( , )} ∈ ℝ f(ω,y):系列yに単語ωが出現する回数 Lは総単語断り数 入力xに対するF(x)∈ℝは・・・ 全系列y∈Y(x)に対応するΦの期待値を取る 最終的なBOWベクトル=G(x;Θ)
周辺化まとめ 全候補の列挙 可能なすべての分割方法を考慮 頻度の一般化 コストを考慮した分割
ノイズの影響が抑えられる Θによる制御 ユーザがパラメータのバランスをいじれる
動的アルゴリズムでの計算 出力系列の数→指数的に増える 普通に計算してもダメ Forward-Backward法 動的アルゴリズムの一種
計算量は文の長さのみに依存 効率よく計算が可能