Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 ゼミ
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
January 28, 2013
120
0
Share
B3 ゼミ
miyanishi
January 28, 2013
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
87
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Speed Design
sergeychernyshev
33
1.6k
Ethics towards AI in product and experience design
skipperchong
2
250
A designer walks into a library…
pauljervisheath
211
24k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
680
Producing Creativity
orderedlist
PRO
348
40k
AI: The stuff that nobody shows you
jnunemaker
PRO
5
530
Optimising Largest Contentful Paint
csswizardry
37
3.6k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
240
From π to Pie charts
rasagy
0
160
[SF Ruby Conf 2025] Rails X
palkan
2
930
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
100
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
Transcript
宮西 由貴 B3 ゼミ ー形態素周辺確率を用いた分かち書きの一般化と その応用ー
BOW(Bag Of Words) 形態素の頻度付集合 形態素解析の応用の一つ BOWの応用分野
情報検索 テキストマイニング 文書分類 etc・・・ テキストを数値ベクトルで表現
BOWに変更する際の問題点 語の抽出単位の「曖昧性」や「ずれ」 (例)本部長→本部/長?本/部長? 複合語を用いた固有名詞 (例)横浜市役所→横浜/市/役所?横浜/市役所?
解析器自身の不整合 (例)ChaSen+ipadic 成田空港(一語),宮崎/空港(二語)
表記の「ずれ」について 何がダメなのか? 形態素解析を用いた全文検索で漏れができる (例)「成田」で検索しても「成田空港」は出ない 省略表記のテキスト間類似度が正しく求まらない
(例)京大と京都大学のテキスト間類似度が0 最適な単位とは? 分野によって様々! 工学分野においても統一することは不可能
「ずれ」をなくすには? 形態素という区切りを使わない 1文字=1単語として分かち書きを行う 再現率が向上する 問題点は・・・
検索ノイズが無視できない (例)「京都」を検索して「東京都」が見つかる
提案手法(概要) 提案手法の利点 形態素区切り&一文字区切りの「いいとこ取り」 再現率を上げる&検索ノイズを抑える 2つの両極端の立場を単一化
提案手法 一意の解だけでなく 可能な解すべてを使用 連接・単語生起コスト を反映
提案手法 可能すべての解を使用 コストを反映した確率値とともに出力 BOWは可能な分割方法それぞれの期待値 コストが反映
ノイズが少ない 辞書にマッチする可能な単語すべてが対象 再現率が良い
最小コスト法 形態素解析器には最小コスト法を使用 形態素解析の出力:y = , 1 , 2
, ⋯ , 各経路yについてのコスト = + (, 1 ) || =1 + ( , +1 ) −1 =1 + , 最小コストの = ∈ [()]
マルコフ確率場 確率モデル ; = exp [−(′) ∙ ] exp
[−(′) ∙ ] ′∈ Θは逆温度定数 ; は全候補Yの中でどれだけ出力しやすいか ; を大きくするyはコスト最小法の解に Θが大きいと→最適解を重要視する Θが小さいと→出力確率P(y|x)は均一に
周辺化 形態素列yをBOWベクトルに変換するΦ Φ = { 1 , , ⋯
, ( , )} ∈ ℝ f(ω,y):系列yに単語ωが出現する回数 Lは総単語断り数 入力xに対するF(x)∈ℝは・・・ 全系列y∈Y(x)に対応するΦの期待値を取る 最終的なBOWベクトル=G(x;Θ)
周辺化まとめ 全候補の列挙 可能なすべての分割方法を考慮 頻度の一般化 コストを考慮した分割
ノイズの影響が抑えられる Θによる制御 ユーザがパラメータのバランスをいじれる
動的アルゴリズムでの計算 出力系列の数→指数的に増える 普通に計算してもダメ Forward-Backward法 動的アルゴリズムの一種
計算量は文の長さのみに依存 効率よく計算が可能