Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第5回
Search
miyanishi
February 04, 2013
0
130
第5回
単語格子とマルコフモデルによる日本語機能表現の解析
miyanishi
February 04, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Happy Clients
brianwarren
92
6.4k
Debugging Ruby Performance
tmm1
70
11k
A designer walks into a library…
pauljervisheath
201
23k
Designing Experiences People Love
moore
136
23k
Automating Front-end Workflow
addyosmani
1357
200k
RailsConf 2023
tenderlove
9
580
Git: the NoSQL Database
bkeepers
PRO
423
63k
Done Done
chrislema
178
15k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
What's new in Ruby 2.0
geeforr
338
31k
Facilitating Awesome Meetings
lara
43
5.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Transcript
宮西 由貴 単語格子とマルコフモデルによる日本 語機能表現の解析 ~日本語表現辞書「つつじ」を用いて~
研究について 日本語機能表現辞書「つつじ」 機能表現を構成するエントリー+意味ラベル 応用:評判解析・係り受け解析 など 現在:日本語機能表現の解析器は無し
放送番組の反響を分析するアプリケーション 日本語の形態素解析と同じ手法を使用 単語格子を作成 最適経路の選択→マルコフモデル使用
機能表現の解析 機能語・・・1語の機能表現 形態素解析・・・語単位に分割 機能&内容表現の抽出・・・連語で1つの意味 →異なるレイヤーで行う処理 エントリーを参照して解析
曖昧性の問題
曖昧性の問題 同一のエントリーが複数の意味を持つ という:「同格」「伝聞」「強調」 機能的な意味で用いられていない という:↑+「機能的でない」
どこまでを機能表現と認定すべきか 「机の上には宝石だけある」 「さすがは宝石だけある」 「ある」は機能表現でない場合もある
提案手法 形態素解析済み後に処理を行う 形態素解析モジュール+機能表現解析モジュール モジュールを分割した理由 大規模コーパスで学習した形態素解析器が安定&高精度
別コーパスによるモデル学習を可能にする 欠点 形態素解析誤りが後段に引き継がれる
機能表現解析モジュール 形態素解析済みテキストを単語リストとみなす 機能表現辞書のエントリーを参照 機能表現の可能性がある部分に辺を張る 単語格子(グラフ)作成 グラフは多数経路を含むが確率モデルで決定
選択された最適経路に相当する機能表現を選択
機能表現解析モジュール 全ての単語リストは機能表現でない辺を構成 機能表現の可能性がある部分に別途の辺を張る 機能表現である場合とない場合の両方を考慮する 機能表現しか取り得ない表現
詳細な言語学知識で決定できる 今回はその前提知識を使用しない =可能性のない辺を削除しない
機能表現解析モジュール 最適経路を選択する確率モデル マルコフモデル 素性 表層文字列
品詞 機能表現の意味属性 低頻度の接続確率 バックオフスムージング 5事象より少ない接続→未知語への確率と割当て
正解コーパス 2006年NHK教育テレビ「知るを楽しむ」 の反響を集めた 正解を付与する文を形態素解析 機能表現辞書のエントリー参照,単語格子を形成 適切な機能表現に対応する経路を人手で選択
実験条件 品詞 4階層すべてを用いる 最上位1階層のみを用いる 複数形態素にまたがる機能表現
最初の形態素の品詞のみを用いる 形態素の品詞の組み合わせを用いる 表層文字列 用いる 用いない Openな実験orClosedな実験
評価について 機能表現の精度 (分母)中の正解数 形態素または機能表現の数 適合率 正しく検出された機能表現の数 解析によって検出された機能表現の数
再現率 正しく検出された機能表現の数 正解データに存在する機能表現の数
評価 機能表現検出の精度 検出器としての性能
検出誤りの例 逆接確定の「が」 題名がふざけていて嫌な気がしたが,内容はよい 逆説確定として検出してしまう 乗れるもの乗れないものの悲喜こもごもを感じた
推量の「よう」 決断力があったなら株で儲かるような気がします