Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Relatives om Context for Word Semse Disamb...
Search
miyanishi
April 24, 2014
0
380
Word Relatives om Context for Word Semse Disambiguation
4/24 ぶんけんしょうかい
miyanishi
April 24, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
940
[RailsConf 2023] Rails as a piece of cake
palkan
57
6k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
The Pragmatic Product Professional
lauravandoore
36
7k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
For a Future-Friendly Web
brad_frost
180
10k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Keith and Marios Guide to Fast Websites
keithpitt
412
23k
Designing for Performance
lara
610
69k
Transcript
文献紹介 WORD RELATIVES IN CONTEXT FOR WORD SENSE DISAMBIGUATION 自然言語処理研究室
修士1年 宮西 由貴
論文情報 Martinez David, Eneko Agirre, and Xinglong Wang. “Word
relatives in context for word sense disambiguation.” Proceedings of the 2006 Australasian Language Technology Workshop (ALTW2006), p42-50 1
背景 -曖昧性解消- 語義曖昧性解消 文中の語の意味を一意に特定するタスク 他のNLPタスクのための中間作業 Senseval
語義曖昧性解消に関するコンテスト このタスクとしては最高水準 3
背景 - Sensevalでの流行- Sensevalの現状 教師あり学習が優勢 ベースラインを少し超える程度の精度
原因:訓練データ(=タグ付きコーパス)が足りない タグ付きコーパス構築の問題点 コストが高い(人手でのアノテーション) 分野に依存している ⇒knowledge acquisition bottleneck (知識獲得に関するボトルネック) 4
目的 具体的には・・・ 教師なしシステムを構築 語義と語を関連付けたシソーラスと コーパスのみを使用 WSDタスクの精度向上 知識獲得ボトルネックを解消
5
関連研究 - 「一義の類似語」を用いる手法 (Leacock et al.,1998)- 特徴 Machine
Learning(ML)を使用 ML用のトレーニング用の例は自動的に作成 ステップ ①目標語に類似する語の中で一義のものを選択 ②①で取得した類似語をネットで検索して例を取得 ③目標語と取得した例から訓練データを作成 ④MLに入れて学習 「目標語と同義」 かつ 「一義の語」 は少ない 6
提案手法 -概要- 関連研究との違い 類似語として多義の語も使用 MLを使用しない 大まかなステップ
類似語を集める 類似語で置き換えたトークン列を検索する 検索で得た文をランク付け ランクが高い類似語の語義が選択される 7
提案手法 -詳細1- 類似語を集める WordNet中の同義語・下位語・上位語を収集 類似語で置き換えたトークン列を検索する (1)入力文をトークン化 (2)N個のトークンをまとめる(N≦6)
(3)目標語を類似語に置き換えてネットで検索 8
提案手法 -詳細2- 検索で得た文をランク付け 含まれるトークンの数 多ければ多いほどランクが高い 「類似語」の種類
同義語>直近の下位語>直近の上位語>その他 ヒット数 多くの文がヒットすればランクが高い ランクが高い類似語の語義が選択される 9
具体例(1) “church”の意味 意味① キリスト教徒 意味② 教会(建築物) 意味③ 教会・教派(グループ) The
church was rebuild in the 13th century and further modifications and restoration were carried out in the 15th century. 10
具体例(2) “church”の同義語・上位語・下位語を取得 トークン列を検索 ランクが高かった意味を選択 ②身廊(nave)・修道院(abbey)・大聖堂(cathedral)
含まれるトークン:多い ヒット数:多い 11 意味別クエリ数 ①:2 ②:3 ③:2
実験設定 データセット Senseval-2(S2LS)・・・WordNet1.7 29個の名詞 Senseval-3(S3LS)・・・WordNet1.71 20個の名詞
評価方法 Sensevalが提供している評価用ソフトを使用 Recallで評価(必ず答えを返すのでPrecision=Recall) 表記 MR:関連研究(一義の語を用いたWSD) RC:提案手法 12
実験結果 実験結果の一部 平均 13
考察 平均としては提案手法が良い ただし、全テストセットに効果がある訳ではない MRの手法:トレーニングデータに雑音あり 正しい連語を取って来れない
bag-of-words に頼るしかない 14
他システムとの比較 -実験- 他システムの表記: RK:自動ランキング(McCarthy et al, 2004)
MT:機械翻訳タスクの一部(Wang and Martinez,2006) NR:類似語の数で評価 上記とMR&CRを比較 結果 15
他システムとの比較 -結果と考察- RKの結果が一番良い どのアルゴリズムも良いとは言えない結果 組み合わせて使ってみるのが良い? ⇒カッパ値を見てみる
似ている:組み合わせても意味がない 似ていない:組み合わせることで結果が変わる可能性有 全数値が1未満であり、互いに似ていないと判断 S2LS S3LS 16
所感 評価されたのであろう点 教師あり学習を用いない手法 様々な種類の手法との比較 名詞の曖昧性解消としては面白い手法
精度が出ていないのが難点 対象がネット=雑音が多い? 17