Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介5月29日
Search
miyanishi
May 29, 2014
0
370
文献紹介5月29日
miyanishi
May 29, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
Agile that works and the tools we love
rasmusluckow
325
20k
Product Roadmaps are Hard
iamctodd
45
9.8k
The Invisible Side of Design
smashingmag
294
49k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
21
2k
Being A Developer After 40
akosma
67
580k
Clear Off the Table
cherdarchuk
86
310k
The Art of Programming - Codeland 2020
erikaheidi
43
12k
Optimizing for Happiness
mojombo
370
69k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
9
1.3k
Docker and Python
trallard
35
2.7k
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: Unsupervised WSD based on automatically retrieved examples: The
importance of bias 著者: Eneko Agirre(IXA NLP Group) David Martinez(〃) Proceeding of EMNLP 2004,p25-32 01
大規模コーパスでWSDの精度向上! 用例コーパスの自動構築 様々な疑問の解消 教師あり学習と教師なし学習どっちが良い? どんな要因で精度は向上するの?
大規模コーパスの構築 & 様々な比較実験 02
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Semcor:語義付与コーパス WordNetの語義IDを全ての単語に付与
SENSEVAL-2では英語WSDの優勝者が使用 03
Semcorの欠点 規模が小さい Semcorを使った研究 ベースライン:Semcorでの最頻出語義を選択 ベースラインに差をつけて勝つ研究が少ない
解析精度が上がる方法・条件は・・・? 04
自動でコーパスを構築 教師の有無による結果の変化を比較 教師あり学習(Semcorと自動作成コーパスを両方使用) 最小限の教師あり学習(一部にSemcorを使用) 教師なし学習(自動作成コーパスのみ使用)
精度向上に関わる要因を調査 素性 コーパス内の語義に対する例の数 05
None
一義の類似語を使う手法 対象語の語義を WordNet中の一義な語に関連付ける 対象語の語義に近いほど信頼性UP ▪ 同義語(Type0) ▪
直近の下位語(Type1) ▪ 直近の上位語(Type2) ▪ 遠方の上位語(Type2,3,4・・・) ▪ 兄弟関係にある語(Type3) 対象語に近い 対象語から遠い ※遠方の上位語は、距離によっては兄弟関係にある語より遠くなる 06
07 一義の語(語義) churchの語義 Churchとの関係 (type)
Googleでの検索 目標語の語義における一義の類似語を検索 返された断片はすべて使用(最高1000個) 抽出した断片をリスト化 ヒット順の逆順でソート
トップに来る語: タイトルなどの不完全な文が多い 08
文の抽出 検索した一義語を中心に文or文の断片を抽出 一部の文を破棄 ▪ 長さが6語以下の文 ▪ 英数字以外の語を2語以上含む文
▪ 小文字より大文字が多い文 置換(一義語⇒対象語) 抽出した文:対象語の類似語(一義)を含む 学習に使用するため対象語に置換 09
文をまとめる 対象語と一義語の関係が深い文の順に集める (Type0,Type1,Type2,…) Type4以上は破棄 合計24,000個の例を手に入れた 10
4種類の偏りをつけて実験&評価 バイアスなし ⇒全語義同じ割合の例を付与 Webバイアス ⇒取得した例すべてを付与 自動ランキング
⇒McCarthyの手法でランクに沿って付与 Semcorバイアス ⇒Semcor中の例の数と同じ割合で付与 11
Pr(比例)とMR(最小比率)を使用 12
None
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
13
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
14
1994年にYarowskyが提唱 ℎ , = log ( Pr ( |
) Pr ( | ) ≠ ) ℎが一番大きくなる語義 と素性 の 組み合わせを選択 15
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
16
Local素性 対象語の語形・表層形・品詞・bigram・trigram 対象単語の周辺±4単語分の表層形 Topical素性 文脈中のすべての単語の表層形
Combination素性 上記の素性を組み合わせて使用 17
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
18
Semcorコーパス トレーニングデータに使用 SENSEVAL-2 英語語彙セット 基本は実験の評価用
素性の比較の際にはバイアスを使用(※) 2セット用意 ▪ A:Semcorに例文が10文以上ある16個の名詞 ▪ B:例文が10文以下しかない出現頻度の低い名詞 ※語彙セット中の語義に対する用例数と、コーパスの中の用例数の割合が一致 19
None
Local素性とTopical素性の比較 SENSEVALに合わせたバイアス Semcorバイアス 自動ランキング 実験結果は再現率で比較
20
結果 ・・・ 21
結果 Semcorバイアスが2番目に良い結果 22
大規模コーパスとSemcorの用例を使用 Semcorバイアスを使用 テストセットはAとB両方を使用 結果は再現率で評価 結果
23
Semcor+大規模コーパス 最低限教師あり手法 Semcorバイアスを使用 大規模コーパスのみ 教師なし手法
バイアスは自動ランキングを使用 24
結果 25
大規模コーパスの自動構築 実験 素性による変化 バイアスによる変化 Semcorとの比較
教師なし手法と他のアプローチの比較 大規模コーパスの有用性を示す Semcorや最頻語義選択と合わせると良い 26