Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介5月29日
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
May 29, 2014
0
390
文献紹介5月29日
miyanishi
May 29, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
BBQ
matthewcrist
89
10k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
130
Abbi's Birthday
coloredviolet
1
4.8k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
WCS-LA-2024
lcolladotor
0
450
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: Unsupervised WSD based on automatically retrieved examples: The
importance of bias 著者: Eneko Agirre(IXA NLP Group) David Martinez(〃) Proceeding of EMNLP 2004,p25-32 01
大規模コーパスでWSDの精度向上! 用例コーパスの自動構築 様々な疑問の解消 教師あり学習と教師なし学習どっちが良い? どんな要因で精度は向上するの?
大規模コーパスの構築 & 様々な比較実験 02
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Semcor:語義付与コーパス WordNetの語義IDを全ての単語に付与
SENSEVAL-2では英語WSDの優勝者が使用 03
Semcorの欠点 規模が小さい Semcorを使った研究 ベースライン:Semcorでの最頻出語義を選択 ベースラインに差をつけて勝つ研究が少ない
解析精度が上がる方法・条件は・・・? 04
自動でコーパスを構築 教師の有無による結果の変化を比較 教師あり学習(Semcorと自動作成コーパスを両方使用) 最小限の教師あり学習(一部にSemcorを使用) 教師なし学習(自動作成コーパスのみ使用)
精度向上に関わる要因を調査 素性 コーパス内の語義に対する例の数 05
None
一義の類似語を使う手法 対象語の語義を WordNet中の一義な語に関連付ける 対象語の語義に近いほど信頼性UP ▪ 同義語(Type0) ▪
直近の下位語(Type1) ▪ 直近の上位語(Type2) ▪ 遠方の上位語(Type2,3,4・・・) ▪ 兄弟関係にある語(Type3) 対象語に近い 対象語から遠い ※遠方の上位語は、距離によっては兄弟関係にある語より遠くなる 06
07 一義の語(語義) churchの語義 Churchとの関係 (type)
Googleでの検索 目標語の語義における一義の類似語を検索 返された断片はすべて使用(最高1000個) 抽出した断片をリスト化 ヒット順の逆順でソート
トップに来る語: タイトルなどの不完全な文が多い 08
文の抽出 検索した一義語を中心に文or文の断片を抽出 一部の文を破棄 ▪ 長さが6語以下の文 ▪ 英数字以外の語を2語以上含む文
▪ 小文字より大文字が多い文 置換(一義語⇒対象語) 抽出した文:対象語の類似語(一義)を含む 学習に使用するため対象語に置換 09
文をまとめる 対象語と一義語の関係が深い文の順に集める (Type0,Type1,Type2,…) Type4以上は破棄 合計24,000個の例を手に入れた 10
4種類の偏りをつけて実験&評価 バイアスなし ⇒全語義同じ割合の例を付与 Webバイアス ⇒取得した例すべてを付与 自動ランキング
⇒McCarthyの手法でランクに沿って付与 Semcorバイアス ⇒Semcor中の例の数と同じ割合で付与 11
Pr(比例)とMR(最小比率)を使用 12
None
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
13
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
14
1994年にYarowskyが提唱 ℎ , = log ( Pr ( |
) Pr ( | ) ≠ ) ℎが一番大きくなる語義 と素性 の 組み合わせを選択 15
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
16
Local素性 対象語の語形・表層形・品詞・bigram・trigram 対象単語の周辺±4単語分の表層形 Topical素性 文脈中のすべての単語の表層形
Combination素性 上記の素性を組み合わせて使用 17
実験に使用するもの Decision List アルゴリズム 素性(3種) 人手で構築したタグ付きコーパス(2種)
18
Semcorコーパス トレーニングデータに使用 SENSEVAL-2 英語語彙セット 基本は実験の評価用
素性の比較の際にはバイアスを使用(※) 2セット用意 ▪ A:Semcorに例文が10文以上ある16個の名詞 ▪ B:例文が10文以下しかない出現頻度の低い名詞 ※語彙セット中の語義に対する用例数と、コーパスの中の用例数の割合が一致 19
None
Local素性とTopical素性の比較 SENSEVALに合わせたバイアス Semcorバイアス 自動ランキング 実験結果は再現率で比較
20
結果 ・・・ 21
結果 Semcorバイアスが2番目に良い結果 22
大規模コーパスとSemcorの用例を使用 Semcorバイアスを使用 テストセットはAとB両方を使用 結果は再現率で評価 結果
23
Semcor+大規模コーパス 最低限教師あり手法 Semcorバイアスを使用 大規模コーパスのみ 教師なし手法
バイアスは自動ランキングを使用 24
結果 25
大規模コーパスの自動構築 実験 素性による変化 バイアスによる変化 Semcorとの比較
教師なし手法と他のアプローチの比較 大規模コーパスの有用性を示す Semcorや最頻語義選択と合わせると良い 26