Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 5月16日
Search
gumigumi7
May 16, 2016
0
100
文献紹介 5月16日
gumigumi7
May 16, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
230
文献紹介 11月7日
gumigumi7
0
130
文献紹介 10月3日
gumigumi7
0
320
文献紹介 9月3日
gumigumi7
0
250
文献紹介 8月10日
gumigumi7
0
120
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
180
文献紹介 4月18日
gumigumi7
0
140
Featured
See All Featured
Become a Pro
speakerdeck
PRO
13
4.6k
Navigating Team Friction
lara
179
13k
What's in a price? How to price your products and services
michaelherold
238
11k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
Building Better People: How to give real-time feedback that sticks.
wjessup
356
18k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
The Brand Is Dead. Long Live the Brand.
mthomps
49
30k
Designing with Data
zakiwarfel
96
4.8k
Git: the NoSQL Database
bkeepers
PRO
423
63k
Agile that works and the tools we love
rasmusluckow
325
20k
Testing 201, or: Great Expectations
jmmastey
30
6.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Transcript
文献紹介(2016/05/16) 長岡技術科学大学 B4 桾澤 優希 カテゴリ間の兄弟を活用した集合拡張
文献 ▪ 論文 ▪ 高瀬 翔, 岡崎 直観, 乾 健太郎,
カテゴリ間の兄弟を活用した集合拡張.自然言語処理, Vol. 20 (2013) No. 2 p. 273-296 ▪ キーワード ▪ Wikipedia, 知識獲得, 集合拡張 2
概要 ▪ 意味カテゴリに属する固有表現の集合拡張 ▪ wikipediaのカテゴリの兄弟関係を事前知識として利用 する手法の提案 ▪ 既存手法に比べ適合率が向上 3
導入 ▪ 自然言語の理解には常識的知識の獲得が重要 ▪ 意味カテゴリに属する固有名詞リストは様々なタスクで利用される ▪ 例) 質問応答 , 情報抽出
, 文書分類 ▪ 人手での構築はコストがかかる → (半)自動的に獲得する方法が研究されてきた 4
導入 ▪ 集合拡張 ▪ ある意味カテゴリに属する既知の固有表現の集合を入力、そのカテゴ リに属する未知の固有表現を獲得するタスク ▪ 「プリウス」「レクサス」「インサイト」のような自動車カテゴリの固有表現 から、「カローラ」「シビック」「フィット」のようなものを新たに獲得する ▪
既存手法ではシードインスタンス集合と無関係なインスタ ンスを獲得してしまう場合がある ▪ 「プリウス」「レクサス」から「iPad」「ThinkPad」のようなものを取得 ▪ Wikipediaの兄弟関係を用いてこれらの間違いを減らす 5
理論 ▪ Espressoアルゴリズム ▪ パターンの取得とインスタンスの取得の2つを反復する集合拡張アルゴ リズム ▪ 「新型のX」「Xの性能」といった多くのカテゴリのインスタンスと共起する パーンが得られてしまうため、「プリウス」から「iPad」のようなインスタンス が出され得る
6
理論 ▪ 同一の兄弟グループに含まれるインスタンスは共通の特徴 を保有していると仮定 ▪ 自動車、自動二輪の兄弟グループに含まれるインスタンスは「乗る」や 「燃費」などの語と係り受け関係を持ちやすい ▪ これらの特徴を取得しインスタンスが特徴を保有している か否かで誤ったインスタンスの獲得を防ぐ
7
理論 8
理論 9
理論 ▪ フィルタパターンの取得 ▪ 候補の抽出 ▪ 係り先や係り元の関係は考慮しない ▪ 名詞と動詞を対象にする。 ▪
例) 「乗る」、「エンジン」、「愛車」 ▪ ランキング ▪ 最適なフィルタパターンを選択する ▪ 網羅性と平等性の2つでランキング 10
実験 ▪ カテゴリ間の兄弟関係を事前知識として使用することの効 果を検証する。 ▪ ベースラインはEspressoアルゴリズム、Espressoアルゴリ ズムに排他制約を加えたものなどを使用 ▪ 同じ数のインスタンスを取得した際の適合率を比較するこ とで評価
11
実験 ▪ シードインスタンスをWikipediaから取得 ▪ 41個のカテゴリに対して15個ずつインスタンスを用意 ▪ 実験には1億1千万の日本語ウェブページをコーパスとして 使用 ▪ KNPによって係り受け構造を解析
12
結果 13
結果 14
実験 15
まとめ ▪ 一既存手法に対してカテゴリ間の兄弟関係を事前知識と して利用する手法を提案した ▪ ベースラインであるEspressoアルゴリズムに比べ適合率を 最大で4.4%向上させた 16