Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 6月17日
Search
gumigumi7
June 17, 2016
0
75
文献紹介 6月17日
gumigumi7
June 17, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
230
文献紹介 11月7日
gumigumi7
0
130
文献紹介 10月3日
gumigumi7
0
320
文献紹介 9月3日
gumigumi7
0
250
文献紹介 8月10日
gumigumi7
0
120
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
180
文献紹介 4月18日
gumigumi7
0
140
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
GraphQLとの向き合い方2022年版
quramy
33
13k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Automating Front-end Workflow
addyosmani
1357
200k
In The Pink: A Labor of Love
frogandcode
138
21k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
How to name files
jennybc
65
94k
Product Roadmaps are Hard
iamctodd
45
9.8k
How STYLIGHT went responsive
nonsquared
92
4.8k
We Have a Design System, Now What?
morganepeng
43
6.8k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.1k
The Invisible Side of Design
smashingmag
294
49k
Transcript
文献紹介(2016/05/16) 長岡技術科学大学 B4 桾澤 優希 Wikipediaを利用した上位下位関係の詳細化
文献 ▪ 論文 ▪ 山田 一郎, 橋本 力, 呉 鍾勲,
鳥澤 健太郎, 黒田 航, Stijn De Saeger, 土田 正明, 風間 淳一, Wikipedia を利用した上位下位関係の詳細化. 自然言語処理, Vol. 19 (2012) No. 1 p. 3-23 ▪ キーワード ▪ 上位下位関係獲得, 「対象–属性–属性値」抽出, Wikipedia 2
概要 ▪ 自動獲得した上位下位関係をWikipediaの情報を利 用し,より詳細にする試み ▪ 「作品 → 七人の侍」から「作品→映画監督の作品→ 黒澤明の作品→七人の侍」のように中間ノードを生成す る
▪ 一つ目の中間ノードを適合率85.3%で2,719,441個、 二つ目の中間ノードを適合率78.6%で6,347,472個 生成 3
導入 ▪ 上位下位関係は自然言語処理の様々なタスクにおいて 最も重要な意味関係の一つ ▪ 今までの研究では上位下位関係を 「AはBの一種あるいはインスタンスであるAとBの関係」 と定義 ▪ 次のペアはいずれも上位下位関係にある
「黒澤明の映画作品 → 七人の侍」 「映画作品 → 七人の侍」 「作品 → 七人の侍」 4
導入 ▪ 質問応答等のアプリケーションを考える ▪ 「”七人の侍”とは何ですか?」に対して「作品」は適切な回答ではない ▪ 「下位概念Cに対して, AはBより詳細な上位概念」 ▪ AとBは同じ下位概念Cを持つ
▪ BはAの上位概念である ▪ この定義に基づいて元の上位下位関係を詳細化する。 5
理論 ▪ wikipediaを用いた上位下位関係の獲得 ▪ Wikipediaが提供するMediaWikiのソースコードを用いる。 ▪ 記事の節見出し、小節タイトル項目名を用いて上位下位関係候補 を取得 ▪ SVMを用いて上位下位関係候補を分類
▪ 上位概念候補、下位概念候補の品詞 ▪ 上位概念候補、下位概念候補に含まれる形態素 ▪ 上位概念候補、下位概念候補の表層系文字列 ▪ 上位概念候補、下位概念候補が属性語Xに一致するか否か ▪ 上位概念候補、下位概念候補の修飾記号 ▪ 上位概念候補と下位概念候補間のレイアウト構造上の距離 ▪ 上位概念候補と下位概念候補の末尾1文字が一致するか 6
理論 7
理論 8 ▪ 詳細な上位下位関係の獲得
理論 9 ▪ T-上位下位関係の獲得 ▪ ベース上位下位関係の上位概念をWikipedia記事タイトルを用い, T-上位概念を生成 ▪ T-上位概念は元の上位概念とWikipedia記事タイトルを助詞「の」で 連結して生成。
▪ 例) 「作品」「黒澤明」 → 「黒澤明の作品」 ▪ G-上位下位関係の獲得 ▪ T-上位概念の記事タイトルをその上位概念で置き換えることで生成 ▪ 上位概念は記事の一文目と下部のカテゴリ情報をSVMで判定したも のを利用 ▪ 例) 「黒澤明の作品」 → 「映画監督の作品」
実験 ▪ 2009-09-27版の日本語Wikipediaデータを用いてG- 上位下位関係を取得 ▪ 上位下位関係が妥当か以下のペアについて評価 ▪ ベース上位下位関係 ▪ G-上位概念ペア
▪ T-上位概念ペア ▪ 被験者3人で200ペア(G-上位概念ペアは178ペア)につ いてGood, Less good, Bad の三段階で評価 10
結果 11
結果 12
実験 13
実験 14
実験 15
まとめ ▪ 自動獲得した上位下位概念の上位概念をより詳細にす る手法を提案した ▪ 2,719,441個のT-上位概念ペアを適合率85.3% 6,347,472個のG-上位概念ペアを適合率78.6%で取得 ▪ 下位概念が普通名詞であるペアを除くことで 1,958,117個のT-上位概念ペアを適合率93.7%
4,960,751個のG-上位概念ペアを適合率85.3%で取得 16