Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Extraction of hypernyms and hyponyms
Search
Atom
March 28, 2019
0
90
Extraction of hypernyms and hyponyms
Atom
March 28, 2019
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
76
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
45
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
200
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
roraidolaurent
0
54
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
86
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
90
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
40
7.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Done Done
chrislema
181
16k
Thoughts on Productivity
jonyablonski
67
4.4k
Docker and Python
trallard
42
3.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
The Cult of Friendly URLs
andyhume
78
6.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
How to Ace a Technical Interview
jacobian
276
23k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Transcript
上位語・下位語の抽出 定型表現を利用した特許文書からのシソーラスの自動構築の実装 第11回 B3勉強会 2019/3/28 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
参考文献・資料 [1] 安藤まや,関根聡,石崎俊: 定型表現を利用した新聞記事からの下位概念単語の自動抽出, 情報処理学会研究報告自然言語処理,NL-157, pp.77-82, 2003. [2] 難波英嗣,奥村学,新森昭宏,谷川英和,鈴木泰山: 特許データベースからのシソーラスの自動構築,言語処理学会,
年次大会発表論文集, pp.1113-1116, 2007. [3] 間弓沙織,難波英嗣,竹澤寿幸: 日英特許データベースからのシソーラスの自動構築,言語処理学会, 年次大会発表論文集,A4-2, 2011. [4] 平松淳,若林啓:系列ラベリングによる自然言語文からの上位下位関係自動 抽出,言語処理学会,年次大会発表論文集,P11‐1, 2017. 2
Contents (1) はじめに (2) シソーラス自動構築の手法 (3) 概念対の分類方法 (4) 実験結果 (5)
考察 (6) まとめ 3
(1) はじめに ・シソーラス(thesaurus) 意味の上位下位関係,同義関係を中心に語を体系的にまとめた 辞書 ・今回は講義の課題で作った,特許文書からの上位下位関係にお けるシソーラスの自動構築を紹介. 4
(1) はじめに ・安藤,関根ら[1]が「などの」「等の」「といった」「のよう な」の4種類の定型表現(手がかり語)に着目し,新聞記事か ら下位概念の自動抽出を行った. ・難波,奥村ら[2]は, 「といった」「のような」ではノイズ (不適切な概念対)が多く,件数も少ないので, 「などの」 「等の」だけノイズを分析,改良案を提案
5
(1) はじめに ・系列ラベリングを用いた方法では,教師データに依存すること が懸念される. ・今回は,「などの」「等の」「のような」「としては」を 手がかり語としてシソーラスを構築し,ノイズを分析した. 6
(2) シソーラスの自動構築の方法 7 ・一文ごとに読み込み,手がかり語があれば,前半部と後半部に 文を分割し,形態素解析を行う. ・手がかり語の前後が名詞であれば抽出する. ・名詞の前に形容詞があったら飛ばして次の名詞を抽出. ・下位概念の抽出において,「や」「、」などを挟んで名詞が 連続する場合は,その名詞も抽出する.
(2) シソーラスの自動構築の方法 8 ・「としては」は後半部を下位概念として抽出する. ・「次のような」といったものは抽出を行わない. ・後半部で上位概念の抽出を行う際,抽出した名詞1が, 名詞1+「の」+名詞2 の形で名詞2を修飾し,上位概念が 名詞2である場合が見られた. ・本実験では,名詞1+
「の」+名詞2の形の場合,名詞2を 上位概念として抽出した.
(2) シソーラスの自動構築の方法 9
(3) 概念対の分類方法 10
(4) 実験結果 11 ・1999年の特許文書,999件に適用した. ・得られた概念対の総数から手がかり語ごとに100個の概念対を ランダムに抽出し,人手で正解率及び,ノイズを種類別に 分類した. ・得られた概念対の総数は,「などの」では2890個,「等の」 では5831個,「のような」では1135個,「としては」では 3865個であった.
(4) 実験結果 12
(5) 考察 13 ・「などの」「等の」ではF1が多く,元の文が上位下位関係を 表す文であれば,比較的に抽出を適切に行うことができる. ・これを判定する方法として難波,奥村ら[2]は「などの」の個所を 「の」に置き換えた表現が日本語として自然であるかどうかにより, 判別する方法がある.しかし,この手法では,上位下位関係を 表す文も誤って削除することが多くあるなどの課題が残っている.
(5) 考察 14 ・「のような」では後半部で上位概念の抽出を,「としては」 では後半部で下位概念の抽出を行っており,後半部での概念の 抽出が今後の課題である. ・「のような」では,名詞1+ 「の」+名詞2 で名詞2を 上位概念としていたので,名詞1が「種々」「任意」などでは
ないなら名詞1を上位概念とするなどの改善案が考えられる.
(6) まとめ 15 ・「などの」「等の」「のような」「としては」の4種類の 手がかり語に着目し,特許文書から上位下位関係を表すシソー ラスを構築した. ・「などの」「等の」では約40%,「のような」「としては」 では約30%の精度で抽出できた. ・手がかり語ごとに別の改善方法を適用するべきであることが わかった.