Extraction of hypernyms and hyponyms

上位語・下位語の抽出定型表現を利用した特許文書からのシソーラスの自動構築の実装第11回 B3勉強会 2019/3/28 長岡技術科学大学自然言語処理研究室吉澤亜斗武

参考文献・資料 [1] 安藤まや，関根聡，石崎俊：定型表現を利用した新聞記事からの下位概念単語の自動抽出，情報処理学会研究報告自然言語処理，NL-157, pp.77-82, 2003. [2] 難波英嗣，奥村学，新森昭宏，谷川英和，鈴木泰山：特許データベースからのシソーラスの自動構築，言語処理学会，
年次大会発表論文集， pp.1113-1116, 2007. [3] 間弓沙織，難波英嗣，竹澤寿幸：日英特許データベースからのシソーラスの自動構築，言語処理学会，年次大会発表論文集，A4-2, 2011. [4] 平松淳，若林啓：系列ラベリングによる自然言語文からの上位下位関係自動抽出，言語処理学会，年次大会発表論文集，P11‐1, 2017. 2

Contents (1) はじめに (2) シソーラス自動構築の手法 (3) 概念対の分類方法 (4) 実験結果 (5)
考察 (6) まとめ 3

(1) はじめに・シソーラス（thesaurus）意味の上位下位関係，同義関係を中心に語を体系的にまとめた辞書・今回は講義の課題で作った，特許文書からの上位下位関係におけるシソーラスの自動構築を紹介． 4

(1) はじめに・安藤，関根ら[1]が「などの」「等の」「といった」「のような」の4種類の定型表現（手がかり語）に着目し，新聞記事から下位概念の自動抽出を行った．・難波，奥村ら[2]は，「といった」「のような」ではノイズ（不適切な概念対）が多く，件数も少ないので，「などの」「等の」だけノイズを分析，改良案を提案
5

(1) はじめに・系列ラベリングを用いた方法では，教師データに依存することが懸念される．・今回は，「などの」「等の」「のような」「としては」を手がかり語としてシソーラスを構築し，ノイズを分析した． 6

(2) シソーラスの自動構築の方法 7 ・一文ごとに読み込み，手がかり語があれば，前半部と後半部に文を分割し，形態素解析を行う．・手がかり語の前後が名詞であれば抽出する．・名詞の前に形容詞があったら飛ばして次の名詞を抽出．・下位概念の抽出において，「や」「、」などを挟んで名詞が連続する場合は，その名詞も抽出する．

(2) シソーラスの自動構築の方法 8 ・「としては」は後半部を下位概念として抽出する．・「次のような」といったものは抽出を行わない．・後半部で上位概念の抽出を行う際，抽出した名詞1が，名詞1＋「の」＋名詞2 の形で名詞2を修飾し，上位概念が名詞2である場合が見られた．・本実験では，名詞1＋
「の」＋名詞2の形の場合，名詞2を上位概念として抽出した．

(2) シソーラスの自動構築の方法 9

(３) 概念対の分類方法 10

(４) 実験結果 11 ・1999年の特許文書，999件に適用した．・得られた概念対の総数から手がかり語ごとに100個の概念対をランダムに抽出し，人手で正解率及び，ノイズを種類別に分類した．・得られた概念対の総数は，「などの」では2890個，「等の」では5831個，「のような」では1135個，「としては」では 3865個であった．

(４) 実験結果 12

(５) 考察 13 ・「などの」「等の」ではF1が多く，元の文が上位下位関係を表す文であれば，比較的に抽出を適切に行うことができる．・これを判定する方法として難波，奥村ら[2]は「などの」の個所を「の」に置き換えた表現が日本語として自然であるかどうかにより，判別する方法がある．しかし，この手法では，上位下位関係を表す文も誤って削除することが多くあるなどの課題が残っている．

(５) 考察 14 ・「のような」では後半部で上位概念の抽出を，「としては」では後半部で下位概念の抽出を行っており，後半部での概念の抽出が今後の課題である．・「のような」では，名詞1＋「の」＋名詞2 で名詞２を上位概念としていたので，名詞１が「種々」「任意」などでは
ないなら名詞１を上位概念とするなどの改善案が考えられる．

(６) まとめ 15 ・「などの」「等の」「のような」「としては」の４種類の手がかり語に着目し，特許文書から上位下位関係を表すシソーラスを構築した．・「などの」「等の」では約40％，「のような」「としては」では約30％の精度で抽出できた．・手がかり語ごとに別の改善方法を適用するべきであることがわかった．

Extraction of hypernyms and hyponyms

Extraction of hypernyms and hyponyms

Atom

More Decks by Atom

Featured

Transcript

上位語・下位語の抽出定型表現を利用した特許文書からのシソーラスの自動構築の実装第11回 B3勉強会 2019/3/28 長岡技術科学大学自然言語処理研究室吉澤亜斗武

Contents (1) はじめに (2) シソーラス自動構築の手法 (3) 概念対の分類方法 (4) 実験結果 (5)

(1) はじめに・シソーラス（thesaurus）意味の上位下位関係，同義関係を中心に語を体系的にまとめた辞書・今回は講義の課題で作った，特許文書からの上位下位関係におけるシソーラスの自動構築を紹介． 4

(1) はじめに・系列ラベリングを用いた方法では，教師データに依存することが懸念される．・今回は，「などの」「等の」「のような」「としては」を手がかり語としてシソーラスを構築し，ノイズを分析した． 6

(2) シソーラスの自動構築の方法 9

(３) 概念対の分類方法 10

(４) 実験結果 12