Extraction of hypernyms and hyponyms

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
March 28, 2019
50

Extraction of hypernyms and hyponyms

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

March 28, 2019
Tweet

Transcript

  1. 上位語・下位語の抽出 定型表現を利用した特許文書からのシソーラスの自動構築の実装 第11回 B3勉強会 2019/3/28 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武

  2. 参考文献・資料 [1] 安藤まや,関根聡,石崎俊: 定型表現を利用した新聞記事からの下位概念単語の自動抽出, 情報処理学会研究報告自然言語処理,NL-157, pp.77-82, 2003. [2] 難波英嗣,奥村学,新森昭宏,谷川英和,鈴木泰山: 特許データベースからのシソーラスの自動構築,言語処理学会,

    年次大会発表論文集, pp.1113-1116, 2007. [3] 間弓沙織,難波英嗣,竹澤寿幸: 日英特許データベースからのシソーラスの自動構築,言語処理学会, 年次大会発表論文集,A4-2, 2011. [4] 平松淳,若林啓:系列ラベリングによる自然言語文からの上位下位関係自動 抽出,言語処理学会,年次大会発表論文集,P11‐1, 2017. 2
  3. Contents (1) はじめに (2) シソーラス自動構築の手法 (3) 概念対の分類方法 (4) 実験結果 (5)

    考察 (6) まとめ 3
  4. (1) はじめに ・シソーラス(thesaurus) 意味の上位下位関係,同義関係を中心に語を体系的にまとめた 辞書 ・今回は講義の課題で作った,特許文書からの上位下位関係にお けるシソーラスの自動構築を紹介. 4

  5. (1) はじめに ・安藤,関根ら[1]が「などの」「等の」「といった」「のよう な」の4種類の定型表現(手がかり語)に着目し,新聞記事か ら下位概念の自動抽出を行った. ・難波,奥村ら[2]は, 「といった」「のような」ではノイズ (不適切な概念対)が多く,件数も少ないので, 「などの」 「等の」だけノイズを分析,改良案を提案

    5
  6. (1) はじめに ・系列ラベリングを用いた方法では,教師データに依存すること が懸念される. ・今回は,「などの」「等の」「のような」「としては」を 手がかり語としてシソーラスを構築し,ノイズを分析した. 6

  7. (2) シソーラスの自動構築の方法 7 ・一文ごとに読み込み,手がかり語があれば,前半部と後半部に 文を分割し,形態素解析を行う. ・手がかり語の前後が名詞であれば抽出する. ・名詞の前に形容詞があったら飛ばして次の名詞を抽出. ・下位概念の抽出において,「や」「、」などを挟んで名詞が 連続する場合は,その名詞も抽出する.

  8. (2) シソーラスの自動構築の方法 8 ・「としては」は後半部を下位概念として抽出する. ・「次のような」といったものは抽出を行わない. ・後半部で上位概念の抽出を行う際,抽出した名詞1が, 名詞1+「の」+名詞2 の形で名詞2を修飾し,上位概念が 名詞2である場合が見られた. ・本実験では,名詞1+

    「の」+名詞2の形の場合,名詞2を 上位概念として抽出した.
  9. (2) シソーラスの自動構築の方法 9

  10. (3) 概念対の分類方法 10

  11. (4) 実験結果 11 ・1999年の特許文書,999件に適用した. ・得られた概念対の総数から手がかり語ごとに100個の概念対を ランダムに抽出し,人手で正解率及び,ノイズを種類別に 分類した. ・得られた概念対の総数は,「などの」では2890個,「等の」 では5831個,「のような」では1135個,「としては」では 3865個であった.

  12. (4) 実験結果 12

  13. (5) 考察 13 ・「などの」「等の」ではF1が多く,元の文が上位下位関係を 表す文であれば,比較的に抽出を適切に行うことができる. ・これを判定する方法として難波,奥村ら[2]は「などの」の個所を 「の」に置き換えた表現が日本語として自然であるかどうかにより, 判別する方法がある.しかし,この手法では,上位下位関係を 表す文も誤って削除することが多くあるなどの課題が残っている.

  14. (5) 考察 14 ・「のような」では後半部で上位概念の抽出を,「としては」 では後半部で下位概念の抽出を行っており,後半部での概念の 抽出が今後の課題である. ・「のような」では,名詞1+ 「の」+名詞2 で名詞2を 上位概念としていたので,名詞1が「種々」「任意」などでは

    ないなら名詞1を上位概念とするなどの改善案が考えられる.
  15. (6) まとめ 15 ・「などの」「等の」「のような」「としては」の4種類の 手がかり語に着目し,特許文書から上位下位関係を表すシソー ラスを構築した. ・「などの」「等の」では約40%,「のような」「としては」 では約30%の精度で抽出できた. ・手がかり語ごとに別の改善方法を適用するべきであることが わかった.