Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaからの大規模な汎用オントロジー構築
Search
自然言語処理研究室
March 31, 2011
Research
0
51
Wikipediaからの大規模な汎用オントロジー構築
柴木 優美, 永田 昌明, 山本 和英. Wikipediaからの大規模な汎用オントロジー構築. 言語処理学会第17回年次大会, pp.908-911 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
530
20240127_熊本から今いちど真面目に都市交通~めざせ「車1割削減、渋滞半減、公共交通2倍」~ 全国路面電車サミット2024宇都宮
trafficbrain
1
660
床面圧力センサ開発における感圧導電シート分離方式の検討 / WISS2023
yumulab
0
270
自己教師あり学習による事前学習(CVIMチュートリアル)
naok615
2
1.4k
MLtraq: Track your AI experiments at hyperspeed
micheda
1
110
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
3k
Trezor Safe 3 ファーストインプレッション
toshihr
0
190
The Theory behind Vector DB
matsui_528
0
1.6k
第4回ナレッジグラフ勉強会:ISWC2023論文読み会
kg_wakate
1
210
Accurate Method and Variable Tracking in Commit History
tsantalis
0
250
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
120
Refactoring Mining - The key to unlock software evolution
tsantalis
0
250
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
243
12k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.6k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
GitHub's CSS Performance
jonrohan
1025
450k
What the flash - Photography Introduction
edds
64
11k
Mobile First: as difficult as doing things right
swwweet
216
8.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
Building Flexible Design Systems
yeseniaperezcruz
319
37k
Ruby is Unlike a Banana
tanoku
96
10k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.6k
How to name files
jennybc
65
93k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Transcript
1 柴木優美*1 永田昌明*2 山本和英*1 *1 長岡技術科学大学 *2 NTTコミュニケーション科学基礎研究所 Wikipediaからの 大規模な汎用オントロジー構築
NLP2011 (2011/03/10)
2 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
3 • 背景 背景と目的 – Wikipediaから汎用オントロジーを自動構築する – 単語の知識の表現方法である「オントロジー」に、 日々増えていく単語を人手で追加していくのは手間 •
目的 単語の知識が必要 意味解析 評判分析 情報抽出 etc. 機械学習 自然言語処理 ・更新が早い ・人、地名、組織など知識の分野が幅広い (汎用的)
4 カテゴリ オントロジー :「語」と「語の関係」を表したもの is-a関係 part of 関係 F02-B SA002
WS009KE インスタンス : B is a A (BはAの一つ) が 成り立つ関係 オントロジーとは is-a関係 電話機 携帯電話 液晶 owner関係 人間
5 • おもちゃ • モデル is-a 既存のオントロジーの例 • 日本語語彙大系 インスタンス:30万件
カテゴリ:3,000 件 名詞 具体物 場所 • 歌姫 • ボーカリスト • ダンサー • モデル 具体 抽象 人 歌手 芸人 遊び道具・運動具 インスタンス –人手で作成されたis-a関係からなる大規模なオントロジー –1つに統一された階層構造をもつ カテゴリ 日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ 本研究で扱うオントロジー
6 • Wikipediaのカテゴリ・記事は、部分的にはis-a関係の オントロジーのカテゴリ・インスタンスとして見れそう 自然 変光星 連星 恒星 • 爆発変光星
•アメリカ変光星観測者協会 カテゴリ 天体 天文学 • オントロジーと違い語と語のリンクの関係が未定義 • 最上位のカテゴリはジャンルを分類するためのカテゴリ Wikipedia 天文学者 惑星科学者 技術 社会 主要カテゴリ 記事 is-a not-is-a not-is-a is-a
7 本研究で構築するオントロジー 最上位カテゴリ is-a 天文学者 惑星科学者 人 組織 施設 地名
地形 具体物 創作物 動植物 イベント 変光星 連星 恒星 • 爆発変光星 天体 最上位カテゴリ Wikipediaの部分的なオントロジー 1. Wikipediaのis-a関係のリンクを判定し 2. 部分的なオントロジーを構築 3. 部分的なオントロジーを新たに設定した最上位カテゴリに 接続し階層を再構成 (柴木ら[2010]:人オントロジー構築の拡張版)
8 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
9 関連手法と比較した提案手法の工夫点(1/2) 大幅な再現率(網羅性)の向上 工夫点1: is-a関係の判定方法 《効果》 子カテゴリの後方文字列が 親カテゴリと一致すれば is-a関係 《ルール》
桜井らの手法 惑星 太陽系外惑星 is-a 問題点:再現率が低い 関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]): 文字列照合でis-a関係を判定 カテゴリ
10 関連手法と比較した提案手法の工夫点(1/2) 大幅な再現率(網羅性)の向上 工夫点1: is-a関係の判定方法 《効果》 子カテゴリの後方文字列が 親カテゴリと一致すれば is-a関係 《ルール》
桜井らの手法 惑星 太陽系外惑星 is-a 天体 × 関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]): 文字列照合でis-a関係を判定 問題点:再現率が低い カテゴリ
11 大幅な再現率の向上 工夫点1: is-a関係の判定方法 提案手法: 3種類の手法でis-a関係でないリンクを高い再現率で 削除し残ったリンクをis-a関係と判定 《効果》 関連手法と比較した提案手法の工夫点(1/2) 関連手法
(Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]): 文字列照合でis-a関係を判定 =再現率が低い
12 工夫点2: 1つに統一された階層の構築方法 小林らの手法 人口惑星 惑星 太陽系の惑星 内惑星 is-a is-a
天体 日本語語彙大系のカテゴリに、Wikipediaの is-a関係のカテゴリ-記事対を文字列照合で接続 問題点:Wikipediaのカテゴリ階層情報が失われる 関連手法と比較した提案手法の工夫点(2/2) 日本語語彙大系 is-a関係のカテゴリ-記事対 関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) : 既存のオントロジーにWikipediaのカテゴリ-記事対を接続
13 工夫点2: 1つに統一された階層の構築方法 Wikipediaの階層情報をできるだけ生かしつつ 1つにまとまった階層を構築できる 提案手法 Wikipediaの部分的なオントロジーの階層を 新たに設定した最上位カテゴリに接続する 《効果》 関連手法と比較した提案手法の工夫点(2/2)
関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) : 既存のオントロジーにWikipediaのカテゴリ-記事対を接続 = Wikipediaのカテゴリ階層の情報が失われる
14 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
15 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
16 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 抽象的な単語・・・意味を明確に定義しにくい単語
17 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 意味を判定する問題 1.意味属性分類問題 = is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
18 意味が抽象的な単語を含む 意味的に類似していない 社会 経済 集英社 少年ジャンプ 書物 図書館 抽象的
抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 意味を判定する問題 1.意味属性分類問題 = is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 9種類 の意味属性を設定 どの意味属性にも分類されない単語 = 抽象的 親子の意味属性が違う = 意味的に類似していない 手法: SVM による分類器でカテゴリと記事を分類 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
19 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 人名 神名 地名 施設名
製品名 自然物名 組織名 イベント名 病気名 色名 地域名 地形名 乗り物名 出版物名 賞名 規則名 関根の拡張固有表現階層の第1~第2階層をもとに設定 意味属性の設定 関根の拡張固有表現階層 1. 分類器がつくれるほどのカテゴリ・記事数がある 2. 日本語語彙大系のカテゴリに対応づけられる 3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる -賞名、規則名などは対象外 《設定方針》 -素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる
20 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 人名 神名 地名 施設名
製品名 自然物名 組織名 イベント名 病気名 色名 地域名 地形名 乗り物名 出版物名 賞名 規則名 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント 対象外 関根の拡張固有表現階層の第1~第2階層をもとに設定 1. 分類器がつくれるほどのカテゴリ・記事数がある 2. 日本語語彙大系のカテゴリに対応づけられる 3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる -賞名、規則名などは対象外 《設定方針》 意味属性の設定 -素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる
21 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
22 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 is-a関係でないリンクの判定(2/3) 社会 経済 集英社
少年ジャンプ 書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 MeCabを利用 is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
23 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 3.文字列照合 is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
24 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 1.意味属性分類問題 3.文字列照合 カテゴリ間、カテゴリ-記事間のリンクに適用し、 どれにも当てはまらないリンクをis-a関係とする is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
25 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器
道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事 is-a is-a 人 組織 具体物 判定した意味属性
26 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石
銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 部分的なオントロジーを最上位カテゴリ(意味属性)に接続 人 組織 具体物 最上位カテゴリ 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 Wikipediaの階層をオントロジーの階層に再構成できた 人 組織 具体物 判定した意味属性
27 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
28 実験結果と考察 (1/3) カテゴリ間、カテゴリ-記事間のis-a関係判定精度 - 提案手法は再現率の向上に有効 判定手法 カテゴリ間 カテゴリ-記事間 適合率
再現率 適合率 再現率 比較手法 桜井らの手法 小林らの手法 97.6 57.7 93.0 67.9 提案手法 95.2 82.2 95.6 92.4 差分 -2.4 +24.5 +2.6 +24.5 評価データ数 :各2500件 パターンマッチでは抽出できないis-a関係を大量に抽出できた 例: 携帯電話アプリ←EZ助手席ナビ ベーシスト←ボブ・デイズリー
29 • 提案手法において再現率を下げる原因 判定対象 カテゴリ間 カテゴリ-記事間 適合率 再現率 適合率 再現率
全てのカテゴリ・記事を対象 95.2 82.2 95.6 92.4 -分類器が作れるほどのカテゴリ・記事がない意味属性は 対象外にしているため (例:スポーツ、規則、賞) 学習データを増やし、意味属性を追加すれば 再現率を向上できる 実験結果と考察 (2/3) 9種類の意味属性を対象 94.8 97.0 95.2 96.2 -9種類の意味属性に限定すれば再現率は高い 《今後の展望》
30 構築したオントロジーの規模 - 全ての項目で比較対象より数が多い 実験結果と考察 (3/3) 抽出項目 比較対象 提案手法 比率
記事数 (インスタンス数) 日本語 語彙大系 30万 41万 (Wiki全体の85.6%) 1.4倍 カテゴリ数 0.3万 3.4万 (Wiki全体の84.5%) 11.3倍 カテゴリ間の is-a関係数 桜井ら の手法 3.3万 5万 1.5倍 カテゴリ-記事間 のis-a関係数 小林ら の手法 64万 83万 1.3倍 末端のカテゴリ の平均深さ 桜井ら の手法 2.7 6.2 2.3倍
31 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
32 おわりに ・ Wikipedia全体の84.5%のカテゴリと85.6%の記事を 1つの階層からなるオントロジーに組みこめた ・ 3手法でis-a関係でないリンクを判定することで、 関連手法より再現率が24ポイント以上向上した ・ 学習データを増やし、意味属性を追加することで
さらなる再現率の向上を図る まとめ 今後の課題 以下のURLで構築したオントロジーを見られます http://nlp.nagaokaut.ac.jp/OG1/ 長岡技術科学大学自然言語処理研究室HP→柴木優美
33 ご清聴ありがとうございました
34 補足資料
35 意味属性別の分類精度(グラフ) カテゴリ分類 記事分類
36 素性に使う単語 カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語 主な素性(=主に普通名詞) 各単語の末尾の形態素 例: 新潟県→県 日本語語彙大系を用いて抽象化した単語 例: 総理大臣→政治家(語彙大系のカテゴリ)→人(意味属性)
SVM による分類器で分類 (one-vs-rest法 を用いる) カテゴリと記事の意味属性分類 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
37 3手法の精度が100%だったときのis-a関係判定精度 ▪適合率を下げる誤り -3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係 血液←血球 日本の内閣総理大臣←内閣総理大臣夫人 千葉県の道路←千葉県の道の駅
(例) ▪再現率を下げる誤り -親名が固有名詞でもis-a関係が成り立つ場合 -◦◦←◦◦××でもis-a関係が成り立つ場合 沖縄県営鉄道←沖縄県営鉄道糸満線 映画←映画作品 (例) (例) 適合率[%] 再現率[%] カテゴリ間 98.9 99.3 カテゴリ-記事間 99.3 98.9 9 種類の意味属性でのis-a 関係の精度
38 - 再現率をできるだけ下げずに適合率を 上げることが望ましい is-a関係でないリンク判定の手法別精度 判定手法 カテゴリ間 カテゴリ-記事間 適合率 再現率
適合率 再現率 全てのリンクをis-a関係とする 72.1 100 74.7 100 1.意味属性分類 2.固有名詞抽出 3.文字列照合 91.9 78.2 79.2 82.5 99.4 99.4 94.5 82.7 75.5 92.7 99.1 99.9 3手法の組合せ 95.7 81.9 96.6 91.8 カテゴリ間、カテゴリ-記事間のis-a関係判定精度 評価データ数 各2500件
39 - 再現率をできるだけ下げずに適合率を 上げることが望ましい is-a関係でないリンク判定の手法別貢献度 評価データ数 各2500件
40 親子の意味属性が違っても、is-a関係が成り立つ場合 再現率を下げる誤り -親子の意味属性が違っても、is-a関係が成り立つ場合 チュニジアの世界遺産(具体物)←イシュケル湖(地形) ラムサール条約登録地(地名)←マレー湾(地形) ゲーム(その他)←ホラーゲーム(創作物) (例) 2つの関係を見ればis-a関係を成り立つが、上位まで遡ると、 「具体物←イシュケル湖」という関係が作れてしまうので、
これらは抽出しないほうが結果として適切!! =意味属性に分類することで、先祖←子孫のis-a関係誤りを防げる
例外処理1) → 親子の一致する先頭文字列を削除したときに残った文字が 数字か記号を含む場合は、not-is-a関係としない 41 親名が固有名詞でも、is-a関係と判定する例外処理 親名が固有名詞でも子名がis-a関係が成り立つこと があるので、例外処理2つを適用 パリメトロ←パリメトロ2号線 ロックマン←ロックマンX
(例) 例外処理2) → 子名の後方が親名と一致した場合は、not-is-a関係としない どうぶつの森←おいでよ どうぶつの森 オールナイトニッポン←ゆずのオールナイトニッポン (例) それでも判定できないもの → 沖縄県営鉄道←沖縄県営鉄道糸満線
42 適合率を下げるエラー • 3 種類のis-a 関係判定手法の精度が100%でも 判定できないis-a 関係の場合 – 血液←血球
– 日本の内閣総理大臣←内閣総理大臣夫人 – 千葉県の道路←千葉県の道の駅 • 意味属性分類を誤った場合 • 固有名詞抽出を誤った場合
43 • 9種類の意味属性以外のis-a関係は抽出できないため – スポーツ←各国のスポーツ – 経済←日本の経済 • 親子の意味属性が違っても、is-a関係が成り立つ場合 –
チュニジアの世界遺産(具体物) ←イシュケル湖(地形) – ラムサール条約登録地(地名)←マレー湾(地形) • 親名が固有名詞でもis-a関係が成り立つ場合 – 沖縄県営鉄道←沖縄県営鉄道糸満線 • ◦◦←◦◦××でもis-a関係が成り立つ場合 – 映画←映画作品 再現率を下げるエラー
44 補足資料 • 本手法のみで抽出できたis-a関係 • O意味属性の設定方針 • ◦各手法の貢献度(理論値) • ◦普通にエラー解析
• ◦部分的なオントロジーの再構成詳細 • ◦素性に使った単語
45 利用例:評判分析 part of 関係 F02-B オントロジーの利用例 is-a関係 A:ドコモショップでF-02Bを買おうかと思うんだ。 B:私使ってる~。液晶がきれいだよ。
携帯電話 液晶 ポジティブワード 液晶 きれい 液晶は評判がいい F-02Bの液晶 きれい F-02Bは評判がいい オントロジーを利用
46 桜井らの手法と本手法による抽出できるis-a関係の違い • 桜井らの手法では末尾の形態素が一致したものがとれない • 提案手法では、9種類の意味属性以外のis-a関係がとれない
47 小林らの手法と本手法で抽出できるis-a関係の違い 小林らの手法のみで抽出できたis-a関係 • 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない • 提案手法では、9種類の意味属性以外のis-a関係がとれない 提案手法のみで抽出できたis-a関係
48 is-a関係でないリンク判定の手法別貢献度 各手法のみで抽出できたis-a関係の例
49 技術者 楽器製作者 技術 主要カテゴリ アマティ 楽器 道具 製造業 工業製品メーカー
製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 エレクトーン エレクトーン ヴァイオリン カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
50 人 組織 具体物 判定した意味属性 技術者 楽器製作者 技術 主要カテゴリ アマティ
楽器 道具 製造業 工業製品メーカー 製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 × × × × エレクトーン エレクトーン ヴァイオリン × × × × × 9種類の意味属性以外 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 手法3,パターンマッチ 手法1.意味属性分類 手法1, 意味属性分類 手法2.固有名詞抽出 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
51 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器
道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる 部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ 人 組織 具体物 判定した意味属性 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事
52 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石
銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 最上位カテゴリ(意味属性)に部分的なオントロジーを接続 人 組織 具体物 名詞 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 人 組織 具体物 判定した意味属性
53 素性に使う単語 カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語 主な素性 各単語の末尾の形態素 例: 新潟県→県 日本語語彙大系を用いて抽象化した単語 例: 総理大臣→政治家、人
SVM による分類器で分類 (one-vs-rest法 を用いる) 学習データ数 カテゴリ分類: 2,000件 記事分類:11,554件 カテゴリと記事の意味属性分類 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
54 54 対象カテゴリに分類されている全ての記 事の定義文から抽出した上位語 対象カテゴリと同名記事の 定義文から抽出した上位語 音楽家は、曲を作ったり、 演奏したりする人のこと。 音楽家 音楽家
•ライター •小説家 対象カテゴリ 音楽関係者 親カテゴリ 子カテゴリ 指揮者 素性のための単語 カテゴリの周辺単語6種類 (主に一般名詞から成る) b c d e a
55 対象カテゴリと同名記事の 定義文から抽出した上位語 子供は、年齢の若い者 を指す 子供 子供 (意味属性:未決) 対象カテゴリ 人の一生
(意味属性:その他の名詞) 親カテゴリ 子カテゴリ 児童文学 (意味属性:創作物) ブートストラップ時に設定する素性 カテゴリの周辺単語6種類 (主に一般名詞から成る) b e a 子カテゴリ 子役 (意味属性:人) c “者”は意味属性が”人”にマッチし、 ”子役”も意味属性”人”に分類されてい る ※ (意味属性:◦◦)は、前ステップまでに分類された意味属性を表す ・両者とも語彙大系カテゴリ ”少年・少女”に属する
56 記事分類のための素性 ・・・・・・・意味属性 :具体物 ・・・意味属性 :具体物 ・・・・・・・意味属性 :具体物 ・・・・・・・意味属性 :その他の名詞
a b c d
57 超補足資料
58 超補足資料 • ◦2手法の詳細 • ◦各意味属性ごとのis-a関係の精度 • ◦意味属性分類精度 • 固有名詞判定精度
• 記事分類の比較手法からみた優位性 • ルートノード • 各意味属性の数
59 2. 固有名詞抽出 によるis-a関係でないリンク判定 形態素解析ツールMeCabを用いる手法 英語Wikipediaを用いる手法 -各形態素の頭文字が大文字なら固有名詞 例:The Beatles -記事の文中で、単語の頭文字が大文字なら固有名詞
例: Fifteen prime ministers in Japan have studied at University of Tokyo. -◦県や◦市、辞書に登録されている固有名詞を表示 例: 長岡市、遠藤周作
60 意味属性別のis-a関係判定精度(グラフ) カテゴリ間のis-a関係 カテゴリ-記事間のis-a関係
61 カテゴリの固有名詞抽出精度 普通名詞にも関わらず英語表記の各形態素の頭文字が全て大 文字のアルファベッドだった場合 -Independent Administrative Institution (独立行政法人) -Japan Defense
Ship (自衛官) 日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合 -日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は 英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク エラー解析
62 意味属性別のリーフカテゴリの平均深さ 深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数
63 63 考察(1/3)カテゴリ分類の際のブートストラップ効果 96 96.5 97 97.5 98 98.5 99
99.5 100 0 1 2 3 4 5 6 7 ブートストラップ数 適合率/再現率/F値 [%] 0 500 1000 1500 2000 2500 未抽出カテゴリ数 適合率 再現率 F値 未抽出カテゴリ数 最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステッ プの学習に使用してもほとんど適合率を下げることなく再現率を上げ ることができた。
64 記事分類精度比較(藤井らの手法) 50 60 70 80 90 100 人 組織
施設 地名 地形 具体物 創作物 動植物 イベント total 適合率[%] 提案手法 藤田らの手法 50 55 60 65 70 75 80 85 90 95 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 再現率[%] 提案手法 藤田らの手法
65 カテゴリ、記事の割合 人 23.0% 組織 11.6% 施設 13.2% 地名 10.5%
地形 3.2% 具体物 5.7% 創作物 12.9% 動植物 2.3% イベント 3.9% その他 13.7% 人 28.6% 組織 9.5% 施設 14.4% 地名 7.4% 地形 2.2% 具体物 8.2% 創作物 12.9% 動植物 3.0% イベント 4.1% その他 9.6% 記事 カテゴリ
66 ルートノードの数