Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaからの大規模な汎用オントロジー構築
Search
自然言語処理研究室
March 31, 2011
Research
1
120
Wikipediaからの大規模な汎用オントロジー構築
柴木 優美. Wikipediaからの大規模な汎用オントロジー構築. 長岡技術科学大学修士論文 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
待機電力を削減したネットワーク更新型電子ペーパーサイネージの開発と評価 / IOT64
yumulab
0
100
説明可能AI:代表的手法と最近の動向
yuyay
1
590
フルリモートワークでのスクラムのスケール
kmorita1111
2
1k
時系列解析と疫学
kingqwert
2
920
クロスモーダル表現学習の研究動向: 音声関連を中心として
ryomasumura
3
590
[KDD2023論文読み会] BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model with Non-textual Features for CTR Prediction / KDD2023 LY Tech Reading
shunk031
0
440
Trezor Safe 3 ファーストインプレッション
toshihr
0
190
LiDARセキュリティ最前線
kentaroy47
0
280
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
2.9k
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
20240127_熊本から今いちど真面目に都市交通~めざせ「車1割削減、渋滞半減、公共交通2倍」~ 全国路面電車サミット2024宇都宮
trafficbrain
1
660
Discovering Universal Geometry in Embeddings with ICA
momoseoyama
1
340
Featured
See All Featured
Making Projects Easy
brettharned
108
5.5k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
659
120k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Building Effective Engineering Teams - LeadDev
addyosmani
28
1.8k
A Philosophy of Restraint
colly
197
16k
What's in a price? How to price your products and services
michaelherold
237
11k
Producing Creativity
orderedlist
PRO
337
39k
Building Adaptive Systems
keathley
31
1.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Code Review Best Practice
trishagee
55
15k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.6k
Transcript
1 電気系 山本研究室 学籍番号:07315582 柴木優美 Wikipediaからの 大規模な汎用オントロジー構築
2 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
3 • 背景 背景と目的 – Wikipediaから汎用オントロジーを自動構築する – 単語の知識の表現方法である「オントロジー」に、 日々増えていく単語を人手で追加していくのは手間 •
目的 単語の知識が必要 意味解析 評判分析 情報抽出 etc. 機械学習 自然言語処理 ・更新が早い ・人、地名、組織など知識の分野が幅広い (汎用的)
4 カテゴリ カテゴリ カテゴリ カテゴリ オントロジー :「単語」と「単語の関係 関係 関係 関係」を表したもの
is-a関係 part of 関係 F02-B SA002 WS009KE インスタンス インスタンス インスタンス インスタンス : B is a A (BはAの一つ) が 成り立つ関係 オントロジーとは is-a関係 電話機 携帯電話 液晶 owner関係 人間
5 利用例:評判分析 part of 関係 F02-B オントロジーの利用例 is-a関係 A:ドコモショップでF-02Bを買おうかと思うんだ。 B:私使ってる~。液晶がきれいだよ。
携帯電話 液晶 ポジティブワード 液晶 きれい 液晶は評判がいい F-02Bの液晶 きれい F-02Bは評判がいい オントロジーを利用
6 • おもちゃ • モデル is-a 既存のオントロジーの例 • 日本語語彙大系 インスタンス:30万件
カテゴリ:3,000 件 名詞 具体物 場所 • 歌姫 • ボーカリスト • ダンサー • モデル 具体 抽象 人 歌手 芸人 遊び道具・運動具 インスタンス –人手で作成されたis-a関係からなる大規模なオントロジー –1つに統一された階層構造をもつ カテゴリ 日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ 本研究で扱うオントロジー
7 • Wikipediaのカテゴリ・記事は、部分的にはis-a関係の オントロジーのカテゴリ・インスタンスとして見れそう 自然 変光星 連星 恒星 • 爆発変光星
•アメリカ変光星観測者協会 カテゴリ 天体 天文学 • オントロジーと違い語と語のリンクの関係が未定義 • 最上位のカテゴリはジャンルを分類するためのカテゴリ Wikipedia 天文学者 惑星科学者 技術 社会 主要カテゴリ 記事 is-a not-is-a not-is-a is-a
8 本研究で構築するオントロジー 最上位カテゴリ is-a 天文学者 惑星科学者 人 組織 施設 地名
地形 具体物 創作物 動植物 イベント 変光星 連星 恒星 • 爆発変光星 天体 最上位カテゴリ Wikipediaの部分的なオントロジー 1. Wikipediaのis-a関係のリンクを判定し 2. 部分的なオントロジーを構築 3. 部分的なオントロジーを新たに設定した最上位カテゴリに 接続し階層を再構成
9 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
10 関連手法と比較した提案手法の工夫点(1/2) 関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]): 文字のパターンマッチでis-a関係を判定 大幅な再現率(網羅性)の向上 工夫点1: is-a関係の判定方法 《効果》 子カテゴリの後方文字列が
親カテゴリと一致すれば is-a関係 《ルール》 桜井らの手法 惑星 太陽系外惑星 is-a 問題点:再現率(網羅性)が低い
11 関連手法と比較した提案手法の工夫点(1/2) 関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]): 文字のパターンマッチでis-a関係を判定 大幅な再現率(網羅性)の向上 工夫点1: is-a関係の判定方法 《効果》 子カテゴリの後方文字列が
親カテゴリと一致すれば is-a関係 《ルール》 桜井らの手法 問題点:再現率(網羅性)が低い 惑星 太陽系外惑星 is-a 天体 × × × ×
12 関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]): 文字のパターンマッチでis-a関係を判定 =再現率(網羅性)が低い 大幅な再現率の向上 工夫点1: is-a関係の判定方法 提案手法: 3種類の手法でis-a関係でないリンクを網羅的に削除
し残ったリンクをis-a関係と判定 《効果》 関連手法と比較した提案手法の工夫点(1/2)
13 工夫点2: 1つに統一された階層の構築方法 関連手法 (Suchanek[2007]、小林[2008]) : 既存のオントロジーにWikipediaのカテゴリ-記事対を接続 小林らの手法 人口惑星 惑星
太陽系の惑星 内惑星 is-a is-a 天体 日本語語彙大系のカテゴリに、Wikipediaの is-a関係のカテゴリ-記事対をパターンマッチで接続 問題点:Wikipediaのカテゴリ階層情報が失われる 関連手法と比較した提案手法の工夫点(2/2) 日本語語彙大系 is-a関係のカテゴリ-記事対
14 工夫点2: 1つに統一された階層の構築方法 Wikipediaの階層情報をできるだけ生かしつつ 1つにまとまった階層を構築できる 提案手法: Wikipediaの部分的なオントロジーの階層を 新たに設定した最上位カテゴリに接続する 《効果》 関連手法と比較した提案手法の工夫点(2/2)
関連手法 (Suchanek[2007]、小林[2008]) : 既存のオントロジーにWikipediaのカテゴリ-記事対を接続 = Wikipediaのカテゴリ階層の情報が失われる
15 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
16 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
17 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
18 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物
図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 意味を判定する問題 1.意味属性分類問題 = is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
19 意味が抽象的な単語を含む 意味的に類似していない 社会 経済 集英社 少年ジャンプ 書物 図書館 抽象的
抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 意味を判定する問題 1.意味属性分類問題 = 9種類 の意味属性を設定 どの意味属性にも分類されない単語 = 抽象的 親子の意味属性が違う = 意味的に類似していない 手法: SVM による分類器でカテゴリと記事を分類 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
20 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
21 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 is-a関係でないリンクの判定(2/3) 社会 経済 集英社
少年ジャンプ 書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 ・既存の辞書を利用 -単語が固有名詞として辞書登録されていれば固有名詞 ・英語Wikipediaの表記を利用 -各形態素の頭文字が大文字なら固有名詞 (例:The Beatles) is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
22 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 3.パターンマッチ is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
23 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ
書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 1.意味属性分類問題 3.パターンマッチ カテゴリ間、カテゴリ-記事間のリンクに適用し、 どれにも当てはまらないリンクをis-a関係とする is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
24 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器
道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事 is-a is-a 人 組織 具体物 判定した意味属性
25 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石
銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ(意味属性 意味属性 意味属性 意味属性)に部分的なオントロジーを接続 人 組織 具体物 最上位カテゴリ 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 Wikipediaの階層をオントロジーの階層に再構成できた 人 組織 具体物 判定した意味属性
26 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
27 実験結果と考察 (1/3) カテゴリ間、カテゴリ-記事間のis-a関係判定精度 - 3手法を用いてis-a関係でないリンクを削除する手法 は再現率の向上に有効 67.9 93.0 57.7
97.6 +24.0 +3.6 +24.2 -1.9 差分 再現率 適合率 再現率 適合率 判定手法 小林らの手法 桜井らの手法 比較手法 91.9 81.9 96.6 95.7 提案手法 カテゴリ-記事間 カテゴリ間 評価データ数 :各2500件 パターンマッチでは抽出できないis-a関係を抽出 (精度) (網羅性) (精度) (網羅性) 例: 携帯電話アプリ←EZ助手席ナビ、 ベーシスト←ボブ・デイズリー
28 • 提案手法において再現率を下げる原因 再現率 適合率 再現率 適合率 判定対象 91.9 81.9
96.6 95.7 全てのカテゴリ・記事を対象 カテゴリ-記事間 カテゴリ間 -分類器が作れるほどのカテゴリ・記事がない意味属性は 対象外にしているため (例:スポーツ、規則、賞) 学習データを増やし、意味属性を追加すれば 再現率を向上できる 実験結果と考察 (2/3) 95.6 96.2 96.6 95.3 9種類の意味属性を対象 -9種類の意味属性に限定すれば再現率は高い
29 構築したオントロジーの規模 - 全ての項目で比較対象より数が多い 実験結果と考察 (3/3) 2.7 64万 3.3万 0.3万
30万 2.3倍 6.2 桜井ら の手法 末端のカテゴリ の平均深さ 1.3倍 83万 小林ら の手法 カテゴリ-記事間 のis-a関係数 1.5倍 5万 桜井ら の手法 カテゴリ間の is-a関係数 11.3倍 3.4万 (Wiki全体の88.6%) カテゴリ数 1.4倍 42万 (Wiki全体の84.5%) 日本語 語彙大系 記事数 (インスタンス数) 比率 提案手法 比較対象 抽出項目
30 • はじめに – 背景と目的、オントロジーとWikipedia • 関連手法と比較した提案手法の工夫点 • 提案手法 •
実験結果と考察 • おわりに – まとめ、今後の課題 目次
31 おわりに ・ Wikipedia全体の84.5%のカテゴリと88.6%の記事を 1つの階層からなるオントロジーに組みこめた ・ 3手法でis-a関係でないリンクを判定することで、 関連手法より再現率が約24ポイント向上した ・ 学習データを増やし、意味属性を追加することで
さらなる再現率の向上を図る まとめ 今後の課題 近日、構築したオントロジーを公開予定
32 ご清聴ありがとうございました
33 補足資料
34 桜井らの手法と本手法による抽出できるis-a関係の違い • 桜井らの手法では末尾の形態素が一致したものがとれない • 提案手法では、9種類の意味属性以外のis-a関係がとれない
35 小林らの手法と本手法で抽出できるis-a関係の違い 小林らの手法のみで抽出できたis-a関係 • 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない • 提案手法では、9種類の意味属性以外のis-a関係がとれない 提案手法のみで抽出できたis-a関係
36 意味属性の設定方針 1. 抽象的でない意味属性を網羅している 2. 一般的なオントロジーの粒度10前後の分類 →「日本語語彙大系」なら第4階層、「関根の拡張固有表現 階層」なら第1階層 3. 分類器がつくれるほどのカテゴリ・記事数がある
→学問名、規則名などは対象外 9種類 の意味属性 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
37 - 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を 上げることが望ましい is-a関係でないリンク判定の手法別精度 再現率 適合率 再現率 適合率 判定手法
100 74.7 100 72.1 全てのリンクをis-a関係とする 91.8 92.7 99.1 99.9 81.9 82.5 99.4 99.4 96.6 95.7 3手法の組合せ 94.5 82.7 75.5 91.9 78.2 79.2 1.意味属性分類 2.固有名詞抽出 3.文字列照合 カテゴリ-記事間 カテゴリ間 カテゴリ間、カテゴリ-記事間のis-a関係判定精度 評価データ数 各2500件
38 - 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を 上げることが望ましい is-a関係でないリンク判定の手法別貢献度 評価データ数 各2500件
39 is-a関係でないリンク判定の手法別貢献度 各手法のみで抽出できたis-a関係の例
40 適合率を下げるエラー 1. 意味属性分類を誤った場合 2. 固有名詞抽出を誤った場合 3. 3 種類のis-a 関係判定手法の精度が100%でも
判定できないis-a 関係の場合 – 血液←血球 – 日本の内閣総理大臣←内閣総理大臣夫人 – 千葉県の道路←千葉県の道の駅 0.7~1.1ポイント、適合率を低下させる =全体から見れば少数の例外
41 • 9種類の意味属性以外のis-a関係は抽出できないため – スポーツ←各国のスポーツ – 経済←日本の経済 • 親子の意味属性が違っても、is-a関係が成り立つ場合 –
チュニジアの世界遺産(具体物) ←イシュケル湖(地形) – ラムサール条約登録地(地名)←マレー湾(地形) • 親名が固有名詞でもis-a関係が成り立つ場合 – 沖縄県営鉄道←沖縄県営鉄道糸満線 • ◦◦←◦◦××でもis-a関係が成り立つ場合 – 映画←映画作品 再現率を下げるエラー
42 技術者 楽器製作者 技術 主要カテゴリ アマティ 楽器 道具 製造業 工業製品メーカー
製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 エレクトーン エレクトーン ヴァイオリン カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
43 人 組織 具体物 判定した意味属性 技術者 楽器製作者 技術 主要カテゴリ アマティ
楽器 道具 製造業 工業製品メーカー 製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 × × × × エレクトーン エレクトーン ヴァイオリン × × × × × 9種類の意味属性以外 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 手法3,パターンマッチ 手法1.意味属性分類 手法1, 意味属性分類 手法2.固有名詞抽出 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
44 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器
道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる 部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ 人 組織 具体物 判定した意味属性 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事
45 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石
銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ(意味属性 意味属性 意味属性 意味属性)に部分的なオントロジーを接続 人 組織 具体物 名詞 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 人 組織 具体物 判定した意味属性
46 素性に使う単語 カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語 主な素性 各単語の末尾の形態素 例: 新潟県→県 日本語語彙大系を用いて抽象化した単語 例: 総理大臣→政治家、人
-SVM による分類器で分類 -one-vs-rest法 (2値分類を多値分類に拡張する手法)を用いる カテゴリと記事を意味属性に分類 1. 意味属性分類 によるis-a関係でないリンク判定 意味属性分類の機械学習のための学習データ数 ・ カテゴリ分類 :2,000件 ・ 記事分類:11,554件
47 47 対象カテゴリに分類されている全ての 記事の定義文から抽出した上位語 対象カテゴリと同名記事の 定義文から抽出した上位語 音楽家は、曲を作ったり、 演奏したりする人のこと。 音楽家 音楽家
音楽家 音楽家 音楽家 •ライター •小説家 対象カテゴリ 音楽関係者 親カテゴリ 子カテゴリ 指揮者 素性のための単語 カテゴリの周辺単語6種類 (主に一般名詞から成る) b c d e a
48 対象カテゴリと同名記事の 定義文から抽出した上位語 子供は、年齢の若い者 を指す 子供 子供 子供 子供 子供
(意味属性:未決) 対象カテゴリ 人の一生 (意味属性:その他の名詞) 親カテゴリ 子カテゴリ 児童文学 (意味属性:創作物) ブートストラップ時に設定する素性 カテゴリの周辺単語6種類 (主に一般名詞から成る) b e a 子カテゴリ 子役 (意味属性:人) c “者”は意味属性が”人”にマッチし、 ”子役”も意味属性”人”に分類されている ※ (意味属性:◦◦)は、前ステップまでに分類された意味属性を表す ・両者とも語彙大系カテゴリ ”少年・少女”に属する
49 記事分類のための素性 ・・・・・・・意味属性 :具体物 ・・・意味属性 :具体物 ・・・・・・・意味属性 :具体物 ・・・・・・・意味属性 :その他の名詞
a b c d
50 超補足資料
51 2. 固有名詞抽出 によるis-a関係でないリンク判定 形態素解析ツールMeCabを用いる手法 英語Wikipediaを用いる手法 -各形態素の頭文字が大文字なら固有名詞 例:The Beatles -記事の文中で、単語の頭文字が大文字なら固有名詞
例: Fifteen prime ministers in Japan have studied at University of Tokyo. -◦県や◦市、辞書に登録されている固有名詞を表示 例: 長岡市、遠藤周作
52 意味属性別のis-a関係判定精度(グラフ) カテゴリ間のis-a関係 カテゴリ-記事間のis-a関係
53 カテゴリの固有名詞抽出精度 普通名詞にも関わらず英語表記の各形態素の頭文字が全て大 文字のアルファベッドだった場合 -Independent Administrative Institution (独立行政法人) -Japan Defense
Ship (自衛官) 日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合 -日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は 英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク エラー解析
54 意味属性別の分類精度(グラフ) 80 82 84 86 88 90 92 94
96 98 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率/再現率/F値[%] 適合率 再現率 80 82 84 86 88 90 92 94 96 98 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率/再現率/F値[%] 適合率 再現率 カテゴリ分類 記事分類
55 意味属性別のリーフカテゴリの平均深さ 深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数
56 56 考察(1/3)カテゴリ分類の際のブートストラップ効果 96 96.5 97 97.5 98 98.5 99
99.5 100 0 1 2 3 4 5 6 7 ブートストラップ数 適合率/再現率/F値 [%] 0 500 1000 1500 2000 2500 未抽出カテゴリ数 適合率 再現率 F値 未抽出カテゴリ数 最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステッ プの学習に使用してもほとんど適合率を下げることなく再現率を上げ ることができた。
57 記事分類精度比較(藤田らの手法) 適合率 再現率 F値 藤田ら 91.1 85.7 88.3 提案手法
97.2 91.7 94.4 差分 + 6.2 + 6.0 + 6.1 50 60 70 80 90 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率[%] 提案手法 藤田らの手法 50 55 60 65 70 75 80 85 90 95 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 再現率[%] 提案手法 藤田らの手法 ※カテゴリに同じ意味属性がない記事も 分母に入れているので再現率低い
58 カテゴリ、記事の割合 人 23.0% 組織 11.6% 施設 13.2% 地名 10.5%
地形 3.2% 具体物 5.7% 創作物 12.9% 動植物 2.3% イベント 3.9% その他 13.7% 人 28.6% 組織 9.5% 施設 14.4% 地名 7.4% 地形 2.2% 具体物 8.2% 創作物 12.9% 動植物 3.0% イベント 4.1% その他 9.6% 記事 カテゴリ
59 ルートノードの数