Wikipediaからの大規模な汎用オントロジー構築

 Wikipediaからの大規模な汎用オントロジー構築

柴木 優美. Wikipediaからの大規模な汎用オントロジー構築. 長岡技術科学大学修士論文 (2011.3)

Transcript

  1. 3.

    3 • 背景 背景と目的 – Wikipediaから汎用オントロジーを自動構築する – 単語の知識の表現方法である「オントロジー」に、 日々増えていく単語を人手で追加していくのは手間 •

    目的 単語の知識が必要 意味解析 評判分析 情報抽出 etc. 機械学習 自然言語処理 ・更新が早い ・人、地名、組織など知識の分野が幅広い (汎用的)
  2. 4.

    4 カテゴリ カテゴリ カテゴリ カテゴリ オントロジー :「単語」と「単語の関係 関係 関係 関係」を表したもの

    is-a関係 part of 関係 F02-B SA002 WS009KE インスタンス インスタンス インスタンス インスタンス : B is a A (BはAの一つ) が 成り立つ関係 オントロジーとは is-a関係 電話機 携帯電話 液晶 owner関係 人間
  3. 5.

    5 利用例:評判分析 part of 関係 F02-B オントロジーの利用例 is-a関係 A:ドコモショップでF-02Bを買おうかと思うんだ。 B:私使ってる~。液晶がきれいだよ。

    携帯電話 液晶 ポジティブワード 液晶 きれい 液晶は評判がいい F-02Bの液晶 きれい F-02Bは評判がいい オントロジーを利用
  4. 6.

    6 • おもちゃ • モデル is-a 既存のオントロジーの例 • 日本語語彙大系 インスタンス:30万件

    カテゴリ:3,000 件 名詞 具体物 場所 • 歌姫 • ボーカリスト • ダンサー • モデル 具体 抽象 人 歌手 芸人 遊び道具・運動具 インスタンス –人手で作成されたis-a関係からなる大規模なオントロジー –1つに統一された階層構造をもつ カテゴリ 日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ 本研究で扱うオントロジー
  5. 7.

    7 • Wikipediaのカテゴリ・記事は、部分的にはis-a関係の オントロジーのカテゴリ・インスタンスとして見れそう 自然 変光星 連星 恒星 • 爆発変光星

    •アメリカ変光星観測者協会 カテゴリ 天体 天文学 • オントロジーと違い語と語のリンクの関係が未定義 • 最上位のカテゴリはジャンルを分類するためのカテゴリ Wikipedia 天文学者 惑星科学者 技術 社会 主要カテゴリ 記事 is-a not-is-a not-is-a is-a
  6. 8.

    8 本研究で構築するオントロジー 最上位カテゴリ is-a 天文学者 惑星科学者 人 組織 施設 地名

    地形 具体物 創作物 動植物 イベント 変光星 連星 恒星 • 爆発変光星 天体 最上位カテゴリ Wikipediaの部分的なオントロジー 1. Wikipediaのis-a関係のリンクを判定し 2. 部分的なオントロジーを構築 3. 部分的なオントロジーを新たに設定した最上位カテゴリに 接続し階層を再構成
  7. 13.

    13 工夫点2: 1つに統一された階層の構築方法 関連手法 (Suchanek[2007]、小林[2008]) : 既存のオントロジーにWikipediaのカテゴリ-記事対を接続 小林らの手法 人口惑星 惑星

    太陽系の惑星 内惑星 is-a is-a 天体 日本語語彙大系のカテゴリに、Wikipediaの is-a関係のカテゴリ-記事対をパターンマッチで接続 問題点:Wikipediaのカテゴリ階層情報が失われる 関連手法と比較した提案手法の工夫点(2/2) 日本語語彙大系 is-a関係のカテゴリ-記事対
  8. 16.

    16 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物

    図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  9. 17.

    17 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物

    図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  10. 18.

    18 意味が抽象的な単語を含む 意味的に類似していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ 書物

    図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 抽象的 抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 固有名詞 固有名詞 意味を判定する問題 1.意味属性分類問題 = is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  11. 19.

    19 意味が抽象的な単語を含む 意味的に類似していない 社会 経済 集英社 少年ジャンプ 書物 図書館 抽象的

    抽象的 創作物 組織 創作物 施設 技術 道具 抽象的 意味を判定する問題 1.意味属性分類問題 = 9種類 の意味属性を設定 どの意味属性にも分類されない単語 = 抽象的 親子の意味属性が違う = 意味的に類似していない 手法: SVM による分類器でカテゴリと記事を分類 is-a関係でないリンクの判定(1/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
  12. 20.

    20 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ

    書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  13. 21.

    21 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 is-a関係でないリンクの判定(2/3) 社会 経済 集英社

    少年ジャンプ 書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 ・既存の辞書を利用 -単語が固有名詞として辞書登録されていれば固有名詞 ・英語Wikipediaの表記を利用 -各形態素の頭文字が大文字なら固有名詞 (例:The Beatles) is-a関係でないリンクの判定(2/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  14. 22.

    22 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ

    書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 3.パターンマッチ is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  15. 23.

    23 意味が抽象的な単語を含む 意味的に類似 していない 親名が固有名詞 ◦◦←◦◦××の関係 社会 経済 集英社 少年ジャンプ

    書物 図書館 少年ジャンプ ONE PIECE 新潟県 長岡市 火星 火星の衛星 缶 缶コーヒー 技術 道具 固有名詞 固有名詞 抽象的 抽象的 創作物 組織 創作物 施設 抽象的 2.固有名詞抽出問題 1.意味属性分類問題 3.パターンマッチ カテゴリ間、カテゴリ-記事間のリンクに適用し、 どれにも当てはまらないリンクをis-a関係とする is-a関係でないリンクの判定(3/3) is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
  16. 24.

    24 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器

    道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事 is-a is-a 人 組織 具体物 判定した意味属性
  17. 25.

    25 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石

    銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ(意味属性 意味属性 意味属性 意味属性)に部分的なオントロジーを接続 人 組織 具体物 最上位カテゴリ 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 Wikipediaの階層をオントロジーの階層に再構成できた 人 組織 具体物 判定した意味属性
  18. 27.

    27 実験結果と考察 (1/3) カテゴリ間、カテゴリ-記事間のis-a関係判定精度 - 3手法を用いてis-a関係でないリンクを削除する手法 は再現率の向上に有効 67.9 93.0 57.7

    97.6 +24.0 +3.6 +24.2 -1.9 差分 再現率 適合率 再現率 適合率 判定手法 小林らの手法 桜井らの手法 比較手法 91.9 81.9 96.6 95.7 提案手法 カテゴリ-記事間 カテゴリ間 評価データ数 :各2500件 パターンマッチでは抽出できないis-a関係を抽出 (精度) (網羅性) (精度) (網羅性) 例: 携帯電話アプリ←EZ助手席ナビ、 ベーシスト←ボブ・デイズリー
  19. 28.

    28 • 提案手法において再現率を下げる原因 再現率 適合率 再現率 適合率 判定対象 91.9 81.9

    96.6 95.7 全てのカテゴリ・記事を対象 カテゴリ-記事間 カテゴリ間 -分類器が作れるほどのカテゴリ・記事がない意味属性は 対象外にしているため (例:スポーツ、規則、賞) 学習データを増やし、意味属性を追加すれば 再現率を向上できる 実験結果と考察 (2/3) 95.6 96.2 96.6 95.3 9種類の意味属性を対象 -9種類の意味属性に限定すれば再現率は高い
  20. 29.

    29 構築したオントロジーの規模 - 全ての項目で比較対象より数が多い 実験結果と考察 (3/3) 2.7 64万 3.3万 0.3万

    30万 2.3倍 6.2 桜井ら の手法 末端のカテゴリ の平均深さ 1.3倍 83万 小林ら の手法 カテゴリ-記事間 のis-a関係数 1.5倍 5万 桜井ら の手法 カテゴリ間の is-a関係数 11.3倍 3.4万 (Wiki全体の88.6%) カテゴリ数 1.4倍 42万 (Wiki全体の84.5%) 日本語 語彙大系 記事数 (インスタンス数) 比率 提案手法 比較対象 抽出項目
  21. 37.

    37 - 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を 上げることが望ましい is-a関係でないリンク判定の手法別精度 再現率 適合率 再現率 適合率 判定手法

    100 74.7 100 72.1 全てのリンクをis-a関係とする 91.8 92.7 99.1 99.9 81.9 82.5 99.4 99.4 96.6 95.7 3手法の組合せ 94.5 82.7 75.5 91.9 78.2 79.2 1.意味属性分類 2.固有名詞抽出 3.文字列照合 カテゴリ-記事間 カテゴリ間 カテゴリ間、カテゴリ-記事間のis-a関係判定精度 評価データ数 各2500件
  22. 40.

    40 適合率を下げるエラー 1. 意味属性分類を誤った場合 2. 固有名詞抽出を誤った場合 3. 3 種類のis-a 関係判定手法の精度が100%でも

    判定できないis-a 関係の場合 – 血液←血球 – 日本の内閣総理大臣←内閣総理大臣夫人 – 千葉県の道路←千葉県の道の駅 0.7~1.1ポイント、適合率を低下させる =全体から見れば少数の例外
  23. 41.

    41 • 9種類の意味属性以外のis-a関係は抽出できないため – スポーツ←各国のスポーツ – 経済←日本の経済 • 親子の意味属性が違っても、is-a関係が成り立つ場合 –

    チュニジアの世界遺産(具体物) ←イシュケル湖(地形) – ラムサール条約登録地(地名)←マレー湾(地形) • 親名が固有名詞でもis-a関係が成り立つ場合 – 沖縄県営鉄道←沖縄県営鉄道糸満線 • ◦◦←◦◦××でもis-a関係が成り立つ場合 – 映画←映画作品 再現率を下げるエラー
  24. 42.

    42 技術者 楽器製作者 技術 主要カテゴリ アマティ 楽器 道具 製造業 工業製品メーカー

    製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 エレクトーン エレクトーン ヴァイオリン カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
  25. 43.

    43 人 組織 具体物 判定した意味属性 技術者 楽器製作者 技術 主要カテゴリ アマティ

    楽器 道具 製造業 工業製品メーカー 製造 ヤマハ 演奏家 スタインバーグ せん断 材料 岩石 銅の加工物 銅 アマティ Wikipediaの階層構造 × × × × エレクトーン エレクトーン ヴァイオリン × × × × × 9種類の意味属性以外 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 手法3,パターンマッチ 手法1.意味属性分類 手法1, 意味属性分類 手法2.固有名詞抽出 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 部分的なオントロジーの構築
  26. 44.

    44 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 技術者 楽器製作者 アマティ 楽器

    道具 工業製品メーカー ヤマハ スタインバーグ 材料 岩石 銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 同じ意味属性からなる 部分的なオントロジーができる ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ ルートカテゴリ 人 組織 具体物 判定した意味属性 カテゴリ 記事 3手法を用いて9種類の意味属性以外のカテゴリ・記事 とis-a関係でないリンクを削除 部分的なオントロジーの構築 ルート記事
  27. 45.

    45 技術者 楽器製作者 アマティ 楽器 道具 工業製品メーカー ヤマハ スタインバーグ 岩石

    銅の加工物 銅 エレクトーン ヴァイオリン 演奏家 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ 最上位カテゴリ(意味属性 意味属性 意味属性 意味属性)に部分的なオントロジーを接続 人 組織 具体物 名詞 最上位カテゴリ 材料 -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続 カテゴリ 記事 is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成 階層の再構成 人 組織 具体物 判定した意味属性
  28. 46.

    46 素性に使う単語 カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語 主な素性 各単語の末尾の形態素 例: 新潟県→県 日本語語彙大系を用いて抽象化した単語 例: 総理大臣→政治家、人

    -SVM による分類器で分類 -one-vs-rest法 (2値分類を多値分類に拡張する手法)を用いる カテゴリと記事を意味属性に分類 1. 意味属性分類 によるis-a関係でないリンク判定 意味属性分類の機械学習のための学習データ数 ・ カテゴリ分類 :2,000件 ・ 記事分類:11,554件
  29. 47.

    47 47 対象カテゴリに分類されている全ての 記事の定義文から抽出した上位語 対象カテゴリと同名記事の 定義文から抽出した上位語 音楽家は、曲を作ったり、 演奏したりする人のこと。 音楽家 音楽家

    音楽家 音楽家 音楽家 •ライター •小説家 対象カテゴリ 音楽関係者 親カテゴリ 子カテゴリ 指揮者 素性のための単語 カテゴリの周辺単語6種類 (主に一般名詞から成る) b c d e a
  30. 48.

    48 対象カテゴリと同名記事の 定義文から抽出した上位語 子供は、年齢の若い者 を指す 子供 子供 子供 子供 子供

    (意味属性:未決) 対象カテゴリ 人の一生 (意味属性:その他の名詞) 親カテゴリ 子カテゴリ 児童文学 (意味属性:創作物) ブートストラップ時に設定する素性 カテゴリの周辺単語6種類 (主に一般名詞から成る) b e a 子カテゴリ 子役 (意味属性:人) c “者”は意味属性が”人”にマッチし、 ”子役”も意味属性”人”に分類されている ※ (意味属性:◦◦)は、前ステップまでに分類された意味属性を表す ・両者とも語彙大系カテゴリ ”少年・少女”に属する
  31. 53.

    53 カテゴリの固有名詞抽出精度 普通名詞にも関わらず英語表記の各形態素の頭文字が全て大 文字のアルファベッドだった場合 -Independent Administrative Institution (独立行政法人) -Japan Defense

    Ship (自衛官) 日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合 -日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は 英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク エラー解析
  32. 54.

    54 意味属性別の分類精度(グラフ) 80 82 84 86 88 90 92 94

    96 98 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率/再現率/F値[%] 適合率 再現率 80 82 84 86 88 90 92 94 96 98 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率/再現率/F値[%] 適合率 再現率 カテゴリ分類 記事分類
  33. 56.

    56 56 考察(1/3)カテゴリ分類の際のブートストラップ効果 96 96.5 97 97.5 98 98.5 99

    99.5 100 0 1 2 3 4 5 6 7 ブートストラップ数 適合率/再現率/F値 [%] 0 500 1000 1500 2000 2500 未抽出カテゴリ数 適合率 再現率 F値 未抽出カテゴリ数 最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステッ プの学習に使用してもほとんど適合率を下げることなく再現率を上げ ることができた。
  34. 57.

    57 記事分類精度比較(藤田らの手法) 適合率 再現率 F値 藤田ら 91.1 85.7 88.3 提案手法

    97.2 91.7 94.4 差分 + 6.2 + 6.0 + 6.1 50 60 70 80 90 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 適合率[%] 提案手法 藤田らの手法 50 55 60 65 70 75 80 85 90 95 100 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total 再現率[%] 提案手法 藤田らの手法 ※カテゴリに同じ意味属性がない記事も 分母に入れているので再現率低い
  35. 58.

    58 カテゴリ、記事の割合 人 23.0% 組織 11.6% 施設 13.2% 地名 10.5%

    地形 3.2% 具体物 5.7% 創作物 12.9% 動植物 2.3% イベント 3.9% その他 13.7% 人 28.6% 組織 9.5% 施設 14.4% 地名 7.4% 地形 2.2% 具体物 8.2% 創作物 12.9% 動植物 3.0% イベント 4.1% その他 9.6% 記事 カテゴリ