Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Wikipediaからの大規模な人オントロジー構築

 Wikipediaからの大規模な人オントロジー構築

柴木 優美,永田 昌明, 山本 和英. Wikipediaからの大規模な人オントロジー構築. 情報処理学会 研究報告, NL198-3 (2010.9)

自然言語処理研究室

September 30, 2010
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. Wikipedia からの 大規模な人オントロジー構築 柴木優美 1 永田昌明 2 山本和英 1 1

    長岡技術科学大学 2 NTT コミュニケーション科学基礎研究所
  2. 2 目次 • はじめに – 背景・目的・概要 • 言語資源 – 日本語語彙大系、日本語Wikipedia

    • 関連手法 – 桜井らの手法、小林らの手法、山下の手法 • 日本語Wikipediaの予備調査 • 提案手法 • 実験結果と考察 • おわりに
  3. 3 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 – 日本語語彙大系、日本語Wikipedia • 関連手法 – 桜井らの手法、小林らの手法、山下の手法 • 日本語Wikipediaの予備調査 • 提案手法 • 実験結果と考察 • おわりに
  4. (櫻井翔、消防士、日本人) • 背景 – 自然言語処理の資源の1つであるオントロジーは、 新しい語彙を即時に増やすのが大変 背景と目的 • 目的 –

    Wikipediaから大規模なis-a関係の人オントロジー を構築する • 更新が早く、語彙数が多い • Wikipediaは人を表す記事やカテゴリが多い • 大規模な人オントロジーは、人名検索や固有表現抽出 に利用できる • “人”とは? – 個人名、職業名、民族名など
  5. 5 概要と結果 • 手法の概要 – Wikipediaのカテゴリのうち、人カテゴリ 人カテゴリ 人カテゴリ 人カテゴリを機械学習 による分類器で判定

    • 結果 人カテゴリ : 適合率 99.3%、 再現率 98.4% 人インスタンス : 適合率 98.2% 、再現率 98.6% – Wikipediaの記事の見出し語から人インスタンス 人インスタンス 人インスタンス 人インスタンスを ルールベースで抽出 (記事) • Wikipediaのカテゴリ階層構造 • 日本語語彙大系を利用した素性 素性 • スポーツ選手 • 経済に関する人物 • 櫻井翔 • ファイナンシャルプラン ナー
  6. 6 • 人カテゴリ、人インスタンス数 – Wikipediaの人カテゴリ : 約8,500件 – Wikipediaの人インスタンス(記事) :

    約13万件 職業別の人物 is-a 人 人オントロジーの一部 • マサイ族 • ソマリ族 評論家 民族 アフリカの民族 アニメーター • 相澤昌弘 Wikipediaの評論家 アニメのキャラクター デザイナー カテゴリ スポーツ関連の人物 • ボールボーイ • スポーツマスター is-a インスタンス (記事)
  7. 7 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 – 桜井らの手法、小林らの手法、山下の手法 • 日本語Wikipediaの予備調査 • 提案手法 • 実験結果と考察 • おわりに
  8. 8 • モデル • おもちゃ • 名詞 主体 具体物 場所

    具体 抽象 Instance その他のカテゴリ 人カテゴリ is-a 日本語語彙大系 • 日本語語彙大系の一般名詞の意味体系 – 一般名詞 :10万件 (インスタンス) – カテゴリ :2,700 件 – 1つの名詞が1つ以上のカテゴリに分類される 遊び道具・運道具 人 競技者 芸人 • モデル • ダンサー •
  9. 9 記事 ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー(Michelle Wie, 1989年10月11日- ) は、ゴルフ選手である。

    カテゴリ 見出し語 定義文 スポーツ選手 スポーツ 職業別の人物 is-a not-is-a 日本のゴルファー アメリカ合衆国のゴルファー 日本語Wikipedia カテゴリ • ミシェル・ウィー • PGA ツアー not-is-a is-a • 記事 – ほとんどの記事は、第一文が定義文 – カテゴリが付与されている • カテゴリ – カテゴリのリンク関係はis-a関係とは限らない (約50万件) (約4万件)
  10. 10 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 関連手法 関連手法 関連手法 – 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 • 日本語Wikipediaの予備調査 • 提案手法 • 実験結果と考察 • おわりに
  11. 11 • 後方文字列照合 下位カテゴリ名の後方文字列が上位カテゴリ名と 一致すれば is-a関係とする 桜井らの手法 [桜井, 2008] •

    問題点 – いくつかの階層から成り、1つに統合されていない – 文字列照合のため、適合率は高いが再現率が低い is-a アメリカ合衆国のゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー Wikipediaカテゴリ階層
  12. 12 • 後方文字列照合 下位カテゴリ名の後方文字列が上位カテゴリ名と 一致すれば is-a関係とする 桜井らの手法 [桜井, 2008] •

    問題点 – いくつかの階層から成り、1つに統合されていない – 文字列照合のため、適合率は高いが再現率が低い is-a アメリカ合衆国のゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー ゴルファー Wikipediaカテゴリ階層 スポーツ選手 スポーツ選手 スポーツ選手 スポーツ選手 × × × ×
  13. 13 • Michelle Wie (ゴルフ選手) • PGAツアー (ツアー) • 問題点

    • 選手 • ゴルファー インスタンス 定義文からの上位語 競技者 マッチする 小林らの手法 [小林, 2008] マッチしない 語彙大系のカテゴリ Wikipediaのカテゴリ アメリカ合衆国のゴルファー × × × × 記事の見出し語 1 2 1 2 カテゴリに分類されている記事の見出し語をインスタンスにする 語彙大系のカテゴリの1つ下位にWikipediaのカテゴリを接続する ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー(Michelle Wie, 1989 年10月11日- )は、ゴルフ選手である。 ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー ミシェル・ウィー 上位語 記事の見出し語 語彙大系のインスタンスに文字列がマッチしない記事は抽出できない (例:アニメーター、パーカッショニスト) 接続
  14. 14 人、馬、犬の名前を 分類するためのカテゴリ • Wikipediaの記事の見出し語から人名を抽出 – “◦年生” というカテゴリが付与される記事を人名として抽出 山下の手法 [山下,

    2007] 人名 • 問題点 – シンプルな手法で適合率は高いが、再現率は低い ミシェル・ウィー(Michelle Wie, 1989年10月11日 - )は、 アメリカ合衆国・ハワイ州ホノルル出身の女子プロゴル ファーである。韓国系アメリカ人で、韓国語名はウィ・ソン ミ(위성미、魏聖美)という。長身を生かした抜群の飛距 離を大きな持ち味とする選手。
  15. 15 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 関連手法 関連手法 関連手法 – 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 • 日本語 日本語 日本語 日本語Wikipediaの予備調査 の予備調査 の予備調査 の予備調査 • 提案手法 • 実験結果と考察 • おわりに
  16. 16 日本語Wikipediaの予備調査 見積もり • 人カテゴリ、人インスタンス数 人カテゴリ : 8,485件 (21.3%) 人インスタンス

    : 130,000件 (27.7%) (記事) • is-a 関係 (2008.7.24時点) 親子関係のある人カテゴリのリンクは、is-a 関係が 98.7%成り立つ。(全カテゴリリンク中、68%がis-a関係) ・・・ 例 :スポーツ選手 ← ゴルファー 人インスタンスの97.3% は、1件以上の人カテゴリが 付与されている。 ・・・記事 “アイザック・ニュートン” は “イギリスの物理学者” や “錬金術師”などの人カテゴリが付与されている
  17. 17 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 関連手法 関連手法 関連手法 – 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 • 日本語 日本語 日本語 日本語Wikipediaの予備調査 の予備調査 の予備調査 の予備調査 • 提案手法 提案手法 提案手法 提案手法 • 実験結果と考察 • おわりに
  18. 18 楽器製作者 放送 Wikipedia カテゴリ階層 ナレータープロダクション 音楽関係者 技術者 ナレーター 音楽家

    作曲家 提案手法の手順 (1/3) 音楽 技術 指揮者 1. SVMを利用し、Wikipediaのカテゴリから 人カテゴリを抽出する
  19. 19 提案手法の手順 (2/3) 2. 親子カテゴリが両方人カテゴリならば、 リンクをis-a関係とみなす × × × ×

    楽器製作者 放送 ナレータープロダクション 音楽関係者 技術者 ナレーター 音楽家 作曲家 音楽 技術 指揮者 is-a is-a is-a is-a is-a × × × × × × × × × × × × × × × ×
  20. 20 提案手法の手順 (2/3) ルートカテゴリ ナレーター ルートカテゴリ ルートカテゴリ 人 楽器製作者 音楽関係者

    音楽家 作曲家 指揮者 技術者 人カテゴリ階層 2. 親子カテゴリが両方人カテゴリならば、 リンクをis-a関係とみなす
  21. 21 提案手法の手順 (3/3) • 森本レオ • アマティ • 宮城道雄 3.

    人カテゴリに分類されている記事から、 人インスタンスを ルールベースで抽出 人 楽器製作者 音楽関係者 音楽家 作曲家 指揮者 技術者 人カテゴリ階層 ナレーター • 名誉指揮者 • 指揮(音楽) × × × ×
  22. 22 楽器製作者 放送 Wikipedia カテゴリ階層 ナレータープロダクション 音楽関係者 技術者 ナレーター 音楽家

    作曲家 提案手法の手順 (1/3) 音楽 技術 指揮者 1. SVMを利用し、Wikipediaのカテゴリから 人カテゴリを抽出する
  23. 23 対象カテゴリに分類されている記事の 定義文から抽出した上位語 対象カテゴリと同名記事の 定義文から抽出した上位語 音楽家は、曲を作ったり、 演奏したりする人のこと。 音楽家 音楽家 音楽家

    音楽家 音楽家 • 小説家 • ライター 対象カテゴリ 音楽関係者 親カテゴリ 子カテゴリ 指揮者 楽器製作者 SVMの素性 (1/3) カテゴリの周辺単語6種類 (主に一般名詞から成る) 2 3 5 6 1 兄弟カテゴリ 4
  24. 24 :対象カテゴリ :類似カテゴリ :最後の形態素 先祖、子孫、兄弟カテゴリのうち、対象カテゴリと最後の形態素が マッチするカテゴリ 類似カテゴリの周辺単語を、対象カテゴリの素性に加えることで、 周辺単語の少ないカテゴリを助ける 音楽 作曲家

    演奏家 芸術 職業別の人物 芸術家 音楽家 ジャズ作曲家 “音楽家”の素性のための単語 “音楽家”の周辺単語 + “芸術家”、 “作曲家”、 “ジャズ作曲家”、 “演奏家”の周辺単語 = SVMの素性 (2/3) 類似カテゴリ
  25. 25 a. “人”の意味しかない 例:ダンサー、アーティスト、小説家 etc… b. “人”以外の意味しかない 例:ツアー、ゴルフ、スポーツ etc… c.

    “人”と“人”以外両方の意味がある 例:モデル、マスター、センター etc… d. 未定義語 例:ゲーマー、スナイパー、ユビキタス etc… • 6種類の単語を語彙大系のインスタンスと照合 – 以下の4タイプの頻度を素性に利用 SVMの素性 (3/3)
  26. 26 提案手法の手順 (2/3) 2. 親子カテゴリが両方人カテゴリならば、 リンクをis-a関係とみなす × × × ×

    楽器製作者 放送 ナレータープロダクション 音楽関係者 技術者 ナレーター 音楽家 作曲家 音楽 技術 指揮者 is-a is-a is-a is-a is-a × × × × × × × × × × × × × × × ×
  27. 27 提案手法の手順 (2/3) ルートカテゴリ ナレーター ルートカテゴリ ルートカテゴリ 人 楽器製作者 音楽関係者

    音楽家 作曲家 指揮者 技術者 人カテゴリ階層 2. 親子カテゴリが両方人カテゴリならば、 リンクをis-a関係とみなす
  28. 28 提案手法の手順 (3/3) • 森本レオ • アマティ • 宮城道雄 3.

    人カテゴリに分類されている記事から、 人インスタンスを ルールベースで抽出 人 楽器製作者 音楽関係者 音楽家 作曲家 指揮者 技術者 人カテゴリ階層 ナレーター • 名誉指揮者 • 指揮(音楽) × × × ×
  29. 29 鉄道写真家 鉄道写真家 鉄道写真家 鉄道写真家とは、鉄道写真を撮るこ とで生計を立てている人物である。 人インスタンスの抽出 • 人カテゴリに分類されている記事から、 人インスタンスを

    ルールベースで抽出 記事名または定義文の上位語が、語彙大系の人カテゴリの インスタンスにマッチ 付与されているカテゴリの半分以上が人カテゴリ カテゴリが“◦年生”などのパターンにマッチ 鉄道写真家 鉄道写真家 鉄道写真家 鉄道写真家 上位語 記事の見出し語 カテゴリ:アメリカ合衆国のゴルファー 女性ゴルファー 1989年生
  30. 30 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 関連手法 関連手法 関連手法 – 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 • 日本語 日本語 日本語 日本語Wikipediaの予備調査 の予備調査 の予備調査 の予備調査 • 提案手法 提案手法 提案手法 提案手法 • 実験結果と考察 実験結果と考察 実験結果と考察 実験結果と考察 • おわりに
  31. 31 適合率 再現率 F値 小林らの 手法 92.8% (6727/7247) 83.6% (6727/8050)

    88.0% 提案手法 提案手法 提案手法 提案手法 99.3% (7922/7979) 98.4% (7922/8050) 98.8% 実験結果 (1/2) • 抽出した人カテゴリ数 : 8,357件 • ルートカテゴリ数 : 224件 • 人カテゴリ抽出精度 – 学習データ数 : 2,000件 (人:435) (ランダムサンプリング) – 評価データ数 : 37,767件 (人:8,050) (残り) (抽出データ + 学習データ)
  32. 32 適合率 再現率 F値 山下の 手法 100.0% (218/218) 77.6% (218/281)

    87.4% 小林らの 手法 96.0% (264/275) 94.0% (264/281) 95.0% 提案手法 98.2% (277/282) 98.6% (277/281) 98.4% • 96.2 % of person instances are personal names 実験結果 (2/2) • 人インスタンス抽出精度 – 評価データ数: 1,000件 (人:281) (ランダムサンプリング) ※ 人インスタンスの96.2 %が人名
  33. 34 本手法1 本手法2 本手法3 2k 30k 1k 100.0 98.0 96.0

    94.0 92.0 90.0 F値 [%] 学習データ数 • 類似カテゴリを使うと、学習データ数に関わらずF値が高い • 語彙大系を使うことで、学習データ数が低くても精度が高い 学習データ数: 1,000 ~ 30,000件 評価データ数:9,767 考察(2/3) ~素性の効果~ 学習データ数に対する各素性のF値 提案手法 類似カテゴリを利用しない 語彙大系を利用しない 3k 10k 20k
  34. 35 柴木ら(2009) : 語彙大系を上位階層とし末端のカテゴリ以下に Wikipediaのカテゴリ階層を接続する。 作曲家 指揮者 音楽家 音楽関係者 音楽家

    技術者 ナレーター 今回の手法 : 語彙大系は素性作成のために利用。 上位階層はなく、最上位カテゴリ「人」のみ →柴木ら(2009)より利用できるカテゴリ階層が増えた 柴木ら(2009) 今回の手法 音楽家 人 楽器製作者 作曲家 指揮者 考察(3/3) ~[柴木ら, 2009]との違い~ Wikipedia 語彙大系 語り手 ナレーター
  35. 36 目次 • はじめに はじめに はじめに はじめに – 背景・目的・概要 背景・目的・概要

    背景・目的・概要 背景・目的・概要 • 言語資源 言語資源 言語資源 言語資源 – 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語 日本語語彙大系、日本語Wikipedia • 関連手法 関連手法 関連手法 関連手法 – 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 桜井らの手法、小林らの手法、山下の手法 • 日本語 日本語 日本語 日本語Wikipediaの予備調査 の予備調査 の予備調査 の予備調査 • 提案手法 提案手法 提案手法 提案手法 • 実験結果と考察 • おわりに おわりに おわりに おわりに
  36. 37 おわりに • 大規模で更新の早い、Wikipediaの人オントロ ジーを構築できた • 高精度で人カテゴリと人インスタンスを抽出できた 人カテゴリ : 適合率

    99.3%、 再現率 98.4% 人インスタンス : 適合率 98.2% 、再現率 98.6% • 今後、人以外を対象に本手法を適用させてみる 組織名や商品名など。固有表現抽出実験を試みたい。 (記事)
  37. 40 適合率 再現率 F値 小林らの 手法 95.9% (259/270) 87.5% (259/296)

    91.5% 提案手法 提案手法 提案手法 提案手法 98.0% (294/300) 99.3% (294/296) 98.7% カテゴリと記事間のis-a関係の精度 アメリカ合衆国のゴルファー - ミシェル・ウィー 芸術家 - 功労芸術家 1,000件 (positive:296, negative:704) (全カテゴリ-記事ペアからランダムサンプリング) 評価データ : Positive ex. Negative ex. 公務員 - 国家公務員倫理法 ホリプロ - 綾瀬はるか
  38. 41 precision recall f-value 100.0 99.0 98.0 97.0 適合率 再現率

    F値 学習データ量 適合率/再現率 / F値 [%] 10k 20k 30k 1k 3k 2k 学習データ量に伴うF値の変化
  39. 43 Wikipedia のカテゴリの分類分野と, 全体から見た割合 人名 神名 組織名 地名 施設名 製品名

    イベント名 自然物名 病気名 色名 関根の拡張固有表現階 層の最上位カテゴリ 今回考えたカテゴリ