Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語語彙大系を用いたWikipediaからの汎用オントロジー構築

 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築

柴木 優美, 永田 昌明, 山本 和英. 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築. 情報処理学会 研究報告, NL194-4 (2009.11)

自然言語処理研究室

November 30, 2009
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 柴木優美 1 永田昌明 2 山本和英 1 1 長岡技術科学大学 電気系 2

    NTTコミュニケーション科学基礎研究所 日本語語彙大系を用いた Wikipediaからの汎用オントロジー構築
  2. 訂正 正誤表 訂正した予稿は本研究室HPで公開します http://nlp.nagaokaut.ac.jp/ URL: 予稿に一部間違いがあったため訂正しました テストセットの記事ページの見出し語319件のうち,インスタンスと人手で判定されたものは247件ある. 訂正前 これにより,Wikipedia カテゴリ〈カクテル〉の上位語は“

    アルコール飲料”になり, リダイレクト元の見出し語は“ 混合酒”となる. これにより,Wikipedia カテゴリ〈カクテル〉の上位語は“ アルコール飲料”になる. また,カテゴリ名と同名の記事ページのリダイレクト元の見出し語を,カテゴリの リダイレクト元の見出し語とする.よって、〈カクテル〉のリダイレクト元の見出し語は“ 混合酒”になる. 訂正後 •1点目 p.6の左段3行目~ •2点目 p.7の右段12行目(最後の行)~p8左段1行目 テストセットの記事ページの見出し語359件のうち,インスタンスと人手で判されたものは278件ある. 訂正前 訂正後
  3. 3 背景と目的 自然言語処理の分野でWikipediaの知識を利用しやすくするため Wikipediaからオントロジーを構築する Wikipedia • 誰もが自由に利用できる • 更新が速い •

    知識量(特に固有名詞)が多い • 半構造化された文書構造 問題点 Wikipediaは編集の自由度を重視しているため 厳密に構造化されていない 目的
  4. 4 オントロジーとは 自動車 人間 タイヤ 乗り物 乗用車 軽自動車 スポーツカー インスタンス

    has part owner 概念クラス B is a (kind of) A が成り立つ AとBの関係 オントロジー:概念と関係を表したもの is-a関係のオントロジーを構築する is-a関係
  5. 5 Wikipediaから構築するis-a関係のオントロジー 俳優 is-a関係のオントロジー 声優 子役 • 加藤清史郎 • 神木隆之介

    • 大山のぶ代 • 若本規夫 アクション俳優 • トム・クルーズ • ジャッキー・チェン is-a 固有名詞が多く更新が早いオントロジーが構築できる インスタンス 概念クラス Wikipedia
  6. 6 日本語Wikipedia 記事ページ 見出し語 第一文(定義文) カテゴリ名 <title>ペリー (酒) </title> '''ペリー'''([[:en:perry|perry]])もしくは'''

    ピアサイダー'''([[:en:pear cider|pear cider]])は、[[ナシ|梨]]の果汁を[[発酵]] させた[[酒]]である。[[りんご酒]](英語 でcider)に近く同じような製造方法で 製造されている。[[アルコール度数]]も 同じで8%前後である。 ・・・ [[Category:醸造酒]] [[Category:フランスの食文化]] 記事ページ ソースコード 見出し語 http://download.wikimedia.org/jawiki/
  7. 7 ・ 爆発変光星 ・ アメリカ変光星観測者協会 総記 学問 技術 自然 社会

    地理 人間 文化 歴史 宇宙 音 生物 宇宙論・ 宇宙物理学 天体 自然科学 学問の分野 恒星 1等星 2等星 日本語Wikipedia カテゴリ階層 Wikipediaのis-a関係の部分を抽出してオントロジーを構築する 変光星 カテゴリ Wikipediaはカテゴリ間の意味関係やカテゴリの分類基準が厳密に定義されていない is-a 記事ページ is-a is-a is-a
  8. 8 名詞 具体 抽象 場所 具体物 事 抽象物 生物 無生物

    施設 自然 酒 アルコール 燗酒 ワイン 名詞 具体 抽象 場所 具体物 事 抽象物 生物 無生物 施設 自然 酒 アルコール 燗酒 ワイン アルコール 燗酒 ワイン Wikipediaからオントロジーを構築するために Wikipediaからオントロジーの上位階層をつくるのは難しい Wikipediaのカテゴリは分類基準が明確でない 既にあるオントロジー「日本語語彙大系」を利用しよう 約3000 クラス 約30万 インスタンス 岩波書店, 1997 人手で作られたis-a関係のオントロジー 語彙大系クラス 語彙大系インスタンス 日本語語彙大系
  9. 9 構築されるオントロジーのイメージ図 名詞 具体物 事 抽象物 アルコール 燗酒 ワイン 酒

    ビール 蒸留酒 ワイン ウイスキー 焼酎 醸造酒 カクテル アースクエイク ネグローニ ディキ・ディキ Wikipediaカテゴリ 語彙大系クラス 日本語語彙大系を上位階層とし Wikipediaからオントロジーを構築する Wikipedia 日本語語彙大系 場所 具体 抽象 末端のクラス 酒 カテゴリ 記事ページ
  10. 10 日本語Wikipediaからオントロジーを構築する 従来手法 汎用オントロジー構築における日本語Wikipediaの適用可能性 – 桜井慎弥 手島拓也 石川雅之 森田武史 和泉憲明

    山口高平 – 人工知能学会, 第18 回セマンティックウェブとオントロジー研究会 – 2008.7.10 日本語語彙大系と日本語ウィキペディアにおける知識の自動結合による 汎用オントロジー構築手法 - 小林 暁雄 増山 繋 関根 聡 - 情報処理学会研究報告. 自然言語処理研究会報告2008-NL-187 - 2008.9.24 桜井らの手法 小林らの手法
  11. 11 桜井らの手法(先行研究, 2008) 醸造酒 酒 飲酒文化 × ビール × 後方文字列照合

    Wikipediaカテゴリ階層からis-a関係の部分を抽出する is-a Wikipediaカテゴリ階層 下位カテゴリ名の後方文字列が上位カテゴリ名と一致すれば is-a関係とする 後方文字列照合
  12. 小林らの手法(先行研究, 2009) 記事ページの 見出し語 ・酒 ・洋酒 ・ビール 861: 酒 語彙大系

    インスタンス 語彙大系クラス 醸造酒 Wikipediaカテゴリ ビルク ②カテゴリに分類されている記事ページの見出し語をインスタンスにする 語彙大系クラスの1つ下位にWikipediaカテゴリを接続する ①語彙大系クラスの1つ下位にWikipediaカテゴリを接続する 上位語 (見出し語を定義する語) ① ② パターンマッチで抽出 記事の第一文から 発泡酒
  13. カテゴリ階層構造から いくつかの階層を抽出 従来手法と本手法のイメージ図 桜井らの手法 小林らの手法 本手法 語彙大系クラスの1つ下位に カテゴリを接続 + 記事ページがインスタンス

    語彙大系にカテゴリを接続 + カテゴリ階層構造 + 記事ページがインスタンス Wikipediaカテゴリ 語彙大系クラス インスタンス インスタンス インスタンス
  14. 14 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 手順1接点カテゴリの抽出

    記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ 語彙大系クラス 手順3 インスタンスの抽出 手順2 is-a関係のカテゴリの抽出 手順1接点カテゴリの抽出 同じ分類基準 接点カテゴリ 手順1 接点カテゴリの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
  15. 15 接点カテゴリの定義 末端の語彙大系クラスとWikipediaカテゴリの分類基準が同じ 末端の語彙大系クラスのインスタンスを下位クラスと考えたとき このクラスとWikipedia カテゴリの分類基準が同じ 末端の語彙大系クラス 367:公共機関 インスタンス スポーツ選手

    251:競技者 ゴルファー 騎手 ボクサー 記事ページ ゴルファー 騎手 ボクサー 士官学校 小学校 中学校 学校 図書館 動物園 定義1 定義2 インスタンス 同じ分類基準 同じ分類基準 Wikipedia接点カテゴリ 末端の語彙大系クラス Wikipedia接点カテゴリ 記事ページ 学校 接続! 接続! 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
  16. 16 規則1. 語彙大系クラス名とWikipedia カテゴリ名が完全一致する 規則2. 語彙大系インスタンス名とWikipedia カテゴリ名が完全一致する 規則3. 語彙大系クラスのインスタンス名3件以上が,Wikipediaカテゴリの 「記事ページ3

    件以上」か「下位カテゴリ名3件以上」と完全一致する … … ①自動で接点カテゴリの候補を抽出する ②候補から人手で接点カテゴリを選択する 自動抽出規則 ①自動 ②人手 接点カテゴリ抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 … 接点カテゴリ 2,477件 接点カテゴリ候補 6,301件 1件以上接点カテゴリのある 末端の語彙大系クラス 719件 末端の語彙大系クラス 1,921件 Wikipediaカテゴリ 49,543件 候補数:1,921×49,543=9500万件
  17. 17 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ

    語彙大系クラス 手順2 is-a関係のカテゴリの抽出 手順1接点カテゴリの抽出 手順3 インスタンスの抽出 is-a 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 手順2 is-a関係のカテゴリの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 is-a カテゴリ
  18. カテゴリの上位語 飲 料 醸造酒 飲酒文化 接点カテゴリ 洋酒 カクテル 861: 酒

    857: 飲物 × × ビール ・ビール ・洋酒 ・酒 語彙大系クラス 酒 インスタンス ジンベースのカクテル アルコール飲料 または が上位の単語 と後方文字列照合すれば カテゴリの上位語 is-aカテゴリとする カテゴリ名 Wikipedia 語彙大系 ・ 語彙大系インスタンス名 ・ 語彙大系クラス名 ・ 自身より上位のis-aカテゴリ名 is-aカテゴリ is-a is-a is-a is-a is-aカテゴリの抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 カテゴリ階層構造はそのまま利用し,is-a関係の部分だけを抽出する
  19. 19 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ

    語彙大系クラス 手順3 インスタンスの抽出 • • • 記事ページの 見出し語 手順1接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 手順3 インスタンスの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
  20. 20 卵酒 (アルコール) アースクエイク (カクテル) シェイカー (器具) カクテル 記事ページ is-aカテゴリ

    飲料 861: 酒 857: 飲物 ・酒 ・洋酒 ・ビール 語彙大系クラス インスタンス 酒 インスタンスとなる × ◦ ◦ 上位語 見出し語 または が上位の単語 と後方文字列照合すれば 上位語 インスタンスとする 見出し語 ・ 語彙大系インスタンス名 ・ 語彙大系クラス名 ・ 自身より上位のis-aカテゴリ名 Wikipedia 語彙大系 インスタンス抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 記事ページの中からインスタンスを抽出する
  21. 21 評価実験 日本語Wikipedia -2008.7.24 -カテゴリ 約5万件 -記事ページ 約48万件 実験対象 評価方法

    Wikipediaの知識をどのくらい利用できたか オントロジーの適合率・再現率 従来手法との比較 (時間があれば)
  22. Wikipediaカテゴリ 49,543件 Wikipeida記事ページ 479,231件 is-aカテゴリ 23,289件 インスタンス 263,631件 55% 47%

    クラス数 : 約3,000件 インスタンス数 : 約30万件 利用したWikipediaの知識 日本語語彙大系 Wikipeidaの約半数のカテゴリと記事ページをオントロジー化することができた 語彙大系 Wikipedia Wikipediaカテゴリ 語彙大系クラス
  23. 24 深さ別のis-aカテゴリ数と適合率 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0

    80.0 90.0 100.0 1 2 3 4 5 6 7 8 9 10 11 12 13 is-aカテゴリの深さ 適合率 (%) 0 5000 10000 15000 20000 25000 is-aカテゴリの数 親-子の適合率:92.8% 先祖-子孫の適合率:82.6% 先祖-子孫の適合率 親-子の適合率 is-aカテゴリ数 サンプル数 : 深さ別に100件ずつ 接点カテゴリ
  24. 25 日本の警察署 学問分野・学科 理学 生物学 学問の分野 生物 動物 司法機関 各国の警察

    日本の警察 警察 1.語彙大系クラスとはis-a関係だが親とはis-a関係にない is-a is-a 2.途中で間違ったis-a関係があると以下が全て間違ってしまう is-a is-a 語彙大系クラス 接点カテゴリ is-a カテゴリ is-aカテゴリのエラー解析 親-子判定は◦ 先祖-子孫判定は×
  25. 26 インスタンスの適合率と再現率 小惑星 星 宇宙の日 鉄橋橋 橋 マンハッタン橋 伝統野菜 野菜

    農作物 京野菜 記事ページ 抽出したis-aカテゴリ階層 × ◦ ◦ 正解データの作り方 適合率 98.6% (205/208) 再現率 83.0% (205/247) is-aカテゴリ階層が正しいという条件下でのインスタンスの適合率と再現率を求める 結果 鉄道駅 鉄道 長岡駅 インスタンスかどうか 人手判定 階層が正しいかどうか 人手判定 ◦ ◦ ◦ これは正解データにいれない ×
  26. インスタンスのエラー解析 1.上位語抽出に失敗したもの 2.上位語が語彙大系にないもの 正解なのに抽出できなかったもの 通信機器 通信機器 携帯電話端末 不正解なのに抽出してしまったもの × 国家

    ブルガリア 国 is-a is-a … ・電話 ・無線 ・端末 ブルガリア正教会 語彙大系クラスとis-a関係にあるが親とはis-a関係にないもの 組織 語彙大系クラス 接点カテゴリ is-a カテゴリ インスタンス 語彙大系クラス 接点カテゴリ インスタンス 抽出できなかった is-aカテゴリ × SH851i FOMAらくらくホン W41SA 多くの携帯電話機種が オントロジー化されない
  27. 28 222 魔物・化け物 怪獣 ウルトラ怪獣 ガメラ 東宝怪獣 キングコング 宇宙怪獣 妖怪

    天狗 妖狐 鬼 ドラゴン 吸血鬼 霊獣 小人 (伝説の生物) ゼットン テレスドン レッドキング アボラス バニラ (ウルトラ怪獣) ケロニア ドラコ ダダ (ウルトラ怪獣) ウー (ウルトラ怪獣) チャンドラー (ウルトラ怪獣) ピグモン キーラ (ウルトラ怪獣) ブルトン (ウルトラ怪獣) シーボーズ ・ ・ ・ 獣人雪男 キングギドラ キングコング デストロイア ビオランテ スペースゴジラ アンギラス カマキラス エビラ ヘドラ ミニラ ゴジラ (架空の怪獣) オルガ (架空の怪獣) ・ ・ ・ 魔女 天狗 烏天狗 木の葉天狗 大天狗 魔縁 川天狗 女天狗 狗賓 魔女 リリス 使い魔 キルケー ランダ (魔女) パリカー マナナンガル ペナンガラン レヤック 構築できたオントロジーの例 末端の語彙大系クラス is-a カテゴリ
  28. 従来手法と比較(桜井ら) 861: 酒 酒 カクテル 醸造酒 醸造酒 酒 元のWikipediaカテゴリ階層 カクテル

    ジンベースのカクテル ジンベースのカクテル 飲酒文化 カクテル ジンベースのカクテル 酒 醸造酒 本手法は1つの階層に統合できより多くの階層を抽出できる ビール ビール 語彙大系クラス 約7000カテゴリ 約2万3000カテゴリ 桜井らの手法 本手法 ビール インスタンス 照合対象が多い
  29. 30 従来手法と比較(小林ら) 861: 酒 醸造酒 ビール 酒 語彙大系クラス 醸造酒 酒

    元のWikipediaカテゴリ階層 ビール 飲酒文化 861: 酒 酒 ビール 醸造酒 マッコリ 本手法はWikipediaカテゴリ間でもis-a関係を構築でき カテゴリ名がマッチしないものもis-a関係のカテゴリになる カテゴリの上位語 語彙大系クラス 小林らの手法 本手法 マッコリ 大衆向け醸造酒
  30. 34 語彙大系 動物 接点カテゴリが末端クラス以外に接続されると Wikipediaの利用率があがる 今までここらへんが オントロジー化されなかった Wikpedia 生物 化石動物

    化石魚類 脊椎動物 哺乳類 鳥類 化石派虫類 未確認動物 河童 動物 動物(部分) 動物(固体) 獣 鳥 今まで 今後 Wikipediaの利用率をあげたい 末端 末端
  31. 38 接点カテゴリ候補抽出規則 語彙大系クラス名とWikipedia カテゴリ名が完全一致する 語彙大系クラスのインスタンス名3件以上が,Wikipediaカテゴリの 「記事ページ3 件以上」か「下位カテゴリ名3件以上」と完全一致する 学校 861:学校 学校

    367:公共機関 学校 スポーツ選手 251:競技者 ゴルファー 騎手 ボクサー ゴルファー 騎手 ボクサー 語彙大系インスタンス名とWikipedia カテゴリ名が完全一致する 規則3 記事ページ or 下位カテゴリ インスタンス 語彙大系クラス Wikipediaカテゴリ 規則1 規則2 インスタンス
  32. 39 規則別の接点カテゴリ数 規則 番号 接点カテゴリ候補抽出規則 自動抽出 候補数 人手抽出 1 336

    302 2 4,310 2,440 3 2,742 713 1~3 規則1~3のうち1つでも当てはまるもの 6,301 2,477 学校 861:学校 語彙大系クラス Wikipediaカテゴリ 学校 367:公共機関 学校 インスタンス
  33. 41 規則 番号 接点カテゴリ候補抽出規則 自動抽出 候補数 人手抽出 1 269 261

    2 3,140 2,292 3 2502 691 1~3 規則1~3のうち1つでも当てはまるもの 4,981 2,366 学校 861:学校 語彙大系クラス Wikipediaカテゴリ 学校 367:公共機関 学校 インスタンス 接点カテゴリ数(リダイレクトを含まない場合)
  34. 43 日本語語彙大系 詳細 約3000 クラス 約30万 インスタンス 岩波書店, 1997 2700

    クラス 100,000 単語 1:名詞 2:具体 1000:抽象 3:主体 388:場所 533:具体物 4:人 362:組織 389:施設 468:自然 534:生物 706:無生物 915:家庭用具 1001:事 1235:抽象物 2422:抽象的関係 353:筆者 ライター 1:固有名詞 2:地名 66:人名 97:学校名 85:組織名 130 クラス 200,000 単語 一般名詞意味体系 固有名詞意味体系 405:学校 106:その他の 固有名詞 対応づけ 語彙大系インスタンス アイロン 爪切り ライター 作家 作者 語彙大系クラス
  35. 44 is-aカテゴリ結果 詳細① 全is-aカテゴリ数:85,071件 接点カテゴリ1件あたりの 葉の深さの平均 :1.96 is-aカテゴリ数 :56.6件 葉

    is-aカテゴリになったカテゴリ:23,289件 接点カテゴリ is-a カテゴリ 末端の語彙大系クラス
  36. 45 is-aカテゴリ結果 ② 1 10 100 1000 10000 0 2

    4 6 8 葉の深さ平均 is-aカテゴリ数 小規模な大量のis-aカテゴリ階層と、 大規模ないくつかのis-aカテゴリ階層からなる 全体の50% 各接点カテゴリにおける葉の深さの平均とis-aカテゴリ数の関係
  37. 46 インスタンス結果 詳細 各クラスカテゴリのインスタンス記事数のヒストグラムと累積相対度数 0 2000 4000 6000 8000 10000

    12000 14000 16000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 各クラスカテゴリのインスタンス記事数 クラスカテゴリ数 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 累積相対度数 クラスカテゴリ数 累積相対度数 is-a カテゴリ1件あたりのインスタンス数 : 17.8件 各is-aカテゴリのインスタンス数 各is-aカテゴリのインスタンス数 各is-aカテゴリ数 累積相対度数
  38. 47 語彙大系クラス階層 桜井手法との精度比較 正解率 93%くらい 前方文字列照合部除去 後方文字列照合 利用カテゴリ数 7000件くらい 正解率

    99%以上 後方文字列照合 のみ 利用カテゴリ数 6000件強 正解率 93%くらい 利用カテゴリ数 7000件くらい 桜井らの手法 本手法
  39. 48 論文より 小林らの手法 本手法 対象カテゴリ数 43,071件 49,543件 生成数 19,426件 23,289件

    抽出率 45% 47% 正解率 93% 親-子:92.8% 先祖-子孫:82.6% クラス階層の構築 比較
  40. 49 小林らの手法 新手法 対象記事数 約400,000件 479,231件 生成数 179,399件 263,655件 抽出率

    45 % 55 % 正解率 99 % 98.6 % 論文より インスタンスの構築 比較