Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
Search
自然言語処理研究室
November 30, 2009
Research
1
400
日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
柴木 優美, 永田 昌明, 山本 和英. 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築. 情報処理学会 研究報告, NL194-4 (2009.11)
自然言語処理研究室
November 30, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
180
Equivalence of Geodesics and Importance Weighting from the Perspective of Information Geometry
mkimura
0
140
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
SSII2023 医療支援における画像処理研究の動向と展望
moda0
0
110
脳卒中患者・家族からみた循環器病対策推進基本計画の進捗に関する調査
japanstrokeassociation
0
530
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
140
センサデータを活用した 肌質改善への支援システムに関する研究
comfortdesignlab
0
150
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
630
ICLR2024 LLMエージェントの研究動向
masatoto
6
1.4k
オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models
nttcom
14
5.4k
Experiments on ROP Attack with Various Instruction Set Architectures
yumulab
0
320
200名の育児中男性の声 「僕たちは、キャリアとライフをトレードオフにしたくない」共働き3.0世代の男性が 本当に求める働き方とは【ワーキングペアレンツの転職意識調査2023|XTalent株式会社】
xtalent
0
480
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
Documentation Writing (for coders)
carmenintech
60
3.9k
Faster Mobile Websites
deanohume
299
30k
Clear Off the Table
cherdarchuk
84
310k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Designing with Data
zakiwarfel
96
4.8k
The Language of Interfaces
destraynor
151
23k
Producing Creativity
orderedlist
PRO
337
39k
Art, The Web, and Tiny UX
lynnandtonic
289
19k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
187
16k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
How to Ace a Technical Interview
jacobian
272
22k
Transcript
柴木優美 1 永田昌明 2 山本和英 1 1 長岡技術科学大学 電気系 2
NTTコミュニケーション科学基礎研究所 日本語語彙大系を用いた Wikipediaからの汎用オントロジー構築
訂正 正誤表 訂正した予稿は本研究室HPで公開します http://nlp.nagaokaut.ac.jp/ URL: 予稿に一部間違いがあったため訂正しました テストセットの記事ページの見出し語319件のうち,インスタンスと人手で判定されたものは247件ある. 訂正前 これにより,Wikipedia カテゴリ〈カクテル〉の上位語は“
アルコール飲料”になり, リダイレクト元の見出し語は“ 混合酒”となる. これにより,Wikipedia カテゴリ〈カクテル〉の上位語は“ アルコール飲料”になる. また,カテゴリ名と同名の記事ページのリダイレクト元の見出し語を,カテゴリの リダイレクト元の見出し語とする.よって、〈カクテル〉のリダイレクト元の見出し語は“ 混合酒”になる. 訂正後 •1点目 p.6の左段3行目~ •2点目 p.7の右段12行目(最後の行)~p8左段1行目 テストセットの記事ページの見出し語359件のうち,インスタンスと人手で判されたものは278件ある. 訂正前 訂正後
3 背景と目的 自然言語処理の分野でWikipediaの知識を利用しやすくするため Wikipediaからオントロジーを構築する Wikipedia • 誰もが自由に利用できる • 更新が速い •
知識量(特に固有名詞)が多い • 半構造化された文書構造 問題点 Wikipediaは編集の自由度を重視しているため 厳密に構造化されていない 目的
4 オントロジーとは 自動車 人間 タイヤ 乗り物 乗用車 軽自動車 スポーツカー インスタンス
has part owner 概念クラス B is a (kind of) A が成り立つ AとBの関係 オントロジー:概念と関係を表したもの is-a関係のオントロジーを構築する is-a関係
5 Wikipediaから構築するis-a関係のオントロジー 俳優 is-a関係のオントロジー 声優 子役 • 加藤清史郎 • 神木隆之介
• 大山のぶ代 • 若本規夫 アクション俳優 • トム・クルーズ • ジャッキー・チェン is-a 固有名詞が多く更新が早いオントロジーが構築できる インスタンス 概念クラス Wikipedia
6 日本語Wikipedia 記事ページ 見出し語 第一文(定義文) カテゴリ名 <title>ペリー (酒) </title> '''ペリー'''([[:en:perry|perry]])もしくは'''
ピアサイダー'''([[:en:pear cider|pear cider]])は、[[ナシ|梨]]の果汁を[[発酵]] させた[[酒]]である。[[りんご酒]](英語 でcider)に近く同じような製造方法で 製造されている。[[アルコール度数]]も 同じで8%前後である。 ・・・ [[Category:醸造酒]] [[Category:フランスの食文化]] 記事ページ ソースコード 見出し語 http://download.wikimedia.org/jawiki/
7 ・ 爆発変光星 ・ アメリカ変光星観測者協会 総記 学問 技術 自然 社会
地理 人間 文化 歴史 宇宙 音 生物 宇宙論・ 宇宙物理学 天体 自然科学 学問の分野 恒星 1等星 2等星 日本語Wikipedia カテゴリ階層 Wikipediaのis-a関係の部分を抽出してオントロジーを構築する 変光星 カテゴリ Wikipediaはカテゴリ間の意味関係やカテゴリの分類基準が厳密に定義されていない is-a 記事ページ is-a is-a is-a
8 名詞 具体 抽象 場所 具体物 事 抽象物 生物 無生物
施設 自然 酒 アルコール 燗酒 ワイン 名詞 具体 抽象 場所 具体物 事 抽象物 生物 無生物 施設 自然 酒 アルコール 燗酒 ワイン アルコール 燗酒 ワイン Wikipediaからオントロジーを構築するために Wikipediaからオントロジーの上位階層をつくるのは難しい Wikipediaのカテゴリは分類基準が明確でない 既にあるオントロジー「日本語語彙大系」を利用しよう 約3000 クラス 約30万 インスタンス 岩波書店, 1997 人手で作られたis-a関係のオントロジー 語彙大系クラス 語彙大系インスタンス 日本語語彙大系
9 構築されるオントロジーのイメージ図 名詞 具体物 事 抽象物 アルコール 燗酒 ワイン 酒
ビール 蒸留酒 ワイン ウイスキー 焼酎 醸造酒 カクテル アースクエイク ネグローニ ディキ・ディキ Wikipediaカテゴリ 語彙大系クラス 日本語語彙大系を上位階層とし Wikipediaからオントロジーを構築する Wikipedia 日本語語彙大系 場所 具体 抽象 末端のクラス 酒 カテゴリ 記事ページ
10 日本語Wikipediaからオントロジーを構築する 従来手法 汎用オントロジー構築における日本語Wikipediaの適用可能性 – 桜井慎弥 手島拓也 石川雅之 森田武史 和泉憲明
山口高平 – 人工知能学会, 第18 回セマンティックウェブとオントロジー研究会 – 2008.7.10 日本語語彙大系と日本語ウィキペディアにおける知識の自動結合による 汎用オントロジー構築手法 - 小林 暁雄 増山 繋 関根 聡 - 情報処理学会研究報告. 自然言語処理研究会報告2008-NL-187 - 2008.9.24 桜井らの手法 小林らの手法
11 桜井らの手法(先行研究, 2008) 醸造酒 酒 飲酒文化 × ビール × 後方文字列照合
Wikipediaカテゴリ階層からis-a関係の部分を抽出する is-a Wikipediaカテゴリ階層 下位カテゴリ名の後方文字列が上位カテゴリ名と一致すれば is-a関係とする 後方文字列照合
小林らの手法(先行研究, 2009) 記事ページの 見出し語 ・酒 ・洋酒 ・ビール 861: 酒 語彙大系
インスタンス 語彙大系クラス 醸造酒 Wikipediaカテゴリ ビルク ②カテゴリに分類されている記事ページの見出し語をインスタンスにする 語彙大系クラスの1つ下位にWikipediaカテゴリを接続する ①語彙大系クラスの1つ下位にWikipediaカテゴリを接続する 上位語 (見出し語を定義する語) ① ② パターンマッチで抽出 記事の第一文から 発泡酒
カテゴリ階層構造から いくつかの階層を抽出 従来手法と本手法のイメージ図 桜井らの手法 小林らの手法 本手法 語彙大系クラスの1つ下位に カテゴリを接続 + 記事ページがインスタンス
語彙大系にカテゴリを接続 + カテゴリ階層構造 + 記事ページがインスタンス Wikipediaカテゴリ 語彙大系クラス インスタンス インスタンス インスタンス
14 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 手順1接点カテゴリの抽出
記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ 語彙大系クラス 手順3 インスタンスの抽出 手順2 is-a関係のカテゴリの抽出 手順1接点カテゴリの抽出 同じ分類基準 接点カテゴリ 手順1 接点カテゴリの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
15 接点カテゴリの定義 末端の語彙大系クラスとWikipediaカテゴリの分類基準が同じ 末端の語彙大系クラスのインスタンスを下位クラスと考えたとき このクラスとWikipedia カテゴリの分類基準が同じ 末端の語彙大系クラス 367:公共機関 インスタンス スポーツ選手
251:競技者 ゴルファー 騎手 ボクサー 記事ページ ゴルファー 騎手 ボクサー 士官学校 小学校 中学校 学校 図書館 動物園 定義1 定義2 インスタンス 同じ分類基準 同じ分類基準 Wikipedia接点カテゴリ 末端の語彙大系クラス Wikipedia接点カテゴリ 記事ページ 学校 接続! 接続! 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
16 規則1. 語彙大系クラス名とWikipedia カテゴリ名が完全一致する 規則2. 語彙大系インスタンス名とWikipedia カテゴリ名が完全一致する 規則3. 語彙大系クラスのインスタンス名3件以上が,Wikipediaカテゴリの 「記事ページ3
件以上」か「下位カテゴリ名3件以上」と完全一致する … … ①自動で接点カテゴリの候補を抽出する ②候補から人手で接点カテゴリを選択する 自動抽出規則 ①自動 ②人手 接点カテゴリ抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 … 接点カテゴリ 2,477件 接点カテゴリ候補 6,301件 1件以上接点カテゴリのある 末端の語彙大系クラス 719件 末端の語彙大系クラス 1,921件 Wikipediaカテゴリ 49,543件 候補数:1,921×49,543=9500万件
17 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ
語彙大系クラス 手順2 is-a関係のカテゴリの抽出 手順1接点カテゴリの抽出 手順3 インスタンスの抽出 is-a 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 手順2 is-a関係のカテゴリの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 is-a カテゴリ
カテゴリの上位語 飲 料 醸造酒 飲酒文化 接点カテゴリ 洋酒 カクテル 861: 酒
857: 飲物 × × ビール ・ビール ・洋酒 ・酒 語彙大系クラス 酒 インスタンス ジンベースのカクテル アルコール飲料 または が上位の単語 と後方文字列照合すれば カテゴリの上位語 is-aカテゴリとする カテゴリ名 Wikipedia 語彙大系 ・ 語彙大系インスタンス名 ・ 語彙大系クラス名 ・ 自身より上位のis-aカテゴリ名 is-aカテゴリ is-a is-a is-a is-a is-aカテゴリの抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 カテゴリ階層構造はそのまま利用し,is-a関係の部分だけを抽出する
19 下位のWikipediaカテゴリ階層から is-a 関係のカテゴリ(is-a カテゴリ)を 自動抽出する 記事ページの見出し語から インスタンスとなるものを 自動抽出する Wikipediaカテゴリ
語彙大系クラス 手順3 インスタンスの抽出 • • • 記事ページの 見出し語 手順1接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 末端の語彙大系クラスに対し 同じ分類基準のWikipediaカテゴリを 半自動で対応づける 手順3 インスタンスの抽出 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出
20 卵酒 (アルコール) アースクエイク (カクテル) シェイカー (器具) カクテル 記事ページ is-aカテゴリ
飲料 861: 酒 857: 飲物 ・酒 ・洋酒 ・ビール 語彙大系クラス インスタンス 酒 インスタンスとなる × ◦ ◦ 上位語 見出し語 または が上位の単語 と後方文字列照合すれば 上位語 インスタンスとする 見出し語 ・ 語彙大系インスタンス名 ・ 語彙大系クラス名 ・ 自身より上位のis-aカテゴリ名 Wikipedia 語彙大系 インスタンス抽出手法 手順1 接点カテゴリの抽出 手順2 is-a関係のカテゴリの抽出 手順3 インスタンスの抽出 記事ページの中からインスタンスを抽出する
21 評価実験 日本語Wikipedia -2008.7.24 -カテゴリ 約5万件 -記事ページ 約48万件 実験対象 評価方法
Wikipediaの知識をどのくらい利用できたか オントロジーの適合率・再現率 従来手法との比較 (時間があれば)
Wikipediaカテゴリ 49,543件 Wikipeida記事ページ 479,231件 is-aカテゴリ 23,289件 インスタンス 263,631件 55% 47%
クラス数 : 約3,000件 インスタンス数 : 約30万件 利用したWikipediaの知識 日本語語彙大系 Wikipeidaの約半数のカテゴリと記事ページをオントロジー化することができた 語彙大系 Wikipedia Wikipediaカテゴリ 語彙大系クラス
23 is-aカテゴリの適合率 親-子の適合率 先祖-子孫の適合率 対象カテゴリの1つ上位のカテゴリとis-a関係にあるかどうか 対象カテゴリより上位のカテゴリ(先祖のカテゴリ)全てが is-a関係の階層となっているか is-a関係? 金管楽器 トランペット
金管楽器 トランペット 管楽器 楽器 is-a関係?
24 深さ別のis-aカテゴリ数と適合率 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0
80.0 90.0 100.0 1 2 3 4 5 6 7 8 9 10 11 12 13 is-aカテゴリの深さ 適合率 (%) 0 5000 10000 15000 20000 25000 is-aカテゴリの数 親-子の適合率:92.8% 先祖-子孫の適合率:82.6% 先祖-子孫の適合率 親-子の適合率 is-aカテゴリ数 サンプル数 : 深さ別に100件ずつ 接点カテゴリ
25 日本の警察署 学問分野・学科 理学 生物学 学問の分野 生物 動物 司法機関 各国の警察
日本の警察 警察 1.語彙大系クラスとはis-a関係だが親とはis-a関係にない is-a is-a 2.途中で間違ったis-a関係があると以下が全て間違ってしまう is-a is-a 語彙大系クラス 接点カテゴリ is-a カテゴリ is-aカテゴリのエラー解析 親-子判定は◦ 先祖-子孫判定は×
26 インスタンスの適合率と再現率 小惑星 星 宇宙の日 鉄橋橋 橋 マンハッタン橋 伝統野菜 野菜
農作物 京野菜 記事ページ 抽出したis-aカテゴリ階層 × ◦ ◦ 正解データの作り方 適合率 98.6% (205/208) 再現率 83.0% (205/247) is-aカテゴリ階層が正しいという条件下でのインスタンスの適合率と再現率を求める 結果 鉄道駅 鉄道 長岡駅 インスタンスかどうか 人手判定 階層が正しいかどうか 人手判定 ◦ ◦ ◦ これは正解データにいれない ×
インスタンスのエラー解析 1.上位語抽出に失敗したもの 2.上位語が語彙大系にないもの 正解なのに抽出できなかったもの 通信機器 通信機器 携帯電話端末 不正解なのに抽出してしまったもの × 国家
ブルガリア 国 is-a is-a … ・電話 ・無線 ・端末 ブルガリア正教会 語彙大系クラスとis-a関係にあるが親とはis-a関係にないもの 組織 語彙大系クラス 接点カテゴリ is-a カテゴリ インスタンス 語彙大系クラス 接点カテゴリ インスタンス 抽出できなかった is-aカテゴリ × SH851i FOMAらくらくホン W41SA 多くの携帯電話機種が オントロジー化されない
28 222 魔物・化け物 怪獣 ウルトラ怪獣 ガメラ 東宝怪獣 キングコング 宇宙怪獣 妖怪
天狗 妖狐 鬼 ドラゴン 吸血鬼 霊獣 小人 (伝説の生物) ゼットン テレスドン レッドキング アボラス バニラ (ウルトラ怪獣) ケロニア ドラコ ダダ (ウルトラ怪獣) ウー (ウルトラ怪獣) チャンドラー (ウルトラ怪獣) ピグモン キーラ (ウルトラ怪獣) ブルトン (ウルトラ怪獣) シーボーズ ・ ・ ・ 獣人雪男 キングギドラ キングコング デストロイア ビオランテ スペースゴジラ アンギラス カマキラス エビラ ヘドラ ミニラ ゴジラ (架空の怪獣) オルガ (架空の怪獣) ・ ・ ・ 魔女 天狗 烏天狗 木の葉天狗 大天狗 魔縁 川天狗 女天狗 狗賓 魔女 リリス 使い魔 キルケー ランダ (魔女) パリカー マナナンガル ペナンガラン レヤック 構築できたオントロジーの例 末端の語彙大系クラス is-a カテゴリ
従来手法と比較(桜井ら) 861: 酒 酒 カクテル 醸造酒 醸造酒 酒 元のWikipediaカテゴリ階層 カクテル
ジンベースのカクテル ジンベースのカクテル 飲酒文化 カクテル ジンベースのカクテル 酒 醸造酒 本手法は1つの階層に統合できより多くの階層を抽出できる ビール ビール 語彙大系クラス 約7000カテゴリ 約2万3000カテゴリ 桜井らの手法 本手法 ビール インスタンス 照合対象が多い
30 従来手法と比較(小林ら) 861: 酒 醸造酒 ビール 酒 語彙大系クラス 醸造酒 酒
元のWikipediaカテゴリ階層 ビール 飲酒文化 861: 酒 酒 ビール 醸造酒 マッコリ 本手法はWikipediaカテゴリ間でもis-a関係を構築でき カテゴリ名がマッチしないものもis-a関係のカテゴリになる カテゴリの上位語 語彙大系クラス 小林らの手法 本手法 マッコリ 大衆向け醸造酒
31 まとめ Wikipeidaの約半数のカテゴリと記事ページを 高精度でオントロジー化することができた 今後は人手で抽出していた接点カテゴリを自動抽出 できるようにしたい 従来手法より大規模で分類の細かい階層構造を 構築することができた 約半数 接点カテゴリ
語彙大系 Wikipedia
32 おわり 訂正した予稿は本研究室HPで公開します http://nlp.nagaokaut.ac.jp/ URL: 予稿に一部間違いがあったため訂正しました
33 補足資料
34 語彙大系 動物 接点カテゴリが末端クラス以外に接続されると Wikipediaの利用率があがる 今までここらへんが オントロジー化されなかった Wikpedia 生物 化石動物
化石魚類 脊椎動物 哺乳類 鳥類 化石派虫類 未確認動物 河童 動物 動物(部分) 動物(固体) 獣 鳥 今まで 今後 Wikipediaの利用率をあげたい 末端 末端
35 語彙大系 Wikpedia 接点カテゴリ? 完全自動で接点カテゴリをみつける 周辺情報を素性として機械学習を利用 接点カテゴリをみつける指標=周辺が似ているかどうか 周辺とは・・・ ・インスタンス ・上位クラス
・下位クラス etc.
36 語彙大系クラス階層 カテゴリの上位語とは カテゴリページ 記事ページ リンク 上位語 アルコール飲料
37 (ジャンル|分類|シリーズ|類|こと|事|略|総称|一つ|1つ|1つ|ひとつ|一種|1種|1種|種 類|一人|ひとり|1人|1人|うち|内|大系|形態|呼称|仕組み|名|名称|概念|形式|方式| 技法|カテゴリ|種別) 〈上位語〉の (を指す。|をさす。|を指し、|を言う。|をいう。|を言い、|をいい、|であり、|で、|である。) 〈上位語〉 〈上位語〉 ・・・ 文字列の最後の名詞。名詞でなかったら取得しない。
〈上位語〉。 記事の上位語抽出パターン
38 接点カテゴリ候補抽出規則 語彙大系クラス名とWikipedia カテゴリ名が完全一致する 語彙大系クラスのインスタンス名3件以上が,Wikipediaカテゴリの 「記事ページ3 件以上」か「下位カテゴリ名3件以上」と完全一致する 学校 861:学校 学校
367:公共機関 学校 スポーツ選手 251:競技者 ゴルファー 騎手 ボクサー ゴルファー 騎手 ボクサー 語彙大系インスタンス名とWikipedia カテゴリ名が完全一致する 規則3 記事ページ or 下位カテゴリ インスタンス 語彙大系クラス Wikipediaカテゴリ 規則1 規則2 インスタンス
39 規則別の接点カテゴリ数 規則 番号 接点カテゴリ候補抽出規則 自動抽出 候補数 人手抽出 1 336
302 2 4,310 2,440 3 2,742 713 1~3 規則1~3のうち1つでも当てはまるもの 6,301 2,477 学校 861:学校 語彙大系クラス Wikipediaカテゴリ 学校 367:公共機関 学校 インスタンス
40 語彙大系クラス階層 接点カテゴリの網羅性あげるために カテゴリと同名の記事のリダイレクト元の見出し語を利用 国際機構 国際機構 国際機関 国際機関 リダイレクト 同名の記事ページ
Wikipediaカテゴリ 語彙大系クラス マッチ
41 規則 番号 接点カテゴリ候補抽出規則 自動抽出 候補数 人手抽出 1 269 261
2 3,140 2,292 3 2502 691 1~3 規則1~3のうち1つでも当てはまるもの 4,981 2,366 学校 861:学校 語彙大系クラス Wikipediaカテゴリ 学校 367:公共機関 学校 インスタンス 接点カテゴリ数(リダイレクトを含まない場合)
42 どんな接点カテゴリがあるか 文具 筆記具 遊び道具・運動具 遊具 こけ・しだ コケ植物 Wikipediaカテゴリ 語意大系クラス
物性 物質の性質
43 日本語語彙大系 詳細 約3000 クラス 約30万 インスタンス 岩波書店, 1997 2700
クラス 100,000 単語 1:名詞 2:具体 1000:抽象 3:主体 388:場所 533:具体物 4:人 362:組織 389:施設 468:自然 534:生物 706:無生物 915:家庭用具 1001:事 1235:抽象物 2422:抽象的関係 353:筆者 ライター 1:固有名詞 2:地名 66:人名 97:学校名 85:組織名 130 クラス 200,000 単語 一般名詞意味体系 固有名詞意味体系 405:学校 106:その他の 固有名詞 対応づけ 語彙大系インスタンス アイロン 爪切り ライター 作家 作者 語彙大系クラス
44 is-aカテゴリ結果 詳細① 全is-aカテゴリ数:85,071件 接点カテゴリ1件あたりの 葉の深さの平均 :1.96 is-aカテゴリ数 :56.6件 葉
is-aカテゴリになったカテゴリ:23,289件 接点カテゴリ is-a カテゴリ 末端の語彙大系クラス
45 is-aカテゴリ結果 ② 1 10 100 1000 10000 0 2
4 6 8 葉の深さ平均 is-aカテゴリ数 小規模な大量のis-aカテゴリ階層と、 大規模ないくつかのis-aカテゴリ階層からなる 全体の50% 各接点カテゴリにおける葉の深さの平均とis-aカテゴリ数の関係
46 インスタンス結果 詳細 各クラスカテゴリのインスタンス記事数のヒストグラムと累積相対度数 0 2000 4000 6000 8000 10000
12000 14000 16000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 各クラスカテゴリのインスタンス記事数 クラスカテゴリ数 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 累積相対度数 クラスカテゴリ数 累積相対度数 is-a カテゴリ1件あたりのインスタンス数 : 17.8件 各is-aカテゴリのインスタンス数 各is-aカテゴリのインスタンス数 各is-aカテゴリ数 累積相対度数
47 語彙大系クラス階層 桜井手法との精度比較 正解率 93%くらい 前方文字列照合部除去 後方文字列照合 利用カテゴリ数 7000件くらい 正解率
99%以上 後方文字列照合 のみ 利用カテゴリ数 6000件強 正解率 93%くらい 利用カテゴリ数 7000件くらい 桜井らの手法 本手法
48 論文より 小林らの手法 本手法 対象カテゴリ数 43,071件 49,543件 生成数 19,426件 23,289件
抽出率 45% 47% 正解率 93% 親-子:92.8% 先祖-子孫:82.6% クラス階層の構築 比較
49 小林らの手法 新手法 対象記事数 約400,000件 479,231件 生成数 179,399件 263,655件 抽出率
45 % 55 % 正解率 99 % 98.6 % 論文より インスタンスの構築 比較