Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
Search
MIKAMI-YUKI
January 21, 2016
Education
0
280
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
MIKAMI-YUKI
January 21, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
82
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
88
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
97
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
550
Other Decks in Education
See All in Education
AWS Well-Architected Labを活用してつよつよAWSエンジニアになろう!!! #jawsug_tokyo
masakiokuda
0
220
情報処理工学問題集 /infoeng_practices
kfujita
0
150
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
4.9k
SQL初級中級_トレーニング【株式会社ニジボックス】
nbkouhou
0
23k
Image compression
hachama
0
200
Lisätty todellisuus opetuksessa
matleenalaakso
1
2.3k
1216
cbtlibrary
0
240
Nodiレクチャー 「CGと数学」講義資料 2024/11/19
masatatsu
1
250
Ch2_-_Partie_2.pdf
bernhardsvt
0
110
Ch2_-_Partie_3.pdf
bernhardsvt
0
110
Web Application Frameworks - Lecture 4 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
Comment aborder et contribuer sereinement à un projet open source ? (Masterclass Université Toulouse III)
pylapp
0
3.2k
Featured
See All Featured
The Invisible Side of Design
smashingmag
298
50k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Why Our Code Smells
bkeepers
PRO
335
57k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
510
Bash Introduction
62gerente
608
210k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2016年 1月21日 意味的類似性と多義解消 を用いた文書検索手法 自然言語処理研究室 1
出典 意味的類似性と多義解消を用い た文書検索手法 大井 耕三, 隅田 英一郎, 飯田 仁 自然言語処理
Vol. 4(1997) No. 3 P51-70 2
概要 従来の類似性の研究では、階層構造が 平衡しているシソーラスを使っていた。 階層構造が平衡していないシソーラスに も適用できる意味的類似度を提案。 精度向上に多義解消を使用し、従来の システムに比べ、性能の向上を確認した。 3
はじめに 先行研究で、シソーラスに基づく意味的 類似性を使ったものは ・シソーラスの階層構造が平衡と仮定 ・単語の多義性の解消を行なっていない 本論文では、上記2点を改良し、類似 検索システムを作成する。 4
意味的類似度 単語間の意味的類似度は、単語に付 与されている概念間の関係に基づいて 計算する。 5
オンラインシソーラス 階層によって「平衡シソーラス」と「非平衡 シソーラス」の2種類に分けられる。 6
概念間の類似度 各概念に対して、「具体度」を割り当てる。 具体度は 0 から NL-1 までのNL個の 値の中で、下位になるほど大きな値をとる。 概念A,B間の類似度Simは、AとBの相 対的な位置関係を使う。A,Bの最下位
共通上位概念をCとして、そのCの具体 度をLCとする。1.0が最も似ている。 7
概念間の類似度 AとBが同じ場合(C=A=B) Sim=1.0 CがAでもBでもない場合 Sim=LC/NL (C=A)もしくは(C=B) Sim=(LC+1)/NL 8
概念間の類似度 9 Sim(1)=1.0 Sim(2)=LC/NL Sim(3)=(LC+1)/NL
具体度の割り当て 深さがNL-1で、各概念からの分岐が一 定の仮想の平衡シソーラスを想定する。 NLと分岐数NBを決め、深さdの概念の 総数TLD(d)より下位概念総数が小さく なる最小のdを具体度とする。 10
単語間の類似度 単語w1,w2間の類似度Sim(w1,w2) は次のように求める。 単語一致の場合 類似度は(NL+1)/NL それ以外は、2単語全ての組み合わせ に対する類似度の最大値とする。 11
多義解消手法 多くの単語は多義であり、複数の概念を 持っている。 実際に文章中で使われている概念を同 定することができれば、検索の精度は向 上できる。 そこで、多義を解消する手法を導入した。 12
多義解消手法 本論文ではVoorheesの手法と、 Yarowskyの手法を取り上げている。 両手法は正解データを仮定しないため、 大規模な制限のないテキストを扱う情報 検索に向いた手法である。 13
Voorheesの手法 文章D中の単語dtの各概念に対して、 hood(最も上位の概念)を求めた後、次 の式で差異を求め、差異が正の最大で ある概念を単語dtとして選択する。 14
Yarowskyの手法 コーパス中の各単語に対して、前後W語 ずつ合計2W語を抽出し、単語dtが属 するシソーラス中の概念C毎に、あるしき い値Y以上の単語ctに対して、次の式で 求め、最大となるものを概念とする。 15
単語間の物理的近さ 物理的近さPNの定義式を次に示す。 16
単語の重要度 単語の文章内の出現頻度と出現文章 数に基いた重要度を使う。重要度ωは 次のように定義される。 17
質問・文章間の関連度 質問Q中の1つの単語qtと文章中の1 つの単語dtとの間の類似度を Sim(qt,dt)とする。 あらかじめ指定された、しきい値Tに対し て、Sim(qt,dt)≧Tである単語dtが、こ こでは類似している単語となる。 18
実験 非平衡シソーラスにも適用できる意味的 類似度と単語の多義解消を組み合わせ た提案手法を、従来手法と比較する。 評価は再現率と適合率を用いた。 19
実験 実験条件 20
実験結果 21
実験結果 22
まとめ シソーラスが平衡または非平衡どちらの場 合にも適用できる意味的類似度を提案。 類似度と多義解消を用いた類似検索手 法を提案した。 比較実験より、本類似検索手法は従来 の検索手法に比べて、改善を確認した。 23
ご視聴ありがとうございました 24