Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
Search
MIKAMI-YUKI
January 21, 2016
Education
0
290
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
MIKAMI-YUKI
January 21, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
560
Other Decks in Education
See All in Education
(元)教育担当がお伝えする、若手社員が成長しまくるOJTポイント
masakiokuda
0
240
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
2
2.7k
Padlet opetuksessa
matleenalaakso
4
13k
Why Did Douglass Change His Mind?
oripsolob
0
440
Initiatives on Bridging the Gender Gap in the Technology Sector
codeforeveryone
0
130
Zero to Hero
takesection
0
170
MySmartSTEAM2425
cbtlibrary
0
120
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
論文紹介のやり方 / How to review
kaityo256
14
76k
OCIでインスタンス構築してみた所感
masakiokuda
0
160
The Prison Industrial Complex by Billy Dee
oripsolob
0
750
プログラミング基礎#4(名古屋造形大学)
yusk1450
PRO
0
130
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Navigating Team Friction
lara
183
15k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Visualization
eitanlees
146
15k
Being A Developer After 40
akosma
89
590k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
260
Product Roadmaps are Hard
iamctodd
PRO
51
11k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
A Modern Web Designer's Workflow
chriscoyier
693
190k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2016年 1月21日 意味的類似性と多義解消 を用いた文書検索手法 自然言語処理研究室 1
出典 意味的類似性と多義解消を用い た文書検索手法 大井 耕三, 隅田 英一郎, 飯田 仁 自然言語処理
Vol. 4(1997) No. 3 P51-70 2
概要 従来の類似性の研究では、階層構造が 平衡しているシソーラスを使っていた。 階層構造が平衡していないシソーラスに も適用できる意味的類似度を提案。 精度向上に多義解消を使用し、従来の システムに比べ、性能の向上を確認した。 3
はじめに 先行研究で、シソーラスに基づく意味的 類似性を使ったものは ・シソーラスの階層構造が平衡と仮定 ・単語の多義性の解消を行なっていない 本論文では、上記2点を改良し、類似 検索システムを作成する。 4
意味的類似度 単語間の意味的類似度は、単語に付 与されている概念間の関係に基づいて 計算する。 5
オンラインシソーラス 階層によって「平衡シソーラス」と「非平衡 シソーラス」の2種類に分けられる。 6
概念間の類似度 各概念に対して、「具体度」を割り当てる。 具体度は 0 から NL-1 までのNL個の 値の中で、下位になるほど大きな値をとる。 概念A,B間の類似度Simは、AとBの相 対的な位置関係を使う。A,Bの最下位
共通上位概念をCとして、そのCの具体 度をLCとする。1.0が最も似ている。 7
概念間の類似度 AとBが同じ場合(C=A=B) Sim=1.0 CがAでもBでもない場合 Sim=LC/NL (C=A)もしくは(C=B) Sim=(LC+1)/NL 8
概念間の類似度 9 Sim(1)=1.0 Sim(2)=LC/NL Sim(3)=(LC+1)/NL
具体度の割り当て 深さがNL-1で、各概念からの分岐が一 定の仮想の平衡シソーラスを想定する。 NLと分岐数NBを決め、深さdの概念の 総数TLD(d)より下位概念総数が小さく なる最小のdを具体度とする。 10
単語間の類似度 単語w1,w2間の類似度Sim(w1,w2) は次のように求める。 単語一致の場合 類似度は(NL+1)/NL それ以外は、2単語全ての組み合わせ に対する類似度の最大値とする。 11
多義解消手法 多くの単語は多義であり、複数の概念を 持っている。 実際に文章中で使われている概念を同 定することができれば、検索の精度は向 上できる。 そこで、多義を解消する手法を導入した。 12
多義解消手法 本論文ではVoorheesの手法と、 Yarowskyの手法を取り上げている。 両手法は正解データを仮定しないため、 大規模な制限のないテキストを扱う情報 検索に向いた手法である。 13
Voorheesの手法 文章D中の単語dtの各概念に対して、 hood(最も上位の概念)を求めた後、次 の式で差異を求め、差異が正の最大で ある概念を単語dtとして選択する。 14
Yarowskyの手法 コーパス中の各単語に対して、前後W語 ずつ合計2W語を抽出し、単語dtが属 するシソーラス中の概念C毎に、あるしき い値Y以上の単語ctに対して、次の式で 求め、最大となるものを概念とする。 15
単語間の物理的近さ 物理的近さPNの定義式を次に示す。 16
単語の重要度 単語の文章内の出現頻度と出現文章 数に基いた重要度を使う。重要度ωは 次のように定義される。 17
質問・文章間の関連度 質問Q中の1つの単語qtと文章中の1 つの単語dtとの間の類似度を Sim(qt,dt)とする。 あらかじめ指定された、しきい値Tに対し て、Sim(qt,dt)≧Tである単語dtが、こ こでは類似している単語となる。 18
実験 非平衡シソーラスにも適用できる意味的 類似度と単語の多義解消を組み合わせ た提案手法を、従来手法と比較する。 評価は再現率と適合率を用いた。 19
実験 実験条件 20
実験結果 21
実験結果 22
まとめ シソーラスが平衡または非平衡どちらの場 合にも適用できる意味的類似度を提案。 類似度と多義解消を用いた類似検索手 法を提案した。 比較実験より、本類似検索手法は従来 の検索手法に比べて、改善を確認した。 23
ご視聴ありがとうございました 24