Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
Search
MIKAMI-YUKI
January 21, 2016
Education
0
340
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
MIKAMI-YUKI
January 21, 2016
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
93
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
590
Other Decks in Education
See All in Education
【ZEPメタバース校舎操作ガイド】
ainischool
0
760
1216
cbtlibrary
0
130
Sanapilvet opetuksessa
matleenalaakso
0
34k
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
270
Web Application Frameworks - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.5k
1014
cbtlibrary
0
510
ThingLink
matleenalaakso
28
4.3k
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
630
Node-REDで広がるプログラミング教育の可能性
ueponx
1
240
IHLヘルスケアリーダーシップ研究会17期説明資料
ihlhealthcareleadership
0
430
Featured
See All Featured
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
47
The untapped power of vector embeddings
frankvandijk
1
1.5k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
100
Code Review Best Practice
trishagee
74
19k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
590
Information Architects: The Missing Link in Design Systems
soysaucechin
0
730
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
48
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.8k
How Software Deployment tools have changed in the past 20 years
geshan
0
31k
Six Lessons from altMBA
skipperchong
29
4.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2016年 1月21日 意味的類似性と多義解消 を用いた文書検索手法 自然言語処理研究室 1
出典 意味的類似性と多義解消を用い た文書検索手法 大井 耕三, 隅田 英一郎, 飯田 仁 自然言語処理
Vol. 4(1997) No. 3 P51-70 2
概要 従来の類似性の研究では、階層構造が 平衡しているシソーラスを使っていた。 階層構造が平衡していないシソーラスに も適用できる意味的類似度を提案。 精度向上に多義解消を使用し、従来の システムに比べ、性能の向上を確認した。 3
はじめに 先行研究で、シソーラスに基づく意味的 類似性を使ったものは ・シソーラスの階層構造が平衡と仮定 ・単語の多義性の解消を行なっていない 本論文では、上記2点を改良し、類似 検索システムを作成する。 4
意味的類似度 単語間の意味的類似度は、単語に付 与されている概念間の関係に基づいて 計算する。 5
オンラインシソーラス 階層によって「平衡シソーラス」と「非平衡 シソーラス」の2種類に分けられる。 6
概念間の類似度 各概念に対して、「具体度」を割り当てる。 具体度は 0 から NL-1 までのNL個の 値の中で、下位になるほど大きな値をとる。 概念A,B間の類似度Simは、AとBの相 対的な位置関係を使う。A,Bの最下位
共通上位概念をCとして、そのCの具体 度をLCとする。1.0が最も似ている。 7
概念間の類似度 AとBが同じ場合(C=A=B) Sim=1.0 CがAでもBでもない場合 Sim=LC/NL (C=A)もしくは(C=B) Sim=(LC+1)/NL 8
概念間の類似度 9 Sim(1)=1.0 Sim(2)=LC/NL Sim(3)=(LC+1)/NL
具体度の割り当て 深さがNL-1で、各概念からの分岐が一 定の仮想の平衡シソーラスを想定する。 NLと分岐数NBを決め、深さdの概念の 総数TLD(d)より下位概念総数が小さく なる最小のdを具体度とする。 10
単語間の類似度 単語w1,w2間の類似度Sim(w1,w2) は次のように求める。 単語一致の場合 類似度は(NL+1)/NL それ以外は、2単語全ての組み合わせ に対する類似度の最大値とする。 11
多義解消手法 多くの単語は多義であり、複数の概念を 持っている。 実際に文章中で使われている概念を同 定することができれば、検索の精度は向 上できる。 そこで、多義を解消する手法を導入した。 12
多義解消手法 本論文ではVoorheesの手法と、 Yarowskyの手法を取り上げている。 両手法は正解データを仮定しないため、 大規模な制限のないテキストを扱う情報 検索に向いた手法である。 13
Voorheesの手法 文章D中の単語dtの各概念に対して、 hood(最も上位の概念)を求めた後、次 の式で差異を求め、差異が正の最大で ある概念を単語dtとして選択する。 14
Yarowskyの手法 コーパス中の各単語に対して、前後W語 ずつ合計2W語を抽出し、単語dtが属 するシソーラス中の概念C毎に、あるしき い値Y以上の単語ctに対して、次の式で 求め、最大となるものを概念とする。 15
単語間の物理的近さ 物理的近さPNの定義式を次に示す。 16
単語の重要度 単語の文章内の出現頻度と出現文章 数に基いた重要度を使う。重要度ωは 次のように定義される。 17
質問・文章間の関連度 質問Q中の1つの単語qtと文章中の1 つの単語dtとの間の類似度を Sim(qt,dt)とする。 あらかじめ指定された、しきい値Tに対し て、Sim(qt,dt)≧Tである単語dtが、こ こでは類似している単語となる。 18
実験 非平衡シソーラスにも適用できる意味的 類似度と単語の多義解消を組み合わせ た提案手法を、従来手法と比較する。 評価は再現率と適合率を用いた。 19
実験 実験条件 20
実験結果 21
実験結果 22
まとめ シソーラスが平衡または非平衡どちらの場 合にも適用できる意味的類似度を提案。 類似度と多義解消を用いた類似検索手 法を提案した。 比較実験より、本類似検索手法は従来 の検索手法に比べて、改善を確認した。 23
ご視聴ありがとうございました 24