Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
MIKAMI-YUKI
January 21, 2016
Education
350
0
Share
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
MIKAMI-YUKI
January 21, 2016
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
140
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
99
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
600
Other Decks in Education
See All in Education
SSH_handshake_easy_explain
kenbo
0
970
演習:Gitの応用操作 / 05-git-advanced
kaityo256
PRO
1
290
LinkedIn
matleenalaakso
0
4.1k
[2026前期火5] 論理学(京都大学文学部 前期 第2回)「論理的な正しさはどこにあるのか」
yatabe
0
830
Protecting Patrons with Digital Vendors
dsalo
0
120
Railsチュートリアル × 反転学習の事例紹介
yasslab
PRO
3
180k
AI時代において英語学習は本当に必要? ~未経験からのバイリンガルキャリアの始め方を教えます~
kekekenta
0
150
Alumnote inc. Company Deck
yukinumata
1
17k
Modelamiento Matematico (Ingresantes UNI 2026)
robintux
0
280
Padlet opetuksessa
matleenalaakso
12
15k
事業紹介資料(トレーナー養成講座)
kentaro1981
0
260
[2026前期火5] 論理学(京都大学文学部 前期 第1回)「ハルシネーションを外部世界との対応を考えずに見分ける方法」
yatabe
0
920
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Docker and Python
trallard
47
3.8k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Utilizing Notion as your number one productivity tool
mfonobong
4
300
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
210
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How to Ace a Technical Interview
jacobian
281
24k
The Curse of the Amulet
leimatthew05
1
12k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
400
How STYLIGHT went responsive
nonsquared
100
6.1k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2016年 1月21日 意味的類似性と多義解消 を用いた文書検索手法 自然言語処理研究室 1
出典 意味的類似性と多義解消を用い た文書検索手法 大井 耕三, 隅田 英一郎, 飯田 仁 自然言語処理
Vol. 4(1997) No. 3 P51-70 2
概要 従来の類似性の研究では、階層構造が 平衡しているシソーラスを使っていた。 階層構造が平衡していないシソーラスに も適用できる意味的類似度を提案。 精度向上に多義解消を使用し、従来の システムに比べ、性能の向上を確認した。 3
はじめに 先行研究で、シソーラスに基づく意味的 類似性を使ったものは ・シソーラスの階層構造が平衡と仮定 ・単語の多義性の解消を行なっていない 本論文では、上記2点を改良し、類似 検索システムを作成する。 4
意味的類似度 単語間の意味的類似度は、単語に付 与されている概念間の関係に基づいて 計算する。 5
オンラインシソーラス 階層によって「平衡シソーラス」と「非平衡 シソーラス」の2種類に分けられる。 6
概念間の類似度 各概念に対して、「具体度」を割り当てる。 具体度は 0 から NL-1 までのNL個の 値の中で、下位になるほど大きな値をとる。 概念A,B間の類似度Simは、AとBの相 対的な位置関係を使う。A,Bの最下位
共通上位概念をCとして、そのCの具体 度をLCとする。1.0が最も似ている。 7
概念間の類似度 AとBが同じ場合(C=A=B) Sim=1.0 CがAでもBでもない場合 Sim=LC/NL (C=A)もしくは(C=B) Sim=(LC+1)/NL 8
概念間の類似度 9 Sim(1)=1.0 Sim(2)=LC/NL Sim(3)=(LC+1)/NL
具体度の割り当て 深さがNL-1で、各概念からの分岐が一 定の仮想の平衡シソーラスを想定する。 NLと分岐数NBを決め、深さdの概念の 総数TLD(d)より下位概念総数が小さく なる最小のdを具体度とする。 10
単語間の類似度 単語w1,w2間の類似度Sim(w1,w2) は次のように求める。 単語一致の場合 類似度は(NL+1)/NL それ以外は、2単語全ての組み合わせ に対する類似度の最大値とする。 11
多義解消手法 多くの単語は多義であり、複数の概念を 持っている。 実際に文章中で使われている概念を同 定することができれば、検索の精度は向 上できる。 そこで、多義を解消する手法を導入した。 12
多義解消手法 本論文ではVoorheesの手法と、 Yarowskyの手法を取り上げている。 両手法は正解データを仮定しないため、 大規模な制限のないテキストを扱う情報 検索に向いた手法である。 13
Voorheesの手法 文章D中の単語dtの各概念に対して、 hood(最も上位の概念)を求めた後、次 の式で差異を求め、差異が正の最大で ある概念を単語dtとして選択する。 14
Yarowskyの手法 コーパス中の各単語に対して、前後W語 ずつ合計2W語を抽出し、単語dtが属 するシソーラス中の概念C毎に、あるしき い値Y以上の単語ctに対して、次の式で 求め、最大となるものを概念とする。 15
単語間の物理的近さ 物理的近さPNの定義式を次に示す。 16
単語の重要度 単語の文章内の出現頻度と出現文章 数に基いた重要度を使う。重要度ωは 次のように定義される。 17
質問・文章間の関連度 質問Q中の1つの単語qtと文章中の1 つの単語dtとの間の類似度を Sim(qt,dt)とする。 あらかじめ指定された、しきい値Tに対し て、Sim(qt,dt)≧Tである単語dtが、こ こでは類似している単語となる。 18
実験 非平衡シソーラスにも適用できる意味的 類似度と単語の多義解消を組み合わせ た提案手法を、従来手法と比較する。 評価は再現率と適合率を用いた。 19
実験 実験条件 20
実験結果 21
実験結果 22
まとめ シソーラスが平衡または非平衡どちらの場 合にも適用できる意味的類似度を提案。 類似度と多義解消を用いた類似検索手 法を提案した。 比較実験より、本類似検索手法は従来 の検索手法に比べて、改善を確認した。 23
ご視聴ありがとうございました 24