Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報検索
Search
masaya82
January 09, 2018
0
220
情報検索
2017/1/9 B3ゼミ
masaya82
January 09, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
71
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
98
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
81
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
96
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
BBQ
matthewcrist
85
9.3k
Navigating Team Friction
lara
183
15k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
1
150
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Designing Experiences People Love
moore
138
23k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Optimizing for Happiness
mojombo
376
70k
Why Our Code Smells
bkeepers
PRO
335
57k
Transcript
情報検索について 自然言語処理研究室 B3 福嶋 真也
参考文献 • 「自然言語処理の基本と技術」 5章 著者 奥野 陽、グラム・ニュービッグ、萩原 正人 • 株式会社
翔泳社 発行
情報検索システムの概要 ・検索の対象となるすべての文章の集合からユーザの 要求している情報を検索し、条件を満たす文章を表示 するシステム ・Web検索エンジンやサイト内検索で使用 ・最も簡単な検索方法:全文検索 →時間がかかる、要求通りでない情報が表示される可能性が あるといった問題点
索引付け 文章からキーワードを抜き出して並べることで検索を しやすくする手法 例:3つの文章の集合から索引を作る 文章1:吾輩は猫である。名前はまだない。 文章2:一匹の立派な犬や、兎や、一匹の小猿や、一匹 の猫 などを飼った。 文章3:ウサギや、キツネのほかに、イタチの足あと、ネズミの 足あと、ネコの足あと、みんなちがう。
索引付け この形を転置索引 という 1
ブーリアンモデル 文書が適合するかどうかを「Yes/No」で判断するモデ ル ユーザが要求を質問の形で表現したもの(これをクエ リという)について「AND」、「OR」、「NOT」などを用い て表現し、これを用いて要求を満たす文書を選択する 例: 「ネコ」と「犬」が両方出現する文書→「ネコ AND 犬」
「ネコ」と「犬」が両方もしくは片方が出現する文書 →「ネコ OR 犬」
ブーリアンモデル メリット ・シンプルで分かりやすい ・条件が厳密に指定できる デメリット ・クエリによって適合する文書が過剰に多い、少ない といった問題が発生する。
ベクトル空間モデル 文書が適合するかどうかを連続値で判断するモデル ・ブーリアンモデルと違い、どれだけ適合しているかを 判断することが可能 ・文書の中に含まれる語に対してどのくらい重要かで 重みづけを行う。 →手法の一つにTF-IDF
TF-IDF TF(Term Frequency)とIDF(Inverse Document Frequency)をくみ合わせた手法 ・TF ‣文書の中でどれだけ重要な語であるかを示す指標 文書内で出現する回数が多いほど重要であると仮 定し、n回の出現回数に対しlog10(n)+1ほど重要であ るとする。
・IDF ‣あるキーワードに対し、そのキーワードが文書内に含 まれている文書がどれだけ少ないかを示す指標 重みはlog10 (N/df)で計算される df・・・キーワードが出現する文書数、N・・・文書集合全体の文書数 これら2つの値をかけ合わせた値で適合度を計算
Web検索における発展的な手法 ・ランキング学習 ・適合性フィードバック ・PageRank
ランキング学習 あるクエリに対して、文書がどれだけ適合しているかと いう順序付けを人手で作成 アルゴリズムに教師データとして与え、重みを自動調 整することで学習させ、ランキングを改善
適合性フィードバック クエリ実行後のユーザの反応で適合性を判定しランキ ングの改善を行う手法 例) ・ユーザが適合していると判断した文書から関連するキーワー ドを抜き出して、クエリに追加する手法 ・ページのクリックした回数、ページ滞在時間、ページから検索 結果に戻る確率(バウンス率)などから適合度を測る手法 ・上記の手法を最初のクエリで適合していると判断された文書 に対して行う手法
PageRank 文書のリンクから重要度を推測する手法 重要度の定義 ・どれだけ多くの文書からリンクされているか ・ある文書にリンクしている文書がどれだけ重要であるか ・重要度をスコアで表し、流入するスコアと流出するスコアは等 しくなるようにする
今回の発表内容 ・情報検索システムの概要 ・情報検索システムに使われている主な手法 ・索引付け ・ブーリアンモデル ・TF-IDF ・web検索で使われている発展的な手法 ・ランキング学習 ・適合性フィードバック ・PageRank