Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
15分で検索エンジニアになる
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Natsu Ozawa
August 22, 2021
Programming
0
320
15分で検索エンジニアになる
SGG x Zli合同LTの資料です
Natsu Ozawa
August 22, 2021
Tweet
Share
More Decks by Natsu Ozawa
See All by Natsu Ozawa
0の0乗
natsuozawa
0
57
圏論はどこが面白いの?
natsuozawa
0
80
Other Decks in Programming
See All in Programming
Data-Centric Kaggle
isax1015
2
780
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "How" Make a Difference?
rkaga
4
2k
Amazon Bedrockを活用したRAGの品質管理パイプライン構築
tosuri13
5
800
CSC307 Lecture 01
javiergs
PRO
0
690
生成AIを使ったコードレビューで定性的に品質カバー
chiilog
1
280
Package Management Learnings from Homebrew
mikemcquaid
0
230
登壇資料を作る時に意識していること #登壇資料_findy
konifar
4
1.7k
izumin5210のプロポーザルのネタ探し #tskaigi_msup
izumin5210
1
140
AIによるイベントストーミング図からのコード生成 / AI-powered code generation from Event Storming diagrams
nrslib
2
1.9k
【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法
momok47
0
200
そのAIレビュー、レビューしてますか? / Are you reviewing those AI reviews?
rkaga
6
4.6k
責任感のあるCloudWatchアラームを設計しよう
akihisaikeda
3
180
Featured
See All Featured
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
71
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
190
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.3k
Become a Pro
speakerdeck
PRO
31
5.8k
Code Review Best Practice
trishagee
74
20k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
590
Transcript
15分で検索エンジニアになる @natsuozawa
自己紹介 • Computer Science @ エジンバラ大学 (UK) • クックパッドでインターン(6~8月) •
レシピアプリの検索機能の改善を担当 • LT超初心者
今日のゴール 検索エンジニア入門
前提 • Elasticsearchなどの詳細なAPIに入る 時間はない • 検索知識ゼロからイチを目指す • Relevant Searchという本をもとにし ている
• 詳しくは後でQiitaに書く
検索とは 1. コンテンツを選択し、ランク付けする • アルゴリズム問題 2.プラットフォームとして市場価値を生み出す • ビジネス問題 3. ユーザーの属性などのcontextを考慮する
• 総合的な問題
検索の仕組み(たとえ) 検索は、本の後ろにある「索引」をイメージすると分かりやすい
検索の仕組み 1. 定期的に、全てのコンテンツの転置インデックスを作る 2. 検索時、関連するドキュメント(コンテンツ)を表示する 3. ユーザーは気になるコンテンツをクリックする
転置インデックス構築(具体例)
転置インデックス構築(具体例)
転置インデックス構築(具体例)
用語説明
クエリから検索結果まで keyword token signal score results analysis signal modelling scoring
function
アナライザ ドキュメントから検索用のトークンを作成する 意味 (data) 意図 (user) シグナル
アナライザ(例) standard tokenizer standard filter lowercase filter stop filter standard
analyzer “The quick brown fox.” [“The”, “quick”, “brown”, “fox”] [“the”, “quick”, “brown”, “fox”] [“quick”, “brown”, “fox”]
トークンにできるもの(例) • 日本語の文章(形態素解析) • 類義語(類義語辞書、ヒエラルキー) • 位置情報 • 電話番号 •
音楽のメロディー
シグナルモデリング 基本:Tf-idfで合致度を数値化
シグナルモデリング • データソースのフィールドはアプリケーション用に最適化 • 検索用に最適化する必要がある • 複数フィールド x 複数キーワードのロジック •
Field centric search • Term centric search
Field-centric search stardust crusaders stardust crusaders タイトル (tf-idf) 説明文 (tf-idf)
function Score: 0.1143
Field-centric searchの問題点 • Albino elephant problem • 高いスコアを出すのに、全ての検索キーワードがマッチする必要はな い •
Signal discordance problem • ユーザーのイメージと検索に使われるフィールドが異なる • ユーザーはあまりフィールドのことを考えていない
Term-centric search stardust stardust crusaders crusaders タイトル (tf-idf) 説明文 (tf-idf)
タイトル (tf-idf) 説明文 (tf-idf) function function function Score: 0.1143
Custom all fields stardust crusaders title & subtitle (tf-idf) title
& subtitle (tf-idf) function Score: 0.1143
Cross fields stardust stardust crusaders crusaders title subtitle title subtitle
function function function Score: 0.1143 tf-idf tf-idf
Ranking関数 • Sum, max, weighted sumなど • 条件付きブースト • 条件つきフィルター
• 独自の関数を定義 • 例:Decay function Relevant Search figure 7.11
ありがとうございました