Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
15分で検索エンジニアになる
Search
Natsu Ozawa
August 22, 2021
Programming
0
320
15分で検索エンジニアになる
SGG x Zli合同LTの資料です
Natsu Ozawa
August 22, 2021
Tweet
Share
More Decks by Natsu Ozawa
See All by Natsu Ozawa
0の0乗
natsuozawa
0
57
圏論はどこが面白いの?
natsuozawa
0
80
Other Decks in Programming
See All in Programming
AI Agent Tool のためのバックエンドアーキテクチャを考える #encraft
izumin5210
6
1.5k
QAフローを最適化し、品質水準を満たしながらリリースまでの期間を最短化する #RSGT2026
shibayu36
0
1.3k
ELYZA_Findy AI Engineering Summit登壇資料_AIコーディング時代に「ちゃんと」やること_toB LLMプロダクト開発舞台裏_20251216
elyza
2
920
Context is King? 〜Verifiability時代とコンテキスト設計 / Beyond "Context is King"
rkaga
10
1.5k
gunshi
kazupon
1
140
AIによるイベントストーミング図からのコード生成 / AI-powered code generation from Event Storming diagrams
nrslib
1
770
Spinner 軸ズレ現象を調べたらレンダリング深淵に飲まれた #レバテックMeetup
bengo4com
1
210
Basic Architectures
denyspoltorak
0
160
JETLS.jl ─ A New Language Server for Julia
abap34
2
470
Go コードベースの構成と AI コンテキスト定義
andpad
0
150
C-Shared Buildで突破するAI Agent バックテストの壁
po3rin
0
430
Implementation Patterns
denyspoltorak
0
140
Featured
See All Featured
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
220
The World Runs on Bad Software
bkeepers
PRO
72
12k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
76
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Facilitating Awesome Meetings
lara
57
6.7k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
120
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
150
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
78
Visualization
eitanlees
150
16k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1.1k
Transcript
15分で検索エンジニアになる @natsuozawa
自己紹介 • Computer Science @ エジンバラ大学 (UK) • クックパッドでインターン(6~8月) •
レシピアプリの検索機能の改善を担当 • LT超初心者
今日のゴール 検索エンジニア入門
前提 • Elasticsearchなどの詳細なAPIに入る 時間はない • 検索知識ゼロからイチを目指す • Relevant Searchという本をもとにし ている
• 詳しくは後でQiitaに書く
検索とは 1. コンテンツを選択し、ランク付けする • アルゴリズム問題 2.プラットフォームとして市場価値を生み出す • ビジネス問題 3. ユーザーの属性などのcontextを考慮する
• 総合的な問題
検索の仕組み(たとえ) 検索は、本の後ろにある「索引」をイメージすると分かりやすい
検索の仕組み 1. 定期的に、全てのコンテンツの転置インデックスを作る 2. 検索時、関連するドキュメント(コンテンツ)を表示する 3. ユーザーは気になるコンテンツをクリックする
転置インデックス構築(具体例)
転置インデックス構築(具体例)
転置インデックス構築(具体例)
用語説明
クエリから検索結果まで keyword token signal score results analysis signal modelling scoring
function
アナライザ ドキュメントから検索用のトークンを作成する 意味 (data) 意図 (user) シグナル
アナライザ(例) standard tokenizer standard filter lowercase filter stop filter standard
analyzer “The quick brown fox.” [“The”, “quick”, “brown”, “fox”] [“the”, “quick”, “brown”, “fox”] [“quick”, “brown”, “fox”]
トークンにできるもの(例) • 日本語の文章(形態素解析) • 類義語(類義語辞書、ヒエラルキー) • 位置情報 • 電話番号 •
音楽のメロディー
シグナルモデリング 基本:Tf-idfで合致度を数値化
シグナルモデリング • データソースのフィールドはアプリケーション用に最適化 • 検索用に最適化する必要がある • 複数フィールド x 複数キーワードのロジック •
Field centric search • Term centric search
Field-centric search stardust crusaders stardust crusaders タイトル (tf-idf) 説明文 (tf-idf)
function Score: 0.1143
Field-centric searchの問題点 • Albino elephant problem • 高いスコアを出すのに、全ての検索キーワードがマッチする必要はな い •
Signal discordance problem • ユーザーのイメージと検索に使われるフィールドが異なる • ユーザーはあまりフィールドのことを考えていない
Term-centric search stardust stardust crusaders crusaders タイトル (tf-idf) 説明文 (tf-idf)
タイトル (tf-idf) 説明文 (tf-idf) function function function Score: 0.1143
Custom all fields stardust crusaders title & subtitle (tf-idf) title
& subtitle (tf-idf) function Score: 0.1143
Cross fields stardust stardust crusaders crusaders title subtitle title subtitle
function function function Score: 0.1143 tf-idf tf-idf
Ranking関数 • Sum, max, weighted sumなど • 条件付きブースト • 条件つきフィルター
• 独自の関数を定義 • 例:Decay function Relevant Search figure 7.11
ありがとうございました