Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
15分で検索エンジニアになる
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Natsu Ozawa
August 22, 2021
Programming
0
320
15分で検索エンジニアになる
SGG x Zli合同LTの資料です
Natsu Ozawa
August 22, 2021
Tweet
Share
More Decks by Natsu Ozawa
See All by Natsu Ozawa
0の0乗
natsuozawa
0
57
圏論はどこが面白いの?
natsuozawa
0
80
Other Decks in Programming
See All in Programming
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
480
Fluid Templating in TYPO3 14
s2b
0
130
Apache Iceberg V3 and migration to V3
tomtanaka
0
170
Smart Handoff/Pickup ガイド - Claude Code セッション管理
yukiigarashi
0
150
AWS re:Invent 2025参加 直前 Seattle-Tacoma Airport(SEA)におけるハードウェア紛失インシデントLT
tetutetu214
2
120
Honoを使ったリモートMCPサーバでAIツールとの連携を加速させる!
tosuri13
1
180
Raku Raku Notion 20260128
hareyakayuruyaka
0
360
SourceGeneratorのススメ
htkym
0
200
CSC307 Lecture 01
javiergs
PRO
0
690
AIエージェントのキホンから学ぶ「エージェンティックコーディング」実践入門
masahiro_nishimi
6
670
CSC307 Lecture 07
javiergs
PRO
1
560
2026年 エンジニアリング自己学習法
yumechi
0
140
Featured
See All Featured
It's Worth the Effort
3n
188
29k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
130
New Earth Scene 8
popppiees
1
1.5k
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
54
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
280
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
The Invisible Side of Design
smashingmag
302
51k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
120
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Leo the Paperboy
mayatellez
4
1.4k
Transcript
15分で検索エンジニアになる @natsuozawa
自己紹介 • Computer Science @ エジンバラ大学 (UK) • クックパッドでインターン(6~8月) •
レシピアプリの検索機能の改善を担当 • LT超初心者
今日のゴール 検索エンジニア入門
前提 • Elasticsearchなどの詳細なAPIに入る 時間はない • 検索知識ゼロからイチを目指す • Relevant Searchという本をもとにし ている
• 詳しくは後でQiitaに書く
検索とは 1. コンテンツを選択し、ランク付けする • アルゴリズム問題 2.プラットフォームとして市場価値を生み出す • ビジネス問題 3. ユーザーの属性などのcontextを考慮する
• 総合的な問題
検索の仕組み(たとえ) 検索は、本の後ろにある「索引」をイメージすると分かりやすい
検索の仕組み 1. 定期的に、全てのコンテンツの転置インデックスを作る 2. 検索時、関連するドキュメント(コンテンツ)を表示する 3. ユーザーは気になるコンテンツをクリックする
転置インデックス構築(具体例)
転置インデックス構築(具体例)
転置インデックス構築(具体例)
用語説明
クエリから検索結果まで keyword token signal score results analysis signal modelling scoring
function
アナライザ ドキュメントから検索用のトークンを作成する 意味 (data) 意図 (user) シグナル
アナライザ(例) standard tokenizer standard filter lowercase filter stop filter standard
analyzer “The quick brown fox.” [“The”, “quick”, “brown”, “fox”] [“the”, “quick”, “brown”, “fox”] [“quick”, “brown”, “fox”]
トークンにできるもの(例) • 日本語の文章(形態素解析) • 類義語(類義語辞書、ヒエラルキー) • 位置情報 • 電話番号 •
音楽のメロディー
シグナルモデリング 基本:Tf-idfで合致度を数値化
シグナルモデリング • データソースのフィールドはアプリケーション用に最適化 • 検索用に最適化する必要がある • 複数フィールド x 複数キーワードのロジック •
Field centric search • Term centric search
Field-centric search stardust crusaders stardust crusaders タイトル (tf-idf) 説明文 (tf-idf)
function Score: 0.1143
Field-centric searchの問題点 • Albino elephant problem • 高いスコアを出すのに、全ての検索キーワードがマッチする必要はな い •
Signal discordance problem • ユーザーのイメージと検索に使われるフィールドが異なる • ユーザーはあまりフィールドのことを考えていない
Term-centric search stardust stardust crusaders crusaders タイトル (tf-idf) 説明文 (tf-idf)
タイトル (tf-idf) 説明文 (tf-idf) function function function Score: 0.1143
Custom all fields stardust crusaders title & subtitle (tf-idf) title
& subtitle (tf-idf) function Score: 0.1143
Cross fields stardust stardust crusaders crusaders title subtitle title subtitle
function function function Score: 0.1143 tf-idf tf-idf
Ranking関数 • Sum, max, weighted sumなど • 条件付きブースト • 条件つきフィルター
• 独自の関数を定義 • 例:Decay function Relevant Search figure 7.11
ありがとうございました