Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
検索番長のおしごと
Search
TAKEHITO Uetake
November 25, 2016
Technology
0
1.3k
検索番長のおしごと
不動産テック勉強会#4 2016/11/25
TAKEHITO Uetake
November 25, 2016
Tweet
Share
Other Decks in Technology
See All in Technology
はじめてのOSS開発からみえたGo言語の強み
shibukazu
3
970
人工衛星のファームウェアをRustで書く理由
koba789
15
8.2k
サラリーマンの小遣いで作るtoCサービス - Cloudflare Workersでスケールする開発戦略
shinaps
2
470
まずはマネコンでちゃちゃっと作ってから、それをCDKにしてみよか。
yamada_r
2
120
新規プロダクトでプロトタイプから正式リリースまでNext.jsで開発したリアル
kawanoriku0
1
200
AIエージェント開発用SDKとローカルLLMをLINE Botと組み合わせてみた / LINEを使ったLT大会 #14
you
PRO
0
130
「その開発、認知負荷高すぎませんか?」Platform Engineeringで始める開発者体験カイゼン術
sansantech
PRO
2
470
「何となくテストする」を卒業するためにプロダクトが動く仕組みを理解しよう
kawabeaver
0
430
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
460
Automating Web Accessibility Testing with AI Agents
maminami373
0
1.3k
LLM時代のパフォーマンスチューニング:MongoDB運用で試したコンテキスト活用の工夫
ishikawa_pro
0
170
AIのグローバルトレンド2025 #scrummikawa / global ai trend
kyonmm
PRO
1
310
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.9k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Rails Girls Zürich Keynote
gr2m
95
14k
Building Adaptive Systems
keathley
43
2.7k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
The World Runs on Bad Software
bkeepers
PRO
70
11k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
Unsuck your backbone
ammeep
671
58k
Transcript
検 索 番 長 の お し ご と 2
0 1 6 / 1 1 / 2 5
1 植竹 剛人 (うえたけ たけひと) 株式会社 一休 技術基盤部 エンジニア •
パフォーマンスのことなんかは高い比率で携 わります。 • 情報セキュリティ責任者だったり。 • なんかいろいろやります。 SNSとか • Twitterはやっていないので、本名でFBとかさ がすと出てきます。 自己紹介
2 もともとはDBエンジニア パフォーマンス・チューニングの人です 自己紹介
3 社内では無鉄砲と評判。 自己紹介
4 会社紹介
5 会社紹介 予約サービス + EC
6 会社紹介 類似競合サービス
7 会社紹介 オンプレ Windowsプラットフォーム • クラウドに移行中。 → の人々と日々楽しく過ごしています 今年からヤフーグループに入りました。
ここまでで30秒の予定
9 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ 今日話したいこと
10 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ 今日話したいこと 今日は宿泊の検索を中心に
11 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ
12 条件検索がタイムアウトするんだけど!
13 条件検索がタイムアウトするんだけど! 背景 • 大規模リプレイス • リアルタイムの在庫、料金を参照した検索にした。 • これに伴ってメインの検索のSQLが長大に •
試しにA4用紙に小さいフォントで印字すると7mになっていた。
14 条件検索がタイムアウトするんだけど! 問題 • SQLクエリタイムアウト(30秒)が頻発。 • 他の検索でも10秒くらいかかるのが多数。
15 宿泊予約データ構造 宿泊施設 部屋 プラン 日別料金 日別在庫
16 条件検索がタイムアウトするんだけど! 解決方法 • 札束でひっぱたく。 • Masterマシンには ViolinMemoryを導入。 • Slaveマシン全台に
IoDriveを導入。 • ひとまず金で延命。
17 条件検索がタイムアウトするんだけど! 解決方法 • 札束でひっぱたく。 • Masterマシンには ViolinMemoryを導入。 • Slaveマシン全台に
IoDriveを導入。 • ひとまず金で延命。 オンプレならIoDriveは買い。
18 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ
19 キーワード検索の内容がおかしい!
20 キーワード検索の内容がおかしい! 背景 • 大規模リプレイス • このタイミングで、Solr1.3を導入。 • 辞書メンテを嫌って n-gramで実装
• 検索結果が不思議。
21 キーワード検索の内容がおかしい! 問題 • TDRを検索して、四国の施設がマッチする。 • 「蓼科」を探したら軽井沢の施設がでてきたと、創業社長が怒った。
22 キーワード検索の内容がおかしい! 解決方法 • 形態素解析に移行。辞書はひとまず手動メンテ。 • ノイズになりうる情報をフィールドから除外。 • ユーザーの求める形に合わせていった。 •
スキーマに含めるフィールドの見直し • 重み付けの調整 • 上位1000キーワードまで検証しながら調整
23 キーワード検索の内容がおかしい!
24 キーワード検索の内容がおかしい! ユーザーが何を欲しているかをよく知って 辞書や重み付けでコントロール
25 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ
26 最安値が更新されないんだけど!
27 最安値が更新されないんだけど! 背景 • 最安値はバッチで算出 • バッチサーバと呼ばれる単一マシンにデータをもってきて加工していた。 • 宿泊施設様は競合を意識して値付けをすることもあるわけで、更新が遅いとチャン スロスにもなりえる。
28 最安値が更新されないんだけど! 問題 • 最安値がデータ更新をしてから3時間経過しても検索結果画面に反映されない。
29 最安値が更新されないんだけど! 解決方法 • 最安値の算出を検索Slave側で分散同時並行実行するようにバッチ処理を再作成 • 処理をデータの近くに寄せて、大量のデータをネットワーク越しにやりとりし ないようにした。 • →
結果、3時間 → 8分にまで処理時間を短縮。
30 最安値が更新されないんだけど! 解決方法 • 最安値の算出を検索Slave側で分散同時並行実行するようにバッチ処理を再作成 • 処理をデータの近くに寄せて、大量のデータをネットワーク越しにやりとりし ないようにした。 • →
結果、3時間 → 8分にまで処理時間を短縮。 ・データの近くに処理を寄せる ・処理の同期並列化
31 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ
32 条件検索でまだタイムアウトエラーがでるんだけど!! 背景 • 予約可能期間がビジネス起因で半年から1年に伸びた。 • 日別系データの量が増大 • 新規事業が立ち上がり、施設数がごっそり増えた。 •
パーソナライズ検索の導入。
33 条件検索でまだタイムアウトエラーがでるんだけど!! 問題 • 大エリア検索で遅いときに11秒程度かかる。平均でも5秒くらい。 • IOの急激な増大。 • 有効活用されないクエリキャッシュ、データキャッシュ。 •
冗長なデータ構造による、無駄なIOの発生。 • もう、SQLチューニングやインデックス付与などの小手先対応では逃げられない。
34 条件検索でまだタイムアウトエラーがでるんだけど!! 解決方法 • 条件検索をまるごとSolr5.4に移行。 • 在庫、料金がリアルタイムに検索結果と同期している必要はない。 • 日別情報をダイナミックフィールドとして横持ちすることで、データの冗長化 を抑制。スキーマレス万歳。
• 結果として日別料金のテーブルだけで130GBあったが、移行後のSolrスキーマ は2GBしかない。IOも極小。
35 条件検索でまだタイムアウトエラーがでるんだけど!! 解決方法 • 条件検索をまるごとSolr5.4に移行。 • 在庫、料金がリアルタイムに検索結果と同期している必要はない。 • 日別情報をダイナミックフィールドとして横持ちすることで、データの冗長化 を抑制。スキーマレス万歳。
• 結果として日別料金のテーブルだけで130GBあったが、移行後のSolrスキーマ は2GBしかない。IOも極小。 11秒 → 1秒以内 RDBは検索が不得意と認識する。
36 サイト内検索周りの課題解決 • 条件検索がタイムアウトエラーするんだけど! • キーワード検索の内容がおかしい! • 最安値が更新されないんだけど! • 条件検索でまだタイムアウトエラーがでるんだけど!!
まとめ
37 まとめ IOが大きい キーワード検索 大量データ処理 大量データからの検索 オンプレならIODrive入れる 辞書を作ってユーザーニーズに マッチさせる データの近くに処理を持っていく
検索をRDBにやらせる必要がなけ れば、SolrやESに移行する。
ご静聴ありがとうございました!