検索結果の品質向上

検索結果の品質向上守谷純之介（株）リクルートプロダクト統括本部プロダクト開発統括室データ推進室データプロダクトユニットデータプロダクトマネジメント１部検索エンジニアリング２グループ
© Recruit Co., Ltd., 2024. 1

• 検索とは何か？ • 転置インデックスとは何か？ • 転置インデックスを実装するには？ • 分散検索とは何か？ • Term
とは何か？ • 良い検索結果とは何か？ • 検索結果のスコアとは何か？ • 良いランキングとは何か？ • 良いランキングを作るとは何か？ © Recruit Co., Ltd., 2024. 2 アジェンダ

目標 • プリミティブな検索エンジンを作ってみよう • どのようなデータ構造を採用すればいいの？ • どんな実装をすれば良いの？ • 分散システムの良いところ・悪いところを、作って理解しよう
• 検索品質の改善とは何か？理解しよう • どんなことが問題になるのか？ • そもそも品質って何なのか？ © Recruit Co., Ltd., 2024. 3

自己紹介守谷純之介（モリヤジュンノスケ） • 2002〜2003: ポスドク研究員 • 2003〜2004: ベンチャー企業の何でも屋さん
• 2004〜2013: ポータルサイトの検索屋さん • 2013〜: リクルート • Qass: 検索チーム • Bazz: 自動応答 Bot © Recruit Co., Ltd., 2024. 4 Compiler が好きです。何の貢献もできないけど… https://www.saiensu.co.jp/search/?isbn=97 8-4-7819-1229-5&y=2009

自己紹介 © Recruit Co., Ltd., 2024. 5 趣味はギターなんですが、ギターよりもエフェクターを
いじっている時間が長くて、半田ごて握っている時間の方が長いかも…

Qass: 検索チームのシンプル API サービスを担当 © Recruit Co., Ltd., 2024. 6
サジェスト or オートコンプリート

https://atmarkit.itmedia.co.jp/ait/series/29245/

ちょっと変わった検索… と言うか、こちらが主流になる？！ Document かわいい美味しい和風 Document には書いていないけど…

軽トラ https://www.carsensor.net/usedcar/freeword/%E8%BB%BD%E3%83%88%E3%83%A9/index.html Query Rewriter

ちょっと変わった検索… と言うか、こっちが世界の潮流になりそう… Document A Document を分差表現にして… [0.23, 0.54,…] [0.22, 0.58,…] ユーザーの好み Document A Document B Document C Document B Document C

コサイン類似度 © Recruit Co., Ltd., 2024. 11 𝑠𝑖𝑚 𝑎, 𝑏
= cos 𝜃 = 𝑎 ∙ 𝑏 | 𝑎 | ∙ | 𝑏 | 𝑎 𝑏 𝜃 Document A ユーザーの好み

アジェンダ • 検索とは何か？ • 転置インデックスとは何か？ • 転置インデックスを実装するには？ • 分散検索とは何か？ •
Term とは何か？ • 良い検索結果とは何か？ • 検索結果のスコアとは何か？ • 良いランキングとは何か？ • 良いランキングを作るとは何か？ © Recruit Co., Ltd., 2024. 12

今日は扱わない検索 © Recruit Co., Ltd., 2024. 13 The Art of
Computer Programming, Volume 3: Sorting and Searching The Flexible Pattern Matching in Strings: Practical On-Line Search Algorithms for Texts and Biological Sequences $ grep $ awk $ sed 正規表現

今日扱う検索 ① © Recruit Co., Ltd., 2024. 14 Introduction to
Information Retrieval Modern Information Retrieval Information Retrieval: Implementing and Evaluating Search Engines IR＝情報検索 https://www.cambridge.org/highereducatio n/books/introduction-to-information- retrieval/669D108D20F556C5C30957D63B5 AB65C#overview Modern Information Retrieval - Home (uchile.cl) https://plg.uwaterloo.ca/~ir/ir/book/

今日扱う検索 ② © Recruit Co., Ltd., 2024. 15 IR＝情報検索情報検索
:検索エンジンの実装と評価情報検索の基礎

今日扱う検索 ③ © Recruit Co., Ltd., 2024. 16 の index
の index ちょっとだけ

今日扱う検索！！ © Recruit Co., Ltd., 2024. 17 Java で実装された検索ライブラリ
Lucene 利用利用 Solr 検索エンジン、全文検索

今日扱う検索！！ © Recruit Co., Ltd., 2024. 18 Elasticsearch server Apache
Solr 入門旧) 株式会社リクルートテクノロジーズ (監修)

© Recruit Co., Ltd., 2024. 19 検索チーム (Qass) の河野晋策
さんが共著の『検索システム ― 実務者のための開発改善ガイドブック』 2022年04月22日発売！！今日の講義は（ずっと寝ていても）この本を読めばOK https://www.lambdanote.com/blogs/news/ir-system 今日扱う検索！！！！！

２つの検索の Pros & Cons © Recruit Co., Ltd., 2024. 20
特徴＼タイプ逐次検索 Index 型検索事前処理 Pros: なし（コスト小） Cons: あり（コスト大）検索速度 Cons: 時間大 Pros: 時間小メモリー使用量 Pros: メモリー小 Cons: メモリー大典型的な手法 grep: • Knuth–Morris–Pratt 法 • Boyer-Moore 法転置インデックス • N-gramインデックス • 形態素インデックス全てはユーザー体験向上の為に！！

転置インデックスでの２つのフェーズ © Recruit Co., Ltd., 2024. 22 Search & Indexing
Apache Book Car Dog … 10, 25 … 2, 57 … 15, 17 …98, 101 本の索引と一緒

Indexing: 事前準備＝転置 index の作成 © Recruit Co., Ltd., 2024. 23
Linuxは、狭義には Linuxカーネル、広義には… 検索対象最新版となるLinux4.20 のリリース転置 index Linux カーネルリリース A B A A B B

Search: AND 検索 © Recruit Co., Ltd., 2024. 24 転置
index Linux カーネルリリース A A B B 検索クエリ: Linux AND カーネル ∩ Merge [A, B] [B] [B]

Search: OR 検索 © Recruit Co., Ltd., 2024. 25 転置
index Linux カーネルリリース A A B B 検索クエリ: リリース OR カーネル ∪ Merge [B] [A] [A, B]

Search: マージは大変 © Recruit Co., Ltd., 2024. 26 転置 index
Linux カーネルリリース A A B B 転置 Index の検索における Merge はコアであり、コストが超高い

転置 Index (Inverted Index) とは？ 1.ドキュメントに含まれる特性をキー (全文検索などでは Term) にして、集合を紐付け
るリスト構造 (Posting List) 2.ドキュメントのリストはソート済み 3.通常は単語の現れた位置情報も格納 (フレーズ検索) © Recruit Co., Ltd., 2024. 27 転置 index Linux カーネルリリース A A B B

転置 Index (Inverted Index) とは？まぁ… ただの値がリストのハッシュテーブルw © Recruit
Co., Ltd., 2024. 28 転置 index Linux カーネルリリース A A B B

目標 • プリミティブな検索エンジンを作ってみよう • どのようなデータ構造を採用すればいいの？ • どんな実装をすれば良いの？ • 分散システムの良いところ・悪いところを、作って理解しよう
• 検索品質を改善してみよう • どんな方法がとれるの？ • そもそも品質って何？ © Recruit Co., Ltd., 2024. 29

２つの検索戦略 © Recruit Co., Ltd., 2024. 31 転置 index Linux
カーネルリリース A A B B 1. TAAT = Term At A Time 2. DAAT = Document At A Time

TAAT (Term At A Time) における AND 検索 © Recruit
Co., Ltd., 2024. 33 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 1.「mmap」の posting list を accumulator に追加: acc０ = [1,5] 2.「Linux」の posting list から、次のルールで新しい accumulator acc 1 を作成: acc0 に有 ⇒ 追加 acc0 に無 ⇒ 無視 acc1 = [1, 5] 検索クエリ: Linux AND mmap 要素数の少ない Posting List から開始するのが効率的！！

TAAT (Term At A Time) における OR 検索 © Recruit
Co., Ltd., 2024. 34 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 1.「mmap」の posting list を accumulator に追加: acc０ = [1,5] 2.「Linux」の posting list を accumulator に追加: acc1 = [1, 3, 5, 6] 検索クエリ: Linux OR mmap 効率的な方法はない…

DAAT (Document At A Time) の基本 © Recruit Co., Ltd.,
2024. 36 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 1 1 1 2 3 3 4 5 5 6 6 7 • TAAT は横串 • DAAT は縦串

DAAT (Document At A Time) における AND 検索 © Recruit
Co., Ltd., 2024. 37 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 • Term 毎にカーソルを準備 • 各カーソルを移動し、共通のドキュメントを発見したら、 accumulator に追加検索クエリ: Linux AND mmap acc = []

Co., Ltd., 2024. 38 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 • Term 毎にカーソルを準備 • 各カーソルを移動し、共通のドキュメントを発見したら、 accumulator に追加検索クエリ: Linux AND mmap acc = [1]

Co., Ltd., 2024. 39 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 • Term 毎にカーソルを準備 • 各カーソルを移動し、共通のドキュメントを発見したら、 accumulator に追加検索クエリ: Linux AND mmap acc = [1]

Co., Ltd., 2024. 40 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 • Term 毎にカーソルを準備 • 各カーソルを移動し、共通のドキュメントを発見したら、 accumulator に追加検索クエリ: Linux AND mmap acc = [1, 5]

DAAT (Document At A Time) における OR 検索 © Recruit
Co., Ltd., 2024. 41 50,241件 10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 ① ② 1 1 1 2 3 3 4 5 5 6 6 7 • Term 毎にカーソルを準備して、全ての要素を重複なく追加検索クエリ: Linux OR mmap 効率的な方法はない…

TAAT vs DAAT © Recruit Co., Ltd., 2024. 42 50,241件
10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 1 1 1 2 3 3 4 5 5 6 6 7 • メモリ使用量が多いのは TAAT • OR 検索では差異なし • かなりプリミティブな作り

TAAT vs DAAT © Recruit Co., Ltd., 2024. 43 50,241件
10,320件 30,483件 500,020件 UNIX BSD mmap kernel Linux 520件 1 1 1 2 3 3 4 5 5 6 6 7 S. Ding and T. Suel. Faster top-k document retrieval using block-max indexes. In Proceedings of the 34th Annual International ACM SIGIR Conference on Research and development in Information Retrieval, pages 993-1002, 2011. ↑の成果は Lucene 8 (2019/3/14 リリース) で実装 • https://fosdem.org/2019/schedule/event/apache_lucene_solr_8/attachments/slides/3325/export/events/attachments/apache_lucene_s olr_8/slides/3325/Sch indlerLucene8Slides.pdf • https://medium.com/@mocobeta/lucene-8-%E3%81%AE-top-k- %E3%82%AF%E3%82%A8%E3%83%AA%E3%83%97%E3%83%AD%E3%82%BB%E3%83%83%E3%82%B7%E3%83%B3%E3%82%B0%E6%9C%80% E9%81%A9%E5%8C%96-1-%E5%B0%8E%E5%85%A5%E7%B7%A8-5a6387076e8e 今でも効率的なアルゴリズムの研究が続いている

実装することなんてあるの？ © Recruit Co., Ltd., 2024. 45 Java で実装された検索ライブラリ
Lucene 利用利用 Solr 検索エンジン、全文検索 No… since 2010 since 2004 since 1999

Lucene © Recruit Co., Ltd., 2024. 46 • 転置インデックスを提供 •
検索の戦略は DAAT • 検索の非常にネイティブな機能のみ提供 • 様々な検索機能 Boolean Query、Range Query、Fuzzy Query • スコアリング機能設計が非常に優秀な証ですね。 since 1999

Lucene がベースにしているアーキテクチャを知ろう！ © Recruit Co., Ltd., 2024. 47 Data Structure?
Where and How?

Where and How?

一般的な index のデータ構造 © Recruit Co., Ltd., 2024. 49 •
B木（B-tree） • B+木（B+-tree） • B*木（B*-tree） • Skip-List

Posting List (Skip List) © Recruit Co., Ltd., 2024. 50
4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 291 53395 53395 ものすごく疎な部分がある

4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 291 53395 53395 ものすごく疎な部分がある

4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 291 53395 53395 ものすごく疎な部分がある 53,392回も比較する！?

4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 183 291 291 53395 53395 53395 53395 53395 53395 特定の間隔でジャンプ（Skip）する冗長なリストをもつ

4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 291 291 53395 53395 53395 53395 53395 53395

4,820,483件 93,832,732件 car book 0件 53,392件 1 3 3 183 291 291 53395 53395 53395 53395 53395 53395 見回る回数が少ない！！ ※ スキップの段数に依存 ※ スキップの間隔に依存

Lucene の Posting List (Skip List) © Recruit Co., Ltd.,
2024. 60 https://github.com/apache/lucene/blob/main/lucene/core/src/java/org/apache/lucene/codecs/MultiLevelSkipListWriter.java * Example for skipInterval = 3: * c (skip level 2) * c c c (skip level 1) * x x x x x x x x x x (skip level 0) * d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d (posting list) * 3 6 9 12 15 18 21 24 27 30 (df) * * d – document * x - skip data * c - skip data with child pointer

Lucene の Posting List (Skip List) © Recruit Co., Ltd.,
2024. 61 Apache Lucene - Index File Formats: https://lucene.apache.org/core/9_0_0/core/org/apache/lucene/codecs/lucen e90/package-summary.html#package.description

一般的な index のデータ構造 © Recruit Co., Ltd., 2024. 62 •
B木（B-tree） • B+木（B+-tree） • B*木（B*-tree） • Skip-List

B+木 © Recruit Co., Ltd., 2024. 63 • 葉ブロックがデータを表す •
内部ブロックは index（データをもたない） • 条件「各ブロックは a 個以上 b 個以下（例では２個以上３個以下）のエントリを必ずもつ」を満たすように、木の構造を変形する • 範囲指定のクエリに対して、強力に動作 • ブロックデバイス（葉ブロックと内部ブロックを格納）との相性が抜群 30 50 7 12 22 30 39 52 55 73 内部ブロック葉ブロック 15以上？

ブロックデバイス © Recruit Co., Ltd., 2024. 64 • ブロック単位で読み書き •
ブロックの大きさはブロックサイズ • ブロックサイズは結構大きい（Linux のデフォルトは 4 KB） • 1bit 書き換えても、ブロックごと書き換えられる残念ながら SSD もブロックデバイス

Where and How?

ブロックデバイス？メモリーの間違いでは？ © Recruit Co., Ltd., 2024. 66

無邪気にメモリーには置けない… © Recruit Co., Ltd., 2024. 67 揮発

他にもすることがある！Search のマージは大変 © Recruit Co., Ltd., 2024. 68 転置 index
Linux カーネルリリース A A B B 転置 Index の検索における Merge はコアであり、コストが超高い ↓ Merge 分のメモリー

無邪気に考えた場合の問題点 © Recruit Co., Ltd., 2024. 69 • 揮発性 •
メモリー使用の割当： • インデックス用 • マージ用 • Update 時の反映 • Load 時間（起動までの時間） • マルチタスク・マルチスレッド対応 • 巨大なインデックスへの対応 Practice で全部解決してみよう！

無邪気に考えた場合の問題点 © Recruit Co., Ltd., 2024. 70 • 揮発性 •
メモリー使用の割当： • インデックス用 • マージ用 • Update 時の反映 • Load 時間（起動までの時間） • マルチタスク・マルチスレッド対応 • 巨大なインデックスへの対応が提供してくれるコア機能

それではどうするのか？ © Recruit Co., Ltd., 2024. 71

Practice① © Recruit Co., Ltd., 2024. 72

Practice①: 課題のゴール © Recruit Co., Ltd., 2024. 73 • 転置インデックスの構造を作ってみよう
• Indexing と Search のフェーズが分離されていることを体感しよう • 転置インデックス上での検索の動作原理を実装していみよう（AND と OR） • 永続的なインデックスの保存方法を知る（一旦、ファイルに保存してみよう） • メモリー上への配置は結構時間がかかることを体感しよう課題のゴール

Practice①: 準備 © Recruit Co., Ltd., 2024. 74 • Docker
はインストールされていますか？ • VSCode はインストールされていますか？ • VSCode の拡張機能 Dev Containers はインストールされていますか？ Python の実行環境課題の参考資料をダウンロード • search-practice-2024.tgz をダウンロード • かなり raw level な python のプログラム！

Practice①: 【課題】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 75 • 転置インデックスを実装して、AND
と OR 検索してみよう • 転置インデックスをファイルに保存できるようにしよう • ２つのフェーズを実装 • インデックス作成フェーズ • 検索フェーズ • 検索の戦略は TAAT で OK • 2つのファイルで転置インデックスを実現 • Term を管理する Python 辞書ファイル: index_offset.dat • Posting List のファイル: index_posting_list.dat 課題 T:00000 T:00001 T:00002 T:FFFFF D:001 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 index_offset.dat index_posting_list.dat

Practice①: 【戦略】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 76 • index_offset.dat
(Term を管理する Python 辞書ファイル) • 各 Term の Posting List が Posting List のファイルのどこに存在するか？！の Offset を格納 • index_posting_list.dat (Posting List のファイル) • 実際の Posting List を保存２つのファイル T:00000 T:00001 T:00002 T:FFFFF D:001 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 index_offset.dat index_posting_list.dat

Practice①: 【仕様】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 要求される仕様 • ファイルに保存できること
• Term は擬似的に 0〜F の長さ 5 の全ての組合せ T:00000 〜 T:FFFFF で総数 1,048,576 = 16^5 • Document の ID は D:000 〜 D:100 をランダムに生成 • 各 Term は 10 個から 50 個のランダムな個数のドキュメントをもつ T:00000 T:00001 T:00002 T:FFFFF D:001 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 16^5 index_offset.dat index_posting_list.dat

Practice①: 転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 【p0 の内容】「ただの配列をもった辞書じゃないの？！」
⇒ Yes!!!!! 「ただ、ファイルに保存するだけ？！」 ⇒ Yes!!!... なので、折角だから pickle を使ってみたここから、一歩進んで（課題）【p1 の内容】 • Posting List を分割して、 – ファイルの位置 (offset) を記録部分と、 – 実際の Posting List を普通のファイルにする

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 79 参考資料の解説① •
「課題が分からん！」という人 ⇒ p0 を見てね！ • p0 版は「python のオブジェクトをファイルに保存」版 ⇒ キーポイントは pickle !! • ゴールは「Posting List のファイルを普通の文字列のファイル」にしてみること • 「Term に対応する Posting List がファイルのどこにあるか？」を記録している「Python のオブジェクト」は「オブジェクトをファイルに保存」で OK ⇒ pickle 版流用でOK T:00000 T:00001 T:00002 T:FFFFF D:001 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 index_offset.dat index_posting_list.dat 普通のファイル Python 辞書のファイル

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 80 参考資料の解説② •
楽するための課題共通ライブラリ • search_practice_2024/ • posting_list.py • search_tool.py • term.py • 課題の解説プログラム (全部 python版) • search_practice_2024/p0/ • index.py • search.py • 回答例！！ (まずは見ないで頑張ろう！) • search_practice_2024/p1/answer/ • index.py • search.py T:00000 T:00001 T:00002 T:FFFFF D:001 p0_index.dat（課題の解説用） 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 16^5

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 81 参考資料の解説③ •
term.py • 課題の term を作ってくれるクラス • 引数で何個 term を作るか？指定 • 引数なしだと、16^5 個（開発時は少なめに指定しましょう） • フォーマットは T:00000〜T:FFFFF • posting_list.py • 課題の Posting List を作ってくれるクラス • 擬似的に各 term は 10〜50 個のドキュメントを保持 • ドキュメントのIDは D:000〜D:100 でランダム（ランダムの seed は term にしているのでみんな同じ） • search_tool.py • Posting List に対して、AND と OR 検索を提供するクラス • ものすごくはしょってあり、set を使って楽しています • TAAT を仮定しています

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 82 参考資料の解説④ •
課題解説プログラムの実行方法 (command というファイルに全部書いてあります！) # インデックス生成 (100万オーダーで生成するので結構時間がかかります) $ python3 -m search_practice.p0.index # 検索（検索対象は __main__ 以下の term で指定。50万回検索するのでちょっと時間がかかります） $ python3 -m search_practice.p0.search

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 83 参考資料の解説⑤ 作業時は、生成するサイズを小さくしましょう！！
（時間がかかるので…） Index の Term.create() の引数指定で 100 個等指定すれば OK （デフォルト値は 16^5）

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 84 参考資料の解説⑥ •
採用するデータ構造 (TSV 形式) T:000FF ¥t 00012 ¥t D:032 ¥t D:036 ¥t … ¥t D:093¥n Term 保持しているドキュメントの個数５桁のドキュメント ID 改行コード５桁のドキュメント ID

Practice①: 転置インデックスを実装してみよう © Recruit Co., Ltd., 2023. 85 改めて課題を T:00000
T:00001 T:00002 T:FFFFF D:001 10〜50個のドキュメント D:024 D:001 D:001 D:099 D:032 D:033 D:055 〜 • p0 と同じ結果になる p1 を作ろう • index.py • search.py • Posting List を分割して、 • ファイルの位置 (offset) を記録部分と、 • 実際の Posting List を普通のファイルにする 16^5 index_offset.dat index_posting_list.dat 普通のファイル Python 辞書のファイル

Practice①: 【資料】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 86 • p1
配下に index.py と search.py を作ったら (command というファイルに全部書いてあります！) # インデックス生成 $ python3 -m search_practice.p1.index # 検索 $ python3 -m search_practice.p1.search

Practice①: 【参考】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 87 実装上のキーワード (ヒント！)
• Python の辞書ファイルの保存は pickle を使おう • Posting List のファイルの読み書きは codecs を使うのが吉 (utf-8 にしよう！) • Posting List 自体は可変長ですが、中身は固定長で OK！ • Posting List の長さが、そのまま offset になるように出来ます！ • Posting List ファイル内の読込は file の seek で行先頭を見つけ出し、readline で OK！

Practice①: 【参考】転置インデックスを実装してみよう © Recruit Co., Ltd., 2024. 88 Python のプロファイラーや
time コマンドでの比較 (command というファイルに全部書いてあります！) $ python -m cProfile -s cumtime -m search_practice.p1.answer.index $ python -m cProfile -s cumtime -m search_practice.p1.answer.search $ time python -m search_practice.p1.answer.index $ time python -m search_practice.p1.answer.search

Practice① © Recruit Co., Ltd., 2024. 89 • 転置インデックスの「作成フェーズ」と「検索フェーズ」 •
Dic 版 (p0) に比べて File 版 (p1) が遅いことを実感できましたか？！ • Load に時間がかかる点も気になりましたか？！

無邪気に考えた場合の問題点 © Recruit Co., Ltd., 2024. 90 • 揮発性 ⇒
p0:◯, p1:◯ • メモリー使用の割当：⇒ p0:✗, p1:◯ • インデックス用 • マージ用 • Update 時の反映 ⇒ p0:△, p1:△ ※ 作れば良いだけ • Load 時間（起動までの時間）⇒ p0:✗, p1:◯ • マルチタスク・マルチスレッド対応 ⇒ p0:△, p1:△ ※ 作れば良いだけ • 巨大なインデックスへの対応 ⇒ p0:✗, p1:◯ p1 は検索が遅い！！！ ↓ 致命的…

Practice① © Recruit Co., Ltd., 2024. 91 最近の Mac (SSD
を含め) は本当に速くなってしまって… 体感できましたかね？！

実際はどうなの？ © Recruit Co., Ltd., 2024. 93

Where and How?

mmap © Recruit Co., Ltd., 2024. 95

mmap © Recruit Co., Ltd., 2024. 96 • システムコール •
システムムコールだけど、ユーザープロセスの仮想アドレス空間に作成されるので、コンテクストスイッチが少ない: （ユーザー空間 vs カーネル空間） • メモリマップトファイルとして扱えるので、追加・削除・更新が楽 • 複数のプロセス間で共有もできる • 【注意】Java の世界から逸脱している（Java のヒープ外でアロケートされてる） • 【おまけ】C で malloc すると内部では mmap が呼ばれる

mmap © Recruit Co., Ltd., 2024. 97 0x00000 実メモリ 0x00000
プロセスA 実アドレス 0x00000 プロセスB 仮想アドレス仮想アドレスファイル

Elasticsearch の推奨設定 © Recruit Co., Ltd., 2024. 98 “The standard
recommendation is to give 50% of the available memory to Elasticsearch heap, while leaving the other 50% free. It won’t go unused; Lucene will happily gobble up whatever is left over.” ※ Set the JVM heap size 【注意】Java の世界から逸脱している（Java のヒープ外でアロケートされてる）

Lucene の index 格納 © Recruit Co., Ltd., 2024. 99
org.apache.lucene.store（代表的な3種類） 1. SimpleFSDirectory.java • java.nio.ByteBuffer 2. NIOFSDirectory.java • java.nio.ByteBuffer 3. MMapDirectory.java • java.nio.MappedByteBuffer • https://lucene.apache.org/core/9_5_0/core/org/apache/lucene/store/package-summary.html

Indeed の独自実装: util-mmap © Recruit Co., Ltd., 2024. 100 MappedByteBuffer
の既知の制約を克服: – 安全にアンマップできない – サイズが 2GB (int) を超えるファイルをマップできない – スレッドセーフではない • https://jp.engineering.indeedblog.com/blog/2015/02/util-mmap-でメモリマッピング/ • https://github.com/indeedeng/util/tree/main/mmap

おまけ: それでも Disk からデータは引き出す © Recruit Co., Ltd., 2024. 101
• 一番検索で良く使うのは検索結果 • ブロックサイズを意識して格納 • ディスクへのアクセスは猛烈に遅いがディスクキャッシュは早い • トレードオフが十分ならば圧縮して格納する

おまけ: 圧縮のトレードオフ © Recruit Co., Ltd., 2024. 102 読み込み完了 100MB/s
5,000KB 50ms 25ms 30GB/s =30,720MB/s 2,500KB 50%圧縮読み込み完了 15ms 10ms＝解凍 300倍位速い！

Luceneで利用できる圧縮方式 © Recruit Co., Ltd., 2024. 103 LZ4 (選択可能: DEFLATE,
Zstandard 等) • Zstandard を利用したいPR (Facebook 製): https://github.com/apache/lucene/pull/439 • https://gigazine.net/news/20120824-dragonquest-backstage-cedec2012/ • 圧縮率は低いが、圧縮速度が速い • 色々なところで使われている: – OS: Linux, FreeBSD – Hadoop, Cassandra – Nintendo Switch – ドラゴンクエストXのセーブデータ

Practice② © Recruit Co., Ltd., 2024. 104

Practice②: 転置インデックスを mmap で実装してみよう © Recruit Co., Ltd., 2024. 105
• Posting List を mmap で実装し、共有できることを知ろう（共有メモリ） • Update して、他のプロセスからどう見えるか？知ろう課題のゴール https://docs.python.org/ja/3/library/mmap.html

要求される仕様 • 扱う index は Practice①と同じ ⇒ 作らなく大丈夫！！！ • Posting List を mmap で実装しよう ⇒ index.py は読み込みとデストラクタだけでOK • 簡単な http サーバーを立ち上げて、検索とupdate が出来るようにしよう ⇒ FastAPI を使おう！（開発コンテナ内に install 済み） • update は Posting List の内容を入れ替えて見る（追加・削除はせず、入れ替え）だけで OK • 検索は • /and?term=T:AAAAA,T:BBBBBで AND 検索 • /or?term=T:AAAA,T:BBBBBで OR 検索 • Update は • /update?term=T:AAAAA &old=D:00023&new=D:00032 で D:00023 を D:00032 へ update • 複数プロセスを立ち上げて、それぞれ検索し、他のプロセスが update した内容が反映されるのを確かめよう Index Process Process Process

mmap FastAPI 参考ページ

mmap • 普通のファイル操作と同じことが出来る ⇒ p1 での実装と同じ！！！ • 書き換え（update）は、始点から終点までの変換 ⇒ mmap_object[5:7] = ‘abc’ ※ 長さは一緒じゃないとダメ！！

参考資料の解説① • p1/index.py と p1/search.py とかなり似通った作りになります。 • index_offset.dat と index_posting_lists.dat はこれまでと一緒！ • update 機能は別途切り出して p2/update.py 等を作成 • 新たに FastAPI のサーバーを作りますが、面倒ならば server.py をご参考に • p2/server.py で各リクエストに対して、以下が動くイメージ: • p2/index.py • p2/search.py • p2/update.py

参考資料の解説② • 課題のゴールは以下の作成: 1. p2/index.py • インデックス作成自体は、不要になります (__main__ を作る必要なしです！) • Load だけ、出来れば良い • p1/index.py で作ったファイルで OK • index_offset.dat • index_posting_list.dat 2. p2/search.py 3. p2/update.py 4. p2/server.py

参考資料の解説③ # サーバー立ち上げ（port 番号指定） $ ./fastapi run search_practice/p2/answer/server.py --port 9000 # サーバー停止 $（Ctrl-C） # ブラウザ • http://0.0.0.0:9000/and?term=T:FFFD7,T:FFFDD • http://0.0.0.0:9000/or?term=T:FFFD7,T:FFFDD • http://0.0.0.0:9000/update?term=T:FFFD7&old=D:087&new=D:088 実行方法 (command というファイルに全部書いてあります！)

FastAPI で操作できるようになったら… # サーバーを複数立ち上げ $ fastapi run search_practice/p2/answer/server.py --port 9000 $ fastapi run search_practice/p2/answer/server.py --port 9001 $ fastapi run search_practice/p2/answer/server.py --port 9002 # あるサーバーから update を実行して、 # 他のサーバーでの検索結果 (サンプルでは AND 検索) が変化するのを確認

Practice② © Recruit Co., Ltd., 2024. 113 • Dic 版
(p0) と File 版 (p1) の欠点が解消されましたか？！ • プロセス間通信もできるので複数呼び出し可能になりましたか？！

無邪気に考えた場合の問題点 © Recruit Co., Ltd., 2024. 114 • 揮発性 ⇒
p0:◯, p1:◯, p2: ◯ • メモリー使用の割当：⇒ p0:✗, p1:◯, p2:◯ • インデックス用 • マージ用 • Update 時の反映 ⇒ p0:△, p1:△, p2:◯ • Load 時間（起動までの時間）⇒ p0:✗, p1:◯, p2:◯ • マルチタスク・マルチスレッド対応 ⇒ p0:△, p1:△ , p2:◯ • 巨大なインデックスへの対応 ⇒ p0:✗, p1:◯, p2:◯ p2 は検索が速い！ ↓ OK

Where and How?

「マルチプロセスというか、そもそも1台に置けないのですけど…」 © Recruit Co., Ltd., 2024. 117

Solr や Elasticsearch は何を提供してくれているの？ © Recruit Co., Ltd., 2024. 118
• RESTfull なAPIの提供 • 管理機能の提供 • クラスタリング機能を提供

50,241件 10,320件 520件 30,483件 500,020件 1. 同じキーが同じサーバーにいる必要がない ⇒ 「mmap」が別のサーバーにあっても良い【分散】 2.
マージさえできればよい ⇒ 「mmap」が複数のサーバーにあってもよい【重複】 UNIX BSD mmap kernel Linux 分散検索 © Recruit Co., Ltd., 2024. 120

分散検索: indexing UNIX mmap Linux UNIX mmap Linux UNIX mmap
Linux © Recruit Co., Ltd., 2024. 121

分散検索: 概念（Elasticsearch の用語にて） • 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 •
可用性（Availability） • 負荷分散（Load Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ © Recruit Co., Ltd., 2024. 122

分散検索: ノード • 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 • 可用性（Availability）
• 負荷分散（Load Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ © Recruit Co., Ltd., 2024. 123

分散検索: シャード • 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 • 可用性（Availability）
• 負荷分散（Load Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ A Shard C Shard B Shard C Shard A Shard B Shard 124 © Recruit Co., Ltd., 2024.

• 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 • 可用性（Availability） • 負荷分散（Load
Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！シャード A, B, C 全部が生存欠損なしで検索続行分散検索: 可用性（Availability） 125 A Shard C Shard B Shard C Shard A Shard B Shard ✗ © Recruit Co., Ltd., 2024.

Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！分散検索: 可用性（Availability） 126 A Shard C Shard B Shard C Shard A Shard B Shard ✗ © Recruit Co., Ltd., 2024. ゆっくり寝るには、とっても大事ですね

Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！シャード A と B に関する検索シャード A と B に関する検索シャード A と B に関する検索 127 A Shard C Shard B Shard C Shard A Shard B Shard 分散検索: 負荷分散（Load Balance） © Recruit Co., Ltd., 2024.

Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ hash(XXX) mod (# of Shard) = C Doc ID: XXX 128 A Shard C Shard B Shard C Shard A Shard B Shard 分散検索: ルーティング © Recruit Co., Ltd., 2024.

分散検索 • 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 • 可用性（Availability） •
負荷分散（Load Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ 129 A Shard C Shard B Shard C Shard A Shard B Shard © Recruit Co., Ltd., 2024.

分散検索: Index の構成 • サーバー（シャード）は本来非常に多い（ここでは３台） • シャードに含まれるドキュメント数には上限有り（100万等） • どのサーバーも、自分の担当の検索は非常に高速（対象が100万位しかないから） •
入り切らなくなってきたら、サーバーを足す（スケールアップではなく、スケールアウト） < 1000,000 < 1000,000 < 1000,000 © Recruit Co., Ltd., 2024. 130 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円

分散検索: Two Phase Search, query and fetch • query phase:
どのサーバーにマッチする結果がどれだけあるのか？ ⇒ メモリ上＋ネットワークトラフィック小で解決 • fetch phase: 見つけた結果を整形（スニペット生成、等）して返却結果を作成 ⇒ 高負荷な処理を実行 131 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch 【重要】各サーバは他のサーバーの安いアイスクリームを知らない！！クエリー：アイスクリーム ORDER
BY 安い順 LIMIT 3 132 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch クエリー：アイスクリーム ORDER BY
安い順 LIMIT 3 [50, 120, 200] [10, 220, 320] [300, 500, 720] [10, 50, 120] 133 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch クエリー：アイスクリーム ORDER BY
安い順 LIMIT 3 [10, 50, 120] 134 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch Q: 100位〜102位まで取ってくるには？クエリー：アイスクリーム
ORDER BY 安い順 LIMIT 3 OFFSET 100 A: 各サーバーから102件取得してくる 135 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch Q: 嘘でしょ？クエリー：アイスクリーム
ORDER BY 安い順 LIMIT 3 OFFSET 100 A: 本当です。 136 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch Q: 事前に準備とかできないの？クエリー：アイスクリーム
ORDER BY 安い順 LIMIT 3 OFFSET 100 A: できないです… 137 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024.

分散検索: Two Phase Search, query and fetch クエリー:（アイスクリーム AND すいか味）ORDER
BY 安い順 LIMIT 3 OFFSET 100 138 Shard A アイスクリーム 20０円 5０円 850円 120円 Shard B アイスクリーム 320円 220円 10円 900円 Shard C アイスクリーム 850円 300円 500円 720円 © Recruit Co., Ltd., 2024. 【重要】もちろんキャッシュが使えて、最重要！

Practice③ © Recruit Co., Ltd., 2024. 140

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 141 • 分散検索がどのように動くのか？
理解しよう • 可用性を上げるにはどうしたらよいか？体験しよう • スケールすると（インデックスサイズが大きくなると）何が大変になるか？理解しよう課題のゴール Index ① Request /and?term=AAAAA,BBBBB ② 分散検索 /get?term=AAAAA ③ local 検索 ③ local 検索 ② 分散検索 /get?term=BBBBB

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 142 要求される仕様 •
扱う index は Practice②と同じ • 通信は http • 分散検索は • /and?term=AAAAA,BBBBBで AND 検索 • /or?term=AAAA,BBBBBで OR 検索 • 単純に１個の term の Posting List を GET する API を追加（追加といっても /and と /or のどちらかを流用すれば OK） • /get?term=AAAA • マージ処理（実際の AND と OR の処理）はリクエストを受け取ったサーバーで OK Index ① Request /and?term=AAAAA,BBBBB ② 分散検索 /get?term=AAAAA ③ local 検索 ③ local 検索 ② 分散検索 /get?term=BBBBB

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 143 参考資料の解説① •
p2/server.py と p2/search.py を改造すれば OK • /_getは p2/server.py の AND 処理と OR 処理と同じ • NODE は固定で OK NODES = [ ‘0.0.0.0:9000’, ‘0.0.0.0:9001’, ‘0.0.0.0:9002’, ] ※ はじめは NODE を 1 個で試してみよう！ • and のリクエストを受け取ると、各 term 毎に Posting List を各サーバーに http で要求し、全ての結果をマージ（AND or OR）する • p2/search.py の変更点: • これまでの Posting List の取得を各サーバーに問い合わせて、取得するように変更 (http client が登場！！) • /get は自前で Posting List を取得 • p2/server.py の変更点: • /get を追加し、時前で Posting List を取得する method の呼び出しに変更

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 144 参考資料の解説② 「直列にリクエスト投げるの、もったいなくない？！」
と言う方は鋭い！！是非、async で非同期に取得してみてください！！

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 145 参考資料の解説② httpx
がインストールされています！！！

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 146 参考資料の解説② •
キーワードは • httpx.AsyncClient • Client からの response は response object です！結果の json を取りたい時は response.json() だけで大丈夫！ • asyncio.gather • 非同期で複数リクエストを投げて、それを配列に格納して、その配列のそれぞれのレスポンス取得が終わるの gather で待ちます！

Practice③: 分散検索を実装してみよう © Recruit Co., Ltd., 2024. 147 # サーバーを複数立ち上げ
(command というファイルに全部書いてあります！) $ ./fastapi run search_practice/p2/answer/server.py --port 9000 $ ./fastapi run search_practice/p2/answer/server.py --port 9001 $ ./fastapi run search_practice/p2/answer/server.py --port 9002 # あるサーバーから search を実行して、 # 各サーバーがリクエストを受け取り、 # これまでと結果が変わらないことを確認 # ブラウザ # and だとちょっと面白くないので、 # or でいっぱい term を足してみよう！ http://0.0.0.0:9000/or?term=T:FFFD7,T:FFFD D,T:00AABB,T:00CCBB,T:CCBBDD,T:FFFFFF,T:8 8FF11,T:66CC77

Practice③ © Recruit Co., Ltd., 2024. 148 • 分散処理を作れた感じがつかめましたか？ •
Merge の処理がヘビーになる感じがつかめましたか？

分散検索: 概念（Elasticsearch の用語にて） • 各サーバーをノードと呼ぶ • 各ノードは複数のシャード（部分index）をもつ • シャードは以下を提供 •
可用性（Availability） • 負荷分散（Load Balance） • ドキュメント単位でルーティング • どのシャードに格納するのかは、あなた次第！ © Recruit Co., Ltd., 2024. 149 なんと！！ Elasticsearch の基本的な機能が出来ちゃったぞ！！

ちゃんと話していないこと（出来ていないこと） © Recruit Co., Ltd., 2024. 150

Term （転置インデックスのキー） © Recruit Co., Ltd., 2024. 151

© Recruit Co., Ltd., 2024. 153 転置インデックス 50,241件 10,320件 30,483件
UNIX BSD mmap kernel Linux 520件 1 1 1 2 3 3 4 5 5 6 6 7 500,020件 T:00000 T:00001 T:00002 T:FFFFF 〜 MD5 or SHA-3 で出来なくもない！！

TokenStream = Term（＝文字列＋フィールド）の stream ＋アトリビュート
• https://github.com/apache/lucene/blob/main/lucene/core/src/java/org/apache/lucene/index/Term.java • https://github.com/apache/lucene/blob/main/lucene/core/src/java/org/apache/lucene/analysis/TokenStream.java これはどう作るの？！ Lucene の世界では Tokenizer が分割をしてくれる！ © Recruit Co., Ltd., 2024. 154 Lucene の世界の Term と Token

• ClassicTokenizerFactory • EdgeNGramTokenizerFactory • HMMChineseTokenizerFactory • ICUTokenizerFactory • JapaneseTokenizerFactory
• KeywordTokenizerFactory • LetterTokenizerFactory • LowerCaseTokenizerFactory • NGramTokenizerFactory • PathHierarchyTokenizerFactoryPatternTokenizerFactory • StandardTokenizerFactory • ThaiTokenizerFactory • UAX29URLEmailTokenizerFactory • UIMAAnnotationsTokenizerFactory • UIMATypeAwareAnnotationsTokenizerFactory • WhitespaceTokenizerFactory • WikipediaTokenizerFactory © Recruit Co., Ltd., 2024. 155 Lucene の Tokenizer

英語の Tokenize は超簡単 “Elasticsearch is a distributed, RESTful search and
analytics engine capable of solving a growing number of use cases.” WhitespaceTokenizer “Elasticsearch is a distributed, RESTful search and analytics engine capable of solving a growing number of use cases.” © Recruit Co., Ltd., 2024. 158

日本語の Tokenize は… “Elasticsearchは、様々なユースケースを解決する、分散型RESTful 検索/分析エンジンです。” ？ “Elasticsearchは、様々なユースケースを解決する、分散型RESTful 検索/分析エンジンです。” 単純には分割できない？
？ © Recruit Co., Ltd., 2024. 159

Ngram Tokenizer 一定の長さの文字列単位で分割「敵に塩を送る」 • Unigram: 1文字単位 ⇒ 「敵」「に」「塩」「を」「送」「る」 • Bigram:
2文字単位 ⇒「敵に」「に塩」「塩を」「を送」「送る」 • Trigram: 3文字単位 ⇒「敵に塩」「に塩を」「塩を送」「を送る」 Q: Bigram で「塩」を検索可能？！ A: No… 検索できない ⇒ N-gram ならば 2-1gram © Recruit Co., Ltd., 2024. 161

Ngram Tokenizer: 比較 Unigram vs Trigram 「敵に塩を」 • 長さ3以上の term
ならできることに変わりはなし（「塩」は検索できない） • どんどん大きくなると、完全一致のようになり、検索とは何か？という問題になる（6-gramでは「敵に塩を送」さえ検索できない） • 速度には差がでる（Unigram より Trigram の方が速い） 4個のタームのマージ vs 2個のタームのマージ「敵」「に」「塩」「を」vs 「敵に塩」「に塩を」 ※「に」「を」のPosting List などは非常に大きい（はず） © Recruit Co., Ltd., 2024. 162

Japanese Tokenizer （Kuromoji） • 形態素解析エンジン • 辞書ベースで分割 • 「敵に塩を送った」 Surface
form Part-of-Speech Base form Reading Pronunciati on 敵名詞,一般,*,* 敵テキテキに助詞,格助詞,一般,* に二二塩名詞,一般,*,* 塩シオシオを助詞,格助詞,一般,* をヲヲ送っ動詞,自立,*,* 送るオクッオクッた助動詞,*,*,* たタタ © Recruit Co., Ltd., 2024. 164

Ngram vs 形態素解析それぞれ、良いところと悪いところがある解決策：両方をもつハイブリッド index 効果＼手法 Ngram 形態素解析取りこぼし:
「目黒」で「中目黒」は hit? Good! = hit Bad… = No hit レレバンシー: 「京都」で「東京都」が hit? Bad… = hit Good! = No hit Index サイズ Bad… = 大 Good! = 小 © Recruit Co., Ltd., 2024. 165

Sudachi（形態素解析機）最近は「sudachi」が人気 © Recruit Co., Ltd., 2024. 166 https://github.com/WorksApplications/Sudachi •
A: 医薬/品/安全/管理/責任/者 • B：医薬品/安全/管理/責任者 • C：医薬品安全管理責任者

Unicode のノーマライズこれは、検索に限らずどこでも使う！！（一般的なプログラミング言語全てで提供。ICU、ありがとう！） • ＡＢＣ１２３ ⇒ ABC123 • ﾄｳｷｮｳ
⇒ トウキョウ • ㌀ ⇒ アパート • ㈱ ⇒ 株式会社 © Recruit Co., Ltd., 2024. 168 NFKC (Normalization Form KC)

• KeywordTokenizerFactory • LetterTokenizerFactory • LowerCaseTokenizerFactory • NGramTokenizerFactory • PathHierarchyTokenizerFactoryPatternTokenizerFactory • StandardTokenizerFactory • ThaiTokenizerFactory • UAX29URLEmailTokenizerFactory • UIMAAnnotationsTokenizerFactory • UIMATypeAwareAnnotationsTokenizerFactory • WhitespaceTokenizerFactory • WikipediaTokenizerFactory © Recruit Co., Ltd., 2024. 169 Lucene の Tokenizer 「京都」で「東京都」

© Recruit Co., Ltd., 2024. 170 Lucene の Tokenizer 「京都」
で「東京都」

Precision and Recall © Recruit Co., Ltd., 2024. 172 適合率と再現率
理想と現実

Precision and Recall © Recruit Co., Ltd., 2024. 173 適合率と再現率
一般的な二値分類の評価一緒パッーと流してOK

適合率と再現率 Precision and Recall 検索結果が適合性：現実における理想の割合再現性：理想における現実の割合 © Recruit Co.,
Ltd., 2024. 174

理想の検索結果 C 実際の検索結果 B A 再現率＝ C A 適合率＝ B
A © Recruit Co., Ltd., 2024. 175 適合率と再現率

意味：どれほど正確か？＝正確性＝ノイズを含まない比率実際の検索結果（B）に理想の結果（A）が含まれている割合理想の検索結果 C 実際の検索結果 B A © Recruit Co.,
Ltd., 2024. 176 再現率＝ C A 適合率＝ B A 適合率

意味：どれほど網羅しているか？網羅性＝取りこぼしが少ない比率理想の検索結果（C）の内、実際の検索結果として取得できた（A）割合理想の検索結果 C 実際の検索結果 B A © Recruit Co.,
Ltd., 2024. 177 再現率＝ C A 適合率＝ B A 再現率

• 適合率：正確性＝ノイズを含まない比率 • 再現率：網羅性＝取りこぼしが少ない比率理想の検索結果 C 実際の検索結果 B A 再現率＝
C A 適合率＝ B A 適合率と再現率 © Recruit Co., Ltd., 2024.

なんでも正しい1件しか返却しない！ ⇒ 最高 • 適合率を上げれば、再現率は下がり、、 • 再現率を上げれば、適合率が下がる。理想の検索結果 C 実際の検索結果
B A © Recruit Co., Ltd., 2024. 179 再現率＝ C 1 ＝1 適合率＝ B A 極端な適合率

• 適合率を上げれば、再現率は下がり、 • 再現率を上げれば、適合率が下がる。なんでも全件返却する！ ⇒ 最高理想の検索結果 C A
B 実際の検索結果 © Recruit Co., Ltd., 2024. 180 ＝1 再現率＝ C A 適合率＝ B A 極端な再現率

適合率（正確性）と再現率（網羅性）のバランスが重要理想の検索結果 C 実際の検索結果 B A © Recruit Co., Ltd.,
2024. 181 再現率＝ C A 適合率＝ B A 適合率と再現率

F-measure の値が大きければ、バランスのとれた良い結果 F-measure ＝適合率（ 1 ＋再現率 1
） 2 © Recruit Co., Ltd., 2024. 182 F-measure：適合率と再現率のバランス

ところで… © Recruit Co., Ltd., 2024. 183

理想の検索結果 C 実際の検索結果 B A © Recruit Co., Ltd., 2024.
184 実際の結果と理想の結果を全部？

• そもそも「理想の検索結果」とは？ • 機械的に作ることが可能ならば、それを検索結果してしまえば良い • 実際に10万件の結果がある場合、評価可能？！ • メジャーなクエリー1万件ある場合、評価が必要な件数は10億件 • 検索にヒットしなかった結果も評価しないといけない…
• 全部で100万件あり、10万件ヒットしたとしても、残りの90万件も「理想の検索結果」か否かを評価… © Recruit Co., Ltd., 2024. 185 適合率と再現率の検索での非現実性

そもそも、検索結果を全件見る？！ © Recruit Co., Ltd., 2024. 186

愚直に適合率と再現率を上げるのではなく、必要とされる順序で検索結果を返すことが重要 © Recruit Co., Ltd., 2024. 187

• クエリー「目黒」で、検索結果に「中目黒」を含めるべきか否か？！ • なかなか分からない • クエリー「京都」で、検索結果に「東京都」を含めるべきか？！ • 含めるべきではない（だろう） • 答えはあるのか？
• 多分、一般的な解はない • どうすればいいのか？ © Recruit Co., Ltd., 2024. 189 検索結果の一般的な評価？

{ "_score" : 656.68774, "_source" : { "nikki_kuromoji" : "雪の目黒",
"nikki_ngram" : "雪の目黒“ } }, { "_score" : 23.361103, "_source" : { "nikki_kuromoji" : "雨の中目黒", "nikki_ngram" : "雨の中目黒“ } } © Recruit Co., Ltd., 2024. 191 「Elasticsearch は何か出しているよ？」

TF-IDF and Okapi BM25b • 何なの？ – アルゴリズム • 入力は？
– 文章の集合 • 出力は？ – 各文章の各単語にスコアを付与 • スコアは何を表すの？ – 各文章の各単語の重要度 © Recruit Co., Ltd., 2024. 194

TF-IDF and Okapi BM25b • 何なの？ – アルゴリズム • 入力は？
– 文章の集合 • 出力は？ – 各文章の各単語にスコアを付与 • スコアは何を表すの？ – 各文章の各単語の重要度 Linux: 0.3 Windows:0.1 ぶり: 4.2 Linux: 1.3 Windows:2.3 まぐろ: 3.8 Linux: 5.4 FreeBSD:10.3 大根: 2.1 © Recruit Co., Ltd., 2024. 195

© Recruit Co., Ltd., 2024. 199 【脱線】逆にすることができる！！！検索クエリー①: たらこ＋1万円以上 Document
A 検索クエリー②: 辛子明太子＋20万円以上検索クエリー③: 甘口明太子＋1000円以下 ⇒ クエリーを保存

２つの文章での「Linux」 Linux Linux（リナックス、他の読みは後述）は、 UnixライクなOSカーネルである）。 OS オペレーティングシステム（英語: Operating System、
OS、オーエス）とは、コンピュータのオペレーション（操作・運用・運転）のために、ソフトウェアの中でも基本的、中核的位置づけのシステムソフトウェアである。通常、OSメーカーが組み上げたコンピュータプログラムの集合として、作成され提供されている。 … フリーなOSは、Linux、FreeBSD… … どちらの文章が「Linux」に関して重要度が高いか？！ = 価値が高いか？！＜直感的？定量的 © Recruit Co., Ltd., 2024. 200

TF-IDF • TF＝Term Frequency＝Termの頻度あるドキュメントの中で、どれだけその Term が出現したか？ ⇒ いっぱい出てくる単語は重要だ •
IDF：IDF＝Inverse Document Frequency＝逆文章頻度ある Term が全体の中でどれほどレアか？ ⇒ レアな単語は重要だ • TF-IDF = TF×IDF あるドキュメント D の中の、Term T がどれほど重要か？は、（TF: D の中での T の頻出度）×（IDF: T の全体でのレア度） © Recruit Co., Ltd., 2024. 202

TF-IDF：TF＝Term Frequency＝Termの頻度 Linux Linux（リナックス、他の読みは後述）は、 UnixライクなOSカーネルである）。 Linux: 2 リナックス:
1 読み: 1 Unix: 1 一つの文章に現れる Term の出現回数沢山出現すればそれだけ重要 © Recruit Co., Ltd., 2024. 203

TF-IDF：IDF＝Inverse Document Frequency＝逆文章頻度 • Linux • である IDF ＝ log
Term T が現れる文章数総文章数 • 野菜 • である • 野菜 • がある • Linux • がある • 肉 • である IDF(Linux) ＝ log 2 5 ＝ 0.39 IDF(である) ＝ log 3 5 ＝ 0.22 ＞定量的 Linux である © Recruit Co., Ltd., 2024. 204

TF-IDF：IDF＝Inverse Document Frequency＝逆文章頻度 • 逆である意味は？！ – 現れるドキュメントが、多ければ多いほど、重要度を下げたい（逆比例：「である」等は小、「しめ鯖」等は大） • log
を取る意味は？！ – 非常に大きな総文章数の場合のためのノーマライズ（ノーマラナイズしないとTFの意味がなくなる） © Recruit Co., Ltd., 2024. 205 IDF ＝ log Term T が現れる文章数総文章数

TF-IDFの注意（良いところ）あるドキュメント D に対して Term が異なれば、TF-IDFも異なるしめ鯖 ⇒ 0.8492 Linux
⇒ 0.0234 月刊 Linux 2018/04/24 号今月の月刊 Linux では、カーネルの特集を… …ところでしめ鯖は美味しいですね。僕も… © Recruit Co., Ltd., 2024. 207

BM25: TF-IDFが不都合な場合 Linux Linux（リナックス、他の読みは後述）は、 UnixライクなOS カーネルである）。 Linux Linux Linux
Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux … TF(Linux) ＝ 14,352 TF(Linux) ＝2 ＞これは不都合注）IDFはどちらも一緒 © Recruit Co., Ltd., 2024. 209

BM25: TF-IDFが不都合な場合 Linux Linux（リナックス、他の読みは後述）は、 UnixライクなOS カーネルである）。 Linux Linux Linux
Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux … TF(Linux) ＝ 14,352 TF(Linux) ＝2 ＞これは不都合注）IDFはどちらも一緒 © Recruit Co., Ltd., 2024. 210 単語数！ 14,352 ＞ 23

BM25の定義・TF = 単語(Linux)の出現数・IDF = 単語レア度(Linuxのレア度) ・DL = ドキュメントの単語数(23)
・avgDL = 全てのドキュメントの単語数の平均 (=320) ・２つのパラメータk1, b k1 は 2 が最も最適と言われている b は 0.75 が最も最適と言われている BM25(Linux) ＝ TF × IDF × TF+k1 ×(1-b+b× ) k1 + 1 avgDL DL © Recruit Co., Ltd., 2024. 211 Linux Linux（リナックス、他の読みは後述）は、 UnixライクなOS カーネルである）。

BM25の意味 BM25(Linux) ＝ TF × IDF × TF+k1 ×(1-b+b× )
k1 + 1 avgDL DL 単語を沢山もつ場合は一つの単語の価値を減点↓ 単語を沢山もつ場合は減点だがそれが平均に対して小さければ加点↑ ・TF = 単語の出現数・IDF = 単語レア度・DL = ドキュメントの単語数・avgDL = 全てのドキュメントの単語数の平均 © Recruit Co., Ltd., 2024. 212 単に単語を沢山もつ場合は減点↓

BM25 and TF-IDF Linux はフリーのOSカーネルであり、… FreeBSDは Unix系のオープンソースの…
今年のじゃがいもはとても不作だった。日本ではこの時期のブリを特に「寒ブリ」と • Linux: 23 • OS: 11 • カーネル: 17 • は: 0.331 • あり: 3.65 • の: 0.003 • です: 0.0001 • は: 0.000053 • の: 0.023 • FreeBSD: 65 • OS: 9 • カーネル: 5 • じゃがいも: 42 • 不作: 58 • 今年: 2 • だった:0.003 • は: 0.00428 • の: 0.00084 • 寒ブリ: 90 • 日本: 3 • 時期: 1.8 • 特に: 0.2 • の: 0.00189 レアではないワードはスコア小特徴的 Term はスコア大 © Recruit Co., Ltd., 2024. 213

• クエリー「目黒」で、検索結果に「中目黒」を含めるべきか否か？！ • なかなか分からない • クエリー「京都」で、検索結果に「東京都」を含めるべきか？！ • 含めるべきではない（だろう） • 答えはあるのか？
• 多分、一般的な解はない • どうすればいいのか？ © Recruit Co., Ltd., 2024. 216 検索結果の一般的な評価？

{ "_score" : 656.68774, "_source" : { "nikki_kuromoji" : "雪の目黒",
"nikki_ngram" : "雪の目黒“ } }, { "_score" : 23.361103, "_source" : { "nikki_kuromoji" : "雨の中目黒", "nikki_ngram" : "雨の中目黒“ } } © Recruit Co., Ltd., 2024. 218 「Elasticsearch は何か出しているよ？」⇒ Okapi BM25b

そんなあなたへ nDCG • nDCG (= normalized Discounted Cumulative Gain) •
直訳すると「正規化された効果減少の累積報酬」 • ランキングの精度評価指標 • ランキングを行うシステムの評価に利用できるので、特に、検索だけがターゲットではない。例）レコメンドシステム、広告システム • nDCG も理想のランキングとの乖離具合を数値化 © Recruit Co., Ltd., 2024. 223

nDCG の仲間達 • nDCG • Precision@k • mAP (Mean Average
Precision) • MMR (Maximal Marginal Relevance) © Recruit Co., Ltd., 2024. 224

nDCG：実際の検索結果 ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上辛子明太子
1kg ⑤ パスタソース逸品からし明太子 © Recruit Co., Ltd., 2024. 227 クエリー「からし明太子」

nDCG：実際のカスタマーの行動クエリー「からし明太子」 ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上
辛子明太子 1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 © Recruit Co., Ltd., 2024. 228

表示されたクリックされた CTR と CVR PV (Page View): 表示された回数 CTR
= 表示された回数クリックされた回数 (Click Through Rate) © Recruit Co., Ltd., 2024. 232

表示されたクリックされた購入された CTR と CVR PV (Page View): 表示された回数
CTR = 表示された回数クリックされた回数 (Click Through Rate) CVR = 表示された回数購入された回数 (Conversion Rate) ※何を Conversion と考えるか？はサービス次第 © Recruit Co., Ltd., 2024. 233

辛子明太子 1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 2位なのに頑張っている 4位なのに断トツ？！ 1位なのに普通かな ③と④は上下反転？！ © Recruit Co., Ltd., 2024. 237

nDCG：実際の結果クエリー「からし明太子」 ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上

nDCG：理想の結果クエリー「からし明太子」 ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上

nDCG：理想の結果クエリー「からし明太子」 ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上
辛子明太子 1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入元々1位だったアドバンテージを考慮していない © Recruit Co., Ltd., 2024. 240

nDCG：スコア ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上辛子明太子
1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 S1=150 S2=110 S3=45 S5=60 S4=250 1. 各順位の結果はスコアをもっている（例: クリック数＋購入数×100） © Recruit Co., Ltd., 2024. 242

nDCG：Top 5 のスコア ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック
④【送料無料】極上辛子明太子 1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 S1=150 S2=110 S3=45 S5=60 S4=250 2. 各順位に応じて、ペナルティを与え、全体のスコアを計算 DCG5＝ S1 + + + … log2 S2 log3 S3 © Recruit Co., Ltd., 2024. 243

nDCG：理想の結果のDCG=iDCG (ideal DCG) ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック
④【送料無料】極上辛子明太子 1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 3. スコア順の DCG を求める＝ iDCG ⇒ DCG が MAX DCG5＝ S4 + + + … log2 S1 log3 S2 S4=250 S1=150 S2=110 S3=45 S5=60 © Recruit Co., Ltd., 2024. 244

nDCG：ちょっと改善してみる ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上辛子明太子
1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 © Recruit Co., Ltd., 2024. 247

nDCG：ちょっと改善してみる ① 辛子明太子ゴールデンサイズ ② 明太子！【送料無料】てんこ盛り ③ からし明太子高菜80g×2パック ④【送料無料】極上辛子明太子
1kg ⑤ パスタソース逸品からし明太子クリック購入クリック購入クリック購入クリック購入クリック購入 © Recruit Co., Ltd., 2024. 248

実際の改善では？ • 「ドキュメントは新しい方が良さそうだ」 ⇒ 登録日時を考慮 • 「このクエリーのときにはこういう価格帯が良さそうだ」 ⇒ 価格帯を考慮 •
「あまり見られていなドキュメントにも可能性があるのでは？」 ⇒ 公平性を考慮 • 「ユーザーの評価も含めるべきではないか？」 ⇒ ユーザー評価を考慮 © Recruit Co., Ltd., 2024. 254 既成概念や過去の成功体験はありまり役荷立たない ⇒ A/B テストの繰り返し

注意点！！ • 「ドキュメントは新しい方が良さそうだ」 ⇒ 登録日時を考慮 • 「このクエリーのときにはこういう価格帯が良さそうだ」 ⇒ 価格帯を考慮 •
「あまり見られていなドキュメントにも可能性があるのでは？」 ⇒ 公平性を考慮 • 「ユーザーの評価も含めるべきではないか？」 ⇒ ユーザー評価を考慮 © Recruit Co., Ltd., 2024. 255 既存のスコアを計算できないケースに注意！！

© Recruit Co., Ltd., 2024. 256 現実的で実際的な検索結果の評価 • メジャークエリー（ロングテールだったとしても…）の nDCG
• 積分して全体の7割でもカバー出来れば大捕物 • 悪いクエリーのカテゴライズ • 例 • 新規ドキュメントの比重 (十分インプレッションされているか？) • 特定の内容に偏りがないか (あるドメインばかりの結果で埋め尽くされる) • 地域系のクエリーが悪い (例: 東京、大阪) • 特定の属性に関するクエリーが悪い (例: 色、規格)

実際の改善では？ • 「ドキュメントは新しい方が良さそうだ」 ⇒ 登録日時を考慮 • 「このクエリーのときにはこういう価格帯が良さそうだ」 ⇒ 価格帯を考慮 •
「あまり見られていなドキュメントにも可能性があるのでは？」 ⇒ 公平性を考慮 • 「ユーザーの評価も含めるべきではないか？」 ⇒ ユーザー評価を考慮 © Recruit Co., Ltd., 2024. 258 既成概念や過去の成功体験はありまり役荷立たない ⇒ A/B テストの繰り返し

RAG とは？ • RAG (Retrieval Augmented Generation) ⇒ 日本語では「検索拡張生成」 •
一体何を拡張するの？ ⇒「検索拡張生成（RAG）とは、テキスト生成をプライベートデータソースまたは独自のデータソースからの情報で補完する技術のことです。」（検索拡張生成（RAG）とは？） • 何に使うの？！ ⇒ 質問に対する回答、コンテンツを生成、セマンティクス検索例: クエリー「はんだ付けの手順」※ 文字列検索ではない！ • 何でそんなにもてはやされているの？！ ⇒ 新規の学習をするのではなく（例: 社内情報=社員以外不要、最新情報、そもそも学習していない情報）、検索結果を生成AIに渡し、回答を生成させる © Recruit Co., Ltd., 2024. 263

LLM (Large Language Model) の問題点を RAG が解決する？！ • LLM の問題点とは？！
⇒ 幻覚（ハルシネーション）を引き起こす ⇒ 知識更新が遅い ⇒ 回答の透明性の欠如 • 幻覚（ハルシネーション= hallucinations）とは？ ⇒ AI が勝手に回答を作りだす • 知識更新が遅い（slow knowledge updates）？！ ⇒ そもそも、学習していない • 回答の透明性の欠如 (lack of transparency)？！ ⇒「ほんまかいな？！」の検証 © Recruit Co., Ltd., 2024. 264

© Recruit Co., Ltd., 2024. 265 RAG：より良い参考ページ • Elastic: •
検索拡張生成（RAG）とは？ • Amazon (AWS): • RAG とは何ですか? • Google (Google Cloud): • Your RAGs powered by Google Search technology, part 1 • Your RAGs powered by Google Search technology, part 2 • Arxiv.org: • Retrieval-Augmented Generation for Large Language Models: A Survey

© Recruit Co., Ltd., 2024. 266 RAG のコア • Retriever
⇒ 関連する情報の取得 (検索: LLM に供給するデータの精度) • Generator ⇒ Retriever から受け取ったデータから、自然で流暢な自然文を生成 • Augmentation ⇒ 統合：Retriever と Generator の情報を統合

検索結果の品質向上

検索結果の品質向上

More Decks by Recruit

Other Decks in Technology

Featured

Transcript