OpenSearchで始める全文検索

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 自己紹介三井明楽 ● 2018年10月入社 ● エンジニア ○ 主にとらコイン、Fantiaを担当虎の穴ラボへに入社したきっかけ ● 身近なサービスに関わりたい ● オタク業界に関わりたい趣味 ● アニメ ○ まどマギ ○ SAO ● 音楽（アーティスト） ○ 梶浦由記さん ○ Sound Horizon/Linked Horizon ● 吹奏楽・オーケストラ ○ ゲーム・アニメの音楽が多め

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. OpenSearchとは ● AWSが提供しているフルマネージド全文検索サービスである「Amazon OpenSearch Service」で使用されている全文検索エンジン ○ ※Amazon Elasticsearch Serviceの後継 ● Elastic社が開発しているElasticsearch、およびKibanaのバージョン7.10.2から派生（フォーク）して実装されている ● Apache ライセンスのバージョン 2.0 (ALv2) の下でリリースされている（＝オープンソースソフトウェア） ● 機能としては、Elasticsearch7.10.2と同等の機能に加え、独自の機能が実装されている（次ページ参照） 7

Slide 8

Slide 8 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. OpenSearchの特徴 Elasticsearchにはなかった機能が利用可能（以下抜粋） ● 暗号化、認証、承認、および監査の機能（Active Directory、LDAP、SAML、 Kerberos、JSON ウェブトークンなど） ● SQLクエリ構文が使える（集計、グループ化、WHERE 句など） ● バックグラウンドで非同期検索クエリを実行可能 ● データを自動的にモニタリングして、ステークホルダーにアラート通知 ● 機械学習を使用して、製品レコメンデーション、不正検出、画像および動画検索、関連ドキュメント検索などが利用可能 https://aws.amazon.com/jp/opensearch-service/the-elk-stack/what-is-opensearch/ 8

Slide 9

Slide 9 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 補足：Elasticsearchについて ● Elastic社が開発している全文検索エンジン ● バージョン7.11以降のライセンスが変更（Apache2.0→Elastic License v2） ※クライアントライブラリのライセンスは引き続きApache2.0のまま ● Elastic License 2.0の制約は以下の3つのみ ○ 製品をマネージドサービスとして他者に提供する行為の禁止 ○ ライセンスキーによる保護機構を何らかの方法で回避する行為、および、ライセンスキーで保護される機能を削除または隠蔽する行為の禁止 ○ 使用許諾、著作権、その他の通知を削除、またはわかりにくくする行為の禁止 ● バージョン7.11以降はオープンソースとは言えなくなるが、「無償かつオープン」とのこと 9

Slide 10

Slide 10 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. OpenSearchのメリット ● AWSを既に利用中の場合、導入コストが低い ● SQLクエリ構文が使えるので感覚的にも使いやすい ● Elasticsearchにはなかった認証機能などもあり、セキュリティが高い ● フルマネージドサービスなので、運用・管理が楽（監視にCloudWatchが使える） ● 公式のDockerイメージが提供されているので、ローカルでも開発環境の構築が可能 10

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 全文検索の仕組み全文検索の検索方式には以下の2つがありますが、今回は順次検索には触れません。 ● 索引検索（インデックス型） ○ 索引（インデックス）を利用して検索する方式 ○ データ量が多くても検索が高速 ○ 一般的な全文検索エンジンで使用されている方式 ● 順次検索（grep型） ○ 名前の通りデータの先頭から順番に検索していく方式 ○ データ量が多い場合は検索に時間がかかる 12

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 索引の作り方 14 文書データ文書ID 内容 1 カレーが好き 2 カツカレーが食べたい 3 カツ丼が好き見出し語（索引語）文書ID カツ 2, 3 カレー 1, 2 丼 3 が 1, 2, 3 好き 1, 3 食べたい 2 索引データ (転置インデックス) N-Gram 形態素解析（わかち書き）

Slide 15

Slide 15 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 索引検索の仕組み 15 <例>「カツカレー」で検索 →「カツ」「カレー」を両方含む文書を探す見出し語（索引語）文書ID カツ 2, 3 カレー 1, 2 丼 3 が 1, 2, 3 好き 1, 3 食べたい 2 文書ID 内容 1 カレーが好き 2 カツカレーが食べたい 3 カツ丼が好き索引データ (転置インデックス) 文書データ

Slide 16

Slide 16 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 索引の作り方 - 形態素解析辞書を用いて、テキストデータを意味を持つ最小単位の単語（形態素）に分割する手法。 <例> カツカレーが食べたい　⇒「カツ」「カレー」「が」「食べたい」 ● 利点 ○ 検索ノイズが少ない ○ 転置インデックスのデータ量がN-Gramより小さい ○ あいまい検索のようないい感じの検索が可能 ● 欠点 ○ 辞書の性能によっては検索されない単語が出てくる（検索漏れ） 16

Slide 17

Slide 17 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 索引の作り方 - N-Gram 単語の意味を意識せず、テキストデータを文字数で分割する手法。（ Nには分割する文字数の数字が入る） <例: 2-Gramの場合> カツカレーが食べたい　⇒「カツ」「ツカ」「カレ」「レー」「ーが」「が食」「食べ」「べた」「たい」 ● 利点 ○ 検索漏れがない（部分一致や完全一致による検索結果が保証できる） ● 欠点 ○ 検索ノイズが多くなる ○ 転置インデックスのデータ量が形態素解析より大きい ○ N(最小文字数)より小さい単語では検索できない 17

Slide 18

Slide 18 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 補足: 検索ノイズとはユーザーにとって、「これじゃない」という検索結果のこと。 <例> 東京都 ● 形態素解析：見出し語→「東京都」 ○ 「東京都」を含む文章のみが検索され、「京都」を含む文書は検索されない。（完全一致が保証される） ● 2-Gram：見出し語→「東京」「京都」 ○ 「京都」を含む文書も検索結果に出てしまうが、ユーザーにとっては不適合情報。⇒検索ノイズ 18

Slide 19

Slide 19 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. 結局どっちがいいの？ ● 検索漏れ絶許（業務系システム、ログ分析など） ⇒ N-Gram ● いい感じで検索したい（toCのサービスなど） ⇒ 形態素解析 ● どっちの利点もほしい ⇒ N-Gram＋形態素解析のハイブリット式 ○ 設定の工夫が必要なので開発コスト高め ○ インデックス2種類作るので、データ量が大きくなる 19

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. OpenSearchとは（おさらい＋α） ● AWSが提供しているフルマネージド全文検索サービスである「Amazon OpenSearch Service」で使用されている全文検索エンジン ● 分散型（クラスター構成）の検索エンジンである ● データの入出力（CRUD）はREST API 21

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. OpenSearchのデータ構造 23 Node（≒Server） Index（≒Database） Type（≒Table） Document（≒Row） Document Type Document Document OpenSearch RDB Index Database Type Table Document Row Field Column 検索インデックスとは違うものを指すので注意

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. Index（not 検索インデックス）の設定サンプルとして、シンプルなデータ構造を定義します。 ※OpenSearchのデータ操作（CRUD）は REST APIで行う ※前提：OpenSearch Dashboard上で操作します 25 Index名デフォルトで用意されている Analyzer ※形態素解析の場合

Slide 26

Slide 26 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. Analyzer（アナライザー）とは ● 文章の分析・変換を行ってくれる機能 ● 以下の3つから構成されている ○ Character filter：文字列をTokenizerで分割する前に必要な処理を行う ○ Tokenizer：文字列を単語に分割する　※必須設定 ○ Token filters：Tokenizerで分割された内容に対し、必要な処理を行う ● 実行順は以下の通り ○ Character filter　→　Tokenizer　→　Token filters ● データ登録（インデックス作成）時、検索時の両方で使用する 26

Slide 27

Slide 27 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. kuromojiとは ● オープンソース(ALv2)の日本語形態素解析エンジン ● 以下のような様々な機能がある ○ 文字の正規化： ① → 1, ㌢ → センチ　※Character filter ○ 漢数字を半角数字に変換：六三四 → 634　※以下、Token filters ○ 動詞や形容詞を基本形に変換：食べたい　→　食べる ○ 検索に有用でない単語の除去：カレーが食べたい→「カレー」「食べたい」 ○ 長音の除去：サーバー　→　サーバ ● OpenSearchのプラグインとして用意されている https://www.atilika.com/ja/kuromoji/ 27

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. まとめ OpenSearch ● フルマネージドサービスなので、運用・管理コストが低い ● AWS利用中であれば、全文検索機能を実装する上での導入コストは低い ● REST API で操作できるので、既存システムとの連携がしやすい ● 用途としては大きく分けると「全文検索」「ログ分析」など 31

Slide 32

Slide 32 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. まとめ　その２ OpenSearch利用時の注意点 ● 形態素解析、N-Gramのどちらか、もしくは両方とも使うのかは要件に合わせて選択すべし ● 形態素解析の場合、Analyzerの設定には工夫（チューニング）が必要 ● Indexは定義しなくても自動生成されるが、定義しておいた方が良い（Analyzerは自前でチューニングすべし） ● ストレージサイズは、データ量＋インデックスサイズで考慮する必要あり 32

Slide 33

Slide 33 text

Copyright (C) 2022 Toranoana Inc. All Rights Reserved. おまけ Amazon OpenSearch Serviceは無料枠があり、手軽に試せるので、ご興味ある方はぜひ触ってみてください。 ● インスタンス ○ t3.small.search または t2.small.search ■ 750時間/月まで無料（1ノードであれば1ヶ月31日分無料＝基本無料） ● ストレージ ○ Amazon EBS ■ 10GB/月まで無料 33