Alibaba Cloud Elasticsearch勉強会資料

データ分析の勉強会～Elasticsearch編～ 2021/04/27 Hironobu Ohara

注意事項 2 本書はElasticsearch 7.0 以上をベースとしています。そのため、6.x世代のものは対象外になります。 Ex: String型 →Text型、Typeの廃止、template化 etc….
Elasticsearch ML、Graph、Notification、SIEMなどは今回は記載しません。（あくまでも基礎） PPTにあるソースコードをコピペしながら演習する形になりますが、pptの文字自動変換によりクエリがうまくまわらない部分があるかもしれないので、その点注意ください。 ※本資料は2021年4月27日時点でのサービス内容、SLA、価格についてご説明になります。最新の情報はAlibaba Cloud公式サイト（ https://www.alibabacloud.com/ ）にてご確認ください。

3 今日はElasticsearchの勉強をします。今回のゴールはElasticsearchの基礎を固めることです

4 座学編

Alibaba Cloud Elasticsearchとは 5 様々なLogを収集、蓄積、可視化、分析、監視しつつ、テキストデータの全文検索/分析に特化したプロダクトサービス可視化保存/蓄積収集異常検知
認証/暗号化相関分析通知定例レポート Security Monitoring Alerting Reporting Graph Machine Learning Kibana Elasticsearch Logstash Beats +

6 OpenSource Elasticsearch OpenSource Kibana OpenSource Logstash X-pack ElasticFlow Smart
O&M system Eyou SQL APM Metric/Log Analysis OpenSource Functions Differentiation Functions Elastic & Alibaba Cloud Alibaba Cloud Elasticsearch Product Alibaba CloudはElastic社パートナーのため、 Elastic正規版と同じ機能をフルサポート。 https://www.elastic.co/jp/elasticon/tour/2019/beijing/alibaba

7 Alibaba Cloud により Elasticsearch を隅々最適化。正規版の倍パフォーマンスを低コストで提供。性能比較コスト比較

8 ところで、なぜElasticsearchが選ばれているのか？

ソフトバンクペイメントサービス株式会社 9 https://www.elastic.co/jp/customers/softbank-payment-service

LINE株式会社 10 • スタンプ・着せかえ検索 • 人気ランキング・新着などのリスト生成 • カテゴリーリスト生成 • あなたへのおすすめ
これらをElasticsearchで運用 https://engineering.linecorp.com/ja/blog/using-elasticsearch-as-a-search-engine/

Facebookの検索もElasticsearch 11 https://www.elastic.co/jp/videos/elasticsearch-facebook-meet-up • 氏名・エリア・学校などの検索 • 友達かもしれないレコメンド • カテゴリーリスト生成

NASAもElasticsearchを使っている 12 https://www.elastic.co/jp/elasticon/conf/2015/sf/unlocking-interplanetary-datasets-with- real-time-search ・CPU・メモリ・NW使用率からの異常検知・火星の天気までを含めたメトリックデータを分析火星探索ミッションもElasticsearchがサポート

他、おおはらがElasticsearchで実現できたこと 13 SIEM・セキュリティ監視テキスト要約教師あり機械学習によるレコメンデーション Web検索サービス類似画像検索異常検知

まとめ：Elasticsearchとは 14 • Elasticsearchは全文検索に特化した、可視化用のデータストア（キーワードによる分析に特化） • 検索条件に合うデータを素早く可視化するのに向いている（１年前のデータとか、長期間スパン間でのデータを探索するシナリオであれば不向きなので、その場合はRDBかMPP、MapReduceが望ましい） •
リアルタイム分析に特化。障害検知やセキュリティ対策にも役に立つ。

ちょっと余談・可視化ツールについて 15 ダッシュボード分析基盤として可視化ツールは大きく4種類ありますススプレッドシートノートブック Jupyter、AI Platform Notebooksなど（対話型で分析する用途が
多め）例： ⇒可視化ツールの性格上、目的に応じた使い分けがベストです BIツール内容長期的なスパンのデータを蓄積し、SQLなどクエリエンジンを使って可視化。データを蓄積するために、整形処理（ETL）があることからバッチ処理が多い。短期的なスパンのデータを検索エンジンを使って可視化。リアルタイム可視化としてリアルタイム処理用途が多く、生データをそのまま可視化することがある。データを使って、ピボットテーブルを使ったクロス集計やグラフ作成し、可視化。大量データは扱えないので、比較的スモールデータでの対処になる。 Kibana、DataV、 Grafanaなど（公開後、操作はあまりしない。監視や定例レポート用途が多め） Tableau、DMS、 QuickBI、Metabase、など（SQLを使って日付やカテゴリ絞りをしながらデータドリブン分析） Excel、Googleスプレッドシート、DataWorks DataMapなど（直接データを集計や編集したりする用途が多め） Pythonなどプログラミング言語を使って、対話型でアドホック分析し可視化。作業の過程を残しやすいため、 Step-by-Stepでデータ分析によるアプリケーション開発が可能。

ちょっと余談・可視化ツールについて 16 ダッシュボードススプレッドシートノートブック BIツール

ちょっと余談・可視化ツールについて 17 ダッシュボードススプレッドシートノートブック BIツールアドホック分析や定例レポート用途データ分析者や開発者向け（万能スタイル。ただし大容量のデータを扱うので、バックエンドの基盤サービスが鍵）
定例レポート、監視用途運用者、経営者層向け（過去のデータにはあまりこだわらない）アドホック分析用途非エンジニアやデータ分析者向け（暫定措置が多い）アドホック分析や機械学習開発用途データ分析者や開発者向け向け（PythonやScalaなどプログラミング言語を使って対話するようにデータの中身を分析）

そもそもの話、ログデータとは？ 18 システムが一定の処理を実行したこと（または実行できなかったこと）を記録したデータ https://www.mitsue.co.jp/case/glossary/l_001.html Applicationログアクセスログ認証ログ DB監査ログ認証ログ操作ログ
イベントログエラーログ Firewallログ IDS/IPSログ WAFログパケットログアプリケーション層ミドルウェア層サーバ基盤/OS ネットワーク ITシステム

ログデータの活用ユースケース 19 Applicationログアクセスログ認証ログ DB監査ログ認証ログ操作ログイベントログエラーログ
Firewallログ IDS/IPSログ WAFログパケットログアプリケーション層ミドルウェア層サーバ基盤/OS ネットワーク ITシステム Webマーケティングセキュリティ監視・対策 ITインフラ活用各種ログ（実績）をベースとした、データドリブンな意思決定を実施 Ex: PolarDBのAutoScale、リテールの売り上げPOS、Web三層のイベントログ/アクセスログ、 SBKK OAPCの外部デバイス接続、社内NWで外部サイトの閲覧、etc….

監視系目的としたログ収集・蓄積・可視化ツール：Elastic 20 可視化保存/蓄積収集異常検知認証/暗号化相関分析通知定例レポート
Security Monitoring Alerting Reporting Graph Machine Learning Kibana Elasticsearch Logstash Beats + 「決まった方法でデータを収集」かつ「データ保持は短期間」、「定型的なクエリ」を使うシナリオとして、Elasticsearchがあります。 ※逆にデータ保持期間が長い、もしくは非定型なクエリなど、要件が異なる場合は、別のサービスを使った方が良いです

Elasticsearch 21 Elasticsearch • Javaベースの分散処理型検索エンジン • 大規模な環境でも利用することが可能 • RESTful検索連携が可能 Kibana
Logstash Beats • Elasticsearchで蓄積したデータを可視化するツール • Node.jsベースでChromeなどWebブラウザで可視化 • URLで共有や、ユーザごとに閲覧・操作権限を付与可 • リアルタイム更新が可能なので、監視にも使いやすい • 各環境上の様々なデータを集め、Elasticsearchなど指定した分析基盤に転送・連携できるツール（LogServiceやkafkaもLogstashが利用可能） • テキストファイルであれば何でも可能（text/json/xml/csv） • 外部API連携や、RDBに接続し転送することも可能 • Linux、WindowsなどのOSにインストールし、機器データをElasticsearchに転送する収集ツール • ネットワークのパケットやWindowsイベントデータ、 CPU/メモリ使用率など死活監視情報をカバー • 特定データであれば、BeatsのModulesを使うことで、自動構築が可能

他機能 22 APM SIEM • Application Performance Monitoringの略 • アプリケーション内部にagentをインストールすることで、
パフォーマンスやヘルスチェックをkibanaで可視化 • 利用可能な言語はJava、Go、Node.js、Python、 PHP、Ruby、.NET、Javascriptなど • Security Information and Event Managementの略 • Host/ログイン認証/プロセス一覧/閲覧端末/イベント一覧/DNSトラフィック/NetFlowなどを包括して閲覧することが可能 • 異常検知ジョブと連携した検知ルールパッケージによりすぐ構築を実現

その他Elasticsearch操作クライアント 23 Python SDK RESTful APIコマンド https://elasticsearch-py.readthedocs.io/en/latest/ python -m pip
install elasticsearch PythonによるElasticsearchクライアントがあるので、これを使ってElasticsearchを操作することが出来ます。 https://medium.com/hello-elasticsearch/elasticsearch-api- 83760ce1424b RESTful APIを使ってElasticsearchを操作することが出来ます。Python SDKよりは多め。 https://www.elastic.co/guide/en/cloud/current/ec-api- deployment-crud.html

データ連携の流れ（1）Basicな分析基盤 24 Kibana Elasticsearch Logstash Beats Python SDK Java SDK

データ連携の流れ（1）Basicな分析基盤 25 性能データイベントログ認証ログログファイルデータベースネットワーク機器 API サーバー
Beats Logstash Metricbeat, winlogbeat, Auditbeat, Filebeat, packetbeat… Kibana Elasticsearch Python SDK Java SDK アプリケーション Restful API 3rd Tools 検索ログ管理DB Webブラウザ

LogstashとBeatsの使い分け 26 Logstash Beats Javaベース。メモリを大量消耗多様多種なデータソースからデータを取り込みデータを加工（ETL）し、様々な保存先に出力未知なるデータソースを柔軟に対応し、分析に合わせて加工処理 Goベース。ソース目的ごとのプラグインがあり、非常に軽量データ加工処理らETLは不可（取り込み寸前にて加工対処は可能）
データ保存先はElasticsearchのみサーバやシステムエージェント的な用途として、メトリクスを素早く可視化 ※実はLogService、E-MapReduce、MaxComputeでもLogstashが使用可能です。 https://www.elastic.co/jp/beats/

データ連携の流れ（2）Alibabaカスタマイズ版 27 収集蓄積・分析可視化 https://www.slidestalk.com/u181/Elasticsearch63824

Elasticsearchの基本的な構造・概念 28 Index Index Index Document1 Document2 Document3 Field1 Field2
Field3 Field1 Field2 Field3 Field1 Field2 Field3 ・・・ Index Elasticsearchのノード集合体 RDBで例えるとデータベースの位置づけ Mapping ドキュメントの各フィールドのデータ構造やデータ型の指定 RDBで例えるとフィールドのメタデータ、スキーマの位置づけ Document Elasticsearchが格納する１つの文章の単位 RDBで例えるとレコード（行）の位置づけ Field ドキュメント内の項目名（key）と値（Value） RDBで例えるとカラム（列）の位置づけ・・・ Mapping ちなみに、Elasticsearch 7.0.0以降、Typeという概念の指定は非推奨になりました（RDBにはない）そのため、RDS比喩が以前よりしっくりくるようになっています。ただし、JSONなど様々なドキュメントがDocument/Fieldへ組み合わせる処理をするのに必要なレイヤーなので、ここの挙動を含め覚えて損はないと思います。 Cluster Elasticsearchが格納するドキュメントのコレクション RDBで例えるとテーブルの位置づけ

Mappingとは 29 https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html index作成時、 mapping情報を定義しておくことで、documentをどのようなfiled/データ型で登録しておくかといった管理をする役割を持ちます。同時に分析方法を設定する役割も持ちます。デフォルト（Mapping未設定状態でも運用可能）では最初にDocumentを登録した際、自動でfield/データ型が判断され、indexが作成されます。この場合、Dateやgeo_pointなど一部field/データ型が自動識別されないので、Mappingが便利になります。ちなみに、Mappingなどを設定したIndexはtemplate化することが出来ます

エイリアスとは 30 本番環境で運用中、仕様変更でフィールドの追加やMappngの変更などが発生した場合、 Indexを再作成する必要があります。これはElasticsearchのみならず、ほとんどの検索エンジン共通事項です。これを避けるためにエイリアスを利用すると、 Index再作成は不要、仕様変更に伴うダウンタイムをゼロでカバーできるようになります。例えば、 myindex-1
から myindex-2 へエイリアスを付け替える例としてこのような感じになります。こうすることで、ダウンタイムゼロで他のIndexへ切り替えすることが出来ます。

Elasticsearch – 分散環境で水平スケーリング 31 1 node cluster 5 node cluster
100 node cluster クラスターは必要に応じて拡張可能 Master Node Master Nodes Ingest Nodes Ingest Node Data Nodes - Hot Data Nodes - Warm Data Nodes Node = Elasticsearchのインスタンス Cluster = Elasticsearch Nodeの集合体

物理的な概念（フルマネージドサービスなので気にしなくてもいい((´∀｀)) 32 • Master ノード • クラスターのメタデータなどを管理するノード • Master ノードはクラスターに１台のみ
• マスターノードに昇格可能なノードは Master-eligible と呼ばれるが、Master ノードでは無い • Data ノード • 実際のデータを格納するノード • リクエストの処理（検索や集計など）を実施 • リクエストを別のノードにルーティング（別のノードがシャード持っている場合など） • Ingest ノード • データの変換や加工を実施し、Data ノードに格納 • LogStashと同じ役割 • Coordinating ノード • リクエストをルーティングする（Dataノードもできる） • Data ノードにルーティング作業の負荷を掛けたくない場合にルーティング処理専用のノードを用意するためクラスターノード1 ノード2 ノード3 Primary シャード1-1 Replica シャード2 Replica シャード1-2 Replica シャード1-1 Primary シャード1-2 インデックス1 インデックス2 Primary シャード2

他の言語でも簡単に使用可能 33 Elasticsearch HTTP リクエスト HTTP レスポンス Restful API クライアント
アプリケーション Java、PHP、Python、Perlなど ElasticsearchはHTTPで通信ができるようなREST APIを提供しているので、任意の言語でアプリケーションを作成することが出来ます。 ※このRESTful APIはCRUDオペレーションと呼びます。CRUDはCreate、Read、Update、Deleteの略称用語です。

34 実践編

ここからはElasticsearchを実際に操作します 35 ①以下構成にあわせて、Elasticsearchクラスタを起動します。設定名設定値 Region Japan (Tokyo) Zone Tokyo
Zone A（Bでもどっちでもいい） Zone 1-AZ Resource Group Default Resource Group Version 7.10 Data Node Type 2C 8GB Data Nodes 3 Disk Type Cloud SSD Disk Encryption No Node Storage 100 Kibana Node YES Kibana Node Type 2C 4GB Warm Node No Dedicated Master Node No Client Node No Username elastic Password （各自任意のパスワードを入れてください） ②同じRegion/Zone/VPCのECSを購入・起動します CentOS: 7.9 64-bit / PublicIP割り当て ※もしローカルで操作するならこの作業はSkipしてください ③セキュリティグループで、Elasticsearchとkibanaが通るように、 Port 9200 と 5601を許容します ④Elasticsearch側で、インターネットアドレスを有効にします。 ⑤Elasticsearch側で、Public Network WhitelistにアクセスするIPアドレスの場所としてIPアドレスを入力します。

アクセスするIPアドレスについて 36 ローカルからkibanaを操作する場合は、ローカルのIPアドレスをWhiteListへ登録する必要があります

kibanaのDevToolについて 37 ①コンソールから DataVisuallization → Access over ther Internet ③「Explore
on my own」をクリックし、左側のメニューバーから「Dev Tools」を選択します。 ②kibanaコンソールにログインします。 Username: elastic Password: 購入時に設定したPW ④ここでAPIコマンドを入力します。実行するときは、再生ボタンをクリックします。

参考：Elasticsearch for VSCodeもあります 38 ただし、100％対応しているわけではないので注意（最近出たばかりで今後の進化に注目）

参考：Elasticsearch for VSCodeの使い方 39 ①まずは新規で「.es」のファイルを保存します。 ②ファイル保存が出来たら、自動で接続パスが表示されます。 ③http://user:pass@host:portの形式で設定します HostはPublic Network Accessを指します。
もし接続パスを変更する場合は、Ctrl + Shift + Pを押してES:Elastic:Set Hostから再設定します。 ④あとはQueryを入力します。たとえば、「GET _search」を入力すると、コマンドの上に Run Queryが表示されます。これをクリックして実行します。

40 Elasticsearch編

インデックス操作関連（1）コピペして色々試してください 41 #インデックスの作成 # CREATE TABLE handson_index PUT handson_index?pretty #指定したインデックスの存在チェック
# `?pretty=true` をつけると結果を整形してくれる # DESCRIBE handson_index # SHOW COLUMNS FROM handson_index GET handson_index/_mapping?pretty=true #指定したインデックスの存在チェック # DESCRIBE handson_index # SHOW COLUMNS FROM handson_index GET handson_index/_mapping #インデックスの削除 # DROP TABLE handson_index DELETE handson_index?pretty

インデックス操作関連（2）コピペして色々試してください 42 # インデックスの一覧 # SHOW TABLES GET _aliases?pretty #
Mappingの設定 PUT handson_index?pretty { "mappings" : { "properties" : { "id" : { "type" : "long", "store" : true }, "field1" : { "type" : "text", "analyzer": "kuromoji"}, "field2" : { "type" : "text", "store" : true, "analyzer": "kuromoji" } } } } # エイリアスの追加 POST _aliases?pretty { "actions" : [ { "add" : { "index" : "handson_index", "alias" : "alias_test" } } ] } # エイリアスの削除 POST _aliases?pretty { "actions" : [ { “remove" : { "index" : "handson_index", "alias" : "alias_test" } } ] }

ドキュメント操作関連。コピペして色々試してください 43 # ドキュメントの登録 # INSERT INTO xx,xxx,xxx ・・・ PUT
handson_index_pos/_doc/1 { "date":"2021/03/01 09:00:00+0900", "name":"りんご、ばなな、めろん", "price":"300" } # ドキュメントの取得 # SELECT * FROM xxx GET handson_index_pos/_doc/1 # ドキュメントの更新 # UPDATE xxx PUT handson_index_pos/_doc/1 { "date":"2021/03/01 09:00:00+0900", "name":"りんご、ばなな、めろん、更新した", "price":"300" } # ドキュメントの削除 DELETE handson_index_pos/_doc/1 # 削除結果の確認 GET handson_index_pos/_doc/1

時系列データの扱い 44 Elasticsearchに入ってくるデータは時系列で管理されています。そのため、Indexの肥大化防止として、自動的に別Indexへ切り替え（ローテート）されます doc_20210302 doc_20210303 doc_yyyymmdd Field1 Field2 Field3
Field1 Field2 Field3 Field1 Field2 Field3 ・・・ Mapping Index Template UTC時間ベースで日時で Indexが切り替わる（default設定）

演習（以下コピペして実行してください） 45 # handson_index_posのindex作成 & Mapping設定 PUT handson_index_pos?pretty { "mappings":
{ "properties": { "date": { "type": "date","format": "yyyy/MM/dd HH:mm:ssZ" }, "name": { "type": "text" }, "price": { "type": "long" } } } } # handson_index_posの構成の確認 GET handson_index_pos # データ格納 PUT handson_index_pos/_doc/1 { "date":"2021/03/01 09:00:00+0900", "name":"りんご、ばなな、めろん", "price":"300" } PUT handson_index_pos/_doc/2 { "date":"2021/03/01 09:10:00+0900", "name":"ばなな、すいか、めろん", "price":"500" } PUT handson_index_pos/_doc/3 { "date":"2021/03/01 09:20:00+0900", "name":"りんご、ばなな", "price":"200" } PUT handson_index_pos/_doc/4 { "date":"2021/03/01 09:30:00+0900", "name":"すいか、かぼちゃ", "price":"400" }

参考：複数のデータ登録がめんどくさい場合 46 Bulk APIを使って一気にデータを登録することができます。（とはいえ、ESの挙動で勉強にならないから、今回は１つ１つずつ登録して挙動を確認したほうがいいと思います((´∀｀*)) POST _bulk {"index": {"_index":
"handson_index_pos", "_id": "1"}} {"date": "2021/03/01 09:00:00+0900", "name": "りんご、ばなな、めろん", "price": "300"} {"index": {"_index": "handson_index_pos", "_id": "2"}} {"date": "2021/03/01 09:10:00+0900", "name": "ばなな、すいか、めろん", "price": "500"} {"index": {"_index": "handson_index_pos", "_id": "3"}} {"date": "2021/03/01 09:20:00+0900", "name": "りんご、ばなな", "price": "200"} {"index": {"_index": "handson_index_pos", "_id": "4"}} {"date": "2021/03/01 09:30:00+0900", "name": "すいか、かぼちゃ", "price": "400"}

Elasticsearchから検索する方法 47 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-search.html 基本的にはSearch APIを使います。（他にGraph API、DSLで検索などもあります） Search APIとして、 • match_all
• size • from • sort, order • _source • match • match_phrase • bool query • must • should • must_not • range • Aggs などのクエリ機能がありますが、ひとまずはmatch、rangesを把握すればよいかと思います。

Matchクエリ：全文検索・特定の単語が含まれるドキュメントを検索 48 # 全文検索・特定の単語が含まれるドキュメントを検索 GET /handson_index_pos/_search { "query":{ "match": {
"name": "ばなな" } } }

参考：Query DSLとQuery stringについて 49 # 全文検索・特定の単語が含まれるドキュメントを検索 GET /handson_index_pos/_search { "query":{
"match": { "name": "ばなな" } } } Query DSLはJSONベースで検索 DSLはDomain Specific Language の略称リクエストボディが必要複雑なQueryにも強く、類似検索や関連性検索も可能 Elasticsearch APIの全てを利用可能非常に強力 Query StringはURLベースで検索アプリケーション、例えばGASやslack、shellからESへ直接検索することも可能簡単ですぐ使用できるが、複雑なQueryには向いていないクォートやカッコ、カンマなどでタイポしやすい（URLなので、、） # 全文検索・特定の単語が含まれるドキュメントを検索 curl -XGET ”https://elastic:FY21!hands- [email protected]:9200/ handson_index_pos/_search?q=name(“ばなな”) Query Stringだとmatchクエリが使えてないので（正確には使えますが複雑なクエリになります）結果論として Query DSLの方がより関連性を持った多くのドキュメントがヒットし、 Query Stringは完全一致のドキュメントがヒットします。

Rangeクエリ：期間範囲指定しての検索 50 # 期間範囲指定しての検索 GET /handson_index_pos/_search { "query":{ "range": {
"date":{ "gte": "2021/03/01 09:20:00+0900", "lte": "2021/03/01 09:30:00+0900" } } } }

日本語検索について（1） 51 Elasitcsearchは基本的にWordを区切ったうえで検索を行ってるため、日本語の文章を対象にそのまま検索することができないです。（正しく検索できないから） ※先述の例は、「、」で区切っているため、かろうじて検索ができました。なので、日本語による文章が混じった検索をする場合は、日本語専用のkuromoji Analysis Pluginを使って、Analyzer（アナライザー）を設定、適用する必要があります。入力テキスト
出力トークン Character Filter Character Filter Character Filter Tokenizer Token filter 文章単位の変換単語の区切り単語単位の変換 Analyzerの流れﾘﾝｺﾞ→リンゴ次々→次次魚を釣る → `魚`、`釣る` 例：百十→110 クラスター→クラスタ

Japanese (kuromoji) Analysis pluginの確認 52 https://www.elastic.co/guide/en/elasticsearch/plugins/7.12/analysis-kuromoji.html#analysis-kuromoji コンソールから「Japanese (kuromoji) Analysis plugin」があることを確認します。
もしPluginが無い場合は公式サイトなどから、同じバージョンに合わせてプラグインをダウンロードし、「Custom Plug-ins」としてインストールします。

日本語検索について（2） 53 # handson_index_textのindex作成 & Mapping設定 PUT handson_index_text?pretty { "mappings":
{ "properties": { "date": { "type": "date","format": "yyyy/MM/dd HH:mm:ssZ" }, "message": { "type": "text" ,"analyzer": "kuromoji"} } } } # handson_index_textの構成の確認 GET handson_index_text # データ格納 PUT handson_index_text/_doc/1 { "date":"2021/03/01 09:00:00+0900", "message":"今日の昼ごはんはりんごです。おいしいですよ" } PUT handson_index_text/_doc/2 { "date":"2021/03/01 09:10:00+0900", "message":"りんごが売り切れたので、バナナになりました。バナナ安いしね" } PUT handson_index_text/_doc/3 { "date":"2021/03/01 09:20:00+0900", "message":"バナナが腐っていました。みかんにしましょう。ああめんどくさい" } Index登録時、Mapping経由で、 ”analyzer“:”kuromoji”を登録します。

日本語検索について（3） 54 GET handson_index_text/_search { "query": { "match": { “message”:
“安い" } } } あとは日本語検索ができます。以上です。余談として、、例えば、「りんご」「リンゴ」「林檎」「Apple」これらを同義語として利用した検索をしたい場合、 Index作成時、settingで同義語（synonyms）の設定をします。 PUT handson_index_text?pretty { "settings": { "analysis": { "filter": { "synonym_filter": { "type": "synonym", "synonyms": [ "りんご,リンゴ,林檎,Apple" ] } } } }, "mappings": { "properties": { "date": { "type": "date","format": "yyyy/MM/dd HH:mm:ssZ" }, "message": { "type": "text" ,"analyzer": "kuromoji"} } } } https://www.elastic.co/guide/en/elasticsearch/refer ence/7.x/analysis-synonym-tokenfilter.html

関連度（Relevance） 55 Elasticsearchは検索に特化しており、RDBのようなピンポイント検索だけでなく、データを検索するときに最も関連のある（relevant）docを検知することができます。クライアント Elasticsearch “Alibaba Elastic”を探しています検索結果は全部で18hitしました。
なるほど、じゃあ関連度がかなり高いものはある？  対象のdocを全て発見できたか？  検索結果に、関連性の低いdocが何件あるか？  検索結果の表示順位はどのような基準か？ etc・・・

関連度の計測 56  適合率（Precision） • 検索結果に、関連のない結果が含まれているか？→検索結果のdoc件数（true positives + false positives）
に対する結果の中の本当に含まれるべき件数（true positives）の割合  再現率（Recall） • 検索結果に、関連のあるデータが含まれていなかったか？ →結果に含まれるべきdoc件数（true positives + false negatives）に対する結果の中の本当に含まれるべき件数（true positives）の割合  ランキング（Ranking） • 検索結果の順位は、最も関連性が高いものが上位で、関連性が低いものが下位か？  Elasticsearchは、documentのマッチしているランキングを決めるために、scoreを使用 True positives False positives True negatives False negatives

適合率と再現率の改善 57  再現率は「範囲を広げる」ことで改善が可能例えば、部分一致の検索（partial）と類似検索（similar）を利用。ただし、適合率が下がる  適合率は検索をより厳密に行うことで改善が可能例えば、完全一致の検索（exact）の結果のみを返す。ただし、再現率が下がる適合率と再現率はトレードオフの問題ですが、これを理解したうえで検索アプローチをすることで、ユーザーが求めているドキュメント（正解）とシステムの返すドキュメント（検索結果）の
バランスを調整しながら、ユーザーにとって良い検索結果を得ることが出来ます。 https://logmi.jp/tech/articles/321195

58 Chart編さっき登録したばっかりのデータを使います→

Chart可視化のためにIndex Patternを設定（1） 59 メニューバーから「Management」の「Stack Management」→ 「Kibana」の「Index Patterns」を選定し、新規でIndex patternを作成します。

Chart可視化のためにIndex Patternを設定（2） 60 ①対象のIndexを指定したら、「Next Step」をクリックします。 ※Indexは「*」を使って複数選定することが可能です ②Time/Dateのついているフィールドを選定します。これはchartを時系列で可視化する上で必要となります

Chart可視化のためにIndex Patternを設定（3） 61 設定ができたら、メニューバー > Discover でDiscover画面へ遷移します。

Discoverで日付指定します 62 以上で、データをリアルタイムで眺めることができます。

Discoverの説明 63 検索条件の入力フィールド Index Pattern Index Patternの Field一覧検索条件に一致するDocument 検索結果のグラフ
検索対象の時間を指定

VisualizeでChartを作成します 64

折れ線グラフの作成 66 Y軸のグラフ内容。データを集計したいものを選定 X軸のグラフ内容。時系列で確認したい場合は時間軸を選定時間軸によってはデータが存在しないことによるグラフが表示されない事象には注意

ダッシュボード作成（1） 67

ダッシュボード作成（2） 68

自動更新＆公開について 69 自動更新はここにて設定することができます。例えば、5秒おきに更新したい場合は、 5 seconds と設定すればOKです公開時はここからURL発行なり、様々な方法で Exportすることができます。またkibana側でユーザー追加および権限管理をすること
もできるので、Dashboardを読み取り専用として展開することもできます。

70 ここまで、Elasticsearch、kibanaの基本的な操作方法が理解できれば、収集基盤（Logstash、beats）との連携に移ります

71 LogStash編

Logstashとは 72 Logstashはデータ処理パイプラインです。多様多種なデータ入力ソースに対し、データを動的に変換し、それぞれの出力先へアウトプットします。 Input Filter Output

LogService経由でOSSログ可視化について 73 https://developer.aliyun.com/article/675371 OSS操作イベントをリアルタイムで LogServieへ転送

LogService経由でOSSログ可視化（1） 74 OSSの左メニューにあるLoggingから Real-time Log Queryをアクティベーションします。 https://www.alibabacloud.com/help/doc-detail/99349.htm データの諸元となるOSSにて、bucketを準備します。

LogService経由でOSSログ可視化（3） 75 コンソールからLogServiceに遷移し、 oss-log-xxxx プロジェクトから先ほどのReal-time Log Queryと同じ結果が出力されてることを確認します。

LogService経由でOSSログ可視化（4） 76 今度はElasticsearch画面に遷移し、 LogStash Clusterを購入します。また、必要であれば購入直後クラスターが起動中になったらCluster Monitoringを有効化します。これによりLogstashクラスターに対する監視が出来ます。 https://www.alibabacloud.com/help/doc-detail/141892.html

LogService経由でOSSログ可視化（5） 77 LogStashのPlug-insでlogstash-input-slsを有効化します。続いて、PiplineからCreate Piplineでlogstash- input-slsをベースとした新規タスク（パイプライン）を作成します。パラメータ詳細は次のページにて記述しています。作成後はパラメータ設定がありますが、そのまま「Save and
Deploy」で保存しながらそのまま実行してください。

LogService経由でOSSログ可視化（６） 78 input { logservice{ endpoint => "<endpoint> " access_id
=> "< access_key_id >" access_key => "< access_key_secret >" project => "<Logservice project name>" logstore => "<logservice logstore name>" consumer_group => "consumer_group1" consumer => "consumer1" position => "end" checkpoint_second => 30 include_meta => true consumer_name_with_ip => true } } output { elasticsearch { hosts => [“<elasticsearch endpoint>"] index => “<index name>" user => “<user>" password => “<passowrd>" } } https://www.alibabacloud.com/help/doc-detail/28998.htm ちなみにconsumer_groupおよびconsumerはLogServiceに対する複数ユーザーからのリソース割当のことを指しますが、今回は一人称利用なので、そのまま記述で問題ないと思います。 helpに沿って、LogServiceのProject、LogStore、 AccessID、AccessKeyを入力します。 https://www.alibabacloud.com/help/doc-detail/139627.htm

LogService経由でOSSログ可視化（7） 79 Piplineが無事作成できたら、今度はOSSで何か操作します。今回は適当にファイルをアップロードします。その操作結果が、KibanaのDev Toolで結果が見れたらOKです。 GET ＜index名＞/_search {
"query": { "match_all": {} } }

LogService経由でOSSログ可視化（8） 80 Kibanaのdashboardで可視化できるように、index patternなどを設定します。最終的にKibanaでOSSイベントをLogStashによるリアルタイム可視化出来たらOKです。

MNSによるOSSログ可視化について 81 https://www.alibabacloud.com/help/doc-detail/140729.htm OSSは操作した情報をリアルタイムでMNS（Message Service）経由でOSSやアプリケーションなどへ通知する機能があります。logstash-input-ossプラグインを使い、MNS通知先をElasticsearchにして、KibabaでOSS操作履歴を確認します。このシナリオはOSS静的ホスティングサービスの監視などにも有効です。 https://www.alibabacloud.com/help/doc-detail/122379.htm

その他、Logstashプラグインで好きに連携してみてください 82 https://www.elastic.co/guide/en/logstash/cu rrent/input-plugins.html

83 Beats編

Beatsとは 84 https://www.elastic.co/guide/en/beats /libbeat/current/community- beats.html Beatsとして足りないshipperがあればコミュニティから参照 or 自作可 Beatsのためのtemplateダッシュボードがあるので、
Beatsを導入後、即templateのダッシュボードを使った展開が可能。 https://github.com/elastic/beats-dashboards Beatsは軽量データ取り込みプラットフォーム。 LogStashはETLが出来るパワフルなデータ取り込みツールであれば、Beatsはインプットに特化したシンプルかつ軽量なデータ取り込みツールです。 https://www.elastic.co/jp/beats/

winlogbeatによる可視化について 85 WinlogbeatはWindowsの様々なイベントログを収集する軽量shipperです。嬉しいのは、ドメインコントローラー側にインストールすれば、 ActiveDirectoryから対象の端末を含めOSレベルの挙動を監視することが出来ます。 Event ID イベント内容
4624 ログイン成功 4625 ログイン失敗 4656 ファイルオープン、ファイル削除 4658 ファイルクローズ 4663 ファイルアクセス 4690 ファイルコピー 4740 アクセスロックアウト 1000 アプリケーションの異常終了 1002 アプリケーションのハングアウト https://docs.microsoft.com/en-us/windows- server/identity/ad-ds/plan/appendix-l--events-to-monitor https://github.com/elastic/beats/issues/16334

winlogbeat設定（1） 86 Elastic公式サイトからwinlogbeatをインストールします。 https://www.elastic.co/jp/beats/winlogbeat

winlogbeat設定（2） 87 winlogbeat- <version>ディレクトリーの名前を winlogbeatに変更し、C：¥ 配下へコピーします。

winlogbeat設定（3） 88 PS C:¥Users¥Administrator> cd 'C:¥winlogbeat¥' PS C:¥winlogbeat> .¥install-service-winlogbeat.ps1 PowerShellを「管理者権限」として開きます。
以下コマンドでwinlogbeatをインストールします。

winlogbeat設定（4） 89 user:pass@host:portの形式で設定します HostはPublic Network Accessを指します。注意として、beatを入れる端末からElasticsearchや kibanaへ疎通できるようにElasticsearch、kibanaの white listに端末のIPアドレスを追加します。
またセキュリティグループでも9200、5601を許容します。

winlogbeat設定（5） 90 .¥winlogbeat.exe test config -c .¥winlogbeat.yml -e 以下コマンドでテスト疎通します。その結果、config
ok が出たらOKです。

winlogbeat設定（6） 91 以下のコマンドでElasticsearchにIndex templateをローディングします。 .¥winlogbeat.exe setup --template -E output.logstash.enabled=false -E
'output.elasticsearch.hosts=["elastic:FY21!hands-on@es-cn- mjc2443530001o0te.public.elasticsearch.aliyuncs.com:9200"]' 以下のコマンドでkibanaにdashboardをローディングします。 .¥winlogbeat.exe setup --dashboards

winlogbeat設定（7） 92 Start-Service winlogbeat 以下のコマンドでWindows Serverのサービスとして Winlogbeatをサービス起動します。あるいは、Windows > Service一覧から
Winlogbeatを起動しても良いです。

winlogbeat設定（8） 93 あとはkibanaのDashbard画面でwinlogbeatのテンプレートおよびグラフを確認することが出来ます。

WindowsのEvent Logは400種類以上もあります 94 Get-WinEvent -ListLog * | Format-List -Property LogName
以下コマンドで取得可能なイベントを一斉に取得&コピーします。 VS Codeなどでイベント名の先頭文字を一斉置換します。取得したいイベント一覧をwinlogbeat.ymlに反映します設定後はサービスの再起動も忘れずに、、

アラート通知 95 https://www.elastic.co/jp/what-is/kibana- alerting メトリック（データ一覧）からカスタマイズでアラート通知設定および発信することが出来ます。

この応用として、様々なシナリオにおいて監視基盤運用ができます。 96 DaaS・リモートデスクトップセキュリティ監視 PC起動/停止/サスペンド日時ログイン・ログオフ日時 CPU・memory使用率アプリケーションログイベントログ
etc・・・ネットワーク監視ネットワークトラフィック帯域・CPU使用率アクティブユーザ/セッション数ロス率・死活監視 etc・・・ HTTP・DNS・アクセスログ操作・認証ログ Anti-DDoSログ WAFログ Firewallログパケットログネットワークトラフィック etc・・・

再掲：ログデータの活用ユースケース 97 Applicationログアクセスログ認証ログ DB監査ログ認証ログ操作ログイベントログエラーログ
Firewallログ IDS/IPSログ WAFログパケットログアプリケーション層ミドルウェア層サーバ基盤/OS ネットワーク ITシステム Webマーケティングセキュリティ監視・対策 ITインフラ活用各種ログ（実績）をベースとした、データドリブンな意思決定を実施 Ex: PolarDBのAutoScale、リテールの売り上げPOS、Web三層のイベントログ/アクセスログ、 SBKK OAPCの外部デバイス接続、社内NWで外部サイトの閲覧、etc….

Packetbeatについて 98 Webログ（URL、ページタイトル、アクション）はPacketBeatを使って可視化することが出来ます。しかし、Windwos ADを跨いだユーザー間でのWebログの可視化は出来ないので、先述ページ通り、VPN GatewayからWeb ログを可視化したほうが建設的（現実的）と思います https://www.elastic.co/jp/beats/packetbeat

Filebeat設定（1） 99 ①コンソールからFilebeatを設定します。（ECSなどターゲット指定あり。またECSにはaliyun.serviceおよびdockerがactiveになってることが前提です。） ※Filebeat log file pathはOS、Versionごとにパスが変わるため、そこは合わせて調整してください。 ※先に対象のElasticsearch
> kibana > kibana ConfigurationでPrivate Network Accessを有効化すると、BeatsからKibanaへデータを送信、すぐ可視化することが出来ます。 https://www.elastic.co/guide/en/beats/filebeat/index.html ※Beatsのデフォルトインストールディレクトリは /opt/aliyunbeats/ です。

Filebeat設定（2） 100 ②ECSのメトリクスを収集するために、RAM権限を開きます ③RAMロールをアタッチします ④監視したい対象のECSを選定します

Filebeat設定（3） 101 ⑤インストールが無事完了していれば、コンソールからDashboardを選定し、kibanaを開きます。これでECSのメトリクス監視は完了です。もし導入失敗した場合は以下を参考に問題切り分けをすると良いです https://www.alibabacloud.com/help/doc- detail/179410.htm

102 データ収集・蓄積・可視化として一通りのプロセスを会得できたと思うので、今度はアプリケーションとして利用するためのプロセスを紹介します。

103 aliyun-knn編

参考：aliyun-knn（ベクトル検索） 104 aliyun-knnは4core 16GB以上が必須となります。顔認識レコメンドスマートアシスタント https://www.youtube.com/watch?v=QTrPvtYAVIc&feature=emb_logo 背景：Facebookが開発したFaissなどのベクトル検索ライブラリの課題
1. パフォーマンスが遅い 2. フェイルオーバーおよび分散機能がない 3. 増分データの反映ができない 4. C++、Pythonの学習コストが必要 Alibaba Cloudのみ、aliyun-knnライブラリを開発 https://developer.aliyun.com/article/748117 このaliyun-knnプラグインがあって、ECサイトらWebサービス、チャットボットなど『低レイテンシで大規模のベクトル検索ができるサービス』にて数社の導入実績あり

HNSWとは 105 https://www.semi.technology/developers/weaviat e/current/vector-index-plugins/hnsw.html HNSWはHierarchical NSW、NSWを階層的に重ねながら、探索効率を上げる手法です。 NSWはNavigable Small World、データを二
次元空間にPlotしながらベクトル間の距離を計算することで、探索時ベクトルとの距離が近いデータを検出するアプローチです。

Index作成 106 PUT handson_aliyunknn_index { "settings": { "index.codec": "proxima", "number_of_shards"
: 1, "number_of_replicas" : 1 }, "mappings": { "properties" :{ "feature" : { "type": "proxima_vector", "dim" : 2 }, "id" :{ "type" : "keyword" } } } }

特徴量データを登録 107 POST handson_aliyunknn_index/_doc { "id" : 1, "feature" :
[1, 2] } POST handson_aliyunknn_index/_doc { "id" : 2, "feature" : [3, 4] } POST handson_aliyunknn_index/_doc { "id" : 3, "feature" : [5, 6] } POST handson_aliyunknn_index/_doc { "id" : 4, "feature" : [7, 8] } POST handson_aliyunknn_index/_doc { "id" : 5, "feature" : [9, 10] }

探索 108 GET handson_aliyunknn_index/_search { "query": { "bool":{ "must":[{ "hnsw":{
"feature": { "vector":[5.5,6.5], "size": 10 } } },{ "term":{ "id":2 } } ] } } }

aliyun-knnの実力 109 https://www.alibabacloud.com/blog/597075 データ全体を特徴量データにしながらベクトル化することで、レコメンデーションや異常検知、類似画像検索が出来ます。 https://www.slideshare.net/sbcloud/alibaba-cloudelasticsearch

110 ここまでが理解できたら、 Elasticsearch aliyun-knnによる簡易類似画像検索Webアプリケーションをつくります。

お詫び 111 ハンズオントレーニングとして皆様の環境にKerasをインストールおよび準備ができず（環境違いによる統一管理や依存ライブラリのサポート問題） Elasticsearch aliyun-knnによる簡易類似画像検索アプリケーションの作成方法は今回は資料を見ながら理解、、という形で説明を進めます。

全体的な流れ 112 Local or ECS （Flask + Python） Elasticsearch User
③データを登録 ④検索したい画像データを選定 ⑦検索したいデータに対する類似ベクトル検索 ⑧結果返却 ⑨結果表示 ①⑤画像データを Kerasによる特徴量データへ変換 ②⑥画像データを特徴量データへ変換して返却 KerasでなくTensorflow、OpenCVでも可。検索した結果はどのような基準でヒットするかに合わせて用途を使い分けたほうがいいです。 Ex: 輪郭が似ている、色彩が似ている、特徴量データのベクトルが似ている etc

STEP0:事前設定・共通事項 113 keras_vgg16.py 画像データを特徴量データ（ベクトル化）する方法は色々ありますが、今回は処理速度が速いVGG16モデルを使います。 ES側もHNSW型としてindexを登録します。

VGG16モデルとは 114 VGG16は、畳み込み13層とフル結合3層の計16層から成る畳み込みニューラルネットワークです。どんな画像でも大まかな特徴量を抽出、特徴量データを数値化することができます。

STEP1:データの登録 115 # py-elasticsearchをインストールします pip3 install elasticsearch そのうえで、検索先の画像データを全部VGG16へ変換してからBulkで一括インポートします。

STEP2:データの検索 116 テストとして、適当なベクトル空間値を入力しながら検索してみます。その結果が返ってきたらOKです。

STEP3:Flaskによる検索アプリケーションのデプロイ 117

STEP4:Flask起動でWeb可視化 118

クイズ： 119 この画像を検索した場合、次の画像一覧からTop5で何がヒットしますか？（ aliyun-knn HNSWでVGG16モデルによる検索の場合） ① ② ③
④ ⑤ ⑥ ⑦ ⑧ ⑨

答え 120

参考：HNSWでVGG16モデルによる検索の場合 121 期待した検索結果か？なぜそうならないか？を踏まえて、 VGG16モデル以外の様々な検索アプローチが色々あります。（正解は１つではないし、お客様観点、ユーザーの判断が答えとなります）

Best Practices 122 Elasticsearchのベストプラクティスがありますので、これも参考にしてみてください。 https://community.alibabacloud.com/series/105

その他、Elasticsearch demo 123 https://www.elastic.co/demos

All done 124 お疲れ様でした。

Alibaba Cloud Elasticsearch勉強会資料

Alibaba Cloud Elasticsearch勉強会資料

More Decks by Hironobu Ohara

Other Decks in Technology

Featured

Transcript