Lessons from Migrating to OpenSearch: Shard Design, Log Ingestion, and UI Decisions

Slide 1

Slide 1 text

Sansan株式会社部署名前 Lessons from Migrating to OpenSearch: Shard Design, Log Ingestion, and UI Decisions 2025.12.11 OpenSearchCon Japan 2025 技術本部 Eight Engineering Unit Platform グループ藤原和弘

Slide 2

Slide 2 text

藤原和弘 Sansan株式会社技術本部 Eight Engineering Unit Platformグループ SREチーム経歴 - 2024年8⽉、Sansan株式会社にEightのSREとして⼊社現在は、インフラ領域だけでなく、アプリケーション領域にもコミットできるように⽇々活動中。 - 前職では新卒から約4年半アマゾンウェブサービスジャパン合同会社でソリューションアーキテクトとして働き、社内コミュニティではオブザーバビリティ領域を専⾨に活動していた。

Slide 3

Slide 3 text

Slide 4

Slide 4 text

© Sansan, Inc. - OpenSearch移⾏時の最適な設計 - ノード構成の考え⽅ - シャード設計の実践的アプローチ - 最適な設計をしないで運⽤するとどうなるか - 安定運⽤のためのチューニング⼿法 - インデックス化負荷の最適化⼿法 - OpenSearch UIの活⽤どころ - 採⽤判断のポイント - 運⽤して分かった良い点・⾟い点はじめに - ログ基盤でOpenSearch Serviceの運⽤をしている開発者/SREエンジニア - これからOpenSearch Serviceの導⼊を検討している⽅ - OpenSearch Dashboardsの活⽤に課題感がある開発者/SREエンジニア本セッションで得られる知⾒想定聴講者

Slide 5

Slide 5 text

4 © Sansan, Inc. © Sansan, Inc.

Slide 6

Slide 6 text

移⾏の背景とアーキテクチャ ※ 以後出てくるOpenSearchはAmazon OpenSearch Serviceのことを指します

Slide 7

Slide 7 text

© Sansan, Inc. 移⾏前のログ分析アーキテクチャ概要 VPC ECS Web/API Fluent Bit Elasticsearch Fluentd (Aggregator) Application Load Balancer Amazon Data Firehose Network Load Balancer Workers Fluentd Kibana 略 Amazon Simple Storage Service 調査時や障害時にログ分析 Fargate EC2 Service Task Task Service 10年以上前からログ検索、可視化のためにElasticsearchを活⽤している

Slide 8

Slide 8 text

© Sansan, Inc. Elasticsearchに流していたログの種類は10種類以上* ログの種類と流⼊量 ※ 各ログ種のログフィールドが異なるため、インデックスは各ログ種ごとに作成している約 GB/⽇のログがインデックスされる 150 アクセスログアプリケーションログ⾮同期処理のログスケジュール実⾏される処理のログ監査ログスロークエリログ etc… 流⼊が多いログのおおよそのログ量ログA：50GB/⽇ログB：25GB/⽇ログC：20GB/⽇

Slide 9

Slide 9 text

© Sansan, Inc. 移⾏背景運⽤管理コスト - EC2 インスタンス⾃体のセキュリティ対応による管理コストを軽減したい - 当時は2⼈体制だったため、運⽤管理コストに割く時間を下げたいセキュリティリスクと機能追加への追従 - Kibana/Elasticsearchのソフトウェアバージョンの追従がされずに塩漬けのような状態になっていた - SSHができる環境のため、意図せずOS上の操作や AWSリソースの操作がされてしまうリスクが存在する

Slide 10

Slide 10 text

Slide 11

Slide 11 text

© Sansan, Inc. 移⾏後のログ分析アーキテクチャ概要 VPC OpenSearch Service Fluentd (Aggregator) Data Firehose NLB OpenSearch UI 略 S3 本⽇触れる部分２本⽇触れる部分１ ECS Web/API Fluent Bit ALB Workers Fluentd Fargate EC2 Service Task Task Service ECS Service Fargate

Slide 12

Slide 12 text

Slide 13

Slide 13 text

移⾏時にぶつかった課題とその対応

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© Sansan, Inc. 移⾏の概要リスクを最⼩化するため、Elasticsearchと並⾏稼働状態で段階的に移⾏ログ分析の際は、OpenSearch UIに慣れてもらうために、基本的にOpenSearch UI側を使ってもらうようにした。緊急時のみKibanaへアクセス OpenSearch Fluentd (Aggregator) Data Firehose OpenSearch UI 略 S3 Service Elasticsearch Kibana 送信先にOpenSearchを追加シングルノード (マスター兼データノード) インデックス① プライマリシャード ×3 ‥‥ シングルノード (マスター兼データノード) インデックス① プライマリシャード① インデックス① レプリカシャード① ‥‥ シングルノードだったため、プライマリ:レプリカ=1:1で設定内部向けのログ基盤かつ、 S3にもログを送信していた。つまり、OpenSearchで何か起きた際でもログ損失はないと判断し、既存踏襲で1台構成に

Slide 16

Slide 16 text

© Sansan, Inc. 課題①：クラスターがYellowステータスになる https://docs.aws.amazon.com/opensearch- service/latest/developerguide/handling-errors.html#handling-errors-yellow- cluster-status A yellow cluster status means the primary shards for all indexes are allocated to nodes in a cluster, but the replica shards for at least one index aren't. Single-node clusters always initialize with a yellow cluster status because there's no other node to which OpenSearch Service can assign a replica. To achieve green cluster status, increase your node count. レプリカシャードをプライマリシャードが置かれているノードとは別のノードにおけない場合に常にYellowステータスとなるシングルノード構成だったことが原因

Slide 17

Slide 17 text

© Sansan, Inc. 可⽤性を⾼めつつ、EC2で⾃前で運⽤していたときとほぼ変わらないコストで対応できたクラスターが不安定になるとアラートに割く時間も増え、運⽤が⼤変になりそう r7g.2xlarge.search * 1台からr7g.medium.search * 6台にすることでAZを分散させつつ、クオーラム損失とはならない2台のノード障害までは許容した対応⽅法インスタンスタイプ vCPU メモリ (GiB) JVMヒープ (GiB) コスト r7g.2xlarge.search 8 64 32 $0.858/hour r7g.medium.search 1 8 4 $0.107/hour r7g.medium.search * 6 6 48 24 $0.642/hour ノード構成を再考

Slide 18

Slide 18 text

© Sansan, Inc. 課題②：特定ノードでのCPU負荷が⾼くなる Fluentd側では次のようなエラーが頻発した（⼀部加⼯済み）特定ノードでCPU使⽤率が100%に張り付く - buffer flush took longer time than slow_flush_log_threshold: elapsed_time=22.083716957000433 slow_flush_log_threshold=20.0 - failed to flush the buffer. retry_times=2 next_retry_time=…略…error_class=Fluent::Plugin:: OpenSearchOutput::RecoverableRequestFailure error="could not push logs to OpenSearch cluster - failed to write data into buffer by buffer overflow action=:throw_exception - error_class=Fluent::Plugin::Buffer::BufferOverflowError error="buffer space has too many data

Slide 19

Slide 19 text

© Sansan, Inc. 課題②：特定ノードでのCPU負荷が⾼くなる 3種類のログの量が多かったが、それぞれのインデックスに対してプライマリ：レプリカを1：1に設定していたため、ノードを分散させたことで特定のノードにそれらのシャードが偏ってしまっていた。 ④ログが Drop ❌ ❌ ❌ ⑤ログ⽋損のインシデント発⽣ ①多くのインデックス化が拒否される ②Fluentdのバッファが溜まり続ける ③Ephemeral Storage枯渇放置すると右記のようにインシデントにつながってしまう

Slide 20

Slide 20 text

© Sansan, Inc. - 3000シャード以上あり、シャード数が過多の状況 - r7g.medium は JVM ヒープが 4 GiB のため、ドメイン全体で 600 シャードまでが推奨されている - ログを送信し続けているのでインデックス化負荷が⾼かった（メトリクスとしてもIndexing Rateも⾼かった） - 対策①：シャード数を削減し、シャードをデータノード間で均等に分散させる - シャードあたり30GB ~ 50GB（ログ分析ワークロードの推奨値）に抑えたい - 対策②：レプリカ数をゼロにする - 対策③：refresh_interval を 60 秒以上に増やすインデックス化のパフォーマンスを改善したいこれらの対策はhttps://repost.aws/ja/knowledge-center/opensearch-indexing-performanceにも記載されていますさらに調査をした結果… ノード間の偏りとシャード数削減インデックス作成時の負荷を抑えたい

Slide 21

Slide 21 text

© Sansan, Inc. ⻑期間保存するログかつログ量が少ないものについては、⽉ごとにインデックスを作られるように変更した対策①：シャード数を削減し、シャードをデータノード間で均等に分散させる logstash_format true logstash_dateformat %Y%m%d%H logstash_prefix ”logA-${tag[1]}" ログAでのFluentdの設定イメージ logA-huga-2025010100 logA-huga-2025010101 logA-huga-2025010102 … 1⽇で24インデックスが⽣成されるつまり、1つのログ種だけで5⽇間で合計120インデックス⽣成されてしまう logstash_format false include_timestamp true index_name logA-${tag[1]} # エイリアスに送るようにする例）5⽇間ログを保持する要件がある場合 Before After ログAの1⽇の流⼊量が50GBの場合、インデックスあたり300GB（50GB * 6ノード）までが推奨値。 ISM Policyを活⽤しつつ5⽇ごとにインデックスを作る⽅針にした。ログAでのFluentdの設定イメージ⽣成されるインデックス LogA-huga- 000001 LogA-huga- 000002 LogA -huga エイリアス 5⽇でインデックス切り替え Fluentd 対応⽅法

Slide 22

Slide 22 text

© Sansan, Inc. プライマリシャード数を6にしてノード分散を実現し、ロールオーバー戦略を活⽤することでシャード数を削減しながらインデックス化の負荷を抑えた 5⽇間ログを保持する要件がある場合の ISM Policyの設定⽅法 "states": [ { "name": "open", "actions": [ { "retry": { "count": 3, "backoff": "exponential", "delay": "1m" }, "rollover": { "min_index_age": "5d", "copy_alias": false } } ], "transitions": [ { "state_name": "delete", "conditions": { "min_index_age": "10d" } } ] }, ~ 略 ~ ] ISM Policyでロールオーバーを実現する例 Fluentdはエイリアスを⾒ているため、ロールオーバーは意識せずにログを送信し続けられるインデックス作成⽇時を条件に、5⽇後にロールオーバーさせ、 10⽇後にインデックスを削除することで要件を満たせる 2025/01/01 ~ 2025/01/05までのログ 2025/01/06 ~ 2025/01/10までのログ LogA-huga- 000001 LogA-huga- 000002 LogA- huga エイリアス ①5⽇で書き込みインデックス切り替えイメージ LogA-huga- 000001 LogA-huga- 000002 ②5⽇で読み込み専⽤になる、10⽇後には削除されるので2025/01/05のログも5⽇は保持される Fluentd 対応⽅法

Slide 23

Slide 23 text

© Sansan, Inc. 対応⽅法 PUT //_settings { "index_patterns": [], "template": { "settings": { "refresh_interval": "120s", "number_of_shards": 6, "number_of_replicas": 0 } } } *refresh_intervalは即時反映可能なので、既存の各インデックスに対しても設定した refresh_intervalはインデックスの更新頻度を表しており、更新間隔が⻑いほどインデックス作成の全体的なパフォーマンスが向上する。⼀⽅で、インデックスが更新されてから新しいデータが検索可能になるまでの時間が⻑くなる。 Dev Toolsでのインデックステンプレート反映例* ▶ S3にもログを送信していたのでOpenSearch上のログ損失は許容したレプリカを設定すると、各レプリカはインデックス作成プロセスを複製する。つまり、インデックスオペレーションが純増する。レプリカを無効にすることでインデックス作成プロセスを減らすことにつながるが、プライマリシャードのデータが失われてしまった場合はデータ損失する。対策②：レプリカ数をゼロにする対策③：refresh_intervalを 60 秒以上に増やす (デフォルトは1秒) ▶ ログ分析のユースケースでは120秒は許容として120秒に設定した

Slide 24

Slide 24 text

© Sansan, Inc. 対応後のノード構成 OpenSearch Fluentd (Aggregator) Data Firehose OpenSearch UI 略 S3 Service Elasticsearch Kibana 送信先にOpenSearchを追加シングルノード (マスター兼データノード) インデックス① プライマリシャード ×3 ‥‥ ノード① (マスター兼データノード) インデックス① プライマリシャード① インデックス② プライマリシャード① ‥‥ ノード② (マスター兼データノード) インデックス② プライマリシャード② インデックス① プライマリシャード② ‥‥ ノード③ (マスター兼データノード) ノード⑤ (マスター兼データノード) ノード④ (マスター兼データノード) ノード⑥ (マスター兼データノード) 緊急時のみシャードとデータノードが 1:1の関係となり、負荷が分散される

Slide 25

Slide 25 text

© Sansan, Inc. 改善後のノードの負荷ワークロードの特性上、特定の時間帯にIndexing Rateが⾼くなるためその時間帯でCPU負荷も上がるが、平均で30%、ピーク時で70%ほどのCPU使⽤率に抑えることができた ▶ 1ヶ⽉後にRI購⼊へ Before After ベストプラクティスには基本的に従うべきただし当てはまるかはケース次第なのでまずは実践を事前のサイジングやインデックス設計も⼤事だが、運⽤の中でもチューニングを継続する

Slide 26

Slide 26 text

© Sansan, Inc. 課題③：クラスターがRedステータス時に⼿動で対応が必要となる通常、ノード障害時には⾃動復旧するが、レプリカが0だと障害が発⽣したノード上のシャードがロストする。レプリカは0なのでデータロストと同等であり、クラスターステータスは⾃動復旧されない。書き込み先のインデックスのシャードが割り当てされていないためインデックス化が拒否される。この状態が続くと数時間でもFluentdのバッファが貯まりFluentd⾃体がログを受けられなくなる。結果、OpenSearch以外のログ⽋損にもつながるため、早急な対応が必要。 Fluentdのバッファの容量（％）約9時間でバッファが溢れてしまう Redステータスになるとどのような影響があるか

Slide 27

Slide 27 text

© Sansan, Inc. ⼿動での対応⽅法 OpenSearch上でのデータロストは許容していたが、クラスターが⾃動復旧しないことで最終的には全てのログ⽋損につながるリスクがあるため、その対応コストと早急な対応による精神負荷を考慮できていなかった。レプリカ0での運⽤は、障害時の対応コストが想定以上に⾼い。▶ レプリカを1にするには更なる負荷軽減が必要対応⽅法①：インデックスを削除*し、書き込みインデックスを再作成（対応時間：約30分） 1時間ごとに⾃動的にスナップショットが取得されるので、対応⽅法①よりもOpenSearch上でのログ⽋損を抑えられる ü インデックスを⼀時的にClose ü スナップショットからの復元（ログ量が多いもので1〜2時間くらい復旧に時間を要する） *インデックスを削除すると、そのエイリアスも削除されるので、直後の書き込みリクエストによりエイリアスと同じ名前で新しいインデックスが作成されてしまう。そのため、各インデックスに対して時間を空けずに作業を実施しなければいけない。 ü 割り当てられていないシャードを持つインデックス削除 ü 書き込みインデックス作成 ü エイリアスの作成と紐付け POST /access-log-recommendation-000010/_close POST /_snapshot/cs-automated//_restore { "indices": ”logA-huga-000001” } 対応⽅法②：⾃動スナップショットから復元（対応時間：約2〜3時間）

Slide 28

Slide 28 text

Slide 29

Slide 29 text

© Sansan, Inc. インデックス負荷を下げるための取り組み② マッピング設定を⾒直す現在は全てのフィールドがtext + keyword型で⼊っている（デフォルトの挙動）。ほぼ使われていないので気にしていなかったが、数値も⽂字列として扱われるので PPLでの⼤⼩⽐較などでエラーになる。完全⼀致検索で良いフィールドはkeyword、数値はintegerもしくはfloat、不規則なフィールド（pathやmessageなど）は text + keyword型にするなど、最適なマッピング設定を精査中 ~ 略 ~ "country": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }, "response_time": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }, ~ 略 ~ デフォルトのマッピング設定 text型：部分検索（曖昧検索） Keyword型：完全⼀致検索 methodがPOSTのログ pathにmyhomeが含まれているログ

Slide 30

Slide 30 text

© Sansan, Inc. インデックス負荷を下げるための取り組み③ セグメントレプリケーションと Remote Backed Storageの机上検討 (OR/OMインスタンス) レプリカを作成した場合でもインデックス化におけるCPU負荷を低減しつつ、 S3を活⽤した耐久性も備えているため、インデックス化の負荷が⾼いワークロードに最適。次回のRI購⼊時に合わせて検証なども進めていきたい。 - セグメントレプリケーションと従来のドキュメントレプリケーション - メリット：データは1次コピーにのみインデックス化される - デメリット：書き込んだデータと読み取ったデータの⼀貫性が⼀定期間は保証されない - Remote Backed Storage - OR/OM系のインスタンスでは、S3にレプリカを配置することでデータの冗⻑性を担保している - Redステータス時もS3から⾃動でシャードが復旧される

Slide 31

Slide 31 text

© Sansan, Inc. 運⽤から得られた学びと教訓 - 既存構成にとらわれずに、ベストプラクティスは基本的に従うべき - ノード分散とシャード均衡 / シャードサイズ / ノードあたりのシャード数 - インスタンス選定 - 今回はあまり検討していなかったが、振り返るとOR系のインスタンスもユースケースに当てはまっていそうだった。 RIは購⼊済みなのでインスタンスタイプ変更検討はもう少し先になる設計フェーズ運⽤フェーズ - 継続的なパフォーマンスチューニングの重要性 - レプリカ数やrefresh_intervalの調整。Eightでは、障害時の対応コストを考えるとログ損失を許容したログ基盤でもレプリカを最低1つは持っておきたい - 不要なフィールドはインデックス化しない - 最適なマッピングを設定する - ベストプラクティスが当てはまるかはケース次第なのでまずは実践を

Slide 32

Slide 32 text

OpenSearch UIの採⽤について

Slide 33

Slide 33 text

© Sansan, Inc. 当初考えていたアーキテクチャ VPC OpenSearch Service Data Firehose NLB Proxy 略 S3 ALB ECS Web/API Fluent Bit ALB Workers Fluentd Fargate EC2 Service Task Task Service Fluentd ECS Service Fargate 調査時や障害時にログ分析マネージドとはいえ、管理コンポーネントが増えてしまう

Slide 34

Slide 34 text

© Sansan, Inc. OpenSearch UIとの出会い IAM認証のみでPrivate Subnet上のOpenSearch に接続可能で検索体験も問題なさそうだった https://aws.amazon.com/jp/blogs/big-data/amazon-opensearch-service-launches-the-next-generation-opensearch-ui/ 画像引⽤： 2024年11⽉に次世代UIとしてOpenSearch UIがAWSでもサポートされていた複数のOpenSearchドメインを 1つのUIで検索や分析ができることが推しポイントに⾒えたしかし、ドキュメントを読んでいくと VPCに関する記述がないこと、認証はIAM認証が対応していることなどから、 Proxyを⽴てずとも OpenSearch UIで満たせるのでは？早速検証へ！

Slide 35

Slide 35 text

© Sansan, Inc. 検索体験 (通常のAWSマネジメントコンソールログインと同様にIAM認証) ▶ OpenSearch UIに⾶ぶ ▶ ワークスペースを選択する ▶ Discoverを開く ▶ インデックスパターンを選択 ▶ 好きなクエリ⾔語で検索基本的にはDiscoverとダッシュボード、モニターが使えればよかったので Observability ワークスペースで構築最終的にはAnalyticsワークスペースも構築した（理由は後述）・Observability: ログ・メトリクス・トレース分析に特化・Analytics: すべての機能をサポートそのほかにも3つのユースケースが⽤意されている

Slide 36

Slide 36 text

Slide 37

Slide 37 text

© Sansan, Inc. - 透過的なアップデートによってUIが変更されることがある - ObservabilityワークスペースはPPLしか使⽤できなくなってしまった - 現時点ではモニターを設定する際にNotificationプラグインがなく、通知先をUIから設定できない。設定にはProxyが必要になる（本末転倒） - OpenSearch UI v2でサポートされそうなのでv2に期待！（https://github.com/opensearch-project/OpenSearch-Dashboards/issues/10524） - ブラウザバックで直前⼊⼒していたクエリに⾶べない - PPL以外ではクエリ履歴が選択できない⾟いところ

Slide 38

Slide 38 text

まとめ

Slide 39

Slide 39 text

© Sansan, Inc. - 安定運⽤への道のり - ノード構成: 1台 → 6台（AZ分散）に変更しロールオーバー活⽤ - シャード数: 3000以上 → 300ほどに削減 - ノード分散とレプリカ削減、refresh_interval調整で平均CPU使⽤率30%に改善 - 学びと教訓 - 内部向けログ基盤でもレプリカは必要だが、インデックス化のパフォーマンスは劣化する - 事前設計だけでなく運⽤中のパフォーマンスチューニングも重要 - ベストプラクティスが当てはまるかはケース次第なのでまずは実践を - OpenSearch UI採⽤でProxyなどの管理コンポーネント削減に成功したまとめ OpenSearch移⾏で得られた知⾒今後の取り組み - マッピング設定の最適化 - インデックス化が不要なフィールドの精査 - 次回のRI購⼊に合わせたOR/OM系インスタンスの評価

Slide 40

Slide 40 text

No content