Romi チームの OpenSearchのコスト最適化事例 

©MIXI Romi チーム OpenSearch コスト最適化事例  株式会社MIXI Vantageスタジオ Romi事業部開発グループ
加藤修悟

©MIXI 自己紹介！  加藤修悟 a.k.a. ろぐみ    21新卒 3年生  Romiという会話AIロボットを作ってます
    主な領域:  - サーバーサイド  - Webフロントエンド  - インフラ(AWSまわり)     最近ハイラルに住んでます    

©MIXI Romiと？  • ディープラーニングを応用した会話AIロボット     (従来) ルールベース中心  
  - 人手で書くシナリオ  - すぐに脱線する  - 人手に限界がある   - パターンを試しきったらおもちゃ感   (Romi) ディープラーニング中心     - 大量データから学習   - より柔軟、文脈を考慮して会話可能  - 時間、季節、記憶、好みも加味   - (我々も)何を話すかわからない   よろしく！

©MIXI 文脈を考慮？  • 過去会話履歴が必要   ◦ OpenSearchで読み書き！   ◦
直近会話履歴を会話AIサーバーへ送信     Romiサーバー OpenSearch

©MIXI あれ？OpenSearch高くない？？？  • GPUインスタンスが1番高い   ◦ それそう  • 2番目がOpenSearch…?
  ◦ Romiで 2クラスター使用   ▪ サーバーログ  ▪ 会話ログ    にしても高い  GPUインスタンス OpenSearch

©MIXI Why?  • OpenSearch インスタンスサイズがリッチすぎ       以上！！

©MIXI Why インスタンスサイズがリッチ?  • クエリそこまで重くない   • 平均的な速度も問題ない  
• たまに謎タイムアウトする   ◦ いったんリッチなインスタンスにして力で解決した   

©MIXI どこがネック？  • シャード数が700個オーバー → 多すぎ   ◦ シャードが多いとヒープを食い潰して遅くなる  
◦ シャード数インデックス数に原則比例   • 1シャードあたりが使う容量が小さすぎ   ◦ 目安 10〜50GB/shard   ◦ Romiチームで当時数10〜数100MB/shard     ⇒ インデックス切り方を変えよう！   index shard shard doc doc doc doc doc doc

©MIXI インデックス切り方  • 元々: log-YYYY-mm-dd   ◦ 日単位で切る  ◦
これで数10〜数100MB/shard ということ・・・   • 作戦: log-YYYY-mm   ◦ 月単位で切る  ◦ 30GB/shard 程度に余裕で収まりそう！   ◦ 日付単位で切ったインデックスをマージすれ良さそう   ▪ _reindex API   

©MIXI • ダブルライトしよう！   ◦ 2つクラスターを用意   ◦ スナップショットを取れクローンが作れる
  ◦ 同一ID ログをダブルライト   ▪ UUIDあたりを使え OK           サービスを止めたくない  クラスターA(元々あるやつ)log-YYYY-mm-dd  クラスターB(A クローン)   log-YYYY-mm にマージ  

©MIXI ダブルライト  • 最初 Aから読み込み   • クローン作成、マージ間にA書き込まれたデータをBに追記  
◦ ダブルライト開始まで空白埋め   ◦ elasticdumpが便利  ◦ 同一ID も無視して追記できる(重複ログを防止)   • すべて完了したら読み込みをBにスイッチ   クラスターA(元々あるやつ)log-YYYY-mm-dd  クラスターB(A クローン)   log-YYYY-mm にマージ  

Romi チームの OpenSearchのコスト最適化事例

Romi チームの OpenSearchのコスト最適化事例

MIXI ENGINEERS
PRO

More Decks by MIXI ENGINEERS

Other Decks in Technology

Featured

Transcript

©MIXI Romi チーム OpenSearch コスト最適化事例  株式会社MIXI Vantageスタジオ Romi事業部開発グループ

©MIXI 自己紹介！  加藤修悟 a.k.a. ろぐみ    21新卒 3年生  Romiという会話AIロボットを作ってます

©MIXI Romiと？  • ディープラーニングを応用した会話AIロボット     (従来) ルールベース中心

©MIXI 文脈を考慮？  • 過去会話履歴が必要   ◦ OpenSearchで読み書き！   ◦

©MIXI あれ？OpenSearch高くない？？？  • GPUインスタンスが1番高い   ◦ それそう  • 2番目がOpenSearch…?

©MIXI Why?  • OpenSearch インスタンスサイズがリッチすぎ       以上！！

©MIXI Why インスタンスサイズがリッチ?  • クエリそこまで重くない   • 平均的な速度も問題ない

©MIXI どこがネック？  • シャード数が700個オーバー → 多すぎ   ◦ シャードが多いとヒープを食い潰して遅くなる

©MIXI インデックス切り方  • 元々: log-YYYY-mm-dd   ◦ 日単位で切る  ◦

©MIXI • ダブルライトしよう！   ◦ 2つクラスターを用意   ◦ スナップショットを取れクローンが作れる

©MIXI ダブルライト  • 最初 Aから読み込み   • クローン作成、マージ間にA書き込まれたデータをBに追記

©MIXI インスタンスサイズを下げる  • OpenSearch Blue/Greenデプロイが可能   • 少しずつ下げて様子見

©MIXI どれだけ安くなった？  ※ リザーブドインスタンス購入も含む   Before  After  OpenSearch OpenSearch

©MIXI まとめ  • 1シャードあたりが使っている容量を確認しよう   ◦ 10〜50GB程度がパフォーマンス◦   • ↑が適切な値になるようにインデックスを切ろう