トラフィックの少ないマイクロサービス型システムにおける複数A/Bテストの干渉回避技術の検討/multiple ab testing on microservices

© Hitachi, Ltd. 2021. All rights reserved. トラフィックの少ないマイクロサービス型システムにおける複数A/Bテストの干渉回避技術の検討 Web
System Architecture研究会 #8 株式会社日立製作所研究開発グループ井出貴也

© Hitachi, Ltd. 2021. All rights reserved. 要旨マイクロサービスアーキテクチャ型システム内で複数チームが同時にA/Bテストを行うと結果が干渉しうる。しかし、システム内で同時に実行できるA/Bテストを一つに限定すると評価
までの時間が長大化する他、交互作用を評価できなくなる。複数のA/Bテストを同時に行う方法には多変量テストが挙げられるが、多変量テストは多数のテストケースでサンプルを収集する必要があるため、トラフィックの少ないシステムには適用できなかった。本研究はシステムの接続情報およびA/Bテストの属性情報から交互作用の強いA/Bテストのサブセットを検出し、サブセットごとに多変量テストを適用することで必要なテストケースの数を削減し、トラフィックの少ないシステムにも適用できうるマイクロサービス向けA/Bテスト手法を提案する。 1

© Hitachi, Ltd. 2021. All rights reserved. 2 1. 背景
2. 既存技術 3. 提案方式 4. 評価案 5. まとめ目次

© Hitachi, Ltd. 2021. All rights reserved. A/Bテスト ▪ 複数パターンのシステムを無作為にユーザへ公開し、反応を比較するテスト
▪ 施策の良否を評価し、プロダクトの改善に活かす 4 Original (青色ボタン) クリック率 10% Buy Variation 1 (赤色ボタン) クリック率 15% ユーザ Buy

© Hitachi, Ltd. 2021. All rights reserved. マイクロサービスアーキテクチャ ▪ 複数の小さなサービスを連携させてシステムを構成する設計方式
▪ サービスごとに小さなチームが存在し、自律的に開発・運用 5 マイクロサービスアーキテクチャ型のシステム (以降マイクロサービスと呼称) 決済管理サービスチーム発注サービスチーム開発・運用 UI 決済管理商品管理商品推薦プッシュ通知ユーザ管理発注開発・運用

© Hitachi, Ltd. 2021. All rights reserved. マイクロサービスにてA/Bテストを行う際の問題 ▪ マイクロサービス上の複数チームが同じタイミングでA/Bテストを実施すると、
テストの内容によっては互いの結果が干渉 ▪ 一方、同時に実行できるA/Bテストを一つに絞るとシステム改善サイクルが鈍化 ▪ また、複数同時テストによる交互作用（相乗効果）も評価したい ◇ 例. 黒背景のA/Bテスト + 黒文字のA/Bテスト → 同時に適用すると読めない 6 ユーザ UI Original Variant 決済管理 Original Variant 商品管理 Original Variant 黒背景適用黒文字適用商品推薦 Original Variant Buy 干渉干渉干渉交互作用見落とし

© Hitachi, Ltd. 2021. All rights reserved. Overlapping Experiment Infrastructure
[TAB10] 以下ルールに基づきサンプルを収集することで複数同時のA/Bテストを実現 ▪ 同時に実行できないA/Bテストをサブセットに分け、サブセットごとにトラフィックを分割 ▪ ユーザID+サービスIDのハッシュ値でユーザをOri・Varどちらに割振るか決定 → サービス間で割振りが直交1 8 直交 : 各A/Bテストのユーザ割振のパターンを均一にする。数値化したCookieをSvcごとに異なる除数で剰余を取った値で振り分けることで実現ユーザ Svc1 Svc2 Original Variant Ori Var Svc1 Svc2 Ori Ori Svc3 Svc4 Ori Var Ori Var Svc3 Svc4 Ori Ori サブセットトラフィックを分割割振りを直交

© Hitachi, Ltd. 2021. All rights reserved. ユーザ Svc1 Svc2
Original Variant Ori Var Svc1 Svc2 Ori Ori Svc3 Svc4 Ori Var Ori Var Svc3 Svc4 Ori Ori サブセットトラフィックを分割割振りを直交 Overlapping Experiment Infrastructure [TAB10] 以下ルールに基づきサンプルを収集することで複数同時のA/Bテストを実現 ▪ 同時に実行できないA/Bテストをサブセットに分け、サブセットごとにトラフィックを分割 ▪ ユーザID+サービスIDのハッシュ値でユーザをOri・Varどちらに割振るか決定 → サービス間で割振りが直交1 9 直交 : 各A/Bテストのユーザ割振のパターンを均一にする。数値化したCookieをSvcごとに異なる除数で剰余を取った値で振り分けることで実現 <問題> ▪ 交互作用の影響を測定できない ▪ 組合せによってはA/Bテストの結果と他テストの交互作用の効果が混ざりうる

© Hitachi, Ltd. 2021. All rights reserved. 多変量テスト (完全実施要因計画) 同時に実行されるA/Bテストの全組合せ
パターンをテストする ▪ Svc1~4が2値のA/Bテストを同時に行う場合は16通りのテストケースを作成(右表) ▪ テストケースごとにトラフィックを振り分け、サンプルを収集 ▪ 分散分析にて各A/Bテストの効果と交互作用を算出 10 # Svc 1 Svc 2 Svc 3 Svc 4 1 Original O O O 2 O O O V 3 O O V O 4 O O V V 5 O V O O 6 O V O V 7 O V V O 8 O V V V 9 Variant O O O 10 V O O V 11 V O V O 12 V O V V 13 V V O O 14 V V O V 15 V V V O 16 V V V V

© Hitachi, Ltd. 2021. All rights reserved. 多変量テスト (完全実施要因計画) 同時に実行されるA/Bテストの全組合せ
パターンをテストする ▪ Svc1~4が2値のA/Bテストを同時に行う場合は16通りのテストケースを作成(右表) ▪ テストケースごとにトラフィックを振り分け、サンプルを収集 ▪ 分散分析にて各A/Bテストの効果と交互作用を算出 11 # Svc 1 Svc 2 Svc 3 Svc 4 1 Original O O O 2 O O O V 3 O O V O 4 O O V V 5 O V O O 6 O V O V 7 O V V O 8 O V V V 9 Variant O O O 10 V O O V 11 V O V O 12 V O V V 13 V V O O 14 V V O V 15 V V V O 16 V V V V <問題> ▪ 同時に実行されるテストが多くなるとテストケースが爆発。各テストケースに割り振れるトラフィックが減少し、ユーザ数が少ないサービスは結果算出に時間を要する

© Hitachi, Ltd. 2021. All rights reserved. 一部実施要因計画多少の交互効果の影響を許容し、多変量テストのうち一部の組合せのみテストケースとする
▪ テストケースを削減できるため、トラフィックを集中でき、テスト時間の短縮に寄与 ▪ テストケースとなる組合せは、直交表やラテン方格実験、ランダムなどで抽出 12 # Svc 1 Svc 2 Svc 3 Svc 4 1 Original O O O 2 O O O V 3 O V V O 4 O V V V 5 V O V O 6 V O V V 7 V V O O 8 V V O V 4種のA/BテストにL8直交表を適用 (テストケースが16→8に減少)

© Hitachi, Ltd. 2021. All rights reserved. 一部実施要因計画多少の交互効果の影響を許容し、多変量テストのうち一部の組合せのみテストケースとする
▪ テストケースを削減できるため、トラフィックを集中でき、テスト時間の短縮に寄与 ▪ テストケースとなる組合せは、直交表やラテン方格実験、ランダムなどで抽出 13 # Svc 1 Svc 2 Svc 3 Svc 4 1 Original O O O 2 O O O V 3 O V V O 4 O V V V 5 V O V O 6 V O V V 7 V V O O 8 V V O V 4種のA/BテストにL8直交表を適用 (テストケースが16→8に減少) <問題> ▪ 抽出した組合せによってはA/Bテストの結果に交互作用が影響する ▪ 複数チームが連携してテスト計画を立案する必要があり自律性が損なわれる ▪ テストケースごとに収集するサンプルが異なり、トラフィック制御が複雑化

© Hitachi, Ltd. 2021. All rights reserved. 研究の目的目的 ▪
マイクロサービス上にて各チームが自律的にA/Bテストを実行可能な方式の開発要件 1. 他A/Bテストの影響を受けず、各チームが独立してA/Bテストの結果を評価できる 2. 個々のA/Bテストに長大な時間を要しない（開発サイクルを阻害しない） 3. 関連するA/Bテスト間では、その交互作用も評価できる既存技術の単純な適用では要件を満たさない。マイクロサービスの前提を置くことで、TAB10と多変量テストを上手く組合せられないか 14

© Hitachi, Ltd. 2021. All rights reserved. アプローチ ▪ 交互作用が強い群をサブセット化し、ピンポイントに多変量テストを適用
▪ それ以外はユーザトラフィックを直交させ、互いの影響を排除 ▪ 交互作用の強い群はマイクロサービスやA/Bテストの属性情報を用いて判別 16 サブセットトラフィックを直交させることでサブセット外の影響を排除 Svc2から見て交互作用の強いテストをサブセット化 o v o v Svc4 Svc1 Svc2 Svc3 o v o v Svc5 Svc2を多変量テストで評価するには、少なくとも24=16通りのテストケースが必要 o v o v Svc4 Svc1 Svc2 Svc3 o v o v Svc5 22=4通りのテストケースで Svc2の多変量テストが可能

© Hitachi, Ltd. 2021. All rights reserved. アプローチの前提となる仮説仮説1：複数テスト間で直交に振り分けられたユーザトラフィックは数が多ければ多変量テストのサンプルとして利用できる
▪ 多変量テストの各テストケースは分配される確率が同じ→大数の法則 ▪ これにより、ハッシュ値で割り振ったトラフィックを多変量テストのサンプルに利用できる仮説2：交互作用の大小はマイクロサービスの構成やA/Bテストの種別に依存 ▪ 例. 通信を行っていないサービスとはレイテンシの交互作用が発生しえない ▪ 属性情報から干渉するテストの種別およびその影響範囲を算出できないか 17

© Hitachi, Ltd. 2021. All rights reserved. 処理の流れ 1. マイクロサービス開発者がA/Bテスト実行時に属性情報を入力
2. 入力された情報およびマイクロサービス間の接続関係からテストごとに1干渉するテストを検出し、サブセット化 3. 各A/BテストのOri・Varにはハッシュ値でトラフィックを振分け（=直交させる） 4. サブセット内のトラフィックの流れは分散トレースのログなどを用いて多変量テストのテストケースごとに結果と紐付けてカウント 5. サブセット内のテストケースが統計的に十分なサンプルサイズになればテスト終了 18 1. 視点となるテストごとにサブセットが作られる。例えば、Svc1は[Svc1, Svc2, Svc3]のサブセットを作り、Svc2は[Svc1, Svc3]のサブセットを作るなどがある

© Hitachi, Ltd. 2021. All rights reserved. サブセット作成に利用する属性情報以下情報からA/Bテストの影響の種別や範囲を判別する A/Bテスト情報
▪ 変更箇所：テストを実施するサービス ▪ 測定箇所：メトリクスの測定先となるサービス ◇ 例. 商品推薦機能：変更箇所→推薦サービス、測定箇所→UIサービス与干渉要因 / 被干渉要因（それぞれ指定） ▪ 種別：ユーザ(外観、推薦機能など)、レイテンシ、エラー率、消費リソース ▪ 範囲：変更箇所のみ、測定箇所のみ、変更箇所ー測定箇所間、変更箇所とその依存先、測定箇所とその依存先、など 20

© Hitachi, Ltd. 2021. All rights reserved. 干渉の判定とサブセット化以下手順で干渉を判定し、サブセットを構築する（下図はSvc2のサブセットを作成する例） 22
Svc4 Svc1 Svc2 Svc3 Svc5 o v Svc4 Svc1 Svc2 Svc3 o v o v Svc5 種別: レイテンシ対象テスト(Svc2)の被干渉種別と与干渉種別が同じテストを列挙分散トレーシングや通信ログからマイクロサービスの接続関係グラフを作成対象テスト(Svc2)の被干渉範囲と与干渉範囲が重なるテストをサブセットに選定 → Svc2とSvc3をサブセット化 Svc2の被干渉範囲 o v Svc4 Svc1 Svc2 Svc3 o v o v Svc5 Svc3の与干渉範囲 Svc5の与干渉範囲対象 ↓

© Hitachi, Ltd. 2021. All rights reserved. 分散トレース情報を用いたサンプルのカウント方法テストケースを基づくトラフィック送付は事前のテストケース把握と複雑な通信制御が必要。そこで、仮説1に基づきトラフィック自体はハッシュ値で振り分け、分散トレース情報からトラ
フィックの通信経路を得て、該当するテストケースのサンプルに加える分散トレース ▪ ユーザリクエストごとに通信の経路や処理時間を可視化する監視方式 24 ingress product page raviews ratings Grafanaにて可視化したリクエストの分散トレース情報（横: 時間、色: コンポーネント） details 通信経路復元

© Hitachi, Ltd. 2021. All rights reserved. 提案システムの構成案 25 サービスチーム
エンドユーザサービス1 Original サービス1 Variant プロキシテスト対象(サービス1を抜粋) トラフィック制御機能 (e.g., Istio) トラフィック割振りサブセット算出結果集計テスト評価 UI メトリクス収集機能 (e.g., Prometheus) 分散トレーシング機能 (e.g., Jaeger) A/Bテスト干渉回避システム A/Bテスト属性情報結果サービス利用ユーザハッシュでのトラフィック割振り指示通信経路情報対象メトリクステスト結果信頼度が一定以上になるまでテスト継続サブセットごとに多変量テスト集計属性情報よりサブセット算出赤文字 :提案システムのポイント

© Hitachi, Ltd. 2021. All rights reserved. 現在検討中の評価案仮説ごとに評価を行う仮説1（ハッシュ振り分けのトラフィックを多変量テストのサンプルに利用できる）
▪ 可能なら理論的に、難しければ実験的に必要サンプル数を算出仮説2（交互作用の大小はマイクロサービスの構成やA/Bテストの目的に依存） ▪ シミュレーションを用いて、多変量テストに比べた精度と処理時間を測定予定 ▪ 条件が恣意的になる懸念あり。現実と離れたパターンを許容してでもランダム化する？ ▪ 対象となるマイクロサービスのサンプル構成も見繕い中良い方法を教えていただけると幸いです 27

© Hitachi, Ltd. 2021. All rights reserved. まとめと残課題まとめ ▪
マイクロサービス内で複数チームが同時にA/Bテストを行うと結果が干渉しうる ▪ しかし、交互作用まで評価できる多変量テストではテストの時間が長大化 ▪ マイクロサービスの接続関係とA/Bテストの属性情報からA/Bテスト群をサブセットに分割し、それぞれ多変量テストを適用する方式を提案残課題 ▪ 提案方式の評価 ▪ 動的に追加されたA/Bテストへの対応 ▪ サブセットが巨大化した場合の対応 29

© Hitachi, Ltd. 2021. All rights reserved. 参考文献 [TAB10] Tang,
Diane, et al. "Overlapping experiment infrastructure: More, better, faster experimentation." Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining. 2010. 30

© Hitachi, Ltd. 2021. All rights reserved. 商標 ▪ Grafanaは、Grafana
Labsの米国またはその他の国における登録商標または商標です ▪ Istioは、Google LLCの米国における登録商標または商標です ▪ Prometheusは、The Linux Foundationの米国またはその他の国における登録商標または商標です ▪ Jaegerは、 The Linux Foundationの米国またはその他の国における登録商標または商標です ▪ その他記載の会社名、製品名、サービス名、その他固有名詞は、それぞれの会社の商標または登録商標です ▪ 本発表中の文章、図では、TM、🄬マークは表記しておりません。 31

トラフィックの少ないマイクロサービス型システムにおける複数A/Bテストの干渉回避技術の検討/m...

トラフィックの少ないマイクロサービス型システムにおける複数A/Bテストの干渉回避技術の検討/multiple ab testing on microservices

id

More Decks by id

Other Decks in Technology

Featured

Transcript

© Hitachi, Ltd. 2021. All rights reserved. トラフィックの少ないマイクロサービス型システムにおける複数A/Bテストの干渉回避技術の検討 Web

© Hitachi, Ltd. 2021. All rights reserved. 要旨マイクロサービスアーキテクチャ型システム内で複数チームが同時にA/Bテストを行うと結果が干渉しうる。しかし、システム内で同時に実行できるA/Bテストを一つに限定すると評価

© Hitachi, Ltd. 2021. All rights reserved. 2 1. 背景

© Hitachi, Ltd. 2021. All rights reserved. 背景 3

© Hitachi, Ltd. 2021. All rights reserved. A/Bテスト ▪ 複数パターンのシステムを無作為にユーザへ公開し、反応を比較するテスト

© Hitachi, Ltd. 2021. All rights reserved. マイクロサービスアーキテクチャ ▪ 複数の小さなサービスを連携させてシステムを構成する設計方式

© Hitachi, Ltd. 2021. All rights reserved. マイクロサービスにてA/Bテストを行う際の問題 ▪ マイクロサービス上の複数チームが同じタイミングでA/Bテストを実施すると、

© Hitachi, Ltd. 2021. All rights reserved. 既存方式 7

© Hitachi, Ltd. 2021. All rights reserved. Overlapping Experiment Infrastructure

© Hitachi, Ltd. 2021. All rights reserved. ユーザ Svc1 Svc2

© Hitachi, Ltd. 2021. All rights reserved. 多変量テスト (完全実施要因計画) 同時に実行されるA/Bテストの全組合せ

© Hitachi, Ltd. 2021. All rights reserved. 多変量テスト (完全実施要因計画) 同時に実行されるA/Bテストの全組合せ

© Hitachi, Ltd. 2021. All rights reserved. 一部実施要因計画多少の交互効果の影響を許容し、多変量テストのうち一部の組合せのみテストケースとする

© Hitachi, Ltd. 2021. All rights reserved. 一部実施要因計画多少の交互効果の影響を許容し、多変量テストのうち一部の組合せのみテストケースとする

© Hitachi, Ltd. 2021. All rights reserved. 研究の目的目的 ▪

© Hitachi, Ltd. 2021. All rights reserved. 提案方式 15

© Hitachi, Ltd. 2021. All rights reserved. アプローチ ▪ 交互作用が強い群をサブセット化し、ピンポイントに多変量テストを適用

© Hitachi, Ltd. 2021. All rights reserved. アプローチの前提となる仮説仮説1：複数テスト間で直交に振り分けられたユーザトラフィックは数が多ければ多変量テストのサンプルとして利用できる

© Hitachi, Ltd. 2021. All rights reserved. 処理の流れ 1. マイクロサービス開発者がA/Bテスト実行時に属性情報を入力

© Hitachi, Ltd. 2021. All rights reserved. 処理の流れ 1. マイクロサービス開発者がA/Bテスト実行時に属性情報を入力

© Hitachi, Ltd. 2021. All rights reserved. サブセット作成に利用する属性情報以下情報からA/Bテストの影響の種別や範囲を判別する A/Bテスト情報

© Hitachi, Ltd. 2021. All rights reserved. 処理の流れ 1. マイクロサービス開発者がA/Bテスト実行時に属性情報を入力

© Hitachi, Ltd. 2021. All rights reserved. 干渉の判定とサブセット化以下手順で干渉を判定し、サブセットを構築する（下図はSvc2のサブセットを作成する例） 22

© Hitachi, Ltd. 2021. All rights reserved. 処理の流れ 1. マイクロサービス開発者がA/Bテスト実行時に属性情報を入力

© Hitachi, Ltd. 2021. All rights reserved. 提案システムの構成案 25 サービスチーム

© Hitachi, Ltd. 2021. All rights reserved. 評価案 26

© Hitachi, Ltd. 2021. All rights reserved. 現在検討中の評価案仮説ごとに評価を行う仮説1（ハッシュ振り分けのトラフィックを多変量テストのサンプルに利用できる）

© Hitachi, Ltd. 2021. All rights reserved. まとめ 28

© Hitachi, Ltd. 2021. All rights reserved. まとめと残課題まとめ ▪

© Hitachi, Ltd. 2021. All rights reserved. 参考文献 [TAB10] Tang,

© Hitachi, Ltd. 2021. All rights reserved. 商標 ▪ Grafanaは、Grafana