Dive into TensorFlow Data Validation

Slide 1

Slide 1 text

Dive into TensorFlow Data Validation Asei Sugiyama

Slide 2

Slide 2 text

TL;DR TensorFlow Data Validation は TFX の一部で、データの検証を行うコンポーネントで用いられるライブラリ Google 社内では Data Validation に関してスキーマをもとにした実践的な取り組みが進められている OSS として TFDV が公開されており、表形式のデータについて可視化や異常値の検出が実装されている非構造化データについての Data Validation はあまり整備されていないため、自分たちで検討が必要

Slide 3

Slide 3 text

TOC 背景 <- Data Validation で取り組む問題 TFDV ライブデモ非構造化データを対象とした Data Validation

Slide 4

Slide 4 text

背景機械学習はとにかく複雑 TFX TensorFlow Data Validation Case Study: Google Play Store

Slide 5

Slide 5 text

機械学習はとにかく複雑 Machine Learning: The High Interest Credit Card of Technical Debt – Google Research

Slide 6

Slide 6 text

TFX (TensorFlow Extended) TFX: A TensorFlow-Based Production-Scale Machine Learning Platform – Google Research

Slide 7

Slide 7 text

TensorFlow Data Validation

Slide 8

Slide 8 text

Case study: Google Play Store 学習環境だと値が入るものの、本番環境だと値が入らない特徴量が存在モデルのパフォーマンスに影響該当の特徴量を取り除いたところ、2%の改善

Slide 9

Slide 9 text

TOC 背景 Data Validation で取り組む問題 <- TFDV ライブデモ非構造化データを対象とした Data Validation

Slide 10

Slide 10 text

Data Validation で取り組む問題論文 Data Validation For Machine Learning を例に紹介導入システム概要単一バッチ内でのデータ検証複数バッチ間でのデータ検証モデルの単体テスト Google での実例

Slide 11

Slide 11 text

導入 (1/3) 次のような機械学習パイプラインを考える毎日データを取得してモデルを訓練しサーバーにデプロイするモデルの入力はラベルデータと結合されて次の日の入力になるある日、エンジニアがサーバーサイドのリファクタリングを行った際に、不幸にもバグを混入させてしまった結果、特定のデータ (OS のバージョンなど) では特徴量がエラーを意味する -1 になったそのバグはもともと整数値を取るべき箇所で発生したとしよう何が生じるだろうか？

Slide 12

Slide 12 text

導入 (2/3) 機械学習モデルはおそらく動き続ける、だが精度は低くなる -1 は妥当な値であるためエラーは検出されない次の日のモデルは誤ったデータで訓練されるその特徴量がもともとモデルにとって有用であった場合、-1 が書き込まれる特定のデータに対して推論結果が悪化する事象はこの問題が発見され修復されるまで収束しない

Slide 13

Slide 13 text

導入 (3/3) このような場合、典型的には on-call エンジニアが問題を分析し、コードからバグを取り除き、学習環境にも推論環境にもコードをデプロイすることで対応されるということは、アラートは高い確度でなければならないし、on-call エンジニアが問題の真因に手早くたどり着けるような情報を提供するものでなければならないまた、on-call エンジニアは確度が低かったり行動に繋げられないアラートを無視しがちになる、というのも重要なエラーに気が付きにくくなってしまうから

Slide 14

Slide 14 text

システム概要

Slide 15

Slide 15 text

単一バッチ内でのデータ検証 (1/2) 入力データのスキーマを用意し、それに従っているかどうかを検証一方、特徴量は数千にのぼる場合もあるまた、特徴量に関する知識がエンジニアの間でどこかに消えることがある

Slide 16

Slide 16 text

単一バッチ内でのデータ検証 (2/2) データからスキーマを推論できるようにしたアラートが頻発するのを防止するため、スキーマに従わないデータを許容できるようにしたスキーマはコードと同時にバージョン管理されるようになった

Slide 17

Slide 17 text

複数バッチ間でのデータ検証 Training/Serving Skew (訓練時と推論時のデータの偏り) は本番環境でよく起こる次の3タイプに分類できた 1. Feature Skew 2. Distribution Skew 3. Scoring/Serving Skew

Slide 18

Slide 18 text

1. Feature Skew 推論環境では実装した処理が訓練用データの集計パイプラインに未実装タイムトラベル: 推論環境ではリアルタイムに集計処理が行われるものの、学習環境では時間がたってから集計処理が行われるために値がずれる (e.g. 動画の再生回数や総クリック数) 2. Distribution Skew 適切ではないサンプリングはこの現象を引き起こす

Slide 19

Slide 19 text

3. Scoring/Serving Skew 動画のリコメンドを行うため、ユーザーが動画を再生するかどうか予測するモデルを作成するリコメンドした結果画面に表示できる動画の数よりも、リコメンドの対象になる動画のほうが遥かに大きいものとする (e.g. Youtube) リコメンド結果に現れない大半の動画は、ユーザーの目に触れる機会がないために再生されない結果「リコメンドされなかったためにリコメンドされない」という負のフィードバックが生じる

Slide 20

Slide 20 text

Quantifying Distribution Distance (1/2) 訓練時と推論時の分布が異なっていることを検出するためには、2つの分布の異なり方を距離として定量的に示す必要がある KL Divergence やコサイン類似度はプロダクトチームが理解しにくく、偽陽性を防ぐためのしきい値の調整ができなかった統計的な手法、たとえば検定はデータ数が多くなってしまうと機能しなかったサンプル数が多くなりすぎると、小さな差しかなかったとしても検定に書けると差が有意になる解釈のしやすさと原因の切り分けやすさから距離を採用した χ2 L ∞

Slide 21

Slide 21 text

Quantifying Distribution Distance (2/2) 検定について検証から1億件をサンプリングから1億件をサンプリングし、1万件 (0.01%) をで置換大した差ではないのに、検定を 10回行うと8回が有意 χ2 N(0, 1) N(0, 1) N(0, 2)

Slide 22

Slide 22 text

モデルの単体テスト機械学習モデルが内部で入力値に対して対数変換を行うとする int float といった型だけでは不十分型として int が指定されていても -1 が入力されると落ちるこのようなケースに対応するため、スキーマには値域や欠損の有無を記述できるようにしたまた、スキーマに対応する入力値を生成し、モデルに入力するような fuzz testing (ファジング) を行うようにした振る舞いが決定論的になるよう、生成時にはシードを指定できるようにした

Slide 23

Slide 23 text

Google での実例 (1/2) Data Validation を用いている 700 以上の機械学習パイプラインを対象に調査パイプラインをデプロイしてからスキーマに変更を加えた回数を調査概して5回未満は変更が発生していた

Slide 24

Slide 24 text

Google での実例 (2/2) より詳細な使われ方を調査 Used: Validation が実装された Fired: アラートがあがった Fixed given Fired: アラートが上がったあと修正された修正されなかった理由は次 1. どうしようもなかった (データを再生産できない) 2. アラート担当者に無視された

Slide 25

Slide 25 text

Google での実例 (1/3) Google Play Store (再掲) 学習環境だと値が入るものの、本番環境だと値が入らない特徴量が存在モデルのパフォーマンスに影響該当の特徴量を取り除いたところ、2%の改善

Slide 26

Slide 26 text

Google での実例 (2/3) 動画のレコメンドの例機械学習基盤を旧環境から新環境へ移行する際に、新環境ではデータが欠損していることに気がついたデータをパースする処理において、期待と異なるフォーマットのデータがあった場合、それらを単に捨てていたのが原因典型的にはこのようなケースでは問題の特定が困難 (仕様外のシステムの振る舞いにモデルが依存していたケース) このケースでは原因の特定と修正に2日しかかからなかった (類似のケースでは数ヶ月かかっていた)

Slide 27

Slide 27 text

Google での実例 (3/3) Data Validation だけ使っていたチームの例機械学習パイプラインはすでに作っていたシステムによる Data Validation が行えていなかったので、ここまでに見てきた問題に直面していたパイプラインに入力するデータを検証するといった使い方をしていた (ので、あとからでも追加できる)

Slide 28

Slide 28 text

TOC 背景 Data Validation で取り組む問題 TFDV ライブデモ <- 非構造化データを対象とした Data Validation

Slide 29

Slide 29 text

TFDV ライブデモ TensorFlow Data Validation のサンプルを実行しながら解説

Slide 30

Slide 30 text

Facets の紹介 PAIR (People + AI Research) が作成しているデータ可視化用ツール特徴量を可視化する Facets Overview 探索的データ分析を行う Facets Dive ライブデモ https://pair- code.github.io/facets/

Slide 31

Slide 31 text

TFX のコンポーネント StatisticsGen SchemaGen Example Validator

Slide 32

Slide 32 text

TOC 背景 Data Validation で取り組む問題 TFDV ライブデモ非構造化データを対象とした Data Validation <-

Slide 33

Slide 33 text

非構造化データを対象とした Data Validation まだまだフロンティア TFX Pipelines TFDV Discussion

Slide 34

Slide 34 text

TFX Pipelines 画像分類を行うサンプルは一応ある https://github.com/tensorfl ow/tfx/tree/master/tfx/exam ples/cifar10 画素を特徴量の1つとして扱うだけのサンプル

Slide 35

Slide 35 text

TFDV 実装は一応ある画像 https://github.com/tensorflow/data- validation/blob/master/tensorflow_data_validation/statistics/generator s/image_stats_generator.py 自然言語 https://github.com/tensorflow/data- validation/blob/master/tensorflow_data_validation/statistics/generator s/natural_language_stats_generator.py 使い方はさっぱりわからない

Slide 36

Slide 36 text

画像の Validation で使われる特徴 (推定) 画像の縦(横)の長さの最大値画素値のヒストグラムフォーマット (PNG, JPEG) ごとの画像の割合

Slide 37

Slide 37 text

自然言語の Validation で使われる特徴 (推定) トークンの種類の数トークンの総出現回数、トークンごとの出現回数トークンのうち辞書にあったトークンの数・四分位数例数文の長さの最小値・最大値・四分位数トークンごとに、そのトークンが使われた文の数トークンの文の中での出現位置のカウント

Slide 38

Slide 38 text

Discussion 画像についてはまだまだ議論が必要 https://discuss.tensorflow.o rg/t/tfx-for-vision/1282/16

Slide 39

Slide 39 text

Recap TensorFlow Data Validation は TFX の一部で、データの検証を行うコンポーネントで用いられるライブラリ Google 社内では Data Validation に関してスキーマをもとにした実践的な取り組みが進められている OSS として TFDV が公開されており、表形式のデータについて可視化や異常値の検出が実装されている非構造化データについての Data Validation はあまり整備されていないため、自分たちで検討が必要