Dive into TensorFlow Data Validation

Dive into TensorFlow Data Validation Asei Sugiyama

TL;DR TensorFlow Data Validation は TFX の一部で、データの検証を行うコンポーネントで用いられるライブラリ Google 社内では
Data Validation に関してスキーマをもとにした実践的な取り組みが進められている OSS として TFDV が公開されており、表形式のデータについて可視化や異常値の検出が実装されている非構造化データについての Data Validation はあまり整備されていないため、自分たちで検討が必要

TOC 背景 <- Data Validation で取り組む問題 TFDV ライブデモ非構造化データを対象とした Data
Validation

背景機械学習はとにかく複雑 TFX TensorFlow Data Validation Case Study: Google Play
Store

機械学習はとにかく複雑 Machine Learning: The High Interest Credit Card of Technical
Debt – Google Research

TFX (TensorFlow Extended) TFX: A TensorFlow-Based Production-Scale Machine Learning Platform
– Google Research

TensorFlow Data Validation

Case study: Google Play Store 学習環境だと値が入るものの、本番環境だと値が入らない特徴量が存在モデルのパフォーマンスに影響
該当の特徴量を取り除いたところ、2%の改善

TOC 背景 Data Validation で取り組む問題 <- TFDV ライブデモ非構造化データを対象とした Data
Validation

Data Validation で取り組む問題論文 Data Validation For Machine Learning を例に紹介
導入システム概要単一バッチ内でのデータ検証複数バッチ間でのデータ検証モデルの単体テスト Google での実例

導入 (1/3) 次のような機械学習パイプラインを考える毎日データを取得してモデルを訓練しサーバーにデプロイするモデルの入力はラベルデータと結合されて次の日の入力になるある日、エンジニアがサーバーサイドのリファクタリングを行った際に、不幸にもバグを混入させてしまった結果、特定のデータ (OS のバージョンなど)
では特徴量がエラーを意味する -1 になったそのバグはもともと整数値を取るべき箇所で発生したとしよう何が生じるだろうか？

導入 (2/3) 機械学習モデルはおそらく動き続ける、だが精度は低くなる -1 は妥当な値であるためエラーは検出されない次の日のモデルは誤ったデータで訓練されるその特徴量がもともとモデルにとって有用であった場合、-1 が書き込まれる特定のデータに対して推論結果が悪化する事象はこの問題が発見され修復されるまで収束しない

導入 (3/3) このような場合、典型的には on-call エンジニアが問題を分析し、コードからバグを取り除き、学習環境にも推論環境にもコードをデプロイすることで対応されるということは、アラートは高い確度でなければならないし、on-call エンジニアが問題の真因に手早くたどり着けるような情報を提供するもので
なければならないまた、on-call エンジニアは確度が低かったり行動に繋げられないアラートを無視しがちになる、というのも重要なエラーに気が付きにくくなってしまうから

システム概要

単一バッチ内でのデータ検証 (1/2) 入力データのスキーマを用意し、それに従っているかどうかを検証一方、特徴量は数千にのぼる場合もあるまた、特徴量に関する知識がエンジニアの間でどこか
に消えることがある

単一バッチ内でのデータ検証 (2/2) データからスキーマを推論できるようにしたアラートが頻発するのを防止するため、スキーマに従わないデータを許容できるようにしたスキーマはコードと同時に
バージョン管理されるようになった

複数バッチ間でのデータ検証 Training/Serving Skew (訓練時と推論時のデータの偏り) は本番環境でよく起こる次の3タイプに分類できた 1. Feature Skew
2. Distribution Skew 3. Scoring/Serving Skew

1. Feature Skew 推論環境では実装した処理が訓練用データの集計パイプラインに未実装タイムトラベル: 推論環境ではリアルタイムに集計処理が行われるものの、学習環境では時間がたってから集計処理が行われるために値がずれる (e.g. 動画の再生回数や総クリック数)
2. Distribution Skew 適切ではないサンプリングはこの現象を引き起こす

3. Scoring/Serving Skew 動画のリコメンドを行うため、ユーザーが動画を再生するかどうか予測するモデルを作成するリコメンドした結果画面に表示できる動画の数よりも、リコメンドの対象になる動画のほうが遥かに大きいものとする (e.g. Youtube) リコメンド結果に現れない大半の動画は、ユーザーの目に触れる機会が
ないために再生されない結果「リコメンドされなかったためにリコメンドされない」という負のフィードバックが生じる

Quantifying Distribution Distance (1/2) 訓練時と推論時の分布が異なっていることを検出するためには、2つの分布の異なり方を距離として定量的に示す必要がある KL Divergence やコサイン類似度はプロダクトチームが理解しにくく、偽陽性を防ぐためのしきい値の調整ができなかった
統計的な手法、たとえば検定はデータ数が多くなってしまうと機能しなかったサンプル数が多くなりすぎると、小さな差しかなかったとしても検定に書けると差が有意になる解釈のしやすさと原因の切り分けやすさから距離を採用した χ2 L ∞

Quantifying Distribution Distance (2/2) 検定について検証から1億件をサンプリングから1億件をサンプリングし、1万件 (0.01%)
をで置換大した差ではないのに、検定を 10回行うと8回が有意 χ2 N(0, 1) N(0, 1) N(0, 2)

モデルの単体テスト機械学習モデルが内部で入力値に対して対数変換を行うとする int float といった型だけでは不十分型として int が指定されていても -1 が入力されると落ちる
このようなケースに対応するため、スキーマには値域や欠損の有無を記述できるようにしたまた、スキーマに対応する入力値を生成し、モデルに入力するような fuzz testing (ファジング) を行うようにした振る舞いが決定論的になるよう、生成時にはシードを指定できるようにした

Google での実例 (1/2) Data Validation を用いている 700 以上の機械学習パイプラインを対象に調査
パイプラインをデプロイしてからスキーマに変更を加えた回数を調査概して5回未満は変更が発生していた

Google での実例 (2/2) より詳細な使われ方を調査 Used: Validation が実装された Fired: アラートがあがった Fixed
given Fired: アラートが上がったあと修正された修正されなかった理由は次 1. どうしようもなかった (データを再生産できない) 2. アラート担当者に無視された

Google での実例 (1/3) Google Play Store (再掲) 学習環境だと値が入るものの、本番環境だと値が入らない特徴量が存在
モデルのパフォーマンスに影響該当の特徴量を取り除いたところ、2%の改善

Google での実例 (2/3) 動画のレコメンドの例機械学習基盤を旧環境から新環境へ移行する際に、新環境ではデータが欠損していることに気がついたデータをパースする処理において、期待と異なるフォーマットのデータがあった場合、それらを単に捨てていたのが原因典型的にはこのようなケースでは問題の特定が困難 (仕様外のシステム
の振る舞いにモデルが依存していたケース) このケースでは原因の特定と修正に2日しかかからなかった (類似のケースでは数ヶ月かかっていた)

Google での実例 (3/3) Data Validation だけ使っていたチームの例機械学習パイプラインはすでに作っていたシステムによる Data Validation
が行えていなかったので、ここまでに見てきた問題に直面していたパイプラインに入力するデータを検証するといった使い方をしていた (ので、あとからでも追加できる)

TOC 背景 Data Validation で取り組む問題 TFDV ライブデモ <- 非構造化データを対象とした Data
Validation

TFDV ライブデモ TensorFlow Data Validation のサンプルを実行しながら解説

Facets の紹介 PAIR (People + AI Research) が作成しているデータ可視化用ツール特徴量を可視化する
Facets Overview 探索的データ分析を行う Facets Dive ライブデモ https://pair- code.github.io/facets/

TFX のコンポーネント StatisticsGen SchemaGen Example Validator

TOC 背景 Data Validation で取り組む問題 TFDV ライブデモ非構造化データを対象とした Data Validation
<-

非構造化データを対象とした Data Validation まだまだフロンティア TFX Pipelines TFDV Discussion

TFX Pipelines 画像分類を行うサンプルは一応ある https://github.com/tensorfl ow/tfx/tree/master/tfx/exam ples/cifar10 画素を特徴量の1つとして扱うだけのサンプル

TFDV 実装は一応ある画像 https://github.com/tensorflow/data- validation/blob/master/tensorflow_data_validation/statistics/generator s/image_stats_generator.py 自然言語 https://github.com/tensorflow/data- validation/blob/master/tensorflow_data_validation/statistics/generator s/natural_language_stats_generator.py
使い方はさっぱりわからない

画像の Validation で使われる特徴 (推定) 画像の縦(横)の長さの最大値画素値のヒストグラムフォーマット (PNG, JPEG) ごとの画像の割合

自然言語の Validation で使われる特徴 (推定) トークンの種類の数トークンの総出現回数、トークンごとの出現回数トークンのうち辞書にあったトークンの数・四分位数例数文の長さの最小値・最大値・四分位数トークンごとに、そのトークンが使われた文の数
トークンの文の中での出現位置のカウント

Discussion 画像についてはまだまだ議論が必要 https://discuss.tensorflow.o rg/t/tfx-for-vision/1282/16

Recap TensorFlow Data Validation は TFX の一部で、データの検証を行うコンポーネントで用いられるライブラリ Google 社内では
Data Validation に関してスキーマをもとにした実践的な取り組みが進められている OSS として TFDV が公開されており、表形式のデータについて可視化や異常値の検出が実装されている非構造化データについての Data Validation はあまり整備されていないため、自分たちで検討が必要

Dive into TensorFlow Data Validation

Dive into TensorFlow Data Validation

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript