機械学習分野におけるテストの自動化 #ques4

機械学習分野におけるテストの⾃自動化 2014.4.22 Ques #4 in DeNA @komiya_atsushi

※この資料料は http://bit.ly/ques4_ML_test で公開しています 2

Self-introduction 3

ALBERT Inc. Analytical technology 5

Background: Java / Web / AWS Machine learning 6

Jobs: Curation service, Marketing automation and Recommender systems developer 7

QA and me 8

知識識はあんまりありません (>_<) 9

QA in ALBERT 10

QA 専任のエンジニアはいません 11

QA = 開発エンジニアのお仕事 ※インフラ構築や運⽤用も開発エンジニアのお仕事です. つまりフルスタ（ry 12

Test automation in ALBERT 13

Test automation = Code-driven testing (xUnit / xSpec) + Continuous
integration 14

Code-driven testing by JUnit / Spock ※レガシーなシステムを除く 15

Continuous integration by Jenkins 　. ※最近開発しているシステム 16

Test-driven development ※少しずつ導⼊入中 17

Today’s topic 18

機械学習 × テスト⾃自動化 19

Code-driven testing に関わる話題を中⼼心にお話しします 20

Machine Learning 21

What ? 22

“⼈人間が⾃自然に⾏行行っている学習能⼒力力と同様の機能をコンピュータで実現しようとする技術・⼿手法” from Wikipedia (機械学習) 23

“第⼀一にそのデータが⽣生成した潜在的機構の特徴を捉え、複雑な関係を識識別（すなわち定量量化）する。そして第⼆二にその識識別したパターンを⽤用いて新たなデータについて予測を⾏行行う” from Wikipedia (機械学習) 24

“コンピューターでアルゴリズムを構築し、学習データを読み込ませることで、⾃自動的に今あるデータを分類＆まだ⾒見見ぬデータを予測できるようにするもの” “ヒトの情報処理理能⼒力力を超えて、複雑なデータを分類＆予測できるようにするもの” from 銀座で働くデータサイエンティストのブログ http://tjo.hatenablog.com/entry/2013/04/30/191947
25

2. 分類・推定フェーズ 1. 学習フェーズ正解が未知のデータ（特徴量量のみ）特徴量量と正解情報の組み合わせから法則性を導き出す（モデル化）
学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ 26

Use case 27

Recommendations 28

Email filtering 29

Accuracy 30

機械学習の精度度は 100 % ではない⼈人間と同じように、分類・推定に失敗することがある例例）メールのスパム誤判定 31

Software testing of Machine learning 32

機械学習への Code-driven testing 適⽤用の基本 33

⼊入⼒力力データと出⼒力力結果を意識識する 34

学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ Input Output 36

学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ Input Output 期待する結果であるか？ 37

つまりはブラックボックステスト 38

悩みどころ 39

「期待する結果」の定義が難しい 40

精度度は 100% ではない 41

ランダムな振る舞いをするアルゴリズム 42

テストデータを作るのが⾟辛い 43

どのような⼊入⼒力力データを与えればよいか？ 44

どのような出⼒力力結果が得られるのか？ 45

テストケースが NG となったときに何がダメなのかが分かりづらい 46

実装上の不不具合によって NGとなったのか？ 47

はたまた⼊入⼒力力データに不不⼿手際があったのか？ 48

Patterns & Practices 49

テスト対象の分離離を意識識する 50

アプリケーションビジネスロジック機械学習アルゴリズム 51

アプリケーションビジネスロジック機械学習アルゴリズム特にビジネスロジックと機械学習アルゴリズムを切切り離離して考える 52

アプリケーションビジネスロジック機械学習アルゴリズム実装の正しさを検証する使い⽅方の正しさを検証する得られる精度度を検証する
53

どの粒粒度度のテストを実施すべきなのかを明らかにしておく 54

機械学習アルゴリズムに対するテスト既存のライブラリを利利⽤用するならテストは不不要フルスクラッチ・独⾃自実装する場合は必要 55

ビジネスロジックに対するテスト機械学習に与える⼊入⼒力力データや出⼒力力結果の取り扱いが複雑な場合に実施すべき 56

アプリケーションに対するテスト機械学習の結果の精度度を定量量評価できる仕組みが整っている場合に実現可能 57

機械学習に対する理理解を深める 58

ケーステストデータを作成したいテスト結果が NG となった場合に何が悪いのかを明らかにしたい 59

擬似コードや数式を理理解するのがベスト 60

数式が理理解できればテストデータは⼿手計算（Excel）で作れる 62

数式に弱くとも⼊入⼒力力データタスク出⼒力力結果は把握できるように 63

学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ Input ⼊入⼒力力データ（説明変数、独⽴立立変数）は・数値なのか？・⽂文字列列なのか？・質的変数なのか？・量量的変数なのか？ 65

学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ タスクは・分類なのか？・数値の予測なのか？ 66

学習データ（特徴量量＆正解情報）機械学習アルゴリズム分類・推定結果モデルモデルを元に正解を推測する Photo by littlelostrobot https://www.flickr.com/photos/littlelostrobot/215559356/ Output 出⼒力力結果は・連続値なのか？・離離散値なのか？・単⼀一なのか？・複数なのか？ 67

別⾔言語の実装を利利⽤用してテストデータを作成する 68

テストデータの作成、もぅﾏﾁﾞ無理理… 69

ケース (やんごとなき理理由により) フルスクラッチ実装した機械学習アルゴリズムをテストしたい 70

別⾔言語の実装が存在することが前提 71

かつ、その別⾔言語の実装が⼗十分に枯れていること 72

ライブラリ: libsvm, liblinear, SciPy, OpenCV 73

フレームワーク・ソフトウェア: Mahout, Jubatus, R 74

モックやフィクスチャを活⽤用する 75

76

ケースビジネスロジックをテストしたいランダムに振る舞う機械学習アルゴリズムをテストしたい 77

機械学習アルゴリズムの振る舞いにあまり左右されたくない… 78

モックを利利⽤用する 79

モックライブラリ Mockito https://code.google.com/p/mockito/ JMockit https://code.google.com/p/jmockit/ 80

アプリケーションビジネスロジックモックアルゴリズムモックに差し替えるダミーの結果を返す 81

フィクスチャで状態を固定する 82

アプリケーションビジネスロジック機械学習アルゴリズムモデルモデルを固定する (setup / teardown) 83

アプリケーションビジネスロジック機械学習アルゴリズム乱数発⽣生器乱数のシードを固定する 84

※ご参考 85 http://bit.ly/random_junit

ベースラインの精度度と⽐比較する 86

87

ケースサービスレベルの精度度を検証したい 88

やりたいこと 89

「期待される精度度」の設定に別のアルゴリズムの精度度を利利⽤用する 90

例例）オンライン学習のアルゴリズムならパーセプトロンの精度度をベースラインに SCW の精度度を検証する 91

数値計算の特性を把握する 92

93

ケース独⾃自の機械学習アルゴリズムを実装したのでより緻密にテストしたい 94

ホワイトボックステスト 95

分岐だけではなく数値計算にも注意を払う 96

Conclusion 99

業務システムのテストとは異異なる知識識を求められるのは事実 100

ただ QA の知識識を⼗十分に活⽤用することはできる！ 101

•  テスト対象の分離離を意識識する •  機械学習に対する理理解を深める •  別⾔言語の実装を利利⽤用してテストデータを作成する •  モックやフィクスチャを活⽤用する • 
ベースラインの精度度と⽐比較する •  数値計算の特性を理理解する 102

ありがとうございました！ 103

機械学習分野におけるテストの自動化 #ques4

機械学習分野におけるテストの自動化 #ques4

More Decks by KOMIYA Atsushi

Other Decks in Technology

Featured

Transcript