Slide 1

Slide 1 text

エンジニアとしての 機械学習との付き合いかた @yubessy 0x64 物語 Reboot #02

Slide 2

Slide 2 text

コモディティ化がもたらしたもの Fasttext, TensorFlow, Google Cloud NLP ... ライブラリ -> フレー ムワー ク -> API 高度な専門知識がなくてもそこそこの予測モデル が作れる TensorFlow によるキュウリの仕分け https://cloudplatform- jp.googleblog.com/2016/08/tensor ow_5.html 僕はこの先何で食っていけばよいのか?

Slide 3

Slide 3 text

これからの機械学習のお仕事 入口に寄るか出口に寄るか? 入口: デー タサイエンティスト モデルの構築前からかかわる デー タの取捨選択・UI 設計・ 問題の定式化 出口: 機械学習エンジニア モデルの構築後も面倒を見る システム・ インフラ設計・ 継続的な運用 今日はこっちの話

Slide 4

Slide 4 text

Q. エンジニアリング視点での 機械学習の難しさとは?

Slide 5

Slide 5 text

問題: 事前に誤りを防ぐことが困難 システムの出力の正しさが定義できない そもそも未来に対する予測なので 「X を入力してY が出力されたら正解」 とは誰も言えない システムに無謬性を要求できない 100% の精度を実現するのは事実上不可能 エラー をどこまで許容するかを考える必要

Slide 6

Slide 6 text

問題: 結果の解釈・ 再現・ 修正が困難 モデルのブラックボックス化 意図しない結果が出ても何をどう直せばいいか わからない 結果の再現の困難さ 再学習しようとしたらDB の状態が変わっている 昨日の予測結果が今日の学習デー タに影響 CACE (Changing Anything Changes Everything) e.g. ゴミが1 件混じっただけで精度が大幅低下

Slide 7

Slide 7 text

実際みんな苦労してる Machine Learning: The High Interest Credit Card of Technical Debt https://research.google.com/pubs/pub43146.html 機械学習は技術的負債の高利子クレジットカー ド “ “

Slide 8

Slide 8 text

何が困難さを生み出すのか?

Slide 9

Slide 9 text

図で考える機械学習システム

Slide 10

Slide 10 text

一般的なシステムとの違い デー タ依存性 システムの入出力を決定する関数が デー タを入力とする別の関数によって作られる 予測処理だけをみると巨大な副作用のかたまり デー タ依存性がもたらすもの 関数を人間が直接読み書きできない(≠ コー ド) 結果に対して事前に何かを保証しにくい

Slide 11

Slide 11 text

どうやって問題と戦うか?

Slide 12

Slide 12 text

先駆者の知見 Rules of Machine Learning: Best Practices for ML Engineering http://martin.zinkevich.org/rules_of_ml/rules_of_ml.p df To make great products: do machine learning like the great engineer you are, not like the great machine learning expert you aren’t. “ “

Slide 13

Slide 13 text

未知なるものとの闘い 問題に直面したとき 問題を特定し、 分割し、 パター ン化する 既存の仕組みやツー ルを応用する それでも解決できないとき 問題の影響を最小限の範囲に封じ込める 新たな枠組みを作り上げる 多くの課題はエンジニアリングの領域にある “ “

Slide 14

Slide 14 text

今すぐにできること 機械学習特化した開発・ 運用の体系は未確立 -> 問題をよく知られた方法論に落とし込む 特に信頼性工学的な手法は相性が良い バー ジョン管理 ( 自動) テスト CI / CD

Slide 15

Slide 15 text

問題発生を未然に防ぐ テストの導入 典型的なパター ンは通常のテストと同様 境界条件付近ではデー タを微妙に替えて水増し 画像 -> アフィン変換 テキスト -> 無関係な語の追加 バックテストによるオフライン検証 過去のデー タに対する予測を行って 既にわかっている結果と比較

Slide 16

Slide 16 text

問題発生後の対処を簡単にする モデルだけでなくデー タのバー ジョン管理を行う システムの状態を任意の時点に復元可能に 継続的なデプロイ モデル改善のサイクルを細かくする -> 問題発生時の原因特定を容易化

Slide 17

Slide 17 text

対処療法の先へ 問題を個別に解決していくだけでは限界 複合的な問題を包括的に扱う仕組みが必要 ライブラリ -> フレー ムワー ク コンポー ネント -> アー キテクチャ 個人的な注目株 モデルの表現: PMML, PFA モデルの検証: ソフトウェア基礎論の応用 デー タの管理: ラムダアー キテクチャ

Slide 18

Slide 18 text

モデルの表現: PMML, PFA モデルの計算式をコー ドで表現 -> 静的解析や差分のバー ジョン管理が可能に input: fields: - {name: x, type: double} - {name: y, type: double} ... output: double method: emit action: - cast: input.mag cases: - as: double named: magDouble do: [{emit: magDouble}]

Slide 19

Slide 19 text

モデルの検証: 型理論の応用 Dependent Type による精度保証 演算の型にパラメー タを指定できる -> 浮動小数点数の演算の精度を保証したり -> 推測統計・ 機械学習への応用?

Slide 20

Slide 20 text

デー タの管理: ラムダアー キテクチャ 処理のもとになる全てのデー タを保存 速度と堅牢性を必要に応じて選択できる 継続的に運用しても破綻しにくい http://lambda-architecture.net/

Slide 21

Slide 21 text

まとめ エンジニアからみた機械学習 デー タ依存がもたらす困難さ 既存の方法論による対処 これからの注目株

Slide 22

Slide 22 text

まだまだ仕事はあるぞ!