ビッグデータと機械学習の狭間で　-データエンジニアに求められる役割-

In July Tech Festa 2018 D10 @onunu ビッグデータと機械学習の狭間で　 -データエンジニアに求められる役割-

Hello! おぬまりく@onunu IESHILという不動産の情報格差をなんとかしていくサービスを作っていますデータエンジニアです Twitter: @onunu_ Github:
onunu

Agenda ◎ 最近の機械学習を取り巻くあれこれ ◎ データサイエンティストが抱える辛さ ◎ データエンジニアとは ◎ リブセンスでの機械学習周りの取り組み ◎
データエンジニアとして価値を届けていくために

最近の機械学習を取り巻くあれこれ機械学習導入へのハードルは確実に下がった

最近の機械学習を取り巻くあれこれ機械学習導入へのハードルは確実に下がった ◎ 様々な機械学習ライブラリの登場 ◎ 計算機リソース調達の簡便化 ◎ ビッグデータ処理の基盤整備どんな事業者でも機械学習を活用したい時代

この論文は「機械学習辛い」という趣旨ではなくいかに負債化を防ぐかについて書かれた論文なので注意最近の機械学習を取り巻くあれこれ一方で、機械学習の扱いは難しい https://ai.google/research/pubs/pub43146

最近の機械学習を取り巻くあれこれじゃあ機械学習やめるの? ◎ 一連の変化は不可逆 ◎ 機械学習はビジネスにおいて必須な状況になった ◦ 機械学習の90%はExcelで十分とかとは別の話もちろん NO!
だからこそデータサイエンティストや機械学習エンジニアといった専門家が必要不可欠

データサイエンティストが抱える辛さ ◎ Expectation does not match reality ◦ （同僚・上司からの期待感が現実とマッチしない） ◎
Politics reigns supreme ◦ （社内政治が最優先される） ◎ You’re the go to person about anything data ◦ （データに関わるもの全てを扱う何でも屋扱いされる） ◎ Working in an isolated team ◦ （他の事業から孤立したチームで働かされる）データサイエンティストが会社を去ってしまう理由データサイエンティスト含むデータ分析職の仕事がつらい4つの理由：洋の東西を問わずつらみは同じらしい - 六本木で働くデータサイエンティストのブログ

データサイエンティストが抱える辛さ 1. Data is never clean. 2. You will spend
most of your time cleaning and preparing data. 3. 95% of tasks do not require deep learning. 4. In 90% of cases generalized linear regression will do the trick. 5. Big Data is just a tool. 6. You should embrace the Bayesian approach. 7. No one cares how you did it. 8. Academia and business are two different worlds. 9. Presentation is key - be a master of Power Point. 10. All models are false, but some are useful. データを取り扱う上での辛さもある The Inconvenient Truth About Data Science

データサイエンティストが抱える辛さデータサイエンティストの本分データサイエンティストの本分は ◎ ビジネスに活きるデータの傾向やパターンを見つけること ◎ 見つけた傾向やパターンを用いてプロダクトへ価値をフィードバックすること

データサイエンティストが抱える辛さ Indeed, arguably the most important reason for using a
machine learning system is precisely that the desired behavior cannot be effectively implemented in software logic without dependency on external data https://ai.google/research/pubs/pub43146 複雑かつ高度なデータへの依存機械学習プロダクトが技術的負債になりやすい理由

データサイエンティストが抱える辛さ機械学習プロダクトが技術的負債になりやすい理由機械学習で用いられるアルゴリズムを利用したコードはプロダクトスイートなものにはならない機械学習プロダクト ◎ 数学的な理論に基づいたアルゴリズム ◎ 数学的・統計的背景の
理解が必要なマジックナンバー ◎ 確率的にしか説明できない出力アプリケーション(not 機械学習) ◎ 整理・体系づけるためのシンプルさの追求 ◎ 人為的に決定される/与えられる定数 ◎ ビジネスロジックにより決定される出力

データサイエンティストが抱える辛さデータエンジニアの役割とはデータサイエンティストの辛さを一部引き取り、専門家として ◎ より良い方法の提供 ◎ 課題の解決を行う

データエンジニアとはデータサイエンティストとデータエンジニアは料理人と八百屋（魚屋肉屋）みたいな関係じゃないかと思います。優れた料理人というのはわかりやすいですよね。美味しい料理（＝優れた分析）を作れるシェフです。 (中略) さて、料理人は材料が用意されなければ、料理はできないわけです。そこでデータエンジニアの出番というわけです。
魚屋に例えると、データを集めてきて（魚を集めてきて）、生簀（データレイク）や倉庫（データウエアハウス）に貯めて、きちんと魚の種別ごとに分類して、在庫管理（決まった時間間隔できちんと取りに行けているか）をして、品質管理（取得元で不具合が発生していないか）をして、不良品の魚を取り除いて（クレンジング）、時には料理人が料理しやすいように２枚や３枚に開いておろしたり（Transform）して、料理人に出荷します。データサイエンティスト(料理人)とデータエンジニア(問屋/卸業者) データエンジニアとは - データエンジニア日記

データエンジニアとはデータサイエンティストは、Internet of Things（IoT）アプリケーション界のロックスターに例えられます。世間の注目と脚光の大半は、彼らに向けられます。ビッグデータから重要な情報を抜き出して、企業がその場で情報に基づいて意思決定できるようにします。しかし、データサイエンティストは単独で作業してい
るのではありません。裏方、すなわちデータエンジニアがいなければ、IoT 分野で活躍できません。この陰の協力者のおかげで、ビッグデータの供給を続けられるのです。データエンジニアは、ネットワークとソフトウェアを設計して保守し、ビッグデータのパイプラインの運用を維持します。ロックバンドのスタッフのように、データエンジニアはステージを設置して舞台音響を手がけます。あるいはロックスターと裏方データサイエンティストとデータエンジニア：ロックスターと裏方の関係

データエンジニアとは役割の分担 Data engineers vs. data scientists

データエンジニアとは役割の分担 Data engineers vs. data scientists [抄訳] Data engineers
vs. data scientists データサイエンティスト ◎ ビジネスサイドを理解し、他者にわかりやすく可視化と言語化できる職能 ◎ 高度な数学的知識に基づいたモデリングやアルゴリズム提案スキル ◎ 高度なProgramming skillは必ずしも必須ではないデータエンジニア ◎ 分散プログラミングを意識して構築できる職能 ◎ 卓越したプログラミングスキルとシステム構成力 ◎ クラスタ設計までがData Engineerの役割であり運用(Ops) はやらない引用元のData engineers vs. data scientists ではこのような定義になっている。是非についてはこの後の議論で詳しく扱う

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み AWS Redshiftを活用した分析環境の提供アプリケーションDBの個人情報等マスキング済分析用データ / アクセスログ/ 広告の運用データ etc...

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み誰もがそれぞれのアプリケーションのDB 分析環境のRedshift (Livesense Analytics) に接続し、分析できる環境・文化 https://www.slideshare.net/livesense/150225-sql-foreveryone-45695818

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み専門の横断部署によるデータ活用機械学習プロダクトの実用 ◎ 多腕バンディットによるABテスト効率化 ◦ https://japan.zdnet.com/article/35099445/ ◎ 求人レコメンドエンジンによる応募率改善
◦ https://analytics.livesense.co.jp/entry/2017/12/05/105618 ◎ etc..

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み各メディアアプリケーションエンジニア Livesense Analyticsの運用・分析支援データ活用/機械学習プロダクト各メディア組織全社横断組織

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み（IESHILとは？）不動産業界に蔓延る「情報の非対称性」を目指すメディア人生の大きな買い物である住まいの購入のUXを最高にする

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み（IESHILとは？）物件(部屋ごと)の相場価格、物件の災害耐性、学区情報などのデータを掲載し、不動産購入を支援する

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み IESHILは大きな機械学習プロダクトを抱えるが、全社横断組織からは独立して運用している ◎ 「データそのもの」がコアコンピタンスとなるメディア ◎ 新規事業ゆえの状況変化の速さ ◎ 様々なデータソースを抱えるデータ関連処理の多さ

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組みビッグデータをビジネスに活かすためのデータパイプライン設計

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組みビッグデータをビジネスに活かすためのデータパイプライン設計 ◎ embulkを利用した様々なデータソースへの対応 ◎ digdagを利用した各タスクの統合管理 ◦ スケールもしやすい/分散処理もできる
◎ DWHは自前で運用するのではなく、TreasureDataを利用する ◦ Embulk, digdagがTreasureData発のOSSなこともあり相性がよい

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み結構うまくやっていると思うそれでも悩ましい問題はまだまだ山積み ◎ 本番系/開発系を分けられないデータは必ず発生してしまう ◎ アプリケーション側に存在する複雑なタスクをどうワークフローエンジンで巻き取るか ◎
データ処理を汎用言語(python, R, …)でやるかDSL(SQL, …)でやるか ◦ 全てを熟知して切り替えられるのがベストだが... 今回これらの問題のアプローチとかの話はしません、いつかどこかでします

IESHILのデータエンジニアとしてがんばっていることデータエンジニアとは(再考)役割の分担 Data engineers vs. data scientists [抄訳] Data
engineers vs. data scientists データサイエンティスト ◎ ビジネスサイドを理解し、他者にわかりやすく可視化と言語化できる職能 ◎ 高度な数学的知識に基づいたモデリングやアルゴリズム提案スキル ◎ 高度なProgramming skillは必ずしも必須ではないデータエンジニア ◎ 分散プログラミングを意識して構築できる職能 ◎ 卓越したプログラミングスキルとシステム構成力 ◎ クラスタ設計までがData Engineerの役割であり運用(Ops) はやらない

データの運用をインフラエンジニアやSREにまかせて、「環境できました。はいどうぞ」では結局またデータサイエンティストと同じ辛みを彼らが抱えることになる (引用元ではそこを解決するために機械学習エンジニアが存在するのだが、機械学習エンジニアを銀の弾丸としてとらえるのもよくないと思う ) クラスタ設計までがData Engineerの役割であり運用(Ops)はやらない
IESHILのデータエンジニアとしてがんばっていることデータエンジニアとは(再考)役割の分担

クラスタ設計までがData Engineerの役割であり運用(Ops)はやらない IESHILのデータエンジニアとしてがんばっていることデータエンジニアとは(再考)役割の分担実際には、運用もやらないといけないビジネス上の不断の状況変化に対応するためにはデータエンジニアが継続的にシステムをみる(=運用) する必要がある

ただし、組織に依存する。実際にデータエンジニアの多くの求人票は、分散環境の構築経験やビッグデータの取り扱いなどが要件になっている場合などが多い(内情までは残念ながら読み取れない) クラスタ設計までがData Engineerの役割であり運用(Ops)はやらない IESHILのデータエンジニアとしてがんばっていることデータエンジニアとは(再考)役割の分担

運用を行うデータエンジニアがいないとどうなるかデータエンジニアとして価値を届けていくために ◎ 前処理に忙殺されるデータサイエンティスト ◎ 運用に乗るはずの無かった長大なアドホックSQL ◎ 謎なSQLを実行するだけのrakeタスク ◎
「6時間くらいかかるから6時間30分後にcronしこんでおくか」

運用とはなにか? 今まで、そこ(=データそのものの運用 )に名前はなく、誰かがやっていたデータエンジニアとして価値を届けていくために ◎ データサイエンティストがやるのか? ◎ サーバーサイドエンジニアがやるのか?
◎ インフラに面倒を見てもらうのか? 運用は宙に浮き、責任の所在も曖昧になる責任の所在が曖昧になればメンテナンスもされない

「そこ」に運用と名前をつけて責任をもつことデータエンジニアとして価値を届けていくために ◎ データエンジニアと名乗ることで、「そこ」に責任を背負い、宙に浮いた運用をなくす ◎ データの運用について責任をおう人材がいることで、それ専用のアーキテクチャの必要性について理解を得る

データエンジニアというワードはまだまだバスワード自分たちで自らを定義し、価値を届けて行くべき分散環境の構築やデータパイプラインの設計者としてだけではなく、データの取り扱いの専門家としてデータについて責任をおうエンジニアになろうデータエンジニアとして価値を届けていくために

データエンジニアとは(再考の再考) データの、 ◎ 構造/内容/変更について責任を持ち ◎ 誰もが使いやすい形に整形し ◎ 誰もが取り出しやすい環境を構築していく役割であるデータエンジニアとして
価値を届けていくために

まとめ ◎ データの取り扱いについて苦労しているデータサイエンティストは多い ◎ でもそういう問題をデータエンジニアが解決していく ◎ データエンジニアも運用に携わり、一緒に開発していく必要性がある ◎
データエンジニアの理解について、もっと広める必要がある

リブセンスでは一緒に働く仲間を募集中です！いろんなサービスを作ってるので、興味ある方は話しかけてください :) We are hiring!

特にIESHILではデータエンジニアデータサイエンティスト機械学習エンジニアを大募集中です！一緒に不動産業界に風穴あけましょう！ We are hiring!

参考文献 • Machine Learning: The High Interest Credit Card of
Technical Debt (https://ai.google/research/pubs/pub43146) • データサイエンティスト含むデータ分析職の仕事がつらい4つの理由：洋の東西を問わずつらみは同じらしい - 六本木で働くデータサイエンティストのブログ (https://tjo.hatenablog.com/entry/2018/04/02/190000) • The Inconvenient Truth About Data Science (https://www.kdnuggets.com/2015/05/data-science-inconvenient-truth.html) • データエンジニアとは - データエンジニア日記 (http://data-soldier.hatenablog.com/entry/2017/12/08/114731) • データサイエンティストとデータエンジニア：ロックスターと裏方の関係 • (https://learningnetwork.cisco.com/docs/DOC-31728) • Data engineers vs. data scientists (https://www.oreilly.com/ideas/data-engineers-vs-data-scientists) • [抄訳] Data engineers vs. data scientists (https://medium.com/moonshot/ataengineers-vs-data-scientist-13fce30812a7) • 営業さんまで、社員全員がSQLを使う「越境型組織」ができるまでの3+1のポイント | リブセンス (https://www.slideshare.net/livesense/150225-sql-foreveryone-45695818) • 営業がSQLを理解--データ活用を組織文化として定着させたリブセンス - ZDNet Japan (https://japan.zdnet.com/article/35099445/) • BPMF(Bayesian Probabilistic Matrix Factorization)によるレコメンド - LIVESENSE Data Analytics Blog (https://analytics.livesense.co.jp/entry/2017/12/05/105618)

ご静聴ありがとうございました！

ビッグデータと機械学習の狭間で　-データエンジニアに求められる役割-

ビッグデータと機械学習の狭間で　-データエンジニアに求められる役割-

onunu

More Decks by onunu

Featured

Transcript

In July Tech Festa 2018 D10 @onunu ビッグデータと機械学習の狭間で　 -データエンジニアに求められる役割-

Hello! おぬまりく@onunu IESHILという不動産の情報格差をなんとかしていくサービスを作っていますデータエンジニアです Twitter: @onunu_ Github:

Agenda ◎ 最近の機械学習を取り巻くあれこれ ◎ データサイエンティストが抱える辛さ ◎ データエンジニアとは ◎ リブセンスでの機械学習周りの取り組み ◎

最近の機械学習を取り巻くあれこれ機械学習導入へのハードルは確実に下がった

この論文は「機械学習辛い」という趣旨ではなくいかに負債化を防ぐかについて書かれた論文なので注意最近の機械学習を取り巻くあれこれ一方で、機械学習の扱いは難しい https://ai.google/research/pubs/pub43146

最近の機械学習を取り巻くあれこれじゃあ機械学習やめるの? ◎ 一連の変化は不可逆 ◎ 機械学習はビジネスにおいて必須な状況になった ◦ 機械学習の90%はExcelで十分とかとは別の話もちろん NO!

データサイエンティストが抱える辛さ ◎ Expectation does not match reality ◦ （同僚・上司からの期待感が現実とマッチしない） ◎

データサイエンティストが抱える辛さ 1. Data is never clean. 2. You will spend

データサイエンティストが抱える辛さ Indeed, arguably the most important reason for using a

データサイエンティストが抱える辛さデータエンジニアの役割とはデータサイエンティストの辛さを一部引き取り、専門家として ◎ より良い方法の提供 ◎ 課題の解決を行う

データエンジニアとは役割の分担 Data engineers vs. data scientists

データエンジニアとは役割の分担 Data engineers vs. data scientists [抄訳] Data engineers

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み AWS Redshiftを活用した分析環境の提供アプリケーションDBの個人情報等マスキング済分析用データ / アクセスログ/ 広告の運用データ etc...

リブセンスにおけるデータ領域の取り組み全社横断的な取り組み各メディアアプリケーションエンジニア Livesense Analyticsの運用・分析支援データ活用/機械学習プロダクト各メディア組織全社横断組織

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み（IESHILとは？）不動産業界に蔓延る「情報の非対称性」を目指すメディア人生の大きな買い物である住まいの購入のUXを最高にする

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組み（IESHILとは？）物件(部屋ごと)の相場価格、物件の災害耐性、学区情報などのデータを掲載し、不動産購入を支援する

リブセンスにおけるデータ領域の取り組み IESHILとしての取り組みビッグデータをビジネスに活かすためのデータパイプライン設計

IESHILのデータエンジニアとしてがんばっていることデータエンジニアとは(再考)役割の分担 Data engineers vs. data scientists [抄訳] Data

運用とはなにか? 今まで、そこ(=データそのものの運用 )に名前はなく、誰かがやっていたデータエンジニアとして価値を届けていくために ◎ データサイエンティストがやるのか? ◎ サーバーサイドエンジニアがやるのか?

データエンジニアとは(再考の再考) データの、 ◎ 構造/内容/変更について責任を持ち ◎ 誰もが使いやすい形に整形し ◎ 誰もが取り出しやすい環境を構築していく役割であるデータエンジニアとして

まとめ ◎ データの取り扱いについて苦労しているデータサイエンティストは多い ◎ でもそういう問題をデータエンジニアが解決していく ◎ データエンジニアも運用に携わり、一緒に開発していく必要性がある ◎

リブセンスでは一緒に働く仲間を募集中です！いろんなサービスを作ってるので、興味ある方は話しかけてください :) We are hiring!

特にIESHILではデータエンジニアデータサイエンティスト機械学習エンジニアを大募集中です！一緒に不動産業界に風穴あけましょう！ We are hiring!

参考文献 • Machine Learning: The High Interest Credit Card of

ご静聴ありがとうございました！

ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-

ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-

More Decks by onunu

Featured

Transcript

ビッグデータと機械学習の狭間で　-データエンジニアに求められる役割-

ビッグデータと機械学習の狭間で　-データエンジニアに求められる役割-