Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-

onunu
July 29, 2018
1.2k

 ビッグデータと機械学習の狭間で -データエンジニアに求められる役割-

July Tech Festa 2018 @産業技術大学院大学[D10]
で発表した際の登壇資料です。

参考文献や細かい記述などを今後修正する場合があります。

onunu

July 29, 2018
Tweet

Transcript

  1. データサイエンティストが抱える辛さ ◎ Expectation does not match reality ◦ (同僚・上司からの期待感が現実とマッチしない) ◎

    Politics reigns supreme ◦ (社内政治が最優先される) ◎ You’re the go to person about anything data ◦ (データに関わるもの全てを扱う何でも屋扱いされる) ◎ Working in an isolated team ◦ (他の事業から孤立したチームで働かされる) データサイエンティストが会社を去ってしまう理由 データサイエンティスト含むデータ分析職の仕事がつらい4つの理由: 洋の東西を問わずつらみは同じらしい - 六本木で働くデータサイエンティストのブログ
  2. データサイエンティストが抱える辛さ 1. Data is never clean. 2. You will spend

    most of your time cleaning and preparing data. 3. 95% of tasks do not require deep learning. 4. In 90% of cases generalized linear regression will do the trick. 5. Big Data is just a tool. 6. You should embrace the Bayesian approach. 7. No one cares how you did it. 8. Academia and business are two different worlds. 9. Presentation is key - be a master of Power Point. 10. All models are false, but some are useful. データを取り扱う上での辛さもある The Inconvenient Truth About Data Science
  3. データサイエンティストが抱える辛さ Indeed, arguably the most important reason for using a

    machine learning system is precisely that the desired behavior cannot be effectively implemented in software logic without dependency on external data https://ai.google/research/pubs/pub43146 複雑かつ高度なデータへの依存 機械学習プロダクトが技術的負債になりやすい理由
  4. データサイエンティストが抱える辛さ 機械学習プロダクトが技術的負債になりやすい理由 機械学習で用いられるアルゴリズムを利用したコードは プロダクトスイートなものにはならない 機械学習プロダクト ◎ 数学的な理論に基づいた アルゴリズム ◎ 数学的・統計的背景の

    理解が必要な マジックナンバー ◎ 確率的にしか 説明できない出力 アプリケーション(not 機械学習) ◎ 整理・体系づけるための シンプルさの追求 ◎ 人為的に決定される/与えら れる定数 ◎ ビジネスロジックにより 決定される出力
  5. データエンジニアとは データサイエンティストとデータエンジニアは料理人と八百屋(魚屋肉屋)みた いな関係じゃないかと思います。 優れた料理人というのはわかりやすいです よね。美味しい料理(=優れた分析)を作れるシェフです。 (中略) さて、料理人 は材料が用意されなければ、料理はできないわけです。 そこでデータエンジ ニアの出番というわけです。

    魚屋に例えると、 データを集めてきて(魚を集め てきて)、生簀(データレイク)や倉庫(データウエアハウス)に貯めて、きちんと 魚の種別ごとに分類して、 在庫管理(決まった時間間隔できちんと取りに行 けているか)をして、品質管理(取得元で不具合が発生していないか)をして、 不良品の魚を取り除いて(クレンジング)、時には料理人が料理しやすいよう に2枚や3枚に開いておろしたり(Transform)して、 料理人に出荷します。 データサイエンティスト(料理人)と データエンジニア(問屋/卸業者) データエンジニアとは - データエンジニア日記
  6. データエンジニアとは データ サイエンティストは、Internet of Things(IoT)アプリケーション界のロック ス ターに例えられます。世間の注目と脚光の大半は、彼らに向けられます。ビッ グデータから重要な情報を抜き出して、企業がその場で情報に基づいて意思 決定できるようにします。 しかし、データサイエンティストは単独で作業してい

    るのではありません。裏方、すなわちデータ エンジニアがいなければ、IoT 分 野で活躍できません。 この陰の協力者のおかげで、ビッグデータの供給を続けられるのです。 デー タエンジニアは、ネットワークとソフトウェアを設計して保守し、ビッグデータの パイプラインの運用を維持します。ロックバンドのスタッフのように、データエン ジニアはステージを設置して舞台音響を手がけます。 あるいはロックスターと裏方 データ サイエンティストとデータ エンジニア:ロック スターと裏方の関係
  7. データエンジニアとは 役割の分担 Data engineers vs. data scientists [抄訳] Data engineers

    vs. data scientists データサイエンティスト ◎ ビジネスサイドを理解し、他者にわ かりやすく可視化と言語化できる 職能 ◎ 高度な数学的知識に基づいたモ デリングやアルゴリズム提案スキ ル ◎ 高度なProgramming skillは必ず しも必須ではない データエンジニア ◎ 分散プログラミングを意識して構 築できる職能 ◎ 卓越したプログラミングスキルとシ ステム構成力 ◎ クラスタ設計までがData Engineerの役割であり運用(Ops) はやらない 引用元のData engineers vs. data scientists ではこのような定義になっている。 是非についてはこの後の議論で詳しく扱う
  8. IESHILのデータエンジニアとしてがんばっているこ と データエンジニアとは(再考)役割の分担 Data engineers vs. data scientists [抄訳] Data

    engineers vs. data scientists データサイエンティスト ◎ ビジネスサイドを理解し、他者にわ かりやすく可視化と言語化できる 職能 ◎ 高度な数学的知識に基づいたモ デリングやアルゴリズム提案スキ ル ◎ 高度なProgramming skillは必ず しも必須ではない データエンジニア ◎ 分散プログラミングを意識して構 築できる職能 ◎ 卓越したプログラミングスキルとシ ステム構成力 ◎ クラスタ設計までがData Engineerの役割であり運用(Ops) はやらない
  9. 参考文献 • Machine Learning: The High Interest Credit Card of

    Technical Debt (https://ai.google/research/pubs/pub43146) • データサイエンティスト含むデータ分析職の仕事がつらい4つの理由: 洋の東西を問わずつらみは同じらしい - 六本木で働くデータサイエンティストのブログ (https://tjo.hatenablog.com/entry/2018/04/02/190000) • The Inconvenient Truth About Data Science (https://www.kdnuggets.com/2015/05/data-science-inconvenient-truth.html) • データエンジニアとは - データエンジニア日記 (http://data-soldier.hatenablog.com/entry/2017/12/08/114731) • データ サイエンティストとデータ エンジニア:ロック スターと裏方の関係 • (https://learningnetwork.cisco.com/docs/DOC-31728) • Data engineers vs. data scientists (https://www.oreilly.com/ideas/data-engineers-vs-data-scientists) • [抄訳] Data engineers vs. data scientists (https://medium.com/moonshot/ataengineers-vs-data-scientist-13fce30812a7) • 営業さんまで、社員全員がSQLを使う 「越境型組織」 ができるまでの3+1のポイント | リブセンス (https://www.slideshare.net/livesense/150225-sql-foreveryone-45695818) • 営業がSQLを理解--データ活用を組織文化として定着させたリブセンス - ZDNet Japan (https://japan.zdnet.com/article/35099445/) • BPMF(Bayesian Probabilistic Matrix Factorization)によるレコメンド - LIVESENSE Data Analytics Blog (https://analytics.livesense.co.jp/entry/2017/12/05/105618)