Slide 1

Slide 1 text

データチームを率いる現場マネージャーが語る、 市場が求めるデータエンジニアに爆速で成長する方法 株式会社ナレッジコミュニケーション ビジネス・デベロップメント部 中西 貴哉 2022年9月27日 Cloud Native DataEngineer Community 第1回イベント

Slide 2

Slide 2 text

自己紹介 氏名 : 中西 貴哉 (なかにし たかや) 所属 : ビジネス・デベロップメント部 マネージャー (何でもやる) 担当 : セールス-運用までのエンジニアリングチームのマネジメント 2 データエンジニアを目指す方にオススメな資格 (自分が保有しているもの)

Slide 3

Slide 3 text

1 2 3 Agenda データエンジニアの ニーズ クラウドネイティブ になるメリット 経験 をどう獲得するか? 3

Slide 4

Slide 4 text

市場が求めるデータエンジニアになる3つのキーワード クラウド 経験 ニーズ 4

Slide 5

Slide 5 text

ニーズ

Slide 6

Slide 6 text

データプロジェクトの実情 6 85% のビッグデータプロジェクトは失敗 実は・・・

Slide 7

Slide 7 text

7 ML code データ収集 データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 「分析」そのものは全体のごく一部

Slide 8

Slide 8 text

データプロジェクトの登場人物 8 ▪ コラボレーション、機械学習の実 験、再現性・再利用性を担保 ▪ データプレパレーション、特徴量 抽出 ▪ 機械学習時間、モデル精度に 対する最適化 ▪ 最新のツールや最新アルゴリズ ムの導入と適用 ▪ 常に正確で信頼できる最新 データにアクセスすることを担保 ▪ データチームがアクセスするデータ の定義と管理者の明確化を推 進 ▪ データガバナンスの統合的な管 理を推進 ▪ 各プロセス処理の動作担保 ▪ 各種ユースケースへの対応 (リア ルタイム, バッチ) ▪ 性能、データ品質の担保 ▪ 新しいデータソースへの対応 ▪ スキーマチェックとカラム変更時の 対応 ▪ 変更時のデプロイ先アプリへの対 応 ▪ ニーズに合わせた環境構築 ▪ 環境ごとの一貫性の担保 ▪ コアデータの複数チームへの共有 ▪ テスト、ダウンタイム、品質管理 ▪ 各種コンフィギュレーション管理 ▪ コスト管理、各種自動化 ▪ システム環境の運用保守 データ/MLエンジニア データスチュアード 運用管理担当 データサイエンティスト

Slide 9

Slide 9 text

9 ML code データ収集 データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 広範な技術領域をカバーする必要がある データ/MLエンジニア データサイエンティスト 運用管理担当 運用管理担当 データスチュアード

Slide 10

Slide 10 text

実際のところ・・・ 10 ML code データ収集 データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 データ/MLエンジニア

Slide 11

Slide 11 text

クラウド

Slide 12

Slide 12 text

なぜクラウドネイティブか? 12 ML code データ収集 データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 リソース マネジメント メタデータ管理

Slide 13

Slide 13 text

クラウドの理解と活用で大半はカバー可 13 ML code データ収集 データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ リソース マネジメント モデル評価 プロセス設計 モデル提供 インフラ構築 メタデタ管理 メタデータ管理 Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成

Slide 14

Slide 14 text

クラウドネイティブで始めるメリット 14 「答え」が提供されている 価値のある課題に集中できる

Slide 15

Slide 15 text

アーキテクチャの模範解答 15 Azure Machine Learning を使用した Python モデル用の MLOps AWS ソリューションライブラリー MLOps Workload Orchestrator AWS Azure

Slide 16

Slide 16 text

ビジネス領域へのアプローチ 16 製薬 流通 流通 All All All All All 金融 金融 製造 金融 製造 通信 公共 製薬 製薬 All All All All All All 金融 All データブリックス社の公開するソリューションアクセラレータ 現場の分析アプローチが Notebook 形式で公開

Slide 17

Slide 17 text

経験

Slide 18

Slide 18 text

不確実性の高い時代に求められる学び 18 これまで これから 絶対解 知識の蓄積 計画的な学習 資格取得 最適解 知識の更新 スピード学習 ラーニング

Slide 19

Slide 19 text

市場価値を上げる人のアプローチ 経 験 多 少 少 多 学習の量 経験偏重 発展途上 学習偏重 成長する 働き方 仕事から学び 学 び か ら 仕 事

Slide 20

Slide 20 text

どんな経験も活かせます 20 経験 活きる場面 営業 運用 数理知識 ドメイン理解 MLOps モデル開発

Slide 21

Slide 21 text

チーム内での経験と学習の両立 21

Slide 22

Slide 22 text

まとめ クラウドネイティブになれる データプロジェクトに飛び込もう!

Slide 23

Slide 23 text

カジュアル面談やってます エントリーページ