Upgrade to Pro — share decks privately, control downloads, hide ads and more …

THINK_about_Data_Maintenance_People_in_terms_of_DataOps

 THINK_about_Data_Maintenance_People_in_terms_of_DataOps

DataOpsという観点からデータ整備人を考える

ぼうさん

July 09, 2020
Tweet

More Decks by ぼうさん

Other Decks in Technology

Transcript

  1. © 2020 IBM Corporation 2 お品書き ・⾃⼰紹介 ・データアーキテクト(データ整備⼈)を”前向きに”考える会 と私 ・データアーキテクト(データ整備⼈)とは︖

    ・DataOpsって、何︖ ブログからの引⽤ ・DataOpsって、何︖ ⼀⾔で⾔うと ・DataOpsって、何︖ 背景にある、AI-Ladder ・DataOpsという観点から、登場⼈物を考える ・DataOpsという観点から、データ整備⼈を考える DataOpsという観点からデータ整備⼈を考える
  2. © 2020 IBM Corporation 3 ⾃⼰紹介︓久保俊平 2020年2⽉からIBMに⼊社。 データ基盤製品のテクニカルセールス(技術営業)として働いています。 前職はMcAfeeというセキュリティの会社で技術営業を5年弱、 その前はみずほ情報総研で13年、銀⾏市場系システムのエンジニアとして

    勤めました。 ▪Twitter @MC_SEC_KB ▪各種LT(趣味がLT武者修⾏なのです) https://speakerdeck.com/shumpei3 ▪LinkedIn https://www.linkedin.com/in/shumpei-kubo-516395ba/ DataOpsという観点からデータ整備⼈を考える
  3. © 2020 IBM Corporation 4 データアーキテクト(データ整備⼈)を“前向きに”考える会 と私 ▪過去の参加履歴︓3回参加しています。 第2回:2020年02⽉06⽇開催(IBMに⼊って直後) 第3回:2020年05⽉14⽇開催(オンライン開催初回)

    第4回:2020年06⽉09⽇開催(前回) ▪なぜこの会に来たのか この会を偶然CONNPASSで⾒つけ、「⾃分の仕事領域っぽいな」と思い、なんとなく参加してみました。 ▪なぜ出ようと思ったのか データ整備⼈の⽅々のお話を聞くにつけ、今⾃分が携わっている領域が役に⽴つ場であると思った為、 ⼀度お話させていただきたい、としんゆうさんにお声かけしました。 DataOpsという観点からデータ整備⼈を考える
  4. © 2020 IBM Corporation 8 DataOpsって、何︖ ブログからの引⽤ 『DataOpsとは、精選され、信頼性が⾼く、⾃動化されたコラ ボレーティブなデータ・パイプラインを現場のデータ利⽤者である 「データ市⺠」(data

    citizen)に提供するための、⼈、プロ セス、テクノロジーの連携(オーケストレーション)を指します』 DataOpsという観点からデータ整備⼈を考える IBMソリューションブログ 「DataOpsに不可⽋な6つの要素とは」からの抜粋 https://www.ibm.com/blogs/solutions/jp-ja/6-dataops-essentials/
  5. © 2020 IBM Corporation 10 DataOpsって何︖ 背景にある、AI-Ladder 1. つなぐ –

    データにシンプルにアクセスする 2. 整える – データを利⽤できる状態に整備する 3. 分析する – インサイトをAIとともにスケールさせる 様々な場所に存在する 多様なタイプのデータ マルチクラウド対応 4. 活⽤する – 信頼性のあるAIを業務に組み込む AI データから価値を引き出すためのアプローチ Value Data DataOpsという観点からデータ整備⼈を考える
  6. © 2020 IBM Corporation 11 DataOps (データのための DevOps + データ・オペレーション)

    • データ品質とデータ統制を保つ • データ提供者とデータ利用者間のフローを自動化 • コラボレーションと俊敏性 / スピーディーかつ大規模に 人 プロセス テクノロジー AI 80% データ準備 11 1. つなぐ 2. 整える 3. 分析する 4. 活⽤する DataOpsという観点からデータ整備⼈を考える DataOpsって何︖ 背景にある、AI-Ladder
  7. © 2020 IBM Corporation 12 データ活⽤のプラットフォーム上で、データにかかわるすべての⼈が連携する場合。 1. データをつなぐ • データ仮想化

    • データ検索 • データリクエスト 2. データを整える • データ理解 • データ加⼯ • データ蓄積 3. データを分析・活⽤する • データ可視化 • データ理解 • データ加⼯ • モデル作成 • モデルデプロイ • アセット登録 データ・ スチュワード データ・ エンジニア ビジネス・ アナリスト データ・ サイエンティスト データ・ サイエンティスト データの検索 メタデータ同⼠の関連性を可視化 関連情報を発⾒ データ 保存 サンドボックス データ加⼯・クレンジング⼿順の記録と再実⾏ 分析アセットの管理 データのダッシュボード化 分析モデルの作成 ビジネス・ アナリスト データ・ エンジニア アドミン DataOpsという観点から、登場⼈物を考える
  8. © 2020 IBM Corporation 13 IBMは組織内でデータを有効に活⽤する為の役割を、 以下のように考えています。 DataOpsという観点から、登場⼈物を考える Data steward

    Data engineer Data scientist Business analyst Administrator データ・ スチュワード 組織全体のデータ 品質を管理する データ・ エンジニア データを利⽤可能 な状態に整備する ビジネス・ アナリスト 業務を理解し、企 業内で洞察を共有 する システム管理者 ビジネス上の要求 を満たす、AIアプ リを管理する データ・ サイエンティスト データから洞察を導 き出す分析アセット の共有 データを提供・利⽤する5つの役割 DataOpsという観点からデータ整備⼈を考える インフラ データ提供 データ利⽤
  9. © 2020 IBM Corporation 14 データ整備⼈は、データ・スチュワードにあたるのでは︖ スチュワード、つまり、 DataOpsという観点から、データ整備⼈を考える Data steward

    Data engineer Data scientist Business analyst Administrator データ・ スチュワード 組織全体のデータ 品質を管理する データ・ エンジニア データを利⽤可能 な状態に整備する ビジネス・ アナリスト 業務を理解し、企 業内で洞察を共有 する システム管理者 ビジネス上の要求 を満たす、AIアプ リを管理する データ・ サイエンティスト データから洞察を導 き出す分析アセット の共有 データを提供・利⽤する5つの役割 DataOpsという観点からデータ整備⼈を考える
  10. © 2020 IBM Corporation 15 DataOpsという観点から、データ整備⼈を考える Data steward Data engineer

    Data scientist Business analyst Administrator データ執事 組織全体のデータ 品質を管理する データ・ エンジニア データを利⽤可能 な状態に整備する ビジネス・ アナリスト 業務を理解し、企 業内で洞察を共有 する システム管理者 ビジネス上の要求 を満たす、AIアプ リを管理する データ・ サイエンティスト データから洞察を導 き出す分析アセット の共有 データを提供・利⽤する5つの役割 DataOpsという観点からデータ整備⼈を考える データ整備⼈は、データ・スチュワードにあたるのでは︖ スチュワード、つまり、データ執事︕
  11. © 2020 IBM Corporation 16 DataOpsについてもっと詳しく知りたい⽅は、 DataOpsという観点からデータ整備⼈を考える IBM Data and

    AI Virtual Forum のオンデマンド視聴をご参照ください。 2F-2 のセッションで、久保がDataOpsについて解説しています。 デモ含めて30分程度。登録無料です。 https://www.ibm.com/ibm/jp/ja/events/data-and-ai-forum/
  12. © 2020 IBM Corporation 17 エンタープライズ・カタログ メタデータや分析資産を共有し、だれもが使える状態に データソース データ加⼯・品質確認 (プレパレーション)

    AI・機械学習 アプリ適⽤ API / バッチ⽣成 データ可視化 ダッシュボード 収集・蓄積・仮想化 業務 エンドユーザー アプリ ビジネス プロセス スコアリング 結果 提供者の視点 利⽤者の視点 IBM Cloud Pak for Dataは、社内外のすべてのデータを活⽤し、あらゆる分析ニーズに対応可能な End-to-Endのチーム共創プラットフォームです。 宣伝︓次世代データプラットフォーム IBM Cloud Pak for Data つなぐ 整える 分析・活⽤する パブリック オンプレス プライベート 構造化 ⾮構造 データの場所 データの種類
  13. © 2020 IBM Corporation 18 IBM Cloud Pak for Dataには、⼤きく6つの特⻑があります。

    宣伝︓IBM Cloud Pak for Data の特⻑ 1 2 3 4 5 6 ニーズに合わせて必要なツール、環境等を 追加可能 データ資産のコンテナ化によるプラット フォームフリーな実装 データ提供者とデータ利⽤者、 データ活⽤のフルサイクルを効率化 ビジネス⽤語、データベースだけでなく、 Data Scienceプロジェクトまでカタログ可能 仮想的データ統合で物理的に集めることなく データ照会や演算処理を⾼速化 サンド ボックス Queryplex service node NoSQL CSV Hadoop RDB    %# '$ +  &"   ! 必要なデータだけ サンドボックスへ Data steward Data engineer Data scientist Business analyst App administrator 78 =4 0?   >;1 @< 9 #,  #"/ /%+.  *$0? ' - :2 63 )&! (-54 (-%. ⼀気通貫 IIAS NZ互換対応 DATA CENTER AWS Azure シングル・アプリケーション エンタープライズ・カタログ データ仮想化とサンドボックス 追加サービス データサイエンス & AI マルチ・クラウド対応 データ分析をチームで効率的に進めるための 様々な機能を搭載した分析プラットフォーム 機械学習モデルの作成・ 評価の⾃動化(Auto AI) データ分析環境+ 簡易データ加⼯ツール