DataOpsという観点からデータ整備人を考える
© 2020 IBM CorporationDataOpsという観点からデータ整備⼈を考える2020年 07⽉ 14⽇⽇本アイ・ビー・エム株式会社DataOps テクニカルセールス久保 俊平
View Slide
© 2020 IBM Corporation2お品書き・⾃⼰紹介・データアーキテクト(データ整備⼈)を”前向きに”考える会 と私・データアーキテクト(データ整備⼈)とは︖・DataOpsって、何︖ ブログからの引⽤・DataOpsって、何︖ ⼀⾔で⾔うと・DataOpsって、何︖ 背景にある、AI-Ladder・DataOpsという観点から、登場⼈物を考える・DataOpsという観点から、データ整備⼈を考えるDataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation3⾃⼰紹介︓久保俊平2020年2⽉からIBMに⼊社。データ基盤製品のテクニカルセールス(技術営業)として働いています。前職はMcAfeeというセキュリティの会社で技術営業を5年弱、その前はみずほ情報総研で13年、銀⾏市場系システムのエンジニアとして勤めました。■Twitter@MC_SEC_KB■各種LT(趣味がLT武者修⾏なのです)https://speakerdeck.com/shumpei3■LinkedInhttps://www.linkedin.com/in/shumpei-kubo-516395ba/DataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation4データアーキテクト(データ整備⼈)を“前向きに”考える会 と私■過去の参加履歴︓3回参加しています。第2回:2020年02⽉06⽇開催(IBMに⼊って直後)第3回:2020年05⽉14⽇開催(オンライン開催初回)第4回:2020年06⽉09⽇開催(前回)■なぜこの会に来たのかこの会を偶然CONNPASSで⾒つけ、「⾃分の仕事領域っぽいな」と思い、なんとなく参加してみました。■なぜ出ようと思ったのかデータ整備⼈の⽅々のお話を聞くにつけ、今⾃分が携わっている領域が役に⽴つ場であると思った為、⼀度お話させていただきたい、としんゆうさんにお声かけしました。DataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation5データアーキテクト(データ整備⼈)とは︖DataOpsという観点からデータ整備⼈を考える出典︓しんゆうさんのスライドの40枚⽬https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=40⾃分としては、データ整備⼈の⽅がしっくりくるので、この発表においては、今後データ整備⼈、で統⼀します。
© 2020 IBM Corporation6データ整備⼈とは︖DataOpsという観点からデータ整備⼈を考える出典︓しんゆうさんのスライドの46枚⽬https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=46
© 2020 IBM Corporation7データ整備⼈とは︖DataOpsという観点からデータ整備⼈を考える出典︓しんゆうさんのスライドの46枚⽬https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=46⾃分としては、この箇所が、⾮常にDataOpsっぽい︕と思いました。ではそのDataOpsとは何かというと。。。
© 2020 IBM Corporation8DataOpsって、何︖ ブログからの引⽤『DataOpsとは、精選され、信頼性が⾼く、⾃動化されたコラボレーティブなデータ・パイプラインを現場のデータ利⽤者である「データ市⺠」(data citizen)に提供するための、⼈、プロセス、テクノロジーの連携(オーケストレーション)を指します』DataOpsという観点からデータ整備⼈を考えるIBMソリューションブログ「DataOpsに不可⽋な6つの要素とは」からの抜粋https://www.ibm.com/blogs/solutions/jp-ja/6-dataops-essentials/
© 2020 IBM Corporation9DataOpsって、何︖ ⼀⾔で⾔うとDataOpsとは、⼀⾔で⾔うと、「使えるデータをすぐ準備できるようにする仕組みと運⽤」です。DataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation10DataOpsって何︖ 背景にある、AI-Ladder1. つなぐ – データにシンプルにアクセスする2. 整える – データを利⽤できる状態に整備する3. 分析する – インサイトをAIとともにスケールさせる様々な場所に存在する多様なタイプのデータマルチクラウド対応4. 活⽤する – 信頼性のあるAIを業務に組み込むAIデータから価値を引き出すためのアプローチValueDataDataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation11DataOps(データのための DevOps + データ・オペレーション)• データ品質とデータ統制を保つ• データ提供者とデータ利用者間のフローを自動化• コラボレーションと俊敏性 / スピーディーかつ大規模に人 プロセス テクノロジーAI80%データ準備111. つなぐ2. 整える3. 分析する4. 活⽤するDataOpsという観点からデータ整備⼈を考えるDataOpsって何︖ 背景にある、AI-Ladder
© 2020 IBM Corporation12データ活⽤のプラットフォーム上で、データにかかわるすべての⼈が連携する場合。1. データをつなぐ• データ仮想化• データ検索• データリクエスト2. データを整える• データ理解• データ加⼯• データ蓄積3. データを分析・活⽤する• データ可視化• データ理解• データ加⼯• モデル作成• モデルデプロイ• アセット登録データ・スチュワードデータ・エンジニアビジネス・アナリストデータ・サイエンティストデータ・サイエンティストデータの検索メタデータ同⼠の関連性を可視化関連情報を発⾒データ保存サンドボックスデータ加⼯・クレンジング⼿順の記録と再実⾏分析アセットの管理 データのダッシュボード化 分析モデルの作成ビジネス・アナリストデータ・エンジニアアドミンDataOpsという観点から、登場⼈物を考える
© 2020 IBM Corporation13IBMは組織内でデータを有効に活⽤する為の役割を、以下のように考えています。DataOpsという観点から、登場⼈物を考えるData steward Data engineer Data scientist Business analystAdministratorデータ・スチュワード組織全体のデータ品質を管理するデータ・エンジニアデータを利⽤可能な状態に整備するビジネス・アナリスト業務を理解し、企業内で洞察を共有するシステム管理者ビジネス上の要求を満たす、AIアプリを管理するデータ・サイエンティストデータから洞察を導き出す分析アセットの共有データを提供・利⽤する5つの役割DataOpsという観点からデータ整備⼈を考えるインフラ データ提供 データ利⽤
© 2020 IBM Corporation14データ整備⼈は、データ・スチュワードにあたるのでは︖スチュワード、つまり、DataOpsという観点から、データ整備⼈を考えるData steward Data engineer Data scientist Business analystAdministratorデータ・スチュワード組織全体のデータ品質を管理するデータ・エンジニアデータを利⽤可能な状態に整備するビジネス・アナリスト業務を理解し、企業内で洞察を共有するシステム管理者ビジネス上の要求を満たす、AIアプリを管理するデータ・サイエンティストデータから洞察を導き出す分析アセットの共有データを提供・利⽤する5つの役割DataOpsという観点からデータ整備⼈を考える
© 2020 IBM Corporation15DataOpsという観点から、データ整備⼈を考えるData steward Data engineer Data scientist Business analystAdministratorデータ執事組織全体のデータ品質を管理するデータ・エンジニアデータを利⽤可能な状態に整備するビジネス・アナリスト業務を理解し、企業内で洞察を共有するシステム管理者ビジネス上の要求を満たす、AIアプリを管理するデータ・サイエンティストデータから洞察を導き出す分析アセットの共有データを提供・利⽤する5つの役割DataOpsという観点からデータ整備⼈を考えるデータ整備⼈は、データ・スチュワードにあたるのでは︖スチュワード、つまり、データ執事︕
© 2020 IBM Corporation16DataOpsについてもっと詳しく知りたい⽅は、DataOpsという観点からデータ整備⼈を考えるIBM Data and AI Virtual Forum のオンデマンド視聴をご参照ください。2F-2 のセッションで、久保がDataOpsについて解説しています。デモ含めて30分程度。登録無料です。https://www.ibm.com/ibm/jp/ja/events/data-and-ai-forum/
© 2020 IBM Corporation17エンタープライズ・カタログメタデータや分析資産を共有し、だれもが使える状態にデータソースデータ加⼯・品質確認(プレパレーション)AI・機械学習アプリ適⽤API /バッチ⽣成データ可視化ダッシュボード収集・蓄積・仮想化業務エンドユーザーアプリビジネスプロセススコアリング結果提供者の視点 利⽤者の視点IBM Cloud Pak for Dataは、社内外のすべてのデータを活⽤し、あらゆる分析ニーズに対応可能なEnd-to-Endのチーム共創プラットフォームです。宣伝︓次世代データプラットフォーム IBM Cloud Pak for Dataつなぐ 整える 分析・活⽤するパブリックオンプレスプライベート構造化⾮構造データの場所データの種類
© 2020 IBM Corporation18IBM Cloud Pak for Dataには、⼤きく6つの特⻑があります。宣伝︓IBM Cloud Pak for Data の特⻑1 2 34 5 6ニーズに合わせて必要なツール、環境等を追加可能データ資産のコンテナ化によるプラットフォームフリーな実装データ提供者とデータ利⽤者、データ活⽤のフルサイクルを効率化ビジネス⽤語、データベースだけでなく、Data Scienceプロジェクトまでカタログ可能仮想的データ統合で物理的に集めることなくデータ照会や演算処理を⾼速化サンドボックスQueryplexservice nodeNoSQLCSVHadoopRDB %#'$+&"!必要なデータだけサンドボックスへData steward Data engineer Data scientist Business analyst App administrator78 =4 0? >;1@<9#,#"//%+. *$0? ' -:263)&!(-54(-%.⼀気通貫IIASNZ互換対応DATA CENTERAWSAzureシングル・アプリケーション エンタープライズ・カタログ データ仮想化とサンドボックス追加サービス データサイエンス & AI マルチ・クラウド対応データ分析をチームで効率的に進めるための様々な機能を搭載した分析プラットフォーム機械学習モデルの作成・評価の⾃動化(Auto AI)データ分析環境+簡易データ加⼯ツール