$30 off During Our Annual Pro Sale. View Details »

THINK_about_Data_Maintenance_People_in_terms_of_DataOps

 THINK_about_Data_Maintenance_People_in_terms_of_DataOps

DataOpsという観点からデータ整備人を考える

ぼうさん

July 09, 2020
Tweet

More Decks by ぼうさん

Other Decks in Technology

Transcript

  1. © 2020 IBM Corporation
    DataOpsという観点からデータ整備⼈を考える
    2020年 07⽉ 14⽇
    ⽇本アイ・ビー・エム株式会社
    DataOps テクニカルセールス
    久保 俊平

    View Slide

  2. © 2020 IBM Corporation
    2
    お品書き
    ・⾃⼰紹介
    ・データアーキテクト(データ整備⼈)を”前向きに”考える会 と私
    ・データアーキテクト(データ整備⼈)とは︖
    ・DataOpsって、何︖ ブログからの引⽤
    ・DataOpsって、何︖ ⼀⾔で⾔うと
    ・DataOpsって、何︖ 背景にある、AI-Ladder
    ・DataOpsという観点から、登場⼈物を考える
    ・DataOpsという観点から、データ整備⼈を考える
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  3. © 2020 IBM Corporation
    3
    ⾃⼰紹介︓久保俊平
    2020年2⽉からIBMに⼊社。
    データ基盤製品のテクニカルセールス(技術営業)として働いています。
    前職はMcAfeeというセキュリティの会社で技術営業を5年弱、
    その前はみずほ情報総研で13年、銀⾏市場系システムのエンジニアとして
    勤めました。
    ■Twitter
    @MC_SEC_KB
    ■各種LT(趣味がLT武者修⾏なのです)
    https://speakerdeck.com/shumpei3
    ■LinkedIn
    https://www.linkedin.com/in/shumpei-kubo-516395ba/
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  4. © 2020 IBM Corporation
    4
    データアーキテクト(データ整備⼈)を“前向きに”考える会 と私
    ■過去の参加履歴︓3回参加しています。
    第2回:2020年02⽉06⽇開催(IBMに⼊って直後)
    第3回:2020年05⽉14⽇開催(オンライン開催初回)
    第4回:2020年06⽉09⽇開催(前回)
    ■なぜこの会に来たのか
    この会を偶然CONNPASSで⾒つけ、「⾃分の仕事領域っぽいな」と思い、なんとなく参加してみました。
    ■なぜ出ようと思ったのか
    データ整備⼈の⽅々のお話を聞くにつけ、今⾃分が携わっている領域が役に⽴つ場であると思った為、
    ⼀度お話させていただきたい、としんゆうさんにお声かけしました。
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  5. © 2020 IBM Corporation
    5
    データアーキテクト(データ整備⼈)とは︖
    DataOpsという観点からデータ整備⼈を考える
    出典︓しんゆうさんのスライドの40枚⽬
    https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=40
    ⾃分としては、データ整備⼈
    の⽅がしっくりくるので、
    この発表においては、今後
    データ整備⼈、で統⼀します。

    View Slide

  6. © 2020 IBM Corporation
    6
    データ整備⼈とは︖
    DataOpsという観点からデータ整備⼈を考える
    出典︓しんゆうさんのスライドの46枚⽬
    https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=46

    View Slide

  7. © 2020 IBM Corporation
    7
    データ整備⼈とは︖
    DataOpsという観点からデータ整備⼈を考える
    出典︓しんゆうさんのスライドの46枚⽬
    https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=46
    ⾃分としては、
    この箇所が、⾮常に
    DataOpsっぽい︕と思い
    ました。
    ではそのDataOpsとは何
    かというと。。。

    View Slide

  8. © 2020 IBM Corporation
    8
    DataOpsって、何︖ ブログからの引⽤
    『DataOpsとは、精選され、信頼性が⾼く、⾃動化されたコラ
    ボレーティブなデータ・パイプラインを現場のデータ利⽤者である
    「データ市⺠」(data citizen)に提供するための、⼈、プロ
    セス、テクノロジーの連携(オーケストレーション)を指します』
    DataOpsという観点からデータ整備⼈を考える
    IBMソリューションブログ
    「DataOpsに不可⽋な6つの要素とは」からの抜粋
    https://www.ibm.com/blogs/solutions/jp-ja/6-dataops-essentials/

    View Slide

  9. © 2020 IBM Corporation
    9
    DataOpsって、何︖ ⼀⾔で⾔うと
    DataOpsとは、⼀⾔で⾔うと、
    「使えるデータをすぐ準備できるようにする仕組みと運⽤」
    です。
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  10. © 2020 IBM Corporation
    10
    DataOpsって何︖ 背景にある、AI-Ladder
    1. つなぐ – データにシンプルにアクセスする
    2. 整える – データを利⽤できる状態に整備する
    3. 分析する – インサイトをAIとともにスケールさせる
    様々な場所に存在する
    多様なタイプのデータ
    マルチクラウド対応
    4. 活⽤する – 信頼性のあるAIを業務に組み込む
    AI
    データから価値を引き出すためのアプローチ
    Value
    Data
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  11. © 2020 IBM Corporation
    11
    DataOps
    (データのための DevOps + データ・オペレーション)
    • データ品質とデータ統制を保つ
    • データ提供者とデータ利用者間のフローを自動化
    • コラボレーションと俊敏性 / スピーディーかつ大規模に
    人 プロセス テクノロジー
    AI
    80%
    データ準備
    11
    1. つなぐ
    2. 整える
    3. 分析する
    4. 活⽤する
    DataOpsという観点からデータ整備⼈を考える
    DataOpsって何︖ 背景にある、AI-Ladder

    View Slide

  12. © 2020 IBM Corporation
    12
    データ活⽤のプラットフォーム上で、データにかかわるすべての⼈が連携する場合。
    1. データをつなぐ
    • データ仮想化
    • データ検索
    • データリクエスト
    2. データを整える
    • データ理解
    • データ加⼯
    • データ蓄積
    3. データを分析・活⽤する
    • データ可視化
    • データ理解
    • データ加⼯
    • モデル作成
    • モデルデプロイ
    • アセット登録
    データ・
    スチュワード
    データ・
    エンジニア
    ビジネス・
    アナリスト
    データ・
    サイエンティスト
    データ・
    サイエンティスト
    データの検索
    メタデータ同⼠の関連性を可視化
    関連情報を発⾒
    データ
    保存
    サンドボックス
    データ加⼯・クレンジング⼿順の記録と再実⾏
    分析アセットの管理 データのダッシュボード化 分析モデルの作成
    ビジネス・
    アナリスト
    データ・
    エンジニア
    アドミン
    DataOpsという観点から、登場⼈物を考える

    View Slide

  13. © 2020 IBM Corporation
    13
    IBMは組織内でデータを有効に活⽤する為の役割を、
    以下のように考えています。
    DataOpsという観点から、登場⼈物を考える
    Data steward Data engineer Data scientist Business analyst
    Administrator
    データ・
    スチュワード
    組織全体のデータ
    品質を管理する
    データ・
    エンジニア
    データを利⽤可能
    な状態に整備する
    ビジネス・
    アナリスト
    業務を理解し、企
    業内で洞察を共有
    する
    システム管理者
    ビジネス上の要求
    を満たす、AIアプ
    リを管理する
    データ・
    サイエンティスト
    データから洞察を導
    き出す分析アセット
    の共有
    データを提供・利⽤する5つの役割
    DataOpsという観点からデータ整備⼈を考える
    インフラ データ提供 データ利⽤

    View Slide

  14. © 2020 IBM Corporation
    14
    データ整備⼈は、データ・スチュワードにあたるのでは︖
    スチュワード、つまり、
    DataOpsという観点から、データ整備⼈を考える
    Data steward Data engineer Data scientist Business analyst
    Administrator
    データ・
    スチュワード
    組織全体のデータ
    品質を管理する
    データ・
    エンジニア
    データを利⽤可能
    な状態に整備する
    ビジネス・
    アナリスト
    業務を理解し、企
    業内で洞察を共有
    する
    システム管理者
    ビジネス上の要求
    を満たす、AIアプ
    リを管理する
    データ・
    サイエンティスト
    データから洞察を導
    き出す分析アセット
    の共有
    データを提供・利⽤する5つの役割
    DataOpsという観点からデータ整備⼈を考える

    View Slide

  15. © 2020 IBM Corporation
    15
    DataOpsという観点から、データ整備⼈を考える
    Data steward Data engineer Data scientist Business analyst
    Administrator
    データ執事
    組織全体のデータ
    品質を管理する
    データ・
    エンジニア
    データを利⽤可能
    な状態に整備する
    ビジネス・
    アナリスト
    業務を理解し、企
    業内で洞察を共有
    する
    システム管理者
    ビジネス上の要求
    を満たす、AIアプ
    リを管理する
    データ・
    サイエンティスト
    データから洞察を導
    き出す分析アセット
    の共有
    データを提供・利⽤する5つの役割
    DataOpsという観点からデータ整備⼈を考える
    データ整備⼈は、データ・スチュワードにあたるのでは︖
    スチュワード、つまり、データ執事︕

    View Slide

  16. © 2020 IBM Corporation
    16
    DataOpsについてもっと詳しく知りたい⽅は、
    DataOpsという観点からデータ整備⼈を考える
    IBM Data and AI Virtual Forum のオンデマンド視聴をご参照ください。
    2F-2 のセッションで、久保がDataOpsについて解説しています。
    デモ含めて30分程度。登録無料です。
    https://www.ibm.com/ibm/jp/ja/events/data-and-ai-forum/

    View Slide

  17. © 2020 IBM Corporation
    17
    エンタープライズ・カタログ
    メタデータや分析資産を共有し、だれもが使える状態に
    データソース
    データ加⼯・品質確認
    (プレパレーション)
    AI・機械学習
    アプリ適⽤
    API /
    バッチ⽣成
    データ可視化
    ダッシュボード
    収集・蓄積・仮想化
    業務
    エンドユーザー
    アプリ
    ビジネス
    プロセス
    スコアリング
    結果
    提供者の視点 利⽤者の視点
    IBM Cloud Pak for Dataは、社内外のすべてのデータを活⽤し、あらゆる分析ニーズに対応可能な
    End-to-Endのチーム共創プラットフォームです。
    宣伝︓次世代データプラットフォーム IBM Cloud Pak for Data
    つなぐ 整える 分析・活⽤する
    パブリック
    オンプレス
    プライベート
    構造化
    ⾮構造
    データの場所
    データの種類

    View Slide

  18. © 2020 IBM Corporation
    18
    IBM Cloud Pak for Dataには、⼤きく6つの特⻑があります。
    宣伝︓IBM Cloud Pak for Data の特⻑
    1 2 3
    4 5 6
    ニーズに合わせて必要なツール、環境等を
    追加可能
    データ資産のコンテナ化によるプラット
    フォームフリーな実装
    データ提供者とデータ利⽤者、
    データ活⽤のフルサイクルを効率化
    ビジネス⽤語、データベースだけでなく、
    Data Scienceプロジェクトまでカタログ可能
    仮想的データ統合で物理的に集めることなく
    データ照会や演算処理を⾼速化
    サンド
    ボックス
    Queryplex
    service node
    NoSQL
    CSV
    Hadoop
    RDB

    %#
    '$
    +

    &"

    !
    必要なデータだけ
    サンドボックスへ
    Data steward Data engineer Data scientist Business analyst App administrator
    78 =4 0?

    >;1
    @<
    9
    #,

    #"/
    /%+.
    *$0?
    ' -:2
    63
    )&!
    (-54
    (-%.
    ⼀気通貫
    IIAS
    NZ互換対応
    DATA CENTER
    AWS
    Azure
    シングル・アプリケーション エンタープライズ・カタログ データ仮想化とサンドボックス
    追加サービス データサイエンス & AI マルチ・クラウド対応
    データ分析をチームで効率的に進めるための
    様々な機能を搭載した分析プラットフォーム
    機械学習モデルの作成・
    評価の⾃動化(Auto AI)
    データ分析環境+
    簡易データ加⼯ツール

    View Slide

  19. View Slide