Slide 1

Slide 1 text

DataOpsハンズオンの設計と構築 Design and build about DataOps hands-on ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3 on Twitter(現𝕏) 2024/08/21 みんなの考えた最強のデータ基盤アーキテクチャ2024前半おまとめ拡大版SP! 1

Slide 2

Slide 2 text

注意事項 • 本資料は、発表者個人の意見であり、 所属する組織の意見を必ずしも代表するものでは有りません。 • 本資料に掲載されている情報は2024年8月時点のものです。 • #みん強 で感想をつぶやいてね! • 質問はYoutubeのコメントでお願いします! 2

Slide 3

Slide 3 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 3

Slide 4

Slide 4 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 4

Slide 5

Slide 5 text

自己紹介 • ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3 on Twitter(現𝕏) • 今は技術営業(営業部隊の技術要員)を生業としています • 2020年より日本IBMにてDataOps製品の技術営業(BTS:Brand Technical Specialist ) • 2015年から外資系セキュリティベンダーの技術営業(SE:Sales Engineer) • 2002年から銀行のシステム子会社のシステムエンジニア(SE:System Engineer) • 今の職業柄、製品の説明やデモ以外にもハンズオンを実施する機会も多数 • 今回のLTでは、製品ハンズオンを実施するにあたって 何を考えて、どう準備しているのか、その舞台裏を共有したいと思います 技術営業の詳細については、以下のPodcastをご聴取ください。 しがないラジオ「 sp.93【ゲスト: MC_SEC_KB】楽しいセールスエンジニアの魅力と、仕事に活きるLT武者修行」 5

Slide 6

Slide 6 text

自己紹介 技術営業の詳細については、以下のPodcastをご聴取ください。 しがないラジオ「 sp.93【ゲスト: MC_SEC_KB】楽しいセールスエンジニアの魅力と、仕事に活きるLT武者修行」 6 • ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3 on Twitter(現𝕏) • 今は技術営業(営業部隊の技術要員)を生業としています • 2020年より日本IBMにてDataOps製品の技術営業(BTS:Brand Technical Specialist ) • 2015年から外資系セキュリティベンダーの技術営業(SE:Sales Engineer) • 2002年から銀行のシステム子会社のシステムエンジニア(SE:System Engineer) • 今の職業柄、製品の説明やデモ以外にもハンズオンを実施する機会も多数 • 今回のLTでは、製品ハンズオンを実施するにあたって 何を考えて、どう準備しているのか、その舞台裏を共有したいと思います

Slide 7

Slide 7 text

自己紹介 技術営業の詳細については、以下のPodcastをご聴取ください。 しがないラジオ「 sp.93【ゲスト: MC_SEC_KB】楽しいセールスエンジニアの魅力と、仕事に活きるLT武者修行」 https://ibm.biz/BdKggw 7 • ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3 on Twitter(現𝕏) • 今は技術営業(営業部隊の技術要員)を生業としています • 2020年より日本IBMにてDataOps製品の技術営業(BTS:Brand Technical Specialist ) • 2015年から外資系セキュリティベンダーの技術営業(SE:Sales Engineer) • 2002年から銀行のシステム子会社のシステムエンジニア(SE:System Engineer) • 今の職業柄、製品の説明やデモ以外にもハンズオンを実施する機会も多数 • 今回のLTでは、製品ハンズオンを実施するにあたって 何を考えて、どう準備しているのか、その舞台裏を共有したいと思います

Slide 8

Slide 8 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 8

Slide 9

Slide 9 text

DataOpsハンズオンとは • DataOpsとは? https://speakerdeck.com/shumpei3/think-about-data-maintenance-people-in-terms-of-dataops?slide=8 https://speakerdeck.com/shumpei3/think-about-data-maintenance-people-in-terms-of-dataops?slide=9 9

Slide 10

Slide 10 text

DataOpsハンズオンとは • ハンズオンとは? • ⇛実践や試行錯誤を通じて知識や技能を習得する活動 E-wordsより抜粋 https://ibm.biz/BdKgg6 10

Slide 11

Slide 11 text

すぐ使えるデータを、すぐ準備できる仕組みや運用(※1) 様々なデータソース群 様々なデータ成果物 ※1:データカタログでメタデータ(※2)を一元管理するアプローチ ※2:データの意味や付加情報などの、データについてのデータ テクニカルメタデータ:DBの種類、テーブル名、列名、データ型、プレビュー、統計情報等 ビジネスメタデータ :情報の区分、組織内の用語、各種ルール等 DataOpsハンズオンとは • 使えるデータを、すぐ準備できる仕組みや運用を、 実践や試行錯誤を通じて学ぶこと 11

Slide 12

Slide 12 text

DataOpsハンズオンとは • なぜハンズオンをやるの? • 百聞は一見に如かず: ⇛説明聞くだけよりもデモを見たほうが理解しやすい • 百見は一UXに如かず: ⇛デモ見るだけよりも実際に体験したほうが理解しやすい • 本当にそうなの? ⇛本当!手を動かしながら覚えるのが一番理解の解像度が高い! 12

Slide 13

Slide 13 text

DataOpsハンズオンとは • なぜハンズオンをやるの? • 百聞は一見に如かず: ⇛説明聞くだけよりもデモを見たほうが理解しやすい • 百見は一UXに如かず: ⇛デモ見るだけよりも実際に体験したほうが理解しやすい 本当にそうなの? ⇛本当!手を動かしながら覚えるのが一番理解の解像度が高い! 13

Slide 14

Slide 14 text

DataOpsハンズオンとは • なぜハンズオンをやるの? • 百聞は一見に如かず: ⇛説明聞くだけよりもデモを見たほうが理解しやすい • 百見は一UXに如かず: ⇛デモ見るだけよりも実際に体験したほうが理解しやすい • 本当にそうなの? ⇛本当!手を動かしながら覚えるのが一番理解の解像度が高い! 14

Slide 15

Slide 15 text

DataOpsハンズオンとは • 例えばどんなDataOpsハンズオン?(過去実施事例) https://speakerdeck.com/shumpei3 /shal-we-start-data-catalog-with- ibm-knowledge-catalog https://qiita.com/Shumpei_Kubo/item s/993e0fabfaebf56fe547 2021年作成(SaaS版) データ利用者、データ管理者双方向け 2023年作成(Software版) データ利用者向け 15

Slide 16

Slide 16 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 16

Slide 17

Slide 17 text

設計、の前に要件定義 • ハンズオンを設計するにあたっては、こういう要件を考えてます • データ利用者:使えるデータをすぐ利用できる環境を体験してほしい • データ管理者:上記を実現する為の準備をすぐできる事を体験してほしい データ利用者 データ管理者 すぐ利用できる! すぐ準備できる! 17

Slide 18

Slide 18 text

Cloud Pak for Data 増えゆく外部 データソース群 カタログ メタデータを管理している、 超物知りな受付窓口みたいな存在 プロジェクト 様々なツールでデータを いじくり回せるSandbox 設計コンセプト:カタログ中心アプローチ 2.データ取得 データ利用者 18 外部データソースがどれだけ増えても、 少量のメタデータを1箇所でまとめて管理すれば データの在り処がわかりやすい! 1.データ検索 3.データ分析

Slide 19

Slide 19 text

設計 • ハンズオン設計で考慮すべき点を分解すると、、、、 1. 受講者 2. 製品機能 3. 筋書き 4. 時間と場所 誰がこのハンズオンを受講するのか? どんな筋書きだと、この製品の機能を堪能できるか? 時間枠は何分?場所はオンライン?オフライン? どのような機能を持つ製品なのか? 19

Slide 20

Slide 20 text

設計:1.受講者 DataOpsハンズオンを実施するにあたって 主に以下の受講者ペルソナを想定して筋書きを考えています 1. データ利用者 2. データ管理者 業務上使ってる言葉でデータを検索したい セルフサービスでデータを手に入れたい データの来歴が気になるから把握したい データを自分で加工したい データ利用者の要望に答えたい 適切な権限管理をしたい データ整備作業を楽に(自動化)したい データ品質を管理して向上したい 20

Slide 21

Slide 21 text

設計:2.製品機能 • 最強のデータ基盤「Cloud Pak for Data(以下CP4D)」を使います その中でも「データ整備」に該当するデータカタログを中心に考えます データ要件(※) 個別機能1 個別機能2 個別機能3 … データ活用 文書検索 Watson Discovery AI監視 Watson Openscale 生成AIスタジオ watsonx.ai … データ分析 データ分析 Watson Studio 統計解析 SPSS Modeler Flow ダッシュボード Cognos Dashboard … データ整備 データカタログ IBM Knowledge Catalog データリネージュ Automated Data Lineage ETL Datastage … データ収集 OLTPデータベース Db2 データ仮想化 Data Virtualization データレイクハウス watsonx.data … 21 ※:データ要件と記載しているAI-Ladder という概念については以下ブログご参照 https://community.ibm.com/community/user/japan/blogs/provision-ibm1/2021/11/12/vol97-0020-ai

Slide 22

Slide 22 text

設計:2.製品機能 データカタログの機能群 機能群 その1 その2 その3 … データガバナンス機能 ビジネス用語 データ保護ルール データ分類 … データ品質機能 メタデータインポート メタデータエンリッチメント データプロファイル … データ利用者向け機能 セルフサービス コラボレーション データ準備 … 22

Slide 23

Slide 23 text

設計:3.筋書き 受講者ペルソナごとのハンズオン項目として 以下のような内容が堪能してもらえるように 実施項目を作って行きます 1.データ利用者向け (どれほどスムーズにデータを利用できるか) 2.データ管理者向け (1.を実現する為の下ごしらえとして、 その裏で管理者はどんな準備をしておくべきか) 23

Slide 24

Slide 24 text

設計:3.筋書き データ利用者向け 1.データ利用者向け(まずはこの製品で、どれほどスムーズにデータを利用できるか) A.プロジェクト(作業場所)確認:データ作業ができる箱を作る B.用語による検索:組織内で通用している用語でデータを検索できる その用語に関連するデータの確認 データのプレビュー(一部マスキングもあり) データの品質 データのリネージュ(来歴) C.データ作業(可視化やデータ準備ツール):A.で作成したプロジェクト内で各種ツールにて実施 業務上使ってる言葉でデータを検索したい セルフサービスでデータを手に入れたい データの来歴が気になるから把握したい データを自分で加工したい 24

Slide 25

Slide 25 text

設計:3.筋書き データ管理者向け 2.データ管理者向け(1.を実現する為の下ごしらえとして、管理者はどんな事前準備をしておくべきか) A.カタログ作成 B.カテゴリ作成:組織ごと、ビジネス業務ごと、のフォルダのようなものを作成(例:顧客、経理、営業、等) C.用語(ビジネスメタデータ)登録:社内で使用される用語を登録し、利用者が検索しやすくする D.テクニカルメタデータ(外部DBの列名・データ型・プレビュー・各種システム情報等)のインポート E.データのエンリッチメント:テクニカルメタデータとビジネスメタデータ(用語や区分)との紐づけ F.データ保護ルール作成:データをマスキング・フィルタリング・アクセス拒否/許可できる各種条件の作成 G.データ仮想化:仮想ビューの作成。異なるDB間で(例えばDb2とSnowflakeで)ビューを結合できる。 データ利用者の要望に答えたい 適切な権限管理をしたい データ整備作業を楽に(自動化)したい データ品質を管理して向上したい 25

Slide 26

Slide 26 text

設計:4.時間と場所 ・時間:以下が経験的な目安 ・利用者編:約2時間 (以下事例は90分で実施) ・管理者編:約3時間〜4時間 ・全部入り:約半日 https://speakerdeck.com/shumpei3/shal-we-start-data- catalog-with-ibm-knowledge-catalog 26

Slide 27

Slide 27 text

設計:4.時間と場所 ・場所:オンラインかオフラインか ・オンラインの場合: ・画面共有の方法は?(Webex?Teams?Zoom?StreamYard?) ・どの画面に視線を置いてもらうかを考慮して指示しなくてはいけない ・自分の操作画面か、配布資料か、登壇者の画面か ・オフラインの場合: ・資料の印刷要否 印刷要 ⇛ 部数。期限。誰がどこにいつまでに持参?どこに格納? ・画面共有の方法 ・大型ディスプレイの有無 ⇛ PCは現地のコネクタに対応? 27

Slide 28

Slide 28 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 28

Slide 29

Slide 29 text

構築 • ハンズオン環境を構築するにあたっては、以下を考える 1. 外部接続:どんなデータソースを幾つ準備するのか 2. 内部権限:内部的な権限・認可をどのように割り振るのか 3. 参加人数:どういう権限の人が何人ずつ割り振られるのか 4. 現場資料:どのような案内を現場で出しておくべきか 29

Slide 30

Slide 30 text

構築:1.外部接続 • 検証用データベース等を使用 • Db2warehouse(データウェアハウス) • watsonx.data(データレイクハウス) • Db2(OTLP) • PostgreSQL(OSSのRDBMS) • Snowflake(クラウドデータウェアハウス) • TiDB(分散型データベース) • その他、接続可能なデータソースは多数(※1) ※1:https://www.ibm.com/docs/ja/cloud-paks/cp-data/5.0.x?topic=data-supported-sources 30

Slide 31

Slide 31 text

Cloud Pak for Data(CP4D) Snowflake Db2Warehouse (IBMCloud) PostgreSQL (IBMCloud) データカタログ データ仮想化 分析用Sandbox 集計、 分析 検索 構築:1.外部接続(過去資料抜粋) 31

Slide 32

Slide 32 text

構築:2.内部権限 Catalog-A(データカタログ) Project-B(分析用Sandbox) 利用者グループ User00 - userNN 参照権限:利用者グループ 編集権限:利用者グループ プロジェクトXX(後で作成) 管理権限:UserXX 32 各種ツールの使用権限

Slide 33

Slide 33 text

構築:2.内部権限 Catalog-A(データカタログ) Project-B(分析用Sandbox) User00 - userNN 管理権限:管理者グループ 管理権限:管理者グループ プロジェクトXX(後で作成) 管理権限:UserXX 管理者グループ Admin0 - AdminN 33 利用者グループ 各種ツールの使用権限

Slide 34

Slide 34 text

構築:3.参加人数 • 過去実績でいうと、1人〜2人から20人程度 • 人数が多い場合は複数環境に振り分ける • ハンズオン環境は予備を準備しておく(HotStandBy) • (当日、唐突に故障する可能性があるので(実際にあった)) • 折角お客様に来て頂くので、予備はいくらあってもいいが、 準備する手間との見合いで決めましょう。 • 2グループに分けた際には環境を4つ準備した。(後述) 34

Slide 35

Slide 35 text

皆さんの席とユーザIDとパスワードは、以下の通りです 英語小文字:黒字 英語大文字:青字 数字:赤字 ID:userNN Password:DummynoPasswordDayoNN NN: 01 ~ 30(00は講師が使用) 構築:4.現場資料(過去資料から抜粋) 35

Slide 36

Slide 36 text

13:30からのハンズオンの場合(DS-06) 対象URLは以下 (カッコ内数字はユーザID末尾の数字) https://ibm.biz/XXXXX1(奇数ID) https://ibm.biz/XXXXX2(偶数ID) ID:userNN Password:DummynoPasswordDayoNN 実は予備がもう2つある https://ibm.biz/XXXXX3 https://ibm.biz/XXXXX4 構築:4.現場資料(資料から抜粋) 36

Slide 37

Slide 37 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 37

Slide 38

Slide 38 text

まとめ 手を動かすと理解の解像度が高いので、ハンズオンはとてもいいぞ! データ管理者・利用者それぞれのユースケースを想定するぞ! 製品機能を堪能できるような操作内容の流れを作るぞ! 環境等の各種準備は終わるまで気が抜けないぞ! ハンズオンを見かけたら是非ご参加を! 愉快なるかなハンズオン! 愉快なるかな #みん強 ! 38

Slide 39

Slide 39 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 39

Slide 40

Slide 40 text

お知らせ • 11月27日に、以下のオフラインイベントが開催されます! • みんな来てね!ハンズオンもあるよ! • 申し込む際は「久保俊平の紹介で」と一言書いてね! 40 https://www.ibm.com/jp-ja/events/techxchange

Slide 41

Slide 41 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 41

Slide 42

Slide 42 text

Any Question? 42

Slide 43

Slide 43 text

目次 •自己紹介 •DataOpsハンズオンとは •設計 •構築 •まとめ •お知らせ •Q&A •Appendix 43

Slide 44

Slide 44 text

自己紹介 • ぼうさん / 外資IT魔法戦士 / Shumpei Kubo @_bou_3 on Twitter(現𝕏) • 2020年より日本IBMにてDataOps製品の技術営業(BTS:Brand Technical Sales )。 • 2015年から外資系セキュリティベンダーの技術営業(SE:Sales Engineer) 。 • 2002年から銀行子会社のシステムエンジニア(SE:System Engineer)。 • 今の職業柄、お客様向けに製品のハンズオンを実施する機会も多数。 • 今回のLTでは、製品ハンズオンを実施するにあたって、 何を考えて、何を準備をするのか、を共有したいと思います。 バターのようになめらかに 案件を技術的に推進するのが使命です。 技術営業の詳細については、以下ご参考ください。 しがないラジオ「 sp.93【ゲスト: MC_SEC_KB】楽しいセールスエンジニアの魅力と、仕事に活きるLT武者修行」 44

Slide 45

Slide 45 text

カタログ :箱のようなもの。狭義のデータカタログ。様々なデータの情報(メタデータ)を 閲覧可能。グループ毎、または組織全体に割り当てたりする。 プロジェクト :箱のようなもの。分析作業用サンドボックス。様々なツールでデータをいじくり回せる。 グループ毎、または個人毎に作成する。 ガバナンス成果物:データ管理者が整備する、以下の各種情報 カテゴリー:部署や事業等、ガバナンス成果物を区分するフォルダのようなもの ビジネス用語:組織内で使用されている用語。検索に使用できる。 タグ:任意の文字列で、メタデータに付与して検索に使用できる。 分類:情報の秘匿度合い等の分類(公開、社外秘、部外秘、等) データ・クラス:正規表現等に代表されるデータの型 ルール:該当するデータを保護する為の条件 設計:2.製品機能 45

Slide 46

Slide 46 text

参考:検証用データベースのテーブル群をETL(次頁)で結合する。 一部テーブルを他のDBで代替させる場合もある。 赤字:結合時に使用するキー 青字:ETLで作成される表で使用される項目 構築:1.外部接続(過去資料抜粋) 46

Slide 47

Slide 47 text

参考:テーブル群を結合していくETL(Datastage) 構築:1.外部接続(過去資料抜粋) 47

Slide 48

Slide 48 text

参考:データカタログで確認できるETL(Datastage)のリネージュ 構築:1.外部接続(過去資料抜粋) 48

Slide 49

Slide 49 text

参考:MANTA Automated Data Lineage で確認できるETL(Datastage)のリネージュ 構築:1.外部接続(過去資料抜粋) 49

Slide 50

Slide 50 text

参考:Data Refineryの視覚化機能でサンプルデータを日輪型グラフで表示 構築:1.外部接続(過去資料抜粋) 50

Slide 51

Slide 51 text

参考:データのプロファイル(統計情報)一部マスキングされたもの。 構築:1.外部接続(過去資料抜粋) 51

Slide 52

Slide 52 text

参考:データ資産の概要 構築:1.外部接続(過去資料抜粋) 52