Slide 1

Slide 1 text

データエンジニア”と”作る データ文化 6/25 オープンセミナー2022@広島 YUKI SAITO

Slide 2

Slide 2 text

@yuki_saito_en 斎藤 友樹(SAITO YUKI) システムでも野菜でもお菓子でも作ることが好きです 2 https://menta.work/plan/2650 https://www.udemy.com/user/yuki-saito-7/ @yuki_saito_en https://service.visasq.com/users/6078548267368448

Slide 3

Slide 3 text

@yuki_saito_en データプロフェッショナルとしての データエンジニアの活躍場面は多岐に渡る 3 データ活用 ETL データ理解 (ビジネスメタ データ) データパイプラ イン データマート データ分析 ETL データアクセス の提供 BI NoteBook etc… データ品質 データテスト 育苗 輸送 仕分け 中継 販売 受取り 調理 データモデリング

Slide 4

Slide 4 text

@yuki_saito_en データエンジニアとエンジニア 組織や文化を戦略的に作るところに視点が置かれているかどうか 4 エンジニア データエンジニア テクニカル (Python、Java、 などなど) テクニカル (Python、Java、 などなど) データエンジニアリング (秘伝のたれ解消、再現性 を高める活動、文化の構 築)

Slide 5

Slide 5 text

@yuki_saito_en データドリブン文化の事情 障壁や変化を起こすポイント 1 5

Slide 6

Slide 6 text

@yuki_saito_en よし! データドリブンだ 6 データ活用で生産性をあげる(ハードスキルな世界) データ活用の生産性をあげる(ソフトスキルな世界) ≒

Slide 7

Slide 7 text

@yuki_saito_en データドリブン 「データ活用で生産性をあげる」だけで解決しようとする 7 業務アプリ データ分析基盤 ETL 活用/利用

Slide 8

Slide 8 text

@yuki_saito_en 8

Slide 9

Slide 9 text

@yuki_saito_en 9 出典:Gartner (2021年6月)

Slide 10

Slide 10 text

@yuki_saito_en 人とデータ 10 との戦い データドリブン文化は 活用に向かない

Slide 11

Slide 11 text

@yuki_saito_en エンジニアリング 11 を使って人や組織に働きかけ改善したい そこで データ

Slide 12

Slide 12 text

@yuki_saito_en SaaS時代 変化を起こすエンジニアリング着眼ポイント 12 育苗 輸送 仕分け 中継 販売 受取り 調理 10 SaaS SaaS SaaS 理解 品質、ETL データ分 析

Slide 13

Slide 13 text

@yuki_saito_en 宣伝 10を知るためのおすすめの書籍 13 ● データ分析基盤の開発に携わっている方 ● より良いデータ活用環境を実現したい方 ● エンジニアリングを使ってデータ系開発を成 功させたい方

Slide 14

Slide 14 text

@yuki_saito_en データドリブンな文化を創る 千里の道も一歩から 2 14

Slide 15

Slide 15 text

@yuki_saito_en データドリブンファネル 15 継続 文化 発見 試行 理解 納得 社内での活動やコミュニティでの活動でより多くの人を巻き込む テクニカルな面も含め理解や共通認識がある (通 信不確実性の排除) 小さく、素早く試せる環境がある (アジリティ&アジャイル ) 結果に対して納得感がある (成果不確実性の排除 ) 難しいルールがなく、続けられる (取引コスト(コミュニケーションコスト )の最小化) 当たり前になる (データ活用で/の生産性の向上) ()は内エンジニアリングのポイント

Slide 16

Slide 16 text

@yuki_saito_en メタデータの整備を通した通信不確実性の排除 データ参画者間の共通言語(共通指標)としてメタデータを利用 自分の頭だけにメタデータを残さないように、後に残るシステムを作る 16 メタデータの調査 メタデータの理解 (言語化) データ活用 データの活用はメタデータの理解から始まる データ活用 の生産性を 高める 理解

Slide 17

Slide 17 text

@yuki_saito_en 言語化のプロセス データのテスト 17 Primary Key 重複したデータを発見すること。重 複データは算出結果のノイズや データ。操作の複雑化に繋がるの でビッグデータの世界でも PKを意 識する。 Dictionary 特定の辞書(Pythonのディクショナ リみたいな)で事前に定義した値に データが収まっているか確認す る。やってみるとボロボロ見つか る。 Record Num テーブルや日々 ETLしているデー タの件数が異常な状態になってい ないかを確認する。処理するデー タが多くなってきた際には一々全 部見切れないので必須 Check Null データのNull具合を確認。内外的 な要因でいきなり Nullが急激に増 えたりする。また、レコード内に Nullが多い場合はETLするかそも そも取り込まないなどすることも検 討する。 Zero Control 足し算の結果など、数値の整合性 が取れていることを確認すること。 エラーとなることは少ないものの 数値の計算にはミスがあると大変 なのでダブルチェックの意味でも 確認する。 Format 特定のフォーマットに沿っているか 確認をすること。 男、女、0、1、郵便番号、社内で利 用している業務用のコードなど。大 抵これらが揃っておらず大いに苦 労する。 データのテストはデータの定義を言語化するプロセスに等しい データ活用 の生産性を 高める 理解

Slide 18

Slide 18 text

@yuki_saito_en データ品質担保を通した成果不確実性の排除 自身の勘と答え合わせすることにより納得感のアップに繋がるが、 データが間違えていると間違った納得感を生み出す 18 50% くらいだろう 65% 15% くらいだろう くらいだろう データ活用 の生産性を 高める 納得

Slide 19

Slide 19 text

@yuki_saito_en もう少し考えてみるデータ品質 19 id 性別 1 男 2 1 3 男 4 女 5 0 6 男 id 性別 1 1 2 1 3 1 4 0 5 0 6 1 検索の条件(where 性別=’男’ や’1’)によっては50%にも15% にもなり得る。どんな条件でも それっぽい結果が出る点が 中々にあくどい。 検索の条件(where 性別=’男’ や’1’)によっては0%か65%と なる。変な検索条件の場合は 人間の違和感を発動させる。 データセット1 データセット2 データ活用 の生産性を 高める 納得

Slide 20

Slide 20 text

@yuki_saito_en データドリブンな文化を醸成する シンプルな方法で継続する 3 20

Slide 21

Slide 21 text

@yuki_saito_en 周りの社員の教育と実践を通して組織の情報処理能力を上げる 全員がSQL記述して自身でデータ解釈できるレベルを目指す 21 研修や勉強会 外部研修、内部研修、 勉強会など時間、お金 を人材に投資する。 SQLはもはやエンジニア のものではない。 実践 研修しただけでは、なか なか実際に使えないの が現実 小さな変化を起こし続け 芽がで始めることを期 待 成功体験 データ系組織の小さな 変化や泥臭さも含め、 成功体験から実践を後 押しする。 Excelを使ってXXしてみ たのような経験談の方 が響く場合もある データ活用 の生産性を 高める 理解 試行

Slide 22

Slide 22 text

@yuki_saito_en 取引コストを最小限にすることを意識する シンプルイズベスト 22 民主化 面倒なプロセスの一つに「データのアクセス権限」がある。 データのアクセス権限に勾配をつけずできる限り平坦にすることを 「データの民主化」と呼んでいる。 人間はめんどくさがりの生き物なので、 ● 金曜の夕方に申請とかめんどくさいから来週にしよう ● アクセス権が適用されている多くは認知されず利用されない ( 探索をするコストが大きい ) データ活用 の生産性を 高める 試行 継続

Slide 23

Slide 23 text

@yuki_saito_en レギュレーション(ルール)を作り成果不確実性を減らす 少しづつ関係や文化の芽吹きを感じたらデータ活用を前提とす るようなルールを作る 23 業務アプリとのコラボ 社内で新しく作るプロダクトから発 生するデータ(例えばアクセスログ や分析を前提としたログなど)は データ分析基盤へ取り込むことを 前提に構築やプロセスの設計(KPI 設計など)を行う。 入社時オリエンテーション データ利活用を前提としている会 社なのだと認識してもらうために入 社と共にアカウントを発行する。 入社後研修の内容としてデータ分 析のお試しができると良い。 データ活用 で生産性を 高める 継続

Slide 24

Slide 24 text

@yuki_saito_en データ活用で生産性高くデータ分析基盤開発をしよう データ分析基盤開発の継続的改善をユーザ起点で 24 Google Form 構造化アンケートの代 表格。手軽に情報を集 めるために必須のツー ル。内容はUX調査の基 本でOK ログ解析/SQL解析 人間の意識に出てこな い情報を引き出すため の源泉になる。 アクセスログでもアクセ スだけでなく、どこでス クロールが途切れたか などを細かくみる。 ユーザインタビュー ログ解析やGoogle  Form回答の結果から仮 説を立て、より深く聞き たい部分はデプスイン タビューを行う。 インタビューばかりだと 取引コストが増える データ活用 で生産性を 高める 継続

Slide 25

Slide 25 text

@yuki_saito_en まとめ エンジニアリングを通して人を知りデータを知ろう 4 25

Slide 26

Slide 26 text

@yuki_saito_en まとめ エンジニアリングを使って文化の成長にドライブをかけよう 26 メタデータで言語化 言語化の先にデータの理解と活 用がある。メタデータは組織の総 合力。不確実性軽減のためにエン ジニア以外も積極的にデータや事 柄を言語化していこう。 データのテスト 間違えた意思決定を防ぐだけでな く、思わぬ発見や理解に繋がる。 プログラムだけでなく、データも積 極的にテストをしていこう。 シンプルイズベスト 無法地帯とならないように、窮屈 になりすぎないように。現状に合 わせすぎるのではなく、現状を変 えてシンプルなルールを作ってい こう。 人の特性を理解する 人はめんどくさがり。「やってくださ い」ではやってくれない。取引コス トは最低限にルールや仕組みは シンプルになるように元の仕組み を変えることを考えよう。 科学的に人との関係を大切に 簡単なアンケートからでも良いの で事業を進めるヒントを得よう。ま たユーザは優しい嘘をつく。プロダ クトを科学的に改善していこう 教育と実践 研修だけでなく、データ系組織の 成功事例や苦労を積極的に発信 しよう。また、いつでも気軽にデー タに扱える環境を用意して実践で きる環境を作ろう。

Slide 27

Slide 27 text

@yuki_saito_en ご参考のURL ◉ https://www.kdnuggets.com/2021/05/most-demand-skills-d ata-engineers-2021.html ◉ https://www.amazon.co.jp/-/en/%E6%96%8E%E8%97%A 4-%E5%8F%8B%E6%A8%B9/dp/4297127245/ref=tmm_p ap_swatch_0?_encoding=UTF8&qid=&sr= 27

Slide 28

Slide 28 text

@yuki_saito_en ありがとう ございました! 28