Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データエンジニアと作るデータ文化

Yuki
June 25, 2022

 データエンジニアと作るデータ文化

オープンセミナー広島2022での登壇資料です。

当日のライブ配信です。
Youtube
https://www.youtube.com/watch?v=XgVbZZyoFxQ

Yuki

June 25, 2022
Tweet

More Decks by Yuki

Other Decks in Technology

Transcript

  1. @yuki_saito_en データプロフェッショナルとしての データエンジニアの活躍場面は多岐に渡る 3 データ活用 ETL データ理解 (ビジネスメタ データ) データパイプラ

    イン データマート データ分析 ETL データアクセス の提供 BI NoteBook etc… データ品質 データテスト 育苗 輸送 仕分け 中継 販売 受取り 調理 データモデリング
  2. @yuki_saito_en データドリブンファネル 15 継続 文化 発見 試行 理解 納得 社内での活動やコミュニティでの活動でより多くの人を巻き込む

    テクニカルな面も含め理解や共通認識がある (通 信不確実性の排除) 小さく、素早く試せる環境がある (アジリティ&アジャイル ) 結果に対して納得感がある (成果不確実性の排除 ) 難しいルールがなく、続けられる (取引コスト(コミュニケーションコスト )の最小化) 当たり前になる (データ活用で/の生産性の向上) ()は内エンジニアリングのポイント
  3. @yuki_saito_en 言語化のプロセス データのテスト 17 Primary Key 重複したデータを発見すること。重 複データは算出結果のノイズや データ。操作の複雑化に繋がるの でビッグデータの世界でも

    PKを意 識する。 Dictionary 特定の辞書(Pythonのディクショナ リみたいな)で事前に定義した値に データが収まっているか確認す る。やってみるとボロボロ見つか る。 Record Num テーブルや日々 ETLしているデー タの件数が異常な状態になってい ないかを確認する。処理するデー タが多くなってきた際には一々全 部見切れないので必須 Check Null データのNull具合を確認。内外的 な要因でいきなり Nullが急激に増 えたりする。また、レコード内に Nullが多い場合はETLするかそも そも取り込まないなどすることも検 討する。 Zero Control 足し算の結果など、数値の整合性 が取れていることを確認すること。 エラーとなることは少ないものの 数値の計算にはミスがあると大変 なのでダブルチェックの意味でも 確認する。 Format 特定のフォーマットに沿っているか 確認をすること。 男、女、0、1、郵便番号、社内で利 用している業務用のコードなど。大 抵これらが揃っておらず大いに苦 労する。 データのテストはデータの定義を言語化するプロセスに等しい データ活用 の生産性を 高める 理解
  4. @yuki_saito_en もう少し考えてみるデータ品質 19 id 性別 1 男 2 1 3

    男 4 女 5 0 6 男 id 性別 1 1 2 1 3 1 4 0 5 0 6 1 検索の条件(where 性別=’男’ や’1’)によっては50%にも15% にもなり得る。どんな条件でも それっぽい結果が出る点が 中々にあくどい。 検索の条件(where 性別=’男’ や’1’)によっては0%か65%と なる。変な検索条件の場合は 人間の違和感を発動させる。 データセット1 データセット2 データ活用 の生産性を 高める 納得
  5. @yuki_saito_en 周りの社員の教育と実践を通して組織の情報処理能力を上げる 全員がSQL記述して自身でデータ解釈できるレベルを目指す 21 研修や勉強会 外部研修、内部研修、 勉強会など時間、お金 を人材に投資する。 SQLはもはやエンジニア のものではない。

    実践 研修しただけでは、なか なか実際に使えないの が現実 小さな変化を起こし続け 芽がで始めることを期 待 成功体験 データ系組織の小さな 変化や泥臭さも含め、 成功体験から実践を後 押しする。 Excelを使ってXXしてみ たのような経験談の方 が響く場合もある データ活用 の生産性を 高める 理解 試行
  6. @yuki_saito_en レギュレーション(ルール)を作り成果不確実性を減らす 少しづつ関係や文化の芽吹きを感じたらデータ活用を前提とす るようなルールを作る 23 業務アプリとのコラボ 社内で新しく作るプロダクトから発 生するデータ(例えばアクセスログ や分析を前提としたログなど)は データ分析基盤へ取り込むことを

    前提に構築やプロセスの設計(KPI 設計など)を行う。 入社時オリエンテーション データ利活用を前提としている会 社なのだと認識してもらうために入 社と共にアカウントを発行する。 入社後研修の内容としてデータ分 析のお試しができると良い。 データ活用 で生産性を 高める 継続
  7. @yuki_saito_en データ活用で生産性高くデータ分析基盤開発をしよう データ分析基盤開発の継続的改善をユーザ起点で 24 Google Form 構造化アンケートの代 表格。手軽に情報を集 めるために必須のツー ル。内容はUX調査の基

    本でOK ログ解析/SQL解析 人間の意識に出てこな い情報を引き出すため の源泉になる。 アクセスログでもアクセ スだけでなく、どこでス クロールが途切れたか などを細かくみる。 ユーザインタビュー ログ解析やGoogle  Form回答の結果から仮 説を立て、より深く聞き たい部分はデプスイン タビューを行う。 インタビューばかりだと 取引コストが増える データ活用 で生産性を 高める 継続
  8. @yuki_saito_en まとめ エンジニアリングを使って文化の成長にドライブをかけよう 26 メタデータで言語化 言語化の先にデータの理解と活 用がある。メタデータは組織の総 合力。不確実性軽減のためにエン ジニア以外も積極的にデータや事 柄を言語化していこう。

    データのテスト 間違えた意思決定を防ぐだけでな く、思わぬ発見や理解に繋がる。 プログラムだけでなく、データも積 極的にテストをしていこう。 シンプルイズベスト 無法地帯とならないように、窮屈 になりすぎないように。現状に合 わせすぎるのではなく、現状を変 えてシンプルなルールを作ってい こう。 人の特性を理解する 人はめんどくさがり。「やってくださ い」ではやってくれない。取引コス トは最低限にルールや仕組みは シンプルになるように元の仕組み を変えることを考えよう。 科学的に人との関係を大切に 簡単なアンケートからでも良いの で事業を進めるヒントを得よう。ま たユーザは優しい嘘をつく。プロダ クトを科学的に改善していこう 教育と実践 研修だけでなく、データ系組織の 成功事例や苦労を積極的に発信 しよう。また、いつでも気軽にデー タに扱える環境を用意して実践で きる環境を作ろう。