Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Engineering Study #16/メタデータは地味だが役に立つ

atama plus
October 19, 2022

Data Engineering Study #16/メタデータは地味だが役に立つ

2022年10月19日に開催された「Data Engineering Study #16 データカタログ入門」にて弊社の内藤(@jonnojun)が登壇しました。

▼開発チームの情報発信リンク集
https://linktr.ee/atama_plus_dev

atama plus

October 19, 2022
Tweet

More Decks by atama plus

Other Decks in Programming

Transcript

  1. メタデータは地味だが役に⽴つ 内藤 純 atama plus株式会社 2022/10/18

  2. ⓒ 2020 atama plus Inc. 自己紹介 所属 atama plus株式会社 職種

    データサイエンティスト 今の主なお仕事 データで良しなに素敵なサムシングを出す (施策効果検証、因果探索、データ基盤整備、その他データに関すること全部) 好きなモノ よなよなエール、ダーツ、物理・天⽂学 2 内藤 純 @jonnojun
  3. ⓒ 2022 atama plus Inc. 今⽇話すこと 1. atama plusって何の会社? 2.

    なぜメタデータが必要だったのか? 3. 具体的に何をやったの? 4. 結果どうなったのか? 3 メタデータは地味だが役に⽴つ
  4. ⓒ 2022 atama plus Inc. 今⽇話すこと3⾏まとめ データエンジニア不在の会社だけど、 メタデータ管理をえいやで導⼊したら、 データ活⽤の機運が上がってきた! 4

    メタデータは地味だが役に⽴つ
  5. atama plusってどんな会社?

  6. ⓒ 2022 atama plus Inc. 会社概要 6 atama plusとは 社名

    atama plus株式会社 代表者 稲⽥ ⼤輔 設⽴ 2017年4⽉3⽇ 社員数 200名(2022年3⽉現在) 資⾦ 調達額 107億円 事業 内容 AI(⼈⼯知能)を活⽤した 教育プロダクトの開発および 提供
  7. 7 全国の塾・予備校に AI教材「atama+」を提供。 ⼀⼈ひとりの 「得意」「苦⼿」を分析し、 学習をパーソナライズします。

  8. ⓒ 2022 atama plus Inc. 塾を通して⽣徒にサービスを届ける事業モデル (BtoBtoC) 8 ⽣徒 塾・予備校

    *atama+利⽤料以外の費⽤も含む 教材システム (SaaS) atama+を 使った授業 atama plusとは
  9. なぜメタデータ管理が必要だったのか? 【課題と背景】

  10. ⓒ 2022 atama plus Inc. (旧)atama plusにおけるデータ基盤の実態 10 背景と課題:なぜメタデータ管理? とりあえず

    GDriveへ! プロダクト とりあえず転送! ほんの少しデータマート化 外部データ その場限りの分析が繰り返され、データ基盤はほぼ未開の地の状態 ダッシュボード DWH ローカルで分析! ・A塾_成績_old.xslx ・B塾_分析_v1.xslx ・A塾_分析_v2.xslx ・【最新】A塾_分析_v2.xslx ・20220401_C塾_分析_v2.xslx
  11. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 11 • BigQueryは⼀応導⼊されているが定常的な利⽤者は社内で数名程度

    ◦ データの転送料⾦のほうが10倍くらいコストが⾼い状態 • データウェアハウスはお気持ち程度だけある状態 ◦ 数名の分析者だけが使う便利テーブル。当然ほぼみんな知らない • データに関するドメイン知識は極⼀部の⼈に属⼈化している ◦ 分析したくてもまず何がどこにあるのかわからない • このような実態に対する問題意識の⽋如、及び統制する⼈が不在 ◦ データエンジニアが採⽤できない! 背景と課題:なぜメタデータ管理?
  12. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 12 背景と課題:なぜメタデータ管理? •

    データ活⽤をするためにはデータ基盤をもっと整え るべき • 書き捨てのクエリ、アドホックなエクセル分析はや めてちゃんとナレッジ蓄積するべき • ドメイン知識やデータ出し作業、分析業務が 属⼈化しているのは組織としてスケールしないから 標準化するような仕組みがあるべき データ分析者の⼈
  13. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 13 背景と課題:なぜメタデータ管理? 当然、⼀年経っても

    何も変化なし!!
  14. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 14 背景と課題:なぜメタデータ管理? 誰

    も や ら な い な ら ⾃ 分 で や る し か な い
  15. イケてるデータドリブンカンパニーに なるためにやったこと

  16. ⓒ 2022 atama plus Inc. 16 ①まずはデータ使いそうな⼈たちから情報を集める イケてるデータドリブンカンパニーになるためにやったこと 聞いてみるといくつか共通の原因がありそう 【緩募】

    なんでみんなBQ使わないの??? UXの⼈ データ強い⼈ UXの⼈ エンジニアの⼈
  17. ⓒ 2022 atama plus Inc. 聞いてわかった社内でデータ活⽤を阻む壁 17 1. やりたい分析はあるけど必要なデータがどこにあるかわからん 2.

    データの定義がよくわからん 3. 品質担保されているのかよくわからん 4. テーブルJOINしまくるのめんどくせぇ 5. SQLの書き⽅がそもそもわからん 6. 他⼈の書いたクソ⻑いSQLとかまじでわからん 7. これセキュリティ的に⼤丈夫?? イケてるデータドリブンカンパニーになるためにやったこと
  18. ⓒ 2022 atama plus Inc. 聞いてわかった社内でデータ活⽤を阻む壁 18 1. やりたい分析はあるけど必要なデータがどこにあるかわからん 2.

    データの定義がよくわからん 3. 品質担保されているのかよくわからん 4. テーブルJOINしまくるのめんどくせぇ 5. SQLの書き⽅がそもそもわからん 6. 他⼈の書いたクソ⻑いSQLとかまじでわからん 7. これセキュリティ的に⼤丈夫?? イケてるデータドリブンカンパニーになるためにやったこと メタデータ管理の仕組みで解決できそうなことが結構ありそう
  19. ⓒ 2022 atama plus Inc. そもそもBQのテーブルスキーマに書けばよいのでは?? ②まるっと解決できそうなイケてるソリューションの検討 19 イケてるデータドリブンカンパニーになるためにやったこと 洗い替えをしているテーブルでは毎⽇消えてしまう!!

    なんで 消えるんや!!
  20. ⓒ 2022 atama plus Inc. ②まるっと解決できそうなイケてるソリューションの検討 20 イケてるデータドリブンカンパニーになるためにやったこと

  21. ⓒ 2022 atama plus Inc. ②まるっと解決できそうなイケてるソリューションの検討 21 イケてるデータドリブンカンパニーになるためにやったこと メタデータ管理 完全に理解した!

    (してない)
  22. ⓒ 2022 atama plus Inc. ②まるっと解決できそうなイケてるソリューションの検討 22 イケてるデータドリブンカンパニーになるためにやったこと ▼絶対外せない要件の整理 ①メタデータをググるように全⽂検索できる

    ②気軽に誰でも書き込める ③PostgreSQL+BQに対応している ④環境構築+運⽤コストがほぼゼロ
  23. ⓒ 2022 atama plus Inc. ②まるっと解決できそうなイケてるソリューションの検討 23 イケてるデータドリブンカンパニーになるためにやったこと troccoデータカタログが⼀番ちょうど良さそう!

  24. ⓒ 2022 atama plus Inc. ③少数精鋭で⼀気呵成に初期⼊⼒ 24 イケてるデータドリブンカンパニーになるためにやったこと 有志でデータの整備と並⾏し、みんなが使える最初の状態を作る 地道なメタデータ⼊⼒で徳を積む⽇々

    ↓テーブル情報 ↓カラム情報
  25. ⓒ 2022 atama plus Inc. ④社内布教活動 25 イケてるデータドリブンカンパニーになるためにやったこと 超基本的なところから、なぜ今の組織において⼤事なのかを重点的に https://www.sbbit.jp/article/cont1/35420

  26. ⓒ 2022 atama plus Inc. ①メタデータはデータ活⽤する上でとても役⽴つ! ②メタデータを⼀つ⼊れるだけでも組織への貢献! ③同じ分析を繰り返すのはやめよう! ④社内布教活動 26

    イケてるデータドリブンカンパニーになるためにやったこと システムを導⼊したあとに継続的にメッセージを発信し続けた
  27. ⓒ 2022 atama plus Inc. 27 ⑤使いづらいところはガンガン忌憚なきFB イケてるデータドリブンカンパニーになるためにやったこと 爆速対応していただいたことでどんどん便利に!

  28. 結果どうなったの?

  29. ⓒ 2022 atama plus Inc. メタデータに救われた⼈々の声 29 結局どうなったの? データカタログの地味な便利さが徐々に伝わり始めた! こんなデータないかな?と思ったときに探せるのでとても便利!

    新規参画者にとって⾃分で検索してデータを理解できるのはとても ありがたい! 今まで⼈に聞いていたような情報が検索したらすぐに出てきて便利 さを実感した! 最近⼊社の⼈ Bizの⼈ UXの⼈
  30. ⓒ 2022 atama plus Inc. atama plusデータ基盤のMAU推移 30 結局どうなったの? データ基盤利⽤者が半年でおよそ5倍に爆増!

    BigQuery troccoデータカタログ 👆 データカタログ利⽤率は 約80%!
  31. まだ残る課題

  32. ⓒ 2022 atama plus Inc. 俺たちの戦いはこれからだ! 32 DWHを活⽤できる⼈はまだ少数 作るだけでは使われない。継続的な布教活動がまだまだ必要 まだ利⽤率が⼀部の⼈に偏っている

    メタデータを業務において定常的に活⽤している⼈はまだ⼀部 データエンジニアがいない! データモデリングとか真⾯⽬にやらないとヤバい!助けて! まだ残る課題
  33. まとめ

  34. ⓒ 2022 atama plus Inc. とどのつまり、今⽇伝えたかったこと 34 メタデータは地味だが役に⽴つ データを誰でもすぐに理解できる仕組みは活⽤促進において超重要 メタデータの重要性は多くの⼈にたぶん伝わらない

    なぜやるべきかの⽂脈を丁寧にインプットするのが⼤事 メタデータはみんなで育てる意識を醸成するのが⼤事 組織・チームへの貢献であることを繰り返し発信し続けるべし まとめ