Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メタデータの5W1H 考え方編

ShinU
February 03, 2023

メタデータの5W1H 考え方編

関連資料:データ整備の基礎

お問い合わせ先
Twitter:@data_analyst_
メールフォーム:https://bit.ly/37orRqa

執筆者:しんゆう
ブログ:データ分析とインテリジェンス
https://analytics-and-intelligence.net

ShinU

February 03, 2023
Tweet

More Decks by ShinU

Other Decks in Business

Transcript

  1. メタデータの5W1H
    考え方編

    View Slide

  2. はじめに
    本資料の目指すところ
    注意点
    自己紹介
    2

    View Slide

  3. 本資料の目指すところ
    本資料はメタデータを適切に運用し、管理していく「記録」
    の仕事をよりうまく進めて行きたいといままで考えて来たこ
    とをまとめた
    状況に依存するため唯一の正解は存在しないので、「これが
    正しい」ではなく「どんな方法があるのか」の選択肢を提示
    することを目指した資料にした
    3

    View Slide

  4. 注意点
    内容は全て筆者の個人的な経験に基づく発表時点のもので
    す。知る範囲で最も良いと考えている方法や、そうであった
    らいいと思っていることをまとめています
    データ整備への理解が広まることへの利害関係者です。自覚
    の無いバイアスをもし見つけたらご指摘ください
    本資料の内容は予告なく追加・変更されます
    4

    View Slide

  5. 自己紹介
    しんゆう
    Twitter:@data_analyst_
    ブログ:データ分析とインテリジェンス
    https://analytics-and-intelligence.net
    主な活動は「データを使いやすくする人」、たまに「意思決
    定のための情報を提供する人」
    5

    View Slide

  6. 「データ整備」と「記録」
    6

    View Slide

  7. データ整備の4つの仕事
    エンジニアとアナリストの間にある仕事を「データ整備」と
    呼ぶ
    データ整備とは「集約したデータを分析に使いやすくする」
    こと
    データ整備は「抽出」「整理」「品質管理」「記録」で構成
    される
    「記録」とは「メタデータを適切に運用、管理する」こと
    7

    View Slide

  8. 「記録」とは書き残すことだけではない
    データ整備における「記録」はメタデータを残すことだけで
    なく組織として活動し続けるための仕組み作りも含む
    書きやすさ、探しやすさ、使いやすさの追及
    ツールの選定、開発
    ルール策定、運用
    リソース配分
    8

    View Slide

  9. 「記録」の現状を概観する
    9

    View Slide

  10. メタデータが記録されない理由
    聞けば必ず「必要だ」と答えは返ってくるが実際にはあまり
    メタデータは記録されていない
    理由は「個人レベルでは書かなくてもすぐには困らない」か

    自分は知っているので記録する必要性がない
    メタデータが本当に必要になるのはずっと後だから
    メタデータが記録されていなくて困るのは別の人だから
    利用するデータが限られているので重要性に気づかない
    10

    View Slide

  11. メタデータの記録で起きる問題
    記録するにしても問題がいろいろ起きる
    記録するのにとにかく時間がかかる
    自分が恩恵を受けるわけでもないメタデータに時間を費や
    すモチベーションの低下
    評価する側もされる側も方法がわからない
    メタデータを抱え込む人がいる
    ルール決めや運用に手間と時間がかかる
    11

    View Slide

  12. 記録されない悪循環
    誰かが困ってメタデータが必要だと言う
    記録が必要なのは理解するが時間もリソースもない
    その場しのぎで何とかしようとすれば何とかなる
    個人レベルでの活動が行われるが組織の活動にならないで次
    に進む
    記録することへのモチベーションの低下が起きる
    最初に戻る
    12

    View Slide

  13. 適切なツールが無い、は二の次
    人や組織の課題はどんなに優れたツールを導入しても解決し
    ない
    ツールの良し悪しが記録の大きな課題になるのはまだ先
    13

    View Slide

  14. メタデータを5W1Hで考える
    14

    View Slide

  15. 「記録」を実現する方法を探る
    「記録」を実現するためには何を考えなければならないのか
    を5W1Hでわけて考える
    本資料ではまず5Wに焦点を当てる
    15

    View Slide

  16. なぜメタデータを記録するのか
    16

    View Slide

  17. 記録しておかないといつも困る
    メタデータが無いと困る例の一部
    この日を境に売上が大きく変化している原因は何?
    数値の定義を変えたいのだけど使っている人いる?
    データが抜けているように見えるけどトラブルあった?
    詳しく知りたいけど誰に問い合わせたらいいの?
    テーブルの更新頻度はどれぐらいだっけ?
    特別な処理をしているけど何があった?
    17

    View Slide

  18. 問い合わせすればいい、では解決しない
    知りたい時に問い合わせても返事がもらえるとは限らない
    調査するので必要な時に間に合わない
    詳しい人はいるが忙しくて手が回らない
    作った当人が詳細を忘れている
    どこかに書いてあるがどこにあるかがわからない
    誰に聞くべきかがわからなくなることもある
    誰ならわかるかを調べるのにもコストが発生
    18

    View Slide

  19. ゼロから自分で調べるのはとても大変
    知りたい人が自分で調べると更なるコストがかかる
    他人が作ったコードを解読する
    過去の経緯や様々な人のやり取りを掘り起こす
    口頭でのやり取りは関係者に思い出してもらわなければな
    らない
    何も残っていなければ推測するしかない
    データは企業独自の資産であり容易に外部の力を使えない
    19

    View Slide

  20. だから記録しておく
    知識は人に依存すると人と共に消える。人はいつか必ずいな
    くなるが記録しておけば残る
    異動、退職、定年、病気や事故
    知識は必要な時に必要な人が入手できなければならない
    欠席、遅刻、早退、外出など一時的な不在であっても緊急
    時には存在しないのと同じ
    必要になってから調べていたら間に合わないかもしれない
    20

    View Slide

  21. メタデータとして何を記録するのか
    21

    View Slide

  22. 全てがメタデータ
    メタデータは「データについてのデータ」と言われる
    あるデータに関することは全てがメタデータ
    具体的な例を見たほうがわかりやすい
    22

    View Slide

  23. テーブルのメタデータの例(1)
    例として、あるテーブルのメタデータの一部を挙げてみる
    カラム一覧
    行数、容量
    作成者
    管理責任者
    作成日時
    最終更新日時
    23

    View Slide

  24. テーブルのメタデータの例(2)
    あるテーブルのメタデータの続き
    更新頻度
    アクセスできる人
    アクセスしてはいけない人
    利用した人
    利用日時
    24

    View Slide

  25. テーブルのメタデータの例(3)
    あるテーブルのメタデータの続き
    このテーブルを作るために使われるテーブル
    このテーブルを使って作られるテーブルやアウトプット
    このテーブルが関係しているバッチ処理やジョブ
    25

    View Slide

  26. テーブルのメタデータの例(4)
    あるテーブルのメタデータの続き
    テーブルの概要
    なぜこのテーブルが作られたのか
    このテーブルはどのような思想で設計されているか
    なぜこのカラムがこのテーブルに入っているのか
    なぜあのカラムがこのテーブルにないのか
    26

    View Slide

  27. テーブルのメタデータの例(5)
    あるテーブルのメタデータの続き
    特殊な処理が行われた内容、理由、期間
    似たような名前や内容のテーブルとの使い分け
    このテーブルが作られる以前にあったテーブルの名前
    27

    View Slide

  28. メタデータはたくさんある
    1つのテーブルのメタデータだけでも多くの種類がある
    テーブルごとにメタデータがあり、その中のカラムごとにま
    たメタデータがある
    それらを組み合わせて作る別のデータでもメタデータがある
    データを使えば使うほどメタデータが新しく増えていく
    目的、人、システム、トラブル
    28

    View Slide

  29. メタデータをいつ記録するのか
    29

    View Slide

  30. メタデータはいつでも発生する
    システムやアプリを開発した
    データ基盤に集約した
    新しい使われ方をした
    システムや人的エラーにより不正な値が発生した
    目的や用途が違う部署の利用者が増えた
    30

    View Slide

  31. メタデータが発生した時に記録する
    時間がたてばたつほど記録するのに時間がかかるようになる
    のでメタデータが発生した時点で即座に記録する
    経緯を思い出す
    やり取りを探す
    31

    View Slide

  32. 必要になって調べたら記録する
    不要なメタデータを書かずに済む
    一方であまり使われないデータのメタデータが放置されるこ
    とになる
    必要になってから調べようとしてもあまりに時間が経ちすぎ
    てわからないかもしれない
    32

    View Slide

  33. 重要なメタデータを優先して記録する
    何でも記録しようとすると際限なくリソースを取られるので
    絞り込む
    どのメタデータがどれぐらい重要なのかの判断がしづらい
    すぐには不要だけれどもいずれ重要になるかもしれないメ
    タデータは記録するのか
    33

    View Slide

  34. 時間を設けて記録する
    一定時間をメタデータを記録する時間とする
    まとまった時間を確保して一気に書く
    34

    View Slide

  35. メタデータを誰が記録するのか
    35

    View Slide

  36. 作った当人が記録する
    そのデータを開発した、あるいは設定した当事者が記録する
    最も(社内で)そのデータについて詳しい
    仕様だけでなく経緯や理念も理解している
    36

    View Slide

  37. 調べた人が記録する
    新しいメタデータについて調べたらその人が記録する
    バグを見つけた
    新しい使い方を見つけた
    外部から入手したデータの詳細を聞いた
    エンジニアに仕様について問い合わせた
    37

    View Slide

  38. 記録の重要さに気づいた人が記録する
    誰も書いていないのであれば重要さに気づいた人が積極的に
    書く
    個人の自主的な活動から組織への動きになれるかが継続の鍵
    38

    View Slide

  39. システムが記録する
    メタデータの作成と記録を自動化する
    集計や統計処理が必要なメタデータ
    最大値やエラー率
    システムログで取れるメタデータ
    データ量や権限
    39

    View Slide

  40. みんなで記録する
    メタデータが重要なのは認識しているが書かない人が多いの
    でみんなで一斉に取り組む
    リーダーによる声がけもよくされる
    課題:すぐやらなくなる
    40

    View Slide

  41. メタデータを記録する役割を作る
    当事者にリソースを無理に割かせてもモチベーションが低下
    する
    別の役割を作って記録の役割にリソースと責任を与える
    41

    View Slide

  42. メタデータをどこに記録するのか
    42

    View Slide

  43. 一か所にまとめる
    一緒に集めないと同じ対象のメタデータなのに内容がぶれる
    1か所変更するなら他も同時に変更しないといけない
    どこに書いてあるのかがわからなくなる
    違いを比較してどこに揃えるか、あるいは別の新しい表現
    にするかの調整が必要になる
    43

    View Slide

  44. 身近な場所に記録する
    実際に利用する際に一番目につくところに記録する
    散り散りになってしまうのでリンクを張るなど仕組みで制御
    する
    44

    View Slide

  45. まとめ
    45

    View Slide

  46. 一番良い組み合わせを探す
    「唯一の良い方法」は多分存在しないので、その時々の状況
    に合わせた「一番良い組み合わせ」を考えていく
    組織全体の規模やリテラシー
    データ人材の人数やスキル
    データ活用の影響度
    他の仕事とのバランスを取ることも意識する
    どうやるかは次の資料にてまとめる予定
    46

    View Slide

  47. 関連資料・お問い合わせ
    データ整備全般については「データ整備の基礎」のスライド
    をご覧ください
    https://speakerdeck.com/shinu/data-seibi
    データ整備に関するご相談はお気軽に
    TwitterのDM :@data_analyst_
    メールフォーム:https://bit.ly/37orRqa
    47

    View Slide