関連資料:データ整備の基礎
お問い合わせ先 Twitter:@data_analyst_ メールフォーム:https://bit.ly/37orRqa
執筆者:しんゆう ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net
メタデータの5W1H考え方編
View Slide
はじめに本資料の目指すところ注意点自己紹介2
本資料の目指すところ本資料はメタデータを適切に運用し、管理していく「記録」の仕事をよりうまく進めて行きたいといままで考えて来たことをまとめた状況に依存するため唯一の正解は存在しないので、「これが正しい」ではなく「どんな方法があるのか」の選択肢を提示することを目指した資料にした3
注意点内容は全て筆者の個人的な経験に基づく発表時点のものです。知る範囲で最も良いと考えている方法や、そうであったらいいと思っていることをまとめていますデータ整備への理解が広まることへの利害関係者です。自覚の無いバイアスをもし見つけたらご指摘ください本資料の内容は予告なく追加・変更されます4
自己紹介しんゆうTwitter:@data_analyst_ブログ:データ分析とインテリジェンスhttps://analytics-and-intelligence.net主な活動は「データを使いやすくする人」、たまに「意思決定のための情報を提供する人」5
「データ整備」と「記録」6
データ整備の4つの仕事エンジニアとアナリストの間にある仕事を「データ整備」と呼ぶデータ整備とは「集約したデータを分析に使いやすくする」ことデータ整備は「抽出」「整理」「品質管理」「記録」で構成される「記録」とは「メタデータを適切に運用、管理する」こと7
「記録」とは書き残すことだけではないデータ整備における「記録」はメタデータを残すことだけでなく組織として活動し続けるための仕組み作りも含む書きやすさ、探しやすさ、使いやすさの追及ツールの選定、開発ルール策定、運用リソース配分8
「記録」の現状を概観する9
メタデータが記録されない理由聞けば必ず「必要だ」と答えは返ってくるが実際にはあまりメタデータは記録されていない理由は「個人レベルでは書かなくてもすぐには困らない」から自分は知っているので記録する必要性がないメタデータが本当に必要になるのはずっと後だからメタデータが記録されていなくて困るのは別の人だから利用するデータが限られているので重要性に気づかない10
メタデータの記録で起きる問題記録するにしても問題がいろいろ起きる記録するのにとにかく時間がかかる自分が恩恵を受けるわけでもないメタデータに時間を費やすモチベーションの低下評価する側もされる側も方法がわからないメタデータを抱え込む人がいるルール決めや運用に手間と時間がかかる11
記録されない悪循環誰かが困ってメタデータが必要だと言う記録が必要なのは理解するが時間もリソースもないその場しのぎで何とかしようとすれば何とかなる個人レベルでの活動が行われるが組織の活動にならないで次に進む記録することへのモチベーションの低下が起きる最初に戻る12
適切なツールが無い、は二の次人や組織の課題はどんなに優れたツールを導入しても解決しないツールの良し悪しが記録の大きな課題になるのはまだ先13
メタデータを5W1Hで考える14
「記録」を実現する方法を探る「記録」を実現するためには何を考えなければならないのかを5W1Hでわけて考える本資料ではまず5Wに焦点を当てる15
なぜメタデータを記録するのか16
記録しておかないといつも困るメタデータが無いと困る例の一部この日を境に売上が大きく変化している原因は何?数値の定義を変えたいのだけど使っている人いる?データが抜けているように見えるけどトラブルあった?詳しく知りたいけど誰に問い合わせたらいいの?テーブルの更新頻度はどれぐらいだっけ?特別な処理をしているけど何があった?17
問い合わせすればいい、では解決しない知りたい時に問い合わせても返事がもらえるとは限らない調査するので必要な時に間に合わない詳しい人はいるが忙しくて手が回らない作った当人が詳細を忘れているどこかに書いてあるがどこにあるかがわからない誰に聞くべきかがわからなくなることもある誰ならわかるかを調べるのにもコストが発生18
ゼロから自分で調べるのはとても大変知りたい人が自分で調べると更なるコストがかかる他人が作ったコードを解読する過去の経緯や様々な人のやり取りを掘り起こす口頭でのやり取りは関係者に思い出してもらわなければならない何も残っていなければ推測するしかないデータは企業独自の資産であり容易に外部の力を使えない19
だから記録しておく知識は人に依存すると人と共に消える。人はいつか必ずいなくなるが記録しておけば残る異動、退職、定年、病気や事故知識は必要な時に必要な人が入手できなければならない欠席、遅刻、早退、外出など一時的な不在であっても緊急時には存在しないのと同じ必要になってから調べていたら間に合わないかもしれない20
メタデータとして何を記録するのか21
全てがメタデータメタデータは「データについてのデータ」と言われるあるデータに関することは全てがメタデータ具体的な例を見たほうがわかりやすい22
テーブルのメタデータの例(1)例として、あるテーブルのメタデータの一部を挙げてみるカラム一覧行数、容量作成者管理責任者作成日時最終更新日時23
テーブルのメタデータの例(2)あるテーブルのメタデータの続き更新頻度アクセスできる人アクセスしてはいけない人利用した人利用日時24
テーブルのメタデータの例(3)あるテーブルのメタデータの続きこのテーブルを作るために使われるテーブルこのテーブルを使って作られるテーブルやアウトプットこのテーブルが関係しているバッチ処理やジョブ25
テーブルのメタデータの例(4)あるテーブルのメタデータの続きテーブルの概要なぜこのテーブルが作られたのかこのテーブルはどのような思想で設計されているかなぜこのカラムがこのテーブルに入っているのかなぜあのカラムがこのテーブルにないのか26
テーブルのメタデータの例(5)あるテーブルのメタデータの続き特殊な処理が行われた内容、理由、期間似たような名前や内容のテーブルとの使い分けこのテーブルが作られる以前にあったテーブルの名前27
メタデータはたくさんある1つのテーブルのメタデータだけでも多くの種類があるテーブルごとにメタデータがあり、その中のカラムごとにまたメタデータがあるそれらを組み合わせて作る別のデータでもメタデータがあるデータを使えば使うほどメタデータが新しく増えていく目的、人、システム、トラブル28
メタデータをいつ記録するのか29
メタデータはいつでも発生するシステムやアプリを開発したデータ基盤に集約した新しい使われ方をしたシステムや人的エラーにより不正な値が発生した目的や用途が違う部署の利用者が増えた30
メタデータが発生した時に記録する時間がたてばたつほど記録するのに時間がかかるようになるのでメタデータが発生した時点で即座に記録する経緯を思い出すやり取りを探す31
必要になって調べたら記録する不要なメタデータを書かずに済む一方であまり使われないデータのメタデータが放置されることになる必要になってから調べようとしてもあまりに時間が経ちすぎてわからないかもしれない32
重要なメタデータを優先して記録する何でも記録しようとすると際限なくリソースを取られるので絞り込むどのメタデータがどれぐらい重要なのかの判断がしづらいすぐには不要だけれどもいずれ重要になるかもしれないメタデータは記録するのか33
時間を設けて記録する一定時間をメタデータを記録する時間とするまとまった時間を確保して一気に書く34
メタデータを誰が記録するのか35
作った当人が記録するそのデータを開発した、あるいは設定した当事者が記録する最も(社内で)そのデータについて詳しい仕様だけでなく経緯や理念も理解している36
調べた人が記録する新しいメタデータについて調べたらその人が記録するバグを見つけた新しい使い方を見つけた外部から入手したデータの詳細を聞いたエンジニアに仕様について問い合わせた37
記録の重要さに気づいた人が記録する誰も書いていないのであれば重要さに気づいた人が積極的に書く個人の自主的な活動から組織への動きになれるかが継続の鍵38
システムが記録するメタデータの作成と記録を自動化する集計や統計処理が必要なメタデータ最大値やエラー率システムログで取れるメタデータデータ量や権限39
みんなで記録するメタデータが重要なのは認識しているが書かない人が多いのでみんなで一斉に取り組むリーダーによる声がけもよくされる課題:すぐやらなくなる40
メタデータを記録する役割を作る当事者にリソースを無理に割かせてもモチベーションが低下する別の役割を作って記録の役割にリソースと責任を与える41
メタデータをどこに記録するのか42
一か所にまとめる一緒に集めないと同じ対象のメタデータなのに内容がぶれる1か所変更するなら他も同時に変更しないといけないどこに書いてあるのかがわからなくなる違いを比較してどこに揃えるか、あるいは別の新しい表現にするかの調整が必要になる43
身近な場所に記録する実際に利用する際に一番目につくところに記録する散り散りになってしまうのでリンクを張るなど仕組みで制御する44
まとめ45
一番良い組み合わせを探す「唯一の良い方法」は多分存在しないので、その時々の状況に合わせた「一番良い組み合わせ」を考えていく組織全体の規模やリテラシーデータ人材の人数やスキルデータ活用の影響度他の仕事とのバランスを取ることも意識するどうやるかは次の資料にてまとめる予定46
関連資料・お問い合わせデータ整備全般については「データ整備の基礎」のスライドをご覧くださいhttps://speakerdeck.com/shinu/data-seibiデータ整備に関するご相談はお気軽にTwitterのDM :@data_analyst_メールフォーム:https://bit.ly/37orRqa47