Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
メタデータの5W1H 考え方編
Slide 2
Slide 2 text
はじめに 本資料の目指すところ 注意点 自己紹介 2
Slide 3
Slide 3 text
本資料の目指すところ 本資料はメタデータを適切に運用し、管理していく「記録」 の仕事をよりうまく進めて行きたいといままで考えて来たこ とをまとめた 状況に依存するため唯一の正解は存在しないので、「これが 正しい」ではなく「どんな方法があるのか」の選択肢を提示 することを目指した資料にした 3
Slide 4
Slide 4 text
注意点 内容は全て筆者の個人的な経験に基づく発表時点のもので す。知る範囲で最も良いと考えている方法や、そうであった らいいと思っていることをまとめています データ整備への理解が広まることへの利害関係者です。自覚 の無いバイアスをもし見つけたらご指摘ください 本資料の内容は予告なく追加・変更されます 4
Slide 5
Slide 5 text
自己紹介 しんゆう Twitter:@data_analyst_ ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net 主な活動は「データを使いやすくする人」、たまに「意思決 定のための情報を提供する人」 5
Slide 6
Slide 6 text
「データ整備」と「記録」 6
Slide 7
Slide 7 text
データ整備の4つの仕事 エンジニアとアナリストの間にある仕事を「データ整備」と 呼ぶ データ整備とは「集約したデータを分析に使いやすくする」 こと データ整備は「抽出」「整理」「品質管理」「記録」で構成 される 「記録」とは「メタデータを適切に運用、管理する」こと 7
Slide 8
Slide 8 text
「記録」とは書き残すことだけではない データ整備における「記録」はメタデータを残すことだけで なく組織として活動し続けるための仕組み作りも含む 書きやすさ、探しやすさ、使いやすさの追及 ツールの選定、開発 ルール策定、運用 リソース配分 8
Slide 9
Slide 9 text
「記録」の現状を概観する 9
Slide 10
Slide 10 text
メタデータが記録されない理由 聞けば必ず「必要だ」と答えは返ってくるが実際にはあまり メタデータは記録されていない 理由は「個人レベルでは書かなくてもすぐには困らない」か ら 自分は知っているので記録する必要性がない メタデータが本当に必要になるのはずっと後だから メタデータが記録されていなくて困るのは別の人だから 利用するデータが限られているので重要性に気づかない 10
Slide 11
Slide 11 text
メタデータの記録で起きる問題 記録するにしても問題がいろいろ起きる 記録するのにとにかく時間がかかる 自分が恩恵を受けるわけでもないメタデータに時間を費や すモチベーションの低下 評価する側もされる側も方法がわからない メタデータを抱え込む人がいる ルール決めや運用に手間と時間がかかる 11
Slide 12
Slide 12 text
記録されない悪循環 誰かが困ってメタデータが必要だと言う 記録が必要なのは理解するが時間もリソースもない その場しのぎで何とかしようとすれば何とかなる 個人レベルでの活動が行われるが組織の活動にならないで次 に進む 記録することへのモチベーションの低下が起きる 最初に戻る 12
Slide 13
Slide 13 text
適切なツールが無い、は二の次 人や組織の課題はどんなに優れたツールを導入しても解決し ない ツールの良し悪しが記録の大きな課題になるのはまだ先 13
Slide 14
Slide 14 text
メタデータを5W1Hで考える 14
Slide 15
Slide 15 text
「記録」を実現する方法を探る 「記録」を実現するためには何を考えなければならないのか を5W1Hでわけて考える 本資料ではまず5Wに焦点を当てる 15
Slide 16
Slide 16 text
なぜメタデータを記録するのか 16
Slide 17
Slide 17 text
記録しておかないといつも困る メタデータが無いと困る例の一部 この日を境に売上が大きく変化している原因は何? 数値の定義を変えたいのだけど使っている人いる? データが抜けているように見えるけどトラブルあった? 詳しく知りたいけど誰に問い合わせたらいいの? テーブルの更新頻度はどれぐらいだっけ? 特別な処理をしているけど何があった? 17
Slide 18
Slide 18 text
問い合わせすればいい、では解決しない 知りたい時に問い合わせても返事がもらえるとは限らない 調査するので必要な時に間に合わない 詳しい人はいるが忙しくて手が回らない 作った当人が詳細を忘れている どこかに書いてあるがどこにあるかがわからない 誰に聞くべきかがわからなくなることもある 誰ならわかるかを調べるのにもコストが発生 18
Slide 19
Slide 19 text
ゼロから自分で調べるのはとても大変 知りたい人が自分で調べると更なるコストがかかる 他人が作ったコードを解読する 過去の経緯や様々な人のやり取りを掘り起こす 口頭でのやり取りは関係者に思い出してもらわなければな らない 何も残っていなければ推測するしかない データは企業独自の資産であり容易に外部の力を使えない 19
Slide 20
Slide 20 text
だから記録しておく 知識は人に依存すると人と共に消える。人はいつか必ずいな くなるが記録しておけば残る 異動、退職、定年、病気や事故 知識は必要な時に必要な人が入手できなければならない 欠席、遅刻、早退、外出など一時的な不在であっても緊急 時には存在しないのと同じ 必要になってから調べていたら間に合わないかもしれない 20
Slide 21
Slide 21 text
メタデータとして何を記録するのか 21
Slide 22
Slide 22 text
全てがメタデータ メタデータは「データについてのデータ」と言われる あるデータに関することは全てがメタデータ 具体的な例を見たほうがわかりやすい 22
Slide 23
Slide 23 text
テーブルのメタデータの例(1) 例として、あるテーブルのメタデータの一部を挙げてみる カラム一覧 行数、容量 作成者 管理責任者 作成日時 最終更新日時 23
Slide 24
Slide 24 text
テーブルのメタデータの例(2) あるテーブルのメタデータの続き 更新頻度 アクセスできる人 アクセスしてはいけない人 利用した人 利用日時 24
Slide 25
Slide 25 text
テーブルのメタデータの例(3) あるテーブルのメタデータの続き このテーブルを作るために使われるテーブル このテーブルを使って作られるテーブルやアウトプット このテーブルが関係しているバッチ処理やジョブ 25
Slide 26
Slide 26 text
テーブルのメタデータの例(4) あるテーブルのメタデータの続き テーブルの概要 なぜこのテーブルが作られたのか このテーブルはどのような思想で設計されているか なぜこのカラムがこのテーブルに入っているのか なぜあのカラムがこのテーブルにないのか 26
Slide 27
Slide 27 text
テーブルのメタデータの例(5) あるテーブルのメタデータの続き 特殊な処理が行われた内容、理由、期間 似たような名前や内容のテーブルとの使い分け このテーブルが作られる以前にあったテーブルの名前 27
Slide 28
Slide 28 text
メタデータはたくさんある 1つのテーブルのメタデータだけでも多くの種類がある テーブルごとにメタデータがあり、その中のカラムごとにま たメタデータがある それらを組み合わせて作る別のデータでもメタデータがある データを使えば使うほどメタデータが新しく増えていく 目的、人、システム、トラブル 28
Slide 29
Slide 29 text
メタデータをいつ記録するのか 29
Slide 30
Slide 30 text
メタデータはいつでも発生する システムやアプリを開発した データ基盤に集約した 新しい使われ方をした システムや人的エラーにより不正な値が発生した 目的や用途が違う部署の利用者が増えた 30
Slide 31
Slide 31 text
メタデータが発生した時に記録する 時間がたてばたつほど記録するのに時間がかかるようになる のでメタデータが発生した時点で即座に記録する 経緯を思い出す やり取りを探す 31
Slide 32
Slide 32 text
必要になって調べたら記録する 不要なメタデータを書かずに済む 一方であまり使われないデータのメタデータが放置されるこ とになる 必要になってから調べようとしてもあまりに時間が経ちすぎ てわからないかもしれない 32
Slide 33
Slide 33 text
重要なメタデータを優先して記録する 何でも記録しようとすると際限なくリソースを取られるので 絞り込む どのメタデータがどれぐらい重要なのかの判断がしづらい すぐには不要だけれどもいずれ重要になるかもしれないメ タデータは記録するのか 33
Slide 34
Slide 34 text
時間を設けて記録する 一定時間をメタデータを記録する時間とする まとまった時間を確保して一気に書く 34
Slide 35
Slide 35 text
メタデータを誰が記録するのか 35
Slide 36
Slide 36 text
作った当人が記録する そのデータを開発した、あるいは設定した当事者が記録する 最も(社内で)そのデータについて詳しい 仕様だけでなく経緯や理念も理解している 36
Slide 37
Slide 37 text
調べた人が記録する 新しいメタデータについて調べたらその人が記録する バグを見つけた 新しい使い方を見つけた 外部から入手したデータの詳細を聞いた エンジニアに仕様について問い合わせた 37
Slide 38
Slide 38 text
記録の重要さに気づいた人が記録する 誰も書いていないのであれば重要さに気づいた人が積極的に 書く 個人の自主的な活動から組織への動きになれるかが継続の鍵 38
Slide 39
Slide 39 text
システムが記録する メタデータの作成と記録を自動化する 集計や統計処理が必要なメタデータ 最大値やエラー率 システムログで取れるメタデータ データ量や権限 39
Slide 40
Slide 40 text
みんなで記録する メタデータが重要なのは認識しているが書かない人が多いの でみんなで一斉に取り組む リーダーによる声がけもよくされる 課題:すぐやらなくなる 40
Slide 41
Slide 41 text
メタデータを記録する役割を作る 当事者にリソースを無理に割かせてもモチベーションが低下 する 別の役割を作って記録の役割にリソースと責任を与える 41
Slide 42
Slide 42 text
メタデータをどこに記録するのか 42
Slide 43
Slide 43 text
一か所にまとめる 一緒に集めないと同じ対象のメタデータなのに内容がぶれる 1か所変更するなら他も同時に変更しないといけない どこに書いてあるのかがわからなくなる 違いを比較してどこに揃えるか、あるいは別の新しい表現 にするかの調整が必要になる 43
Slide 44
Slide 44 text
身近な場所に記録する 実際に利用する際に一番目につくところに記録する 散り散りになってしまうのでリンクを張るなど仕組みで制御 する 44
Slide 45
Slide 45 text
まとめ 45
Slide 46
Slide 46 text
一番良い組み合わせを探す 「唯一の良い方法」は多分存在しないので、その時々の状況 に合わせた「一番良い組み合わせ」を考えていく 組織全体の規模やリテラシー データ人材の人数やスキル データ活用の影響度 他の仕事とのバランスを取ることも意識する どうやるかは次の資料にてまとめる予定 46
Slide 47
Slide 47 text
関連資料・お問い合わせ データ整備全般については「データ整備の基礎」のスライド をご覧ください https://speakerdeck.com/shinu/data-seibi データ整備に関するご相談はお気軽に TwitterのDM :@data_analyst_ メールフォーム:https://bit.ly/37orRqa 47