データ整備の「やり方」はどうなっていくか
by
ShinU
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
データ整備の「やり方」は どうなっていくか データ整備の「やり方」はどうなっていくか
Slide 2
Slide 2 text
はじめに データ整備の「やり方」はどうなっていくか 2
Slide 3
Slide 3 text
今日のお話 データ整備の仕事はなくならないが「やり方」は変わる 現在を基準として、今後2,3 年で実現しそうなことは何か、を 中心に考える 時間の都合上、特に気になっていることに絞る データ整備の「やり方」はどうなっていくか 3
Slide 4
Slide 4 text
筆者紹介 しんゆう(@data_analyst_ ) データを使いやすくする人 ブログ: https://note.com/shinu 「データ整備とデータマネジメント」を最近公開しました https://dataseibi-and-management.net/ データ整備の「やり方」はどうなっていくか 4
Slide 5
Slide 5 text
データ整備とは 最初に言葉の定義を軽くしておき データ整備とは、 「集約されてから分析に使われるまでに行わ れる一連の仕事の総称」 具体的には抽出・整理・品質管理・記録の4 つの仕事を指す 詳しくは「データ整備の定義」を参照のこと https://dataseibi-and-management.net/data-seibi-guide- definition.html データ整備の「やり方」はどうなっていくか 5
Slide 6
Slide 6 text
データ整備の全体的な動き AI やツールにより簡単にできることが増えるが、テクノロジ ーの恩恵はエンジニアリングに比べると少ない より多くの人が、より早い段階から気軽にデータに触れる機 会が増えること(民主化)で混乱が起きる 事前の対策、仕組化のための調整やコミュニケーションの割 合がさらに増加していく データ整備の「やり方」はどうなっていくか 6
Slide 7
Slide 7 text
抽出の「やり方」のこれから 欲しいデータを探すのはかなり楽になる 「抽出のための」SQL やダッシュボード作成は自然言語でよ り容易になる 特定のBI が使えることの優位性は減る データ整備の「やり方」はどうなっていくか 7
Slide 8
Slide 8 text
データを探すのは楽になる 「既存のデータやダッシュボードで使えそうなものがないか」 と「ほしいと思っているデータはどこにあるか」の両方とも 労力はAI のおかげでかなり減るはず ただし前提としてアクセスできる範囲にあること 存在していないデータやアクセスできない範囲にあるものは 当然出てこないのでいくらかは楽になる、ぐらいか データ整備の「やり方」はどうなっていくか 8
Slide 9
Slide 9 text
SQL やダッシュボードの作成 「抽出のための」とは、絞り込みとgroup by を想定 データが整理されていれば、このあたりのSQL を書く機会は もうすでにほとんどないはず 「年毎の売り上げの推移を事業別でみたい+グラフ化+期間 や色の支持+自動更新設定」ぐらいなら遠からず自然言語処 理だけでできるようになるのでは データ整備の「やり方」はどうなっていくか 9
Slide 10
Slide 10 text
特定のBI が使えることの優位性は減る 「BI 操作の自然言語化」が進めば、特定のツールの操作方法 に習熟する必要性はなくなる 残るのは自動でうまくいかない場合の最後の調整ぐらいか データ整備の「やり方」はどうなっていくか 10
Slide 11
Slide 11 text
整理の「やり方」のこれから SQL を書く力より正しいことを決める力の方が重要になる データマートを作る機会は減っていく ” 民主化” よる混乱への対応を余儀なくされる データ整備の「やり方」はどうなっていくか 11
Slide 12
Slide 12 text
正しいことを決める力の方が重要になる AI でSQL をかけるようになってきたので自分で書くよりも 「この場合にはこのような結果で正しいか」という問いと確 認の重要性がさらに増す 最終的には人の手がまだ当面は必要。まったくSQL を書かな くて済む日が来るのかはわからない データ整備の「やり方」はどうなっていくか 12
Slide 13
Slide 13 text
データマートを作る機会は減っていく 処理能力とデータを探す能力が向上すればデータマート自体 が不要になるケースが増える それでも集計単位ごとの最小粒度で全パターンを残せるよう にはすぐにはならなそう 管理するテーブル数が減る恩恵も管理自体が楽になっていく のであれば効果が薄れるかも データ整備の「やり方」はどうなっていくか 13
Slide 14
Slide 14 text
” 民主化” よる混乱への対応 誰でもデータ簡単に扱えるようになっても、正しく扱えるわ けではない。ガバナンスにも限界あり 放置すると、ぐちゃぐちゃになってどうにもならくなってか ら直してほしいと要求される 早い段階からデータ利用への介入をすることが標準になって いくのでは(ただし、この動きは少し遅れてくるはず) データ整備の「やり方」はどうなっていくか 14
Slide 15
Slide 15 text
品質管理の「やり方」のこれから テストの自動化は進むも限界あり 整備の中でも変化するところが少なそうな印象 データ整備の「やり方」はどうなっていくか 15
Slide 16
Slide 16 text
テストの自動化は進むも限界あり 利用状況から優先順位を自動判定して「品質のチェックを行 うデータを選ぶ機能」はできそうな気がするが、重要度の判 定ができなければかなり限定的な効果では 整備には入れていない、さらに手前の「評価」の部分は影響 大きそうだけど(ファクトチェックとか) 。 。 。 最大の問題である「何をどれぐらいチェックするかの品質レ ベルを決める」ことの解決はまだ先か データ整備の「やり方」はどうなっていくか 16
Slide 17
Slide 17 text
記録の「やり方」のこれから メタデータが「あればうれしい」から「ないと話にならない」 へとかわっていく 検索が容易になるのでとにかくメタデータを書く動きが強ま る 組織としての活動が重要になり、マネジメントの重要性が上 がる データ整備の「やり方」はどうなっていくか 17
Slide 18
Slide 18 text
メタデータは「ないと話にならない」へ ” 民主化” の流れは止まらない(必要かどうかはさておき) 多くの人がAI でデータを扱い出すとメタデータがないと使え ない。都度問い合わせ対応では間に合わない 書くべきタイミングが変わることで聞かれたら答える、が許 されなくなる つまり、今まで以上に必要になる前に書くという流れに変わ ってくる データ整備の「やり方」はどうなっていくか 18
Slide 19
Slide 19 text
検索が容易になる AI でメタデータを探すことが容易になってくる どんな形でもとりあえず検索できる範囲に存在していればい いので、形式よりもまずは残すことが推奨されるようになる とはいえある程度の「メタデータの整理」はまだ必要そう 定義を会議で決めた際のやりとりを音声データそのままで 残す、ではなくテキストにしておくとか データ整備の「やり方」はどうなっていくか 19
Slide 20
Slide 20 text
組織としての活動が重要になる 文脈が必要なメタデータは完全には自動化できない、という のはおそらく今後も変わらない 一方で、需要の増大に対応するためには「気づいた人が書く」 から「組織として書く」へ移行してい かざるを得ない 自分で書く、から誰かに書いてもらうためのデータマネジメ ントに軸足変わっていく データ整備の「やり方」はどうなっていくか 20
Slide 21
Slide 21 text
さいごに データ整備の「やり方」の変化を考えた 仕事のやり方が変われば、かかわる人の動きも変わってくる エンジニア・分析者・ビジネスサイド含めてデータ整備に関 わる人の「動き方」はどう変わるのか、はまた次の話題 データ整備の「やり方」はどうなっていくか 21