Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DX時代に必須の、データ分析基盤構築に必要な事
Search
Yosuke Katsuki
December 22, 2020
Technology
1
1.7k
DX時代に必須の、データ分析基盤構築に必要な事
2020年12月22日
インフォマティカ+AWS+クラスメソッド合同セミナー
インフォマティカ☓クラスメソッドで実現する次世代のクラウドレイクハウスアーキテクチャ
」
クラスメソッドセッション資料
Yosuke Katsuki
December 22, 2020
Tweet
Share
More Decks by Yosuke Katsuki
See All by Yosuke Katsuki
DX推進に必須のデータ基盤最新動向2023
yokatsuki
1
1k
近道こちらです。DX推進に必須のデータ分析基盤構築
yokatsuki
1
420
SQL?NoSQL?各技術の違いをハッキリさせて目的に合ったデータ分析基盤を構築しよう!
yokatsuki
1
440
準備できていますか?DX時代におけるデータ活用基盤の基本
yokatsuki
0
190
これわかってれば完璧!脱☆Snowflake初心者 #SnowVillage LIVE 005
yokatsuki
0
400
Other Decks in Technology
See All in Technology
モノリスの認知負荷に立ち向かう、コードの所有者という思想と現実
kzkmaeda
0
110
みんなで育てるNewsPicksのSLO
troter
4
1.1k
空が堕ち、大地が割れ、海が涸れた日~もしも愛用しているフレームワークが開発停止したら?~ #phperkaigi 2025
77web
2
980
LINE API Deep Dive Q1 2025: Unlocking New Possibilities
linedevth
1
150
Go の analysis パッケージで自作するリファクタリングツール
kworkdev
PRO
1
370
caching_sha2_passwordのはなし
boro1234
0
210
新卒エンジニア研修の試行錯誤と工夫/nikkei-tech-talk-31
nishiuma
0
190
Cloud Native PG 使ってみて気づいたことと最新機能の紹介 - 第52回PostgreSQLアンカンファレンス
seinoyu
0
170
グループポリシー再確認
murachiakira
0
160
スケールアップ企業のQA組織のバリューを最大限に引き出すための取り組み
tarappo
4
880
Amazon EKS Auto ModeでKubernetesの運用をシンプルにする
sshota0809
0
110
ルートユーザーの活用と管理を徹底的に深掘る
yuobayashi
6
700
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
30
1.1k
Thoughts on Productivity
jonyablonski
69
4.5k
Being A Developer After 40
akosma
90
590k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
50
2.4k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
470
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
25k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
11
610
Making Projects Easy
brettharned
116
6.1k
4 Signs Your Business is Dying
shpigford
183
22k
Transcript
DX時代における、 データ分析基盤構築に必要な事 クラスメソッド株式会社 2020/12/22
2 本日お話すること • クラスメソッドの紹介 • データ分析基盤の具体例 • データ構造設計について • データ構造設計とは?
• データ構造設計の理想と現実 • データカタログの重要性
3 クラスメソッドの紹介
会社概要 オープンな発想と高い技術力によりすべての人々の創造活動に貢献し続ける 4 事業内容 子会社 および 関連会社 認定 • クラウド(AWS)に関するコンサルティング、設計、構築、運用
• サーバーレスアーキテクチャ基盤に関するコンサルティング、設計、 構築、運用 • ビッグデータ分析基盤に関するコンサルティング、設計、構築、運用 • モバイルアプリケーションに関する企画、デザイン、開発、運営 • マーケティング・システム構築のためのサービス「カスタマーストー リー」の企画、開発、運用 • 音声認識(Amazon Alexa)技術に関するコンサルティング アノテーション株式会社 (http://an.classmethod.jp/) アンダースコア株式会社 (https://us.classmethod.jp/) プリズマティクス株式会社 (https://prismatix.jp/) ネクストモード株式会社 (https://nextmode.co.jp/) Classmethod (Europe) GmbH (https://classmethod.de/) Classmethod Canada Inc. (https://www.classmethod.ca/) 名称 代表者 設 立 本 社 拠 点 資本金 従業員 クラスメソッド株式会社 (英語表記:Classmethod, Inc.) 横田 聡 2004年7月7日 東京都千代田区神田佐久間町1丁目11番地 産報佐久間ビル8階 東京、札幌、大阪、岡山、福岡、上越、沖縄、 ベルリン、バンクーバー、グルガオン、バン コク 1億円 500名
5 月間290万PVを誇る技術ブログ Developers.IO https://developers.io/ 5 月間290万PV、80万UUを誇る、社員が執筆するIT技術に特化し たオウンドメディアです。 AWS、ビッグデータ、モバイル、IoT などの記事を掲載中です。 ユーザに有益な情報であれば社内のノウハウも
余すところなく記事化 現在25,000本以上の記事を掲載(2020年8月現在) AWS関連の技術記事を約10,000本掲載 憶測やセオリーだけでなく、 実地検証に基づく「やってみた」記事を公開 日次で記事一覧を取得できるRSSの提供 [RSS]https://feed.classmethod.jp/blog/daily.rss 5
アマゾンウェブサービス様とクラスメソッド 「APN Cousulting Partner of the Year 2018」を受賞 6年連続「AWSプレミアムコンサルティング パートナー」に認定
全エンジニアがAWS認定資格を保有 世界トップクラスの技術認定数 6
インフォマティカ様とクラスメソッド 7 https://classmethod.jp/news/201102-informatica/
8 自己紹介 甲木 洋介(@yokatsuki) データアナリティクス事業本部プリセールスアーキテクト データ分析お悩み相談~システム妄想~設計 ~見積~提案~プロジェクト引き渡し、運営
9 クラスメソッドが手掛けている データ分析基盤の例
10 例1(Informatica製品活用)
11 例2(ピュアAWS導入基盤)
12 データ構造設計について
13 データ分析基盤構築の最初の段取り 基盤構築目的を明確にする • この基盤を使って達成したい事は何? • 見える化…「何を」見える化したいのか? • いい感じに…「どういう状態が」いい感じなのか? データの「入」と「出」を特定する
• 入…分析に使われる素材 • どこに、どのような形でデータが存在するのか? • 出…経営層、業務担当者が受け取る情報 • どのような形式で、どのような形で提供するか?
14 「入」の話:データソース情報の集約 連携情報の整理 • 連携システム名 • プロトコル(sftp, REST API, …)
• ファイル定義 • 文字コード(UTF-8, SJIS, …) • ファイル構造(CSV, JSON, …) • ファイル命名規則 • 頻度(毎日0:00, 毎時, …) • 範囲(全件分, 前回連携からの差分, …)
15 「出」の話:データ分析に適したデータ格納形式 ディメンショナルデータモデル • 分析の次元(ディメンション)を持つ • ファクト • 主に時系列で発生する事実情報 •
POS売上/アクセスログなど • ディメンション • 分析に必要な切り口の情報 • 「〇〇毎に」の部分
16 データ構造設計の理想 分析基盤にアクセスすれば、すぐに分析が実施できる • 分析したいデータが全て分析基盤上に存在している • データ構造が全て統一されている • 業務視点でデータが検索できる •
データの用途が理解できる • etc…
17 データ構造設計の現実 分析に適したデータ構造になってない • データの形式がソースごとに異なったまま • データの欠損、間違いが含まれる → ETL/ELT等の前処理でデータ構造を統一する 分析データがどこに何があるかがわからない
• 論理データと物理データの対応がわからない • 単位など、データの読み方が分からない • データ発生元からの流れ(リネージ)がわからない → データカタログの導入を検討
18 データ活用の為に必要な「データカタログ」 自社が扱える情報の実態(データ)を知る手段 • システム面におけるデータカタログ • データが格納されているシステム(サーバ) • テーブル、フォルダ名、カラム名、データ型 •
データのライフサイクル(タイムスタンプ) • 業務面におけるデータカタログ • データ(コード体系)の意味 • データ発生、管理部門および責任者 • データの信頼性(評価)
19 データカタログの実現例 商用製品の導入 • Informatica Enterprise Data Catalog (EDC) •
AWS Glue Data Catalog 自前で調達、構築 • オープンソースプロダクト活用 • SchemaSpy(RDBMSからテーブル構造取得) • Wiki他マークアップ系ドキュメント共有サービス • Excelも選択肢としてアリ
20 例1(Informatica製品活用)
21 例2(ピュアAWS導入基盤)
22 まとめに代えて • データ分析基盤の処理構成は、要件によって様々 入力と出力の特定は必須 • データ活用の効率化~分析の民主化の為には 事前のデータ整備が必要 • データを知る仕組みとして、データカタログの
導入が有効
23