Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DX時代に必須の、データ分析基盤構築に必要な事
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yosuke Katsuki
December 22, 2020
Technology
1
1.8k
DX時代に必須の、データ分析基盤構築に必要な事
2020年12月22日
インフォマティカ+AWS+クラスメソッド合同セミナー
インフォマティカ☓クラスメソッドで実現する次世代のクラウドレイクハウスアーキテクチャ
」
クラスメソッドセッション資料
Yosuke Katsuki
December 22, 2020
Tweet
Share
More Decks by Yosuke Katsuki
See All by Yosuke Katsuki
Snowflake Coretex AISQLでLLMを手軽に使ってみよう
yokatsuki
0
100
DX推進に必須のデータ基盤最新動向2023
yokatsuki
1
1.2k
近道こちらです。DX推進に必須のデータ分析基盤構築
yokatsuki
1
560
SQL?NoSQL?各技術の違いをハッキリさせて目的に合ったデータ分析基盤を構築しよう!
yokatsuki
1
550
準備できていますか?DX時代におけるデータ活用基盤の基本
yokatsuki
0
230
これわかってれば完璧!脱☆Snowflake初心者 #SnowVillage LIVE 005
yokatsuki
0
440
Other Decks in Technology
See All in Technology
Azure SRE Agent x PagerDutyによる近未来インシデント対応への期待 / The Future of Incident Response: Azure SRE Agent x PagerDuty
aeonpeople
0
230
人はいかにして 確率的な挙動を 受け入れていくのか
vaaaaanquish
5
3.2k
AIとともに歩む情報セキュリティ / Information Security with AI
kanny
4
2.7k
ゼロから始めたFindy初のモバイルアプリ開発
grandbig
2
520
Zephyr RTOS の発表をOpen Source Summit Japan 2025で行った件
iotengineer22
0
290
2026年はチャンキングを極める!
shibuiwilliam
8
1.6k
日本語テキストと音楽の対照学習の技術とその応用
lycorptech_jp
PRO
1
370
【インシデント入門】サイバー攻撃を受けた現場って何してるの?
shumei_ito
0
1.2k
あたらしい上流工程の形。 0日導入からはじめるAI駆動PM
kumaiu
3
510
月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪
miyamu
0
210
Introduction to Bill One Development Engineer
sansan33
PRO
0
350
しろおびセキュリティへ ようこそ
log0417
0
200
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
85
The Curse of the Amulet
leimatthew05
1
7.9k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Navigating Weather and Climate Data
rabernat
0
82
Utilizing Notion as your number one productivity tool
mfonobong
2
200
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.3k
GraphQLとの向き合い方2022年版
quramy
50
14k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
750
Ruling the World: When Life Gets Gamed
codingconduct
0
130
Transcript
DX時代における、 データ分析基盤構築に必要な事 クラスメソッド株式会社 2020/12/22
2 本日お話すること • クラスメソッドの紹介 • データ分析基盤の具体例 • データ構造設計について • データ構造設計とは?
• データ構造設計の理想と現実 • データカタログの重要性
3 クラスメソッドの紹介
会社概要 オープンな発想と高い技術力によりすべての人々の創造活動に貢献し続ける 4 事業内容 子会社 および 関連会社 認定 • クラウド(AWS)に関するコンサルティング、設計、構築、運用
• サーバーレスアーキテクチャ基盤に関するコンサルティング、設計、 構築、運用 • ビッグデータ分析基盤に関するコンサルティング、設計、構築、運用 • モバイルアプリケーションに関する企画、デザイン、開発、運営 • マーケティング・システム構築のためのサービス「カスタマーストー リー」の企画、開発、運用 • 音声認識(Amazon Alexa)技術に関するコンサルティング アノテーション株式会社 (http://an.classmethod.jp/) アンダースコア株式会社 (https://us.classmethod.jp/) プリズマティクス株式会社 (https://prismatix.jp/) ネクストモード株式会社 (https://nextmode.co.jp/) Classmethod (Europe) GmbH (https://classmethod.de/) Classmethod Canada Inc. (https://www.classmethod.ca/) 名称 代表者 設 立 本 社 拠 点 資本金 従業員 クラスメソッド株式会社 (英語表記:Classmethod, Inc.) 横田 聡 2004年7月7日 東京都千代田区神田佐久間町1丁目11番地 産報佐久間ビル8階 東京、札幌、大阪、岡山、福岡、上越、沖縄、 ベルリン、バンクーバー、グルガオン、バン コク 1億円 500名
5 月間290万PVを誇る技術ブログ Developers.IO https://developers.io/ 5 月間290万PV、80万UUを誇る、社員が執筆するIT技術に特化し たオウンドメディアです。 AWS、ビッグデータ、モバイル、IoT などの記事を掲載中です。 ユーザに有益な情報であれば社内のノウハウも
余すところなく記事化 現在25,000本以上の記事を掲載(2020年8月現在) AWS関連の技術記事を約10,000本掲載 憶測やセオリーだけでなく、 実地検証に基づく「やってみた」記事を公開 日次で記事一覧を取得できるRSSの提供 [RSS]https://feed.classmethod.jp/blog/daily.rss 5
アマゾンウェブサービス様とクラスメソッド 「APN Cousulting Partner of the Year 2018」を受賞 6年連続「AWSプレミアムコンサルティング パートナー」に認定
全エンジニアがAWS認定資格を保有 世界トップクラスの技術認定数 6
インフォマティカ様とクラスメソッド 7 https://classmethod.jp/news/201102-informatica/
8 自己紹介 甲木 洋介(@yokatsuki) データアナリティクス事業本部プリセールスアーキテクト データ分析お悩み相談~システム妄想~設計 ~見積~提案~プロジェクト引き渡し、運営
9 クラスメソッドが手掛けている データ分析基盤の例
10 例1(Informatica製品活用)
11 例2(ピュアAWS導入基盤)
12 データ構造設計について
13 データ分析基盤構築の最初の段取り 基盤構築目的を明確にする • この基盤を使って達成したい事は何? • 見える化…「何を」見える化したいのか? • いい感じに…「どういう状態が」いい感じなのか? データの「入」と「出」を特定する
• 入…分析に使われる素材 • どこに、どのような形でデータが存在するのか? • 出…経営層、業務担当者が受け取る情報 • どのような形式で、どのような形で提供するか?
14 「入」の話:データソース情報の集約 連携情報の整理 • 連携システム名 • プロトコル(sftp, REST API, …)
• ファイル定義 • 文字コード(UTF-8, SJIS, …) • ファイル構造(CSV, JSON, …) • ファイル命名規則 • 頻度(毎日0:00, 毎時, …) • 範囲(全件分, 前回連携からの差分, …)
15 「出」の話:データ分析に適したデータ格納形式 ディメンショナルデータモデル • 分析の次元(ディメンション)を持つ • ファクト • 主に時系列で発生する事実情報 •
POS売上/アクセスログなど • ディメンション • 分析に必要な切り口の情報 • 「〇〇毎に」の部分
16 データ構造設計の理想 分析基盤にアクセスすれば、すぐに分析が実施できる • 分析したいデータが全て分析基盤上に存在している • データ構造が全て統一されている • 業務視点でデータが検索できる •
データの用途が理解できる • etc…
17 データ構造設計の現実 分析に適したデータ構造になってない • データの形式がソースごとに異なったまま • データの欠損、間違いが含まれる → ETL/ELT等の前処理でデータ構造を統一する 分析データがどこに何があるかがわからない
• 論理データと物理データの対応がわからない • 単位など、データの読み方が分からない • データ発生元からの流れ(リネージ)がわからない → データカタログの導入を検討
18 データ活用の為に必要な「データカタログ」 自社が扱える情報の実態(データ)を知る手段 • システム面におけるデータカタログ • データが格納されているシステム(サーバ) • テーブル、フォルダ名、カラム名、データ型 •
データのライフサイクル(タイムスタンプ) • 業務面におけるデータカタログ • データ(コード体系)の意味 • データ発生、管理部門および責任者 • データの信頼性(評価)
19 データカタログの実現例 商用製品の導入 • Informatica Enterprise Data Catalog (EDC) •
AWS Glue Data Catalog 自前で調達、構築 • オープンソースプロダクト活用 • SchemaSpy(RDBMSからテーブル構造取得) • Wiki他マークアップ系ドキュメント共有サービス • Excelも選択肢としてアリ
20 例1(Informatica製品活用)
21 例2(ピュアAWS導入基盤)
22 まとめに代えて • データ分析基盤の処理構成は、要件によって様々 入力と出力の特定は必須 • データ活用の効率化~分析の民主化の為には 事前のデータ整備が必要 • データを知る仕組みとして、データカタログの
導入が有効
23