Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
estie | エスティ
November 13, 2024
Technology
0
450
第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -
「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。
estie | エスティ
November 13, 2024
Tweet
Share
More Decks by estie | エスティ
See All by estie | エスティ
dbt×Snowflakeで始めるデータコンペ
estie
0
57
企業価値に繋がるAI事業の創り方
estie
2
3.1k
データの価値を最大化する DaaSのUIデザイン
estie
0
270
エンジニアリングをやめたくないので問い続ける
estie
3
1.5k
第2回 国⼟交通省データコンペ参加者向け勉強会 Snowflake x estie編
estie
1
550
マルチプロダクトを支えるスケーラブルなデータパイプライン設計
estie
1
7.2k
Platformに“ちょうどいい”責務ってどこ? 関心の熱さにあわせて考える、責務分担のプラクティス
estie
2
890
事業価値を作る「攻めるPM、守るPM」
estie
0
230
プレイングにマネジメントに。広がる役割と向き合う中での学び
estie
0
350
Other Decks in Technology
See All in Technology
IBM Bobを使って、PostgreSQLのToDoアプリをDb2へ変換してみよう/202603_Dojo_Bob
mayumihirano
1
290
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
3
1.7k
開発組織の課題解決を加速するための権限委譲 -する側、される側としての向き合い方-
daitasu
5
320
ナレッジワークのご紹介(第88回情報処理学会 )
kworkdev
PRO
0
150
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
150
AWS DevOps Agent vs SRE俺 / AWS DevOps Agent vs me, the SRE
sms_tech
3
460
技術的負債の泥沼から組織を救う3つの転換点
nwiizo
8
3.1k
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
8
7.1k
Security Diaries of an Open Source IAM
ahus1
0
210
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
130
ビズリーチにおける検索・推薦の取り組み / DEIM2026
visional_engineering_and_design
1
120
us-east-1 に障害が起きた時に、 ap-northeast-1 にどんな影響があるか 説明できるようになろう!
miu_crescent
PRO
13
4k
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.8k
What does AI have to do with Human Rights?
axbom
PRO
1
2k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
240
Designing Powerful Visuals for Engaging Learning
tmiket
0
260
We Are The Robots
honzajavorek
0
190
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
HDC tutorial
michielstock
1
510
Exploring anti-patterns in Rails
aemeredith
2
280
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
120
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
How to build a perfect <img>
jonoalderson
1
5.2k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
67
Transcript
© 2024 estie Inc. 2024.11.13 第1回 国土交通省 データコンペ参 加者向け勉強会③ -
Snowflake x estie編 - 0
© 2024 estie Inc. 登壇者紹介 1 青木 信 株式会社estie 執行役員
データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
© 2024 estie Inc. • 事業概要のご紹介 • Snowflakeで地理/不動産データを扱うメリット • Snowflakeでのコンペ参加用のスターター
2
© 2024 estie Inc. 事業概要のご紹介 3
© 2024 estie Inc. 会社概要 4 会社名 株式会社estie(エスティ) 所在地 東京都港区赤坂9丁目7-2
東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
© 2024 estie Inc. 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ Office
オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
© 2024 estie Inc. データで見るメンバー構成 6 不動産のプロフェッショナルとソフトウェア開発のエキスパートからなるチーム プロダクト開発人員が多いのが特徴的 2024.10 現在
96 名
© 2024 estie Inc. プロダクト展開 7 DaaS (データ) SaaS (業務支援)
アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
© 2024 estie Inc. Snowflakeベースのデータ加工基盤 複数のデータパートナーと提携し、様々な形式のデータを取得 それらのデータを組み合わせ正規化することで単一のデータアセットを構築 8 データパートナー 各サービスDB
© 2024 estie Inc. 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、 オーバーレイすることが可能
各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
© 2024 estie Inc. 地理/不動産データを Snowflakeで扱うメリット 10
© 2024 estie Inc. 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型 •
位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
© 2024 estie Inc. 利用例として、住所の指す範囲をGEOGRAPHY型で保持。 建物が住所と整合しているかを確認するのに利用している メリット①: 地理空間データ型でGISデータを簡単に表現 12
© 2024 estie Inc. Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in Snowflakeでインタラクティブな分析
13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
© 2024 estie Inc. Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析 14
SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
© 2024 estie Inc. Snowflakeで始める 国土交通省データコンペ 15
© 2024 estie Inc. 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の GUI
から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
© 2024 estie Inc. コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り •
Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
© 2024 estie Inc. 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能 •
例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
© 2024 estie Inc. Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 • SQL
cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
© 2024 estie Inc. モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の Python
cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
© 2024 estie Inc. 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL から呼び出すことができる
• SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21
© 2024 estie Inc. これでコンペに集中出来ます! みなさんで楽しみましょう〜! 22