Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
Search
estie | エスティ
November 13, 2024
Technology
0
250
第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -
「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。
estie | エスティ
November 13, 2024
Tweet
Share
More Decks by estie | エスティ
See All by estie | エスティ
ユーザー価値を最大化するための爆速開発
estie
0
70
10年PMをやって気付いた4つのPMタイプ
estie
0
130
自動と手動の両輪で開発するデータクレンジング
estie
2
220
PMとデザイナーが協働してプロダクトを最速で立ち上げるための一つのメソッド
estie
0
75
GraphQLでいい感じの検索APIを作りたい
estie
0
450
GraphQLにおけるページネーションベストプラクティス
estie
0
830
不動産 x AIことはじめ~データの真価を拓くために
estie
0
410
Snowflakeで眠ったデータを起こそう!
estie
1
520
会社説明資料|株式会社estie / company profile
estie
9
200k
Other Decks in Technology
See All in Technology
The Future of SEO: The Impact of AI on Search
badams
0
220
一度 Expo の採用を断念したけど、 再度 Expo の導入を検討している話
ichiki1023
1
170
人はなぜISUCONに夢中になるのか
kakehashi
PRO
6
1.7k
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
依存パッケージの更新はコツコツが勝つコツ! / phpcon_nagoya2025
blue_goheimochi
3
160
君も受託系GISエンジニアにならないか
sudataka
2
450
速くて安いWebサイトを作る
nishiharatsubasa
14
15k
『衛星データ利用の方々にとって近いようで触れる機会のなさそうな小話 ~ 衛星搭載ソフトウェアと衛星運用ソフトウェア (実物) を動かしながらわいわいする編 ~』 @日本衛星データコミニティ勉強会
meltingrabbit
0
150
TAMとre:Capセキュリティ編 〜拡張脅威検出デモを添えて〜
fujiihda
2
330
ビジネスモデリング道場 目的と背景
masuda220
PRO
9
640
(機械学習システムでも) SLO から始める信頼性構築 - ゆる SRE#9 2025/02/21
daigo0927
0
170
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
450
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Done Done
chrislema
182
16k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
630
Become a Pro
speakerdeck
PRO
26
5.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
Building an army of robots
kneath
303
45k
Thoughts on Productivity
jonyablonski
69
4.5k
KATA
mclloyd
29
14k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Transcript
© 2024 estie Inc. 2024.11.13 第1回 国土交通省 データコンペ参 加者向け勉強会③ -
Snowflake x estie編 - 0
© 2024 estie Inc. 登壇者紹介 1 青木 信 株式会社estie 執行役員
データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
© 2024 estie Inc. • 事業概要のご紹介 • Snowflakeで地理/不動産データを扱うメリット • Snowflakeでのコンペ参加用のスターター
2
© 2024 estie Inc. 事業概要のご紹介 3
© 2024 estie Inc. 会社概要 4 会社名 株式会社estie(エスティ) 所在地 東京都港区赤坂9丁目7-2
東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
© 2024 estie Inc. 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ Office
オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
© 2024 estie Inc. データで見るメンバー構成 6 不動産のプロフェッショナルとソフトウェア開発のエキスパートからなるチーム プロダクト開発人員が多いのが特徴的 2024.10 現在
96 名
© 2024 estie Inc. プロダクト展開 7 DaaS (データ) SaaS (業務支援)
アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
© 2024 estie Inc. Snowflakeベースのデータ加工基盤 複数のデータパートナーと提携し、様々な形式のデータを取得 それらのデータを組み合わせ正規化することで単一のデータアセットを構築 8 データパートナー 各サービスDB
© 2024 estie Inc. 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、 オーバーレイすることが可能
各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
© 2024 estie Inc. 地理/不動産データを Snowflakeで扱うメリット 10
© 2024 estie Inc. 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型 •
位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
© 2024 estie Inc. 利用例として、住所の指す範囲をGEOGRAPHY型で保持。 建物が住所と整合しているかを確認するのに利用している メリット①: 地理空間データ型でGISデータを簡単に表現 12
© 2024 estie Inc. Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in Snowflakeでインタラクティブな分析
13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
© 2024 estie Inc. Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析 14
SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
© 2024 estie Inc. Snowflakeで始める 国土交通省データコンペ 15
© 2024 estie Inc. 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の GUI
から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
© 2024 estie Inc. コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り •
Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
© 2024 estie Inc. 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能 •
例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
© 2024 estie Inc. Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 • SQL
cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
© 2024 estie Inc. モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の Python
cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
© 2024 estie Inc. 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL から呼び出すことができる
• SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21
© 2024 estie Inc. これでコンペに集中出来ます! みなさんで楽しみましょう〜! 22