Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
Search
estie | エスティ
November 13, 2024
Technology
0
96
第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -
「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。
estie | エスティ
November 13, 2024
Tweet
Share
More Decks by estie | エスティ
See All by estie | エスティ
PMとデザイナーが協働してプロダクトを最速で立ち上げるための一つのメソッド
estie
0
22
GraphQLでいい感じの検索APIを作りたい
estie
0
280
GraphQLにおけるページネーションベストプラクティス
estie
0
340
不動産 x AIことはじめ~データの真価を拓くために
estie
0
280
Snowflakeで眠ったデータを起こそう!
estie
0
410
会社説明資料|株式会社estie / company profile
estie
9
190k
SnowflakeをRustで使おう!
estie
0
270
コアデータを起点にした商業用不動産の未来を導くマルチプロダクト戦略
estie
0
1k
async_graphqlのguardが便利だった話
estie
0
760
Other Decks in Technology
See All in Technology
株式会社島津製作所_研究開発(集団協業と知的生産)の現場を支える、OSS知識基盤システムの導入
akahane92
1
200
Terraform Stacks入門 #HashiTalks
msato
0
320
利きプロセススケジューラ
sat
PRO
5
2.7k
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
2
1.2k
dev 補講: プロダクトセキュリティ / Product security overview
wa6sn
0
1.8k
AWS Lambdaと歩んだ“サーバーレス”と今後 #lambda_10years
yoshidashingo
1
120
State of Open Source Web Mapping Libraries
dayjournal
0
230
The Role of Developer Relations in AI Product Success.
giftojabu1
0
110
Intuneお役立ちツールのご紹介
sukank
3
770
Engineering at LY Corporation
lycorp_recruit_jp
0
590
これまでの計測・開発・デプロイ方法全部見せます! / Findy ISUCON 2024-11-14
tohutohu
3
340
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
28
7.5k
Featured
See All Featured
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
The Language of Interfaces
destraynor
154
24k
Become a Pro
speakerdeck
PRO
25
5k
The World Runs on Bad Software
bkeepers
PRO
65
11k
A designer walks into a library…
pauljervisheath
202
24k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
BBQ
matthewcrist
85
9.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Gamification - CAS2011
davidbonilla
80
5k
GitHub's CSS Performance
jonrohan
1030
460k
Faster Mobile Websites
deanohume
305
30k
Transcript
© 2024 estie Inc. confidential 2024.11.13 第1回 国土交通省 データコンペ参 加者向け勉強会③
- Snowflake x estie編 - 0
© 2024 estie Inc. confidential 登壇者紹介 1 青木 信 株式会社estie
執行役員 データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
© 2024 estie Inc. confidential • 事業概要のご紹介 • Snowflakeで地理/不動産データを扱うメリット •
Snowflakeでのコンペ参加用のスターター 2
© 2024 estie Inc. confidential 事業概要のご紹介 3
© 2024 estie Inc. confidential 会社概要 4 会社名 株式会社estie(エスティ) 所在地
東京都港区赤坂9丁目7-2 東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
© 2024 estie Inc. confidential 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ
Office オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
© 2024 estie Inc. confidential データで見るメンバー構成 6 不動産のプロフェッショナルとソフトウェア開発のエキスパートからなるチーム プロダクト開発人員が多いのが特徴的 2024.10
現在 96 名
© 2024 estie Inc. confidential プロダクト展開 7 DaaS (データ) SaaS
(業務支援) アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
© 2024 estie Inc. confidential Snowflakeベースのデータ加工基盤 複数のデータパートナーと提携し、様々な形式のデータを取得 それらのデータを組み合わせ正規化することで単一のデータアセットを構築 8 データパートナー
各サービスDB
© 2024 estie Inc. confidential 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、
オーバーレイすることが可能 各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
© 2024 estie Inc. confidential 地理/不動産データを Snowflakeで扱うメリット 10
© 2024 estie Inc. confidential 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型
• 位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
© 2024 estie Inc. confidential 利用例として、住所の指す範囲をGEOGRAPHY型で保持。 建物が住所と整合しているかを確認するのに利用している メリット①: 地理空間データ型でGISデータを簡単に表現 12
© 2024 estie Inc. confidential Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in
Snowflakeでインタラクティブな分析 13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
© 2024 estie Inc. confidential Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析
14 SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
© 2024 estie Inc. confidential Snowflakeで始める 国土交通省データコンペ 15
© 2024 estie Inc. confidential 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の
GUI から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
© 2024 estie Inc. confidential コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り
• Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
© 2024 estie Inc. confidential 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能
• 例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
© 2024 estie Inc. confidential Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 •
SQL cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
© 2024 estie Inc. confidential モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の
Python cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
© 2024 estie Inc. confidential 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL
から呼び出すことができる • SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21
© 2024 estie Inc. confidential これでコンペに集中出来ます! みなさんで楽しみましょう〜! 22