Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -

第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -

「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。

estie | エスティ

November 13, 2024
Tweet

More Decks by estie | エスティ

Other Decks in Technology

Transcript

  1. © 2024 estie Inc. 登壇者紹介 1 青木 信 株式会社estie 執行役員

    データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
  2. © 2024 estie Inc. 会社概要 4 会社名 株式会社estie(エスティ) 所在地 東京都港区赤坂9丁目7-2

    東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
  3. © 2024 estie Inc. 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ Office

    オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
  4. © 2024 estie Inc. プロダクト展開 7 DaaS (データ) SaaS (業務支援)

    アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
  5. © 2024 estie Inc. 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、 オーバーレイすることが可能

    各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
  6. © 2024 estie Inc. 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型 •

    位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
  7. © 2024 estie Inc. Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in Snowflakeでインタラクティブな分析

    13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
  8. © 2024 estie Inc. Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析 14

    SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
  9. © 2024 estie Inc. 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の GUI

    から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
  10. © 2024 estie Inc. コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り •

    Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
  11. © 2024 estie Inc. 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能 •

    例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
  12. © 2024 estie Inc. Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 • SQL

    cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
  13. © 2024 estie Inc. モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の Python

    cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
  14. © 2024 estie Inc. 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL から呼び出すことができる

    • SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21