Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Geo Parquetの仕様を追ってみた

Geo Parquetの仕様を追ってみた

現在、GitHubで議論されているGeoParquetがv0.4.0まで仕様が公開されたので、どのような仕様になっているのか、追ってみました。

KentarouSuzuki

June 28, 2022
Tweet

More Decks by KentarouSuzuki

Other Decks in Technology

Transcript

  1. 実装 名前 言語 ライブラリ側の対応バージョン GeoPandas Python 0.8.0 sfarrow R GDAL/OGR

    C++ 3.5 GeoParquet.jl Julia geoarrow R Parquet-WASM WASM Geo Parquetとは? 6
  2. ゴール Establish a great geospatial format for workflows that excel

    with columnar data Introduce columnar data formats to the geospatial world Enable interoperability among cloud data warehouses Persist geospatial data from Apache Arrow (GeoParquetリポジトリのREADMEより) Geo Parquetとは? 8
  3. 表で表すイメージはこんな感じ Name geom MBR.x MBR.y hoge WKB [135, 137] [34,

    36] fuga WKB [136, 139] [37, 40] MBR.xとMBR.yが行ごとに作成されたBounding Box Spatial Index 25
  4. 行ごとにでBounding Boxを作成し、 Row GroupとPage単位でさらに Bounding Boxを作成する。 イメージ的にはこんな感じ 1. 黒: ファイル単位のB

    Box 2. 青: Row Group単位のB Box 3. 赤: Page単位のB Box 画像はWikipediaのR-Treeより引用 Spatial Index 26