そろそろ使ってみませんかApache Arrow / why-dont-you-arrow-now

そろそろ使ってみませんか Apache Arrow 2019/12/07 Japan.R 2019 @yutannihilation

ドーモ！！ • Hiroaki Yutani (@yutannihilation) • 某メッセージングアプリ会社でデータサイエンティスト見習い • 好きな言語：R、忍殺語
• ggplot2のメンテナ

近況

Apache Arrowとは？ • オンメモリで大量のデータを扱うためのプラットフォームをつくるプロジェクト – オンメモリに適したデータフォーマットを定義 – そのフォーマットのデータを読み書きす
るライブラリを様々な言語に提供

Apache Arrowがないとき... コピーと変換処理が発生しまくり！（https://arrow.apache.org/ の図）

Apache Arrowがあるとき！！共有メモリ上で同じデータを見る（https://arrow.apache.org/ の図）

• ParquetやFeatherのデータを読み書き (arrowパッケージ) • Sparkとの効率的なデータのやりとり (sparklyrパッケージ) RとApache Arrow

Apache Parquetとは？ • 列指向のデータフォーマット • CSVと違って規格が決まっているので、読み書きするソフトの挙動に左右されない（Apache Arrowを使えばなおさら安心！） •
デフォルトで圧縮が効いている → 他言語との重いデータ共有に便利

例: Parquet • read_parquet()・write_parquet()で Parquetファイルを読み書きできる • 指定した列だけを読むこともできる！（pushdown） → つまり、全部読むとメモリに乗らず
エラーになっていたデータも読めるかも

Parquet/Featherの読み書きは data.table::fread()より速い!! （https://ursalabs.org/blog/2019-10-columnar-perf/ の図） data.table arrow(feather)

Python派の人とのデータ共有にも便利（https://ursalabs.org/blog/2019-10-columnar-perf/ の図） pyarrow 速い...

Parquetファイルの読み書き dplyr::select()と同じ指定で列を絞り込み arrow::read_parquet("tmp.parquet") arrow::read_parquet("tmp.parquet", starts_with("Sepal")) arrow::write_parquet(iris, "tmp.parquet")

インストールがお手軽に • CRANに上がったので、これだけでOK！ install.packages("arrow")

Apache Sparkとは？ • ビッグデータの分散処理基盤・フレームワーク

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark コピーと変換
ここが遅い

例：Spark • 以前：一度データをディスクに書いてからSparkとやりとりするので遅い • 現在：Apache Arrowフォーマットで Sparkと直接やりとりできるようになった（SparkRは3.0からなのでまだ） ※コピーは発生する

例：Spark(sparklyr) （https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/ の図） Spark → R R → Spark Apache
Arrowあり

まとめ • Apache Arrowを使うと、 – 巨大なデータを保存・共有するのに便利（例：Parquet、Feather） – 他のシステムと効率的にデータのやり取りができる（例：sparklyr）
• もうすぐ1.0なのでそろそろ使ってみよう！

今日話せなかったこと • dplyrのバックエンドもあるっぽい • Featherは新フォーマット（v2）があるらしい気になる方は、12/11開催の Apache Arrow東京ミートアップで！

そろそろ使ってみませんかApache Arrow / why-dont-you-arrow-now

そろそろ使ってみませんかApache Arrow / why-dont-you-arrow-now

yutannihilation

More Decks by yutannihilation

Other Decks in Technology

Featured

Transcript

そろそろ使ってみませんか Apache Arrow 2019/12/07 Japan.R 2019 @yutannihilation

ドーモ！！ • Hiroaki Yutani (@yutannihilation) • 某メッセージングアプリ会社でデータサイエンティスト見習い • 好きな言語：R、忍殺語

近況

Apache Arrowとは？ • オンメモリで大量のデータを扱うためのプラットフォームをつくるプロジェクト – オンメモリに適したデータフォーマットを定義 – そのフォーマットのデータを読み書きす

Apache Arrowがないとき... コピーと変換処理が発生しまくり！（https://arrow.apache.org/ の図）

Apache Arrowがあるとき！！共有メモリ上で同じデータを見る（https://arrow.apache.org/ の図）

• ParquetやFeatherのデータを読み書き (arrowパッケージ) • Sparkとの効率的なデータのやりとり (sparklyrパッケージ) RとApache Arrow

Apache Parquetとは？ • 列指向のデータフォーマット • CSVと違って規格が決まっているので、読み書きするソフトの挙動に左右されない（Apache Arrowを使えばなおさら安心！） •

例: Parquet • read_parquet()・write_parquet()で Parquetファイルを読み書きできる • 指定した列だけを読むこともできる！（pushdown） → つまり、全部読むとメモリに乗らず

Parquet/Featherの読み書きは data.table::fread()より速い!! （https://ursalabs.org/blog/2019-10-columnar-perf/ の図） data.table arrow(feather)

Python派の人とのデータ共有にも便利（https://ursalabs.org/blog/2019-10-columnar-perf/ の図） pyarrow 速い...

Parquetファイルの読み書き dplyr::select()と同じ指定で列を絞り込み arrow::read_parquet("tmp.parquet") arrow::read_parquet("tmp.parquet", starts_with("Sepal")) arrow::write_parquet(iris, "tmp.parquet")

インストールがお手軽に • CRANに上がったので、これだけでOK！ install.packages("arrow")

Apache Sparkとは？ • ビッグデータの分散処理基盤・フレームワーク

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark コピーと変換

例：Spark • 以前：一度データをディスクに書いてからSparkとやりとりするので遅い • 現在：Apache Arrowフォーマットで Sparkと直接やりとりできるようになった（SparkRは3.0からなのでまだ） ※コピーは発生する

例：Spark(sparklyr) （https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/ の図） Spark → R R → Spark Apache

まとめ • Apache Arrowを使うと、 – 巨大なデータを保存・共有するのに便利（例：Parquet、Feather） – 他のシステムと効率的にデータのやり取りができる（例：sparklyr）

今日話せなかったこと • dplyrのバックエンドもあるっぽい • Featherは新フォーマット（v2）があるらしい気になる方は、12/11開催の Apache Arrow東京ミートアップで！