RとApache Arrow / r-and-apache-arrow

RとApache Arrow 2019/12/11 Apache Arrow東京ミートアップ2019 @yutannihilation

ドーモ！！ • Hiroaki Yutani (@yutannihilation) • 某メッセージングアプリ会社でデータサイエンティスト見習い • 好きな言語：R、忍殺語
• ggplot2のメンテナ

Apache Arrowに、Rユーザーのこんな悩みを解決してほしい • 他のシステム（Spark、DB）からデータを取ってくるのが大変... – Java関連のセットアップが難しい – コピー・変換が遅い

Apache Arrowに、Rユーザーのこんな悩みを解決してほしい • 他のデータ分析者（具体的にはPython）とデータを共有するのが大変... – CSVファイルで表現できないデータ型、パース方法の差異 –
メモリに乗りきらない巨大なデータ

• Sparkとの効率的なデータのやりとり (sparklyrパッケージ) • ParquetやFeatherのデータを読み書き (arrowパッケージ) RとApache Arrow

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark コピーと変換
ここが遅い

例：Spark • 以前：一度データをディスクに書いてからSparkとやりとりするので遅い • 現在：Apache Arrowフォーマットで Sparkと直接やりとりできるようになった（SparkRは3.0からなのでまだ） ※コピーは発生する

例：Spark(sparklyr) （https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/ の図） Spark → R R → Spark Apache
Arrowあり

例: Parquet • read_parquet()・write_parquet()で Parquetファイルを読み書きできる • 指定した列だけを読むこともできる！（pushdown） → つまり、メモリに乗らず読めなかった
データも読めるようになるかも

Parquet/Featherの読み書きは data.table::fread()より速い!! （https://ursalabs.org/blog/2019-10-columnar-perf/ の図） data.table arrow(feather)

Python派の人とのデータ共有にも便利（https://ursalabs.org/blog/2019-10-columnar-perf/ の図） pyarrow 速い...

Parquetファイルの読み書き dplyr::select()と同じ指定で列を絞り込み arrow::read_parquet("tmp.parquet") arrow::read_parquet("tmp.parquet", starts_with("Sepal")) arrow::write_parquet(iris, "tmp.parquet")

開発の進展 • CRANに登録されたのでインストールもお手軽になった • dplyrのバックエンドも開発中 • Feather v2、Arrow Flight関連は進展なし

インストールがお手軽に • これだけでOK install.packages("arrow")

dplyrのバックエンド • dplyrの文法でデータ操作をすればArrow のデータ操作に翻訳してくれる • select（列の絞り込み）→ 対応済み • filter（行の絞り込み） →
対応済み • mutate（値の操作）→ 未対応　　　※Rのデータに変換してから処理

dplyrのバックエンド • Gandivaでできる範囲はだいたい実装済みで、mutate()は計算カーネルを使うC++ APIができるの待ち、という感じ？ • Sparkのデータに関してはsparklyrがあるので、これ以上具体的なユースケースが思いつかない...

Feather v2 • 「feather」は、Arrowの仕様のすべてをサポートする「on-disk版のArrow format」を指す名前になる予定らしい（詳しくは ARROW-5510 を参照）

まとめ • Spark ↔ Rのデータのやりとりが高速に • Parquetファイルが読み書きできる • CRANからインストールできる •
dplyrバックエンドも開発中

RとApache Arrow / r-and-apache-arrow

RとApache Arrow / r-and-apache-arrow

yutannihilation

More Decks by yutannihilation

Other Decks in Technology

Featured

Transcript

RとApache Arrow 2019/12/11 Apache Arrow東京ミートアップ2019 @yutannihilation

ドーモ！！ • Hiroaki Yutani (@yutannihilation) • 某メッセージングアプリ会社でデータサイエンティスト見習い • 好きな言語：R、忍殺語

Apache Arrowに、Rユーザーのこんな悩みを解決してほしい • 他のシステム（Spark、DB）からデータを取ってくるのが大変... – Java関連のセットアップが難しい – コピー・変換が遅い

Apache Arrowに、Rユーザーのこんな悩みを解決してほしい • 他のデータ分析者（具体的にはPython）とデータを共有するのが大変... – CSVファイルで表現できないデータ型、パース方法の差異 –

• Sparkとの効率的なデータのやりとり (sparklyrパッケージ) • ParquetやFeatherのデータを読み書き (arrowパッケージ) RとApache Arrow

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark

R Spark sparklyr ①Sparkからデータを読み込み ②何らかの　処理 ③Sparkにデータを返す例：Spark コピーと変換

例：Spark • 以前：一度データをディスクに書いてからSparkとやりとりするので遅い • 現在：Apache Arrowフォーマットで Sparkと直接やりとりできるようになった（SparkRは3.0からなのでまだ） ※コピーは発生する

例：Spark(sparklyr) （https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/ の図） Spark → R R → Spark Apache

例: Parquet • read_parquet()・write_parquet()で Parquetファイルを読み書きできる • 指定した列だけを読むこともできる！（pushdown） → つまり、メモリに乗らず読めなかった

Parquet/Featherの読み書きは data.table::fread()より速い!! （https://ursalabs.org/blog/2019-10-columnar-perf/ の図） data.table arrow(feather)

Python派の人とのデータ共有にも便利（https://ursalabs.org/blog/2019-10-columnar-perf/ の図） pyarrow 速い...

Parquetファイルの読み書き dplyr::select()と同じ指定で列を絞り込み arrow::read_parquet("tmp.parquet") arrow::read_parquet("tmp.parquet", starts_with("Sepal")) arrow::write_parquet(iris, "tmp.parquet")

開発の進展 • CRANに登録されたのでインストールもお手軽になった • dplyrのバックエンドも開発中 • Feather v2、Arrow Flight関連は進展なし

インストールがお手軽に • これだけでOK install.packages("arrow")

dplyrのバックエンド • dplyrの文法でデータ操作をすればArrow のデータ操作に翻訳してくれる • select（列の絞り込み）→ 対応済み • filter（行の絞り込み） →

Feather v2 • 「feather」は、Arrowの仕様のすべてをサポートする「on-disk版のArrow format」を指す名前になる予定らしい（詳しくは ARROW-5510 を参照）

まとめ • Spark ↔ Rのデータのやりとりが高速に • Parquetファイルが読み書きできる • CRANからインストールできる •