Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Glue for Ray の普及にささやかで微力な貢献を

AWS Glue for Ray の普及にささやかで微力な貢献を

sakaguchi

July 25, 2024
Tweet

More Decks by sakaguchi

Other Decks in Technology

Transcript

  1. 6 AWS GlueでのETLジョブ AWS Glue についてはよしとして AWS Glue for Ray

    AWS Glue for Apache Spark AWS Glue for Python Shell ・マルチノード環境での分散処理 ・Apache Spark 環境で実行 ・Sparkの学習コストがかかる ・シングルノードでの処理 ・分散処理をしないため、小~中規模向け ・マルチノード環境での分散処理 ・オープンソースフレームワーク Ray を使用できる ・学習コストが低め
  2. 7 AWS Glue for Ray – 表面上 2022/11 にプレビュー利用開始 2023/6

    に一般利用開始 AWSクラウド製品 で 検索すると出てくる アイコンもある
  3. 8 AWS Glue for Ray - Ray AWS Glue for

    Ray ・Python アプリケーションをスケーリングするための統合フレームワーク ・オープンソースのライブラリ • Ray Core • Ray Data - Pure Pythonコードを分散アプリケーションとして ビルド、スケーリングするための機能の提供 - Rayアプリケーションにおける分散データ処理のた めのAPIを提供 https://github.com/ray-project/ray
  4. 11 AWS Glue for Ray – お試し Glue for Ray

    のジョブを作成 変更できる設定 Glue for Apache Spark ジョブ
  5. 12 AWS Glue for Ray – お試し ray.init() :初期化 @ray.remote

    :分散処理した い関数やクラスに付与 remote() :分散処理したい関数を実行 ray.get :実行結果取得
  6. 13 AWS Glue for Ray – お試し 実行してみたログ 関数8回実行 wait

    5sec 関数8回実行 wait 10sec 関数4回実行 wait 10sec
  7. 14 AWS Glue for Ray 以外での Ray 実行 Ray は使ってみたいけど

    AWS Glue for Ray はちょっと... Cloud9 なりでも一応使える $ pip3 install ray クラスター設定する場合はまた 変わってくるので注意!! CloudShellでも デフォルトでインストールされる Ray バージョンは AWS Glue for Ray のものと異なる
  8. 15 さいごに • Python触っている人にとってはそこまで大変じゃない • ただ、まだまだ情報は不足気味で機能もこれから(あくまで個人の感想です) • (最悪、)Ray.io (https://docs.ray.io/en/latest/index.html) のドキュメントや

    O’Reilly 本の熟読で… • 今後情報が増えていくと嬉しい AWS Glue 製品ページの 料金 (https://aws.amazon.com/jp/glue/pricing/) が まだ「プレビュー」表記の図 (2024/7/25時点)