and universal distributed compute framework, you can flexibly run any compute-intensive Python workload — 1. from distributed training or 2. hyperparameter tuning to 3. deep reinforcement learning and 4. production model serving. Deep learning から Model Serving まで開発者が 簡単にスケールできる https://www.ray.io/
a cluster: 1. The cluster launcher: ray up config.yml 2. The kubernetes operator: helm -n ray install example-cluster --create-namespace ./ray Supported Cloud: 1. AWS 2. Azure 3. GCP 4. Aliyun
権限、 VPC) でコケる 2. example の config.yml が簡単に動かない (ap-northeast-1) a. Subnet なくてエラー b. AMI イメージ選択 c. Ray cluster 作成が落ちる `pip not found`, `docker not found` 3. Ray cluster を削除しても AWS のリソースが残る (key pair, IAM, security group…)
ray install example-cluster --create-namespace ./ray 2. インストールされるもの a. ray-operator: raycluster を管理するコンポーネント b. raycluster (custom resource) -> 3 pods (1 head + 2 worker) c. service: head へアクセスするエンドポイント 3. Ray Job の Submit a. Dashboard のサービスをローカルに Port Forward & CLI で提出 i. kubectl -n ray port-forward service/example-cluster-ray-head 8265:8265 ii. ray job submit –runtime-env-json=... – python script.py b. Ray Head 10001 を Port Forward して ray.init(“local”) でローカル Run (Security 的に微妙 ) c. Kubernetes の Pod (Job などから ) で ray.init(“head-service”) を Kubernetes クラスタから実行 + 環境変数から Head の情報を渡す https://github.com/ray-project/ray/tree/master/doc/kubernetes/example_scripts