Slide 15
Slide 15 text
© 2020, Amazon Web Services, Inc. or its Affiliates.
Managed Spot Training
• オンデマンドに比べて最大90%のコスト削減
• 中断が発生する可能性があるので checkpoints に途中経過を書き出し
• 最大で待てる時間を指定
呼び出し方:
estimator = PyTorch("train.py",
role=sagemaker.get_execution_role(),
train_instance_count=1,
train_instance_type="ml.p3.2xlarge",
framework_version="1.5.0",
train_use_spot_instances=True,
train_max_wait=2*24*60*60, # >= train_max_run (デフォルト1日)
checkpoint_s3_uri="s3://mybucket/checkpoints",
checkpoint_local_path="/opt/ml/checkpoints/"
)
estimator.fit("s3://mybucket/data/train") # fit でトレーニング