Slide 62
Slide 62 text
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Inferentia2 LLM 推論性能
GPU インスタンス
619.6
368.6
OPT-30B
スループット性能
(tokens/sec)
FP16, Seqlen 2048, B16
65%
⾼い性能
inf2.48xlarge
Out of
Memory
OPT-66B
スループット性能
(tokens/sec)
FP16, Seqlen 2048,
GPU インスタンス
GPU インスタンス
$59.15
$ 122.7
OPT-30B
1M 推論あたりのコスト
(USD)
FP16, Seqlen 2048, B16
52%
低コスト
351
inf2.48xlarge inf2.48xlarge