Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Inferentiaに入門して 徳得を積む

AWS Inferentiaに入門して 徳得を積む

More Decks by mu7889yoon / Yuta Nakamura

Other Decks in Programming

Transcript

  1. 経歴 2024年3月 大阪電気通信大学 卒業 2024年4月 株式会社シーズ 入社 2025年6月 Japan AWS

    Jr. Champions 2025 好きなAWSサービス AWS Step Functions / Amazon Lightsail 中村 勇太 / mu7889yoon 2
  2. (Builders’ Fair訪問後の) AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう → LlamaForCausalLM、MistralForCausalLMに対応 -

    LLMモデルのコンパイル大変そう。 → 非MLエンジニアでもコンパイルできる仕組みを用意している。 → フレームワークによってはより簡単にコンパイル可能
  3. EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

    ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
  4. EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

    ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
  5. EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

    ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/ ここから🉐ポイントの香りがする
  6. 得得構成 1. インスタンス起動 2. 🎊 Coding Time 🎉 - EC2

    Infインスタンス利用 - us-east-1利用 - スポットインスタンス利用 - AMI利用によるDockerビルドのスキップ - AMI利用によるモデルのダウンロード・コンパイルのスキップ 🎊🎊🎊 5🉐ポイント 🎊🎊🎊
  7. まとめ - Builders’ Fair 1を聞いたら 10が返ってくるような濃密な時間が過ごせる - Llama / Mistral

    アーキテクチャの推論は、 EC2 Infインスタンスの利用が最適 - Qwenに対応すればよりHAPPY - 量子化モデルの使用は力およばず未検証 → さらに🉐になる可能性 - 専用の推論サーバーを持つ 嬉しさ - 小さいモデルにプログラム書かせるのも楽しい - ホームユースにも夢が広がる
  8. 参考ページなど AI チップ - Amazon Inferentia - AWS https://aws.amazon.com/jp/ai/machine-learning/inferentia/ Serving

    LLMs using vLLM and Amazon EC2 instances with AWS AI chips https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-am azon-ec2-instances-with-aws-ai-chips/ Neuron Community - Vol.2 (7/15 ハイブリット開催) https://aws.amazon.com/startups/events/neuron-community-02 Neuron Calculator — AWS Neuron Documentation (便利) https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/calculator/neuro n-calculator.html