Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Inferentiaに入門して 徳得を積む
Search
mu7889yoon / Yuta Nakamura
July 08, 2025
Programming
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AWS Inferentiaに入門して 徳得を積む
mu7889yoon / Yuta Nakamura
July 08, 2025
More Decks by mu7889yoon / Yuta Nakamura
See All by mu7889yoon / Yuta Nakamura
今だから言える(?) Q Developer Pro のクレジットが神ってた話
mu7889yoon
0
120
API Gateway→Lambda→AgentCore を再考する
mu7889yoon
0
22
MCPで決済に楽にする
mu7889yoon
1
210
Lambdaを使い倒す
mu7889yoon
0
110
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
1.5k
Stately
mu7889yoon
1
160
AWS Neuron周辺のre:Cap
mu7889yoon
0
160
JAWS-UG大阪 忘年勉強会 FSF AWSあるある
mu7889yoon
0
170
[標準語ver]JAWS-UG-CDK支部 #22 大阪でもCDKしたいねん
mu7889yoon
0
40
Other Decks in Programming
See All in Programming
並列実装の現場、2ヶ月間実務でAIを使い倒したAIもPCも私も限界が近い
ming_ayami
0
110
CSC307 Lecture 17
javiergs
PRO
0
320
TAKTでAI駆動開発の品質を設計する
j5ik2o
6
1k
Old Dog, New Tricks: The Java 25 Reinvention - JNation
bazlur_rahman
0
150
Composerを使ったサプライチェーン攻撃の様子を眺めてみる #phpstudy
o0h
PRO
2
230
Copilot CLI の継戦能力を高める コンテキスト管理
nozomutu
1
1.2k
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
17
6.2k
JavaDoc 再入門
nagise
0
300
ADKを使って簡単にAIエージェントを作ってみよう
k1mu21
0
240
気づいたらRubyで100作品 ー クリエイティブコーディングが生活の一部になるまで / 100 Ruby Sketches Later: How Creative Coding Became Part of My Life
chobishiba
3
550
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
660
AutonomyとControlのあいだ:Graflowで記述するAIエージェント協調
myui
0
110
Featured
See All Featured
Mind Mapping
helmedeiros
PRO
1
240
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
4 Signs Your Business is Dying
shpigford
187
22k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
We Have a Design System, Now What?
morganepeng
55
8.2k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
Transcript
JAWS-UG京都 AWS Summit Japan 2025 re:Cap LT大会 AWS Inferentiaに入門して 徳得を積む
中村 勇太 / mu7889yoon
経歴 2024年3月 大阪電気通信大学 卒業 2024年4月 株式会社シーズ 入社 2025年6月 Japan AWS
Jr. Champions 2025 好きなAWSサービス AWS Step Functions / Amazon Lightsail 中村 勇太 / mu7889yoon 2
AWS Inferentia is… - 低コストで高性能な推論を実現するために、AWSが独自開発したチップ - ざっくり言うとAWSが用意した機械学習モデルの推論の最適解 https://aws.amazon.com/jp/ai/machine-learning/inferentia/
(前までの) AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう - LLMモデルのコンパイル大変そう https://pages.awscloud.com/summit-japan-2025-aws-expo-booth.html#aws-builders-fair
(Builders’ Fair訪問後の) AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう → LlamaForCausalLM、MistralForCausalLMに対応 -
LLMモデルのコンパイル大変そう。 → 非MLエンジニアでもコンパイルできる仕組みを用意している。 → フレームワークによってはより簡単にコンパイル可能
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/ ここから🉐ポイントの香りがする
得得構成
得得構成 1. インスタンス起動 2. 🎊 Coding Time 🎉 - EC2
Infインスタンス利用 - us-east-1利用 - スポットインスタンス利用 - AMI利用によるDockerビルドのスキップ - AMI利用によるモデルのダウンロード・コンパイルのスキップ 🎊🎊🎊 5🉐ポイント 🎊🎊🎊
まとめ - Builders’ Fair 1を聞いたら 10が返ってくるような濃密な時間が過ごせる - Llama / Mistral
アーキテクチャの推論は、 EC2 Infインスタンスの利用が最適 - Qwenに対応すればよりHAPPY - 量子化モデルの使用は力およばず未検証 → さらに🉐になる可能性 - 専用の推論サーバーを持つ 嬉しさ - 小さいモデルにプログラム書かせるのも楽しい - ホームユースにも夢が広がる
参考ページなど AI チップ - Amazon Inferentia - AWS https://aws.amazon.com/jp/ai/machine-learning/inferentia/ Serving
LLMs using vLLM and Amazon EC2 instances with AWS AI chips https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-am azon-ec2-instances-with-aws-ai-chips/ Neuron Community - Vol.2 (7/15 ハイブリット開催) https://aws.amazon.com/startups/events/neuron-community-02 Neuron Calculator — AWS Neuron Documentation (便利) https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/calculator/neuro n-calculator.html
ありがとうございました 「もっと🉐積めるよ!」があれば懇親会でお話ししましょう!
付録 : 初めの構成 VS 得得構成 共通条件 EC2 Inf2.8xlarge EBS 300
GB Out 100 GB / 月