Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Step Functions上でエラーが発生した場合の効果的な通知方法を検討してみた
Search
TakaakiKakei
October 05, 2021
Programming
0
7.7k
AWS Step Functions上でエラーが発生した場合の効果的な通知方法を検討してみた
Developers.IO 2021 Decade で発表した資料です
TakaakiKakei
October 05, 2021
Tweet
Share
More Decks by TakaakiKakei
See All by TakaakiKakei
現場で効くClaude Code ─ 最新動向と企業導入
takaakikakei
1
370
企業が押さえるべきMCPの未来
takaakikakei
5
1.6k
5分で語るMCP
takaakikakei
0
31
生成AIの現在地点とこれからの可能性
takaakikakei
0
260
AIプロダクト開発から得られた知見 - 2025年1月版
takaakikakei
0
430
re:Invent 2024 生成AIまとめ
takaakikakei
0
620
OpenAIのAssistants API(Beta)の概要と使い方
takaakikakei
0
730
企業向け生成AIアプリの 開発から得られた知見
takaakikakei
0
710
「AWSによる独自データ活用の生成AIソリューション」というタイトルでCM re:Growth 2023に登壇しました #AWSreInvent #cmregrowth
takaakikakei
0
1.1k
Other Decks in Programming
See All in Programming
After go func(): Goroutines Through a Beginner’s Eye
97vaibhav
0
230
ポスターセッション: 「まっすぐ行って、右!」って言ってラズパイカーを動かしたい 〜生成AI × Raspberry Pi Pico × Gradioの試作メモ〜
komofr
0
950
2025年版 サーバーレス Web アプリケーションの作り方
hayatow
23
25k
Breaking Up with Big ViewModels — Without Breaking Your Architecture (droidcon Berlin 2025)
steliosf
PRO
1
330
いま中途半端なSwift 6対応をするより、Default ActorやApproachable Concurrencyを有効にしてからでいいんじゃない?
yimajo
2
340
CSC509 Lecture 02
javiergs
PRO
0
400
AIエージェント時代における TypeScriptスキーマ駆動開発の新たな役割
bicstone
4
1.5k
どの様にAIエージェントと 協業すべきだったのか?
takefumiyoshii
2
600
株式会社 Sun terras カンパニーデック
sunterras
0
220
Local Peer-to-Peer APIはどのように使われていくのか?
hal_spidernight
2
450
CI_CD「健康診断」のススメ。現場でのボトルネック特定から、健康診断を通じた組織的な改善手法
teamlab
PRO
0
180
AI Coding Meetup #3 - 導入セッション / ai-coding-meetup-3
izumin5210
0
580
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Code Reviewing Like a Champion
maltzj
525
40k
What's in a price? How to price your products and services
michaelherold
246
12k
Scaling GitHub
holman
463
140k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
30
2.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Transcript
AWS Step Functions上でエラーが発生した 場合の効果的な通知方法を検討してみた 2021-10-05 AWS事業本部 オペレーション部 サービスグロースチーム 筧 剛彰
どうもみなさん初めまして 筧 剛彰(かけい たかあき)と申します 2
エラー通知方法についてよく検討をされていますか? 私はサービスのメインロジックに焦点をあてがちで、 エラー通知方法について深く検討できていない状態でした 3
本セッションのゴール エラー通知方法を見直すきっかけとなり、 サービス品質向上につながれば幸いです! 4
5 おさらい • サーバレスオーケストレーションサービス • グラフィカルコンソールによる可視化 • 各コンポーネントの状態を記録 https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/welcome.html
6 通知先 • セクションでエラー通知先のチャンネルを簡単にまとめれて見やすい • スレッドでエラーについてコミュニケーションしやすい • AWSサービスと親和性が高い
7 デプロイツール • サーバレスアプリケーションのデプロイツール • 構築や管理が簡単になる https://www.serverless.com/
8 ステートマシンの構成 • 意図的にタイムアウトを発生する Lambda関数のステップ(TimeOut) • 必要情報をまとめて Slack通知するLambda関数のステップ(NotifyError) • 失敗で終わらせるための
Failタイプのステップ(FailState)
9 完成形がこちらです • 緊急度に応じて色とメンション有無変更 • 調査に必要な情報を分かりやすく表示 • タイトルリンクから対象のステートマシンの実 行ページにいける ※表示しているAWSアカウントIDはダミーです
各項目の取得方法は? 10 項目 取得元 ・Error(エラー名) ・Cause(エラー原因) 1.前のステップの出力 ・リージョン ・AWSアカウントID ・ステートマシン名
・From Time(実行開始時間) ・Input(実行入力) ・対象のステートマシンの実行ページ URL 2.Contextオブジェクト
11 1.前のステップの出力から取得 • TimeOutステップの出力にエラー内容が含まれる • NotifyErrorステップのParametersフィールドで、paramキーに渡す • Lambdaからは、event["param"]["Error"] などでアクセス https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/input-output-input
path-params.html#input-output-parameters state-machines.yml slack.py
12 2. Context オブジェクトから取得 https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/input-out put-contextobject.html • Context オブジェクトには、ステートマシンおよ び実行に関する情報
が含まれる • ワークフロー上で各ステップからアクセスが可 能 Context オブジェクトの形式
13 2. Context オブジェクトから取得 • Parametersフィールドで、Execution.$: $$Execution などで取得できる • Lambdaからは、event["Execution"]["Id"]
などでアクセス • Context オブジェクトの情報をパース処理 state-machines.yml slack.py
各項目の取得方法は? 14 項目 取得元 ・Error(エラー名) ・Cause(エラー原因) 1.前のステップの出力 ・リージョン ・AWSアカウントID ・ステートマシン名
・From Time(実行開始時間) ・Input(実行入力) ・対象のステップマシンの実行ページ URL 2.Contextオブジェクト
15 2. Context オブジェクトから取得 • 対象ステップへの実行 URLは以下の形式 https://{リージョン}.console.aws.amazon.com/states/home?region={リージョ ン}#/executions/details/{実行ARN} •
Context オブジェクトから取得した項目(リージョンと実行 ARN) を組み合わせて作成
Slackへの通知方法は? • エラー原因に応じて通知メッセージを変更 • 緊急度中:alert_middle関数 緊急度高:alert_high関数 • 翌日以降の対応でよいものは、 alert_middleで 通知されるようにチューニングする想定
17 通知内容の違い • メンション有無 • タイトルのアイコン • カラー
Slackへの通知方法は? • https://api.slack.com/reference/messaging/attachments
緊急度が低い通知はどうするの? • 管理するサービスが増えるほど、エラー通知数は増加しが ちです • 対応不要なエラーまで通知していると、エラー対応に追わ れてチームが疲弊します • 新しい開発や重要なエラー対応に注力するためにも 不要な通知はコード上で抑制することを検討しましょう
19
まとめ • AWS Step Funtionsのエラー通知には、前のステップ出力 やContextオブジェクトを活用 • 緊急度を表現するには、色やメンション有無を変える • チームが疲弊しない為に、不要な通知はコード上で抑制
20
None