Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Streamline EKS Management through Agentic AIOps...

Avatar for Shaoyi Li Shaoyi Li
December 13, 2025
4

Streamline EKS Management through Agentic AIOps Workflow with K8sGpt and ArgoCD

This session explores how AIOps can be built by analyzing large-scale cloud-native operational data and applying AI-driven decision-making. Focusing on Kubernetes environments, it demonstrates how multi-agent architectures powered by Amazon Bedrock AgentCore and K8sGPT can automate fault detection, root cause analysis, and remediation. By combining domain expertise, observability data, and AI planning mechanisms, the solution reduces manual troubleshooting, shortens MTTR, and lowers operational complexity. The session also showcases voice-driven operations and human-in-the-loop safeguards, illustrating how intelligent automation can deliver reliable, auditable, and scalable cloud operations.

Avatar for Shaoyi Li

Shaoyi Li

December 13, 2025
Tweet

Transcript

  1. Amazon Bedrock AgentCore 高度灵活 高度可信 快速创造价值 打造强大 AI Agent, 免除基础设施和运维困扰

    部署企业可信任的安全、 可扩展且可靠的 Agent 通过各种框架或模型 构建 Agent 提供支撑高性能 Agent 安全规模化运行的基础服务 安全、规模化部署 利用工具和记忆系统 增强功能 监控 利用各种框架和模型,安全、可靠地规模化部署和运营高性能 Agent
  2. 核心工作流程:从问题到解决的闭环 1. 问题发现 监控告警或自然语 言提问触发 2. 智能体调度 AgentCore分配任 务给对应专家智能 体

    3. 故障分析 K8sGPT执行日志/ 指标分析,定位根 因 4. 自动修复 ArgoCD执行配置更 新 5. 结果反馈 生成报告并记录知 识库
  3. 设计哲学:采用先思考,后执行理念 ' Plan-First Approach:先制定完整调查计划再执行 Memory-Driven Intelligence :基于历史经验和用戶偏好决策 Complexity-Aware Routing:根据复杂度决定是否需用戶确认 三层架构

    规划层: create_investigation_plan (制定调查计划) 路由层: route (决定执行流程) 聚合层: aggregate_responses (整合最终结果) 核心职责 分析用戶查询、制定调查计划、智能路由任务、协调专业Agent、聚合结果生成报告、管理记忆系统 Amazon Bedrock AgentCore 多智能体设计 分层协调式多Agent架构: 1个Supervisor Agent统筹规划,4个专业化Agent分工执行,基于LangGraph状态图管理协作流程。 Supervisor Agent 核心架构与职责
  4. Supervisor Agent 工作流程与关键机制 工作流程 关键机制 记忆系统集成: 管理用戶偏好、基础设施知识、调查历史 三类记忆 防幻觉机制: 工具归属验证(响应需含工具来源)、数据一

    致性检查(验证格式和内容) 自适应输出: 技术⻛格(含详细技术分析)、执行⻛格(专 注业务影响) 用戶查询 记忆检索 智能规划 路由决策 结果聚合 格式化输出 自动记忆捕获
  5. Amazon Nova Sonic Amazon Nova Sonic是在Amazon Bedrock上提供的一款语音对话模型。它统一了传统分离的语音理解与语音生成 模型,并且可以实现真实人类般的语音对话,支持多语言、多语调,具备低延迟、高性能的特点。 与运维场景结合核心价值: 将传统复杂人工的排查+修复极简化为语音对话,

    最大化实现智能运维AIOps,降低MTTR 使用场景: AI智能客服:24/7响应客户咨询 企业语音助手:集成知识库、智能代理、外部 工具实现定制化服务 多邻国语言学习工具:支持多种语言 多行业应用:金融科技、医疗、智能家居等
  6. 场景演示介绍 演示集群: - 在亚马逊云科技上部署的EKS托管集群, 集群名:eks-cluster 集群资源概况: 集群通过ArgoCD的application从GitHub读 取多个K8s资源部署。包括2个pod、一个 service和一个Deployment Pod存在的问题:

    设置了内存上限200Mi,但是我们设置运行 205Mi的进程,会造成CrashLoopBackOff 实验修复场景: 通过K8sGPT识别Pod问题,并提供问题的解释和修复建议。 最后通过ArgoCD实现对application内Helm Chart的内存上限参数调整,触发ArgoCD修改pod配置,让pod成功启动。
  7. 通过K8sGPT识别集群故障 1)本地安装K8sGPT Cli工具 brew install k8sgpt 2)将Amazon Bedrock上的Claude模型添加到K8sGPT配置中作为分析模型 k8sgpt auth

    add --backend amazonbedrock --model us.anthropic.claude-sonnet-4-20250514-v1:0 -- providerRegion <region-name>(已经支持Claude 4 Sonnet、Nova Pro/Lite等) 3)将Bedrock设为默认分析模型平台 k8sgpt auth default -p amazonbedrock 4)更新kube配置文件,连接到云端EKS集群 aws eks update-kubeconfig --region <region-name> --name my-cluster 5)利用Amazon Bedrock对EKS集群事件和问题分析,生成解决方案。 k8sgpt analyze --explain --backend amazonbedrock
  8. 总结 • 了解如何手把手构建一个以Amazon Bedrock AgentCore 为底座,由AI多智能协作体系赋能的K8s 智能化运维方案。仅需简单的一句话,就可以完成从问题识别、诊断到全自动修复的全链路流程,极 大简化大量运维数据的分析与人工修复操作,降低手动错误风险。 • 本方案与

    K8sGPT 原有的有限自动修复能力相比,自定义的添加了更多基于业务的自动修复功能,更 为灵活、可扩展性更强。 • 对于自动化修复场景,我们引入了HITL(Human-in-the-Loop) 流程,保障自动修复的可靠性与可 控性。依托 ArgoCD的原生能力,所有修复操作都具备可审计性、可回滚性,降低维护风险。 • 运维工程师可直接通过语音的方式最大化实现AIOps智能运维,显著降低 MTTI和MTTR。 • 未来计划:通过集成CloudWatch Anomaly Detection (AD)和DevOps Guru,基于分析历史数据预 测潜在K8s集群故障