Upgrade to Pro — share decks privately, control downloads, hide ads and more …

混合雲基礎架構探討 Microsoft Azure Infrastructure

混合雲基礎架構探討 Microsoft Azure Infrastructure

Phil Huang

May 04, 2023
Tweet

More Decks by Phil Huang

Other Decks in Technology

Transcript

  1. Phil Huang • Microsoft 資深雲端解決方案架構師 • Azure Networking • Azure

    Red Hat OpenShift • Azure VMware Solution • CNCF Ambassador 雲原生基金會大使
  2. Our partnership with OpenAI 確保通用人工智慧 (Artificial General Intelligence, AGI) 造福人類

    使地球上的每個人和組織都 能取得更大成就 GPT-3 產生和理解文字 (Text) Codex 產生和理解程式碼 (Source Code) DALL·E 從文字提示產生圖片 (Images) ChatGPT 產生互動式對話
  3. 通用人工智慧 GPT-3 Prompt: Write a tagline for an ice cream

    shop. Response: We serve up smiles with every scoop! Codex Prompt: Table customers, columns = [CustomerId, FirstName, LastName, Company, Address, City, State, Country, PostalCode] Create a SQL query for all customers in Texas named Jane query = Response: SELECT * FROM customers WHERE State = 'TX' AND FirstName = 'Jane' DALL·E Prompt: A white Siamese cat Response: ChatGPT 你好 您好! 有什麼我能幫助您的嗎? OpenAI 和 Azure OpenAI Service 是不是不一樣? 是的,OpenAI 和 Azure OpenAI Service 是不同的 機構和產品
  4. OpenAI.com 和 Azure OpenAI Service 服務比較表 | Azure OpenAI Service

    (AOAI) 最新模型搶先體驗 OpenAI 研發的最新模型,包括 alpha 和 beta 模型,將 始終首先在 OpenAI.com 上提供。 一旦模型在 OpenAI.com 上正式發佈,微軟將確定它們在 Azure OpenAI 服務 上線的時間和產品。 交付方式 作為基於 SaaS 的 AI API 交付 作為第一方 Azure 服務提供,通過客戶的 Azure 租用戶/訂閱使用 託管位置 Azure 美國區域( 1 個) Azure 美國區域和歐洲區域 (共 3 個 West Europe/South Central US/East US) 支付途徑 向 OpenAI 付費 向 Microsoft 付費 (可以作為 MACC 的一部分) 合規 SOC2 Type 1, SOC Type 2 (待定), HIPAA 全套合規產品 (查看完整的 Microsoft Compliance Offerings) 模型 GPT-4, Codex and DALL-E ChatGPT API and Whisper API GPT-4 (Preview). GPT-3, DALL-E and Codex (including Codex Fine- Tuning) ChatGPT (gpt-35-turbo) API 解決方案 ChatGPT, DALL-E Labs Github Copilot, Teams Premium and Viva Sales 支援 由 OpenAI 支援團隊提供支援 台灣在地 Azure 支援團隊提供支援 客戶互動 聯繫 OpenAI 解決方案團隊 聯繫台灣微軟業務窗口 SLA 99.5% 99.9%, Azure Service Level Agreements 安全和網路 Single Sign On (SSO), 協力廠商身份訪問管理和基於角色 的權利管理 Azure Active Directory, Role Based Access Control, Customer Managed Keys, Private Link and Network Security Responsible AI Usage Policies 和 Safety Best Practices Microsoft Responsible AI Principles apply ✅ ✅ ✅ ✅ ✅ ✅
  5. Azure Landing Zone 架構指引協助您更快速部署和運行服務 Azure Red Hat OpenShift Landing Zone

    Accelerator Ref: https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/app-platform/azure-red-hat-openshift/landing-zone-accelerator "起步參考,因應實際,隨需調整,持續改進" • 由 Azure 專家群匯集眾多知識和落地經驗,針對各個不同工作負載服務提供 Azure Landing Zone 說明
  6. 單一區域部署,複合 SLA 為 99.8790472% Azure Well-Architected Framework • 於單一區域下,會需要使用 Azure

    Red Hat OpenShift 及其他 Azure PaaS 服務 • 複合 SLA 低於單一 SLA: 因仰賴多個底層服務的應用程式會有多個可能的失敗點,但其中一個底層 服務失敗就會導致整體服務 Downtime,故要計算複合 SLA (Composite SLA),而非單獨看個別 SLA 99.8790472% Daily 1m45s Weekly 12m12s Monthly 52m35s Quarterly 2h37m44s Yearly 10h30m56s
  7. Ref: https://datacenters.microsoft.com/globe/explore 40 Azure regions 5 Ground stations 17 Coming

    soon Azure regions Japan East (Tokyo) Southeast Asia (Singapore) East US (Virginia) South Central US (Texas) West Europe (Netherlands) 3 Available Regions of Azure OpenAI Service (AOAI)
  8. 跨區域部署,複合 SLA 變成 99.9998% Azure Well-Architected Framework • 若需大幅度提升 SLA,則選擇

    跨區域部署是一個優秀的選擇 1. 確保與地端網路連接 • 採用 Azure Virtual WAN 建立 跨區域間的連線 • 採用 F5 BIG-IP VE 啟用 LTM / DNS 協助流量容錯轉移 2. 確保工作負載可以放置在上 • 採用符合 Kubernetes 相容性 和高安全性的 Red Hat OpenShift 3. 確保最終資料一致性 • 採用 Azure Cosmos DB、 Azure Storage 或其他 Storage 選擇
  9. CNCF 定義可觀測性和分析 (Observability and Analysis) 了解系統的健康狀態,並確保即使在不正常狀況下也能保持運行 分為 3 大支柱: 1.

    Metrics: 可聚合的數據,且通常是固定 類型的 Time Series 數據,如 Prometheus metrics、SNMP metrics 等 2. Logging: 用於紀錄離散的事件,包含程 式執行到某一點或持續輸出的詳細訊息, 如 Syslog、Stdout/Stderr 等 3. Tracing: 紀錄特定請求的處理流程,其 中包含服務呼叫及處理時長等訊息,常 見如 Span、Trace 用詞 Ref: https://landscape.cncf.io/guide#observability-and-analysis
  10. 雲原生可觀測性 (o11y) 和分析的實踐挑戰 CNCF Landscape 專案選擇困難議題 1. 面對套件複雜: 針對 Metrics、Trace、Log

    三種數據,因 各自方案專注解決某個特定場景的可觀測性及分析問題, 常見需要搭三套獨立服務,內部涉及套件眾多,維護成 本高 2. 資料維護不易: 因過往無共同規範,同一個應用不同類型 的資料儲存在相互獨立的系統,受限於規模、運算資源 等因素,難以發揮數據最大價值 3. 學習曲線陡峭: 因不同應用程式有不同程式特性,很難有 人同時了解全棧式個別環節的細節 Ref: https://landscape.cncf.io/guide#observability-and-analysis Monitoring Logging Tracing
  11. Metrics: Azure Container Insight 關鍵功能 針對 Infra,監視部署至雲端之容器工作負載的效能 Ref: https://learn.microsoft.com/zh-tw/azure/azure-monitor/containers/container-insights-overview https://learn.microsoft.com/en-us/azure/azure-monitor/essentials/data-platform-metrics

    Container Azure Red Hat OpenShift / Red Hat OpenShift 4 Log Analytics workspace Metrics Azure Container Insights OpenTelemetry Metrics / Application Insight Azure Managed Prometheus PromQL Azure Managed Grafana Prometheus Alert Rule Metrics Explore Workbooks Dashboard Azure Managed Grafana Metrics Alert Rule Analyze Visualize Respond Azure Container Insight 1. 識別資源瓶頸: 即時監視在 Kubernetes 叢集上運行的容器及整體平台工作負載,能夠以數據佐證判 讀當前運行狀況 2. 資料可視化: 針對不同角色能夠提供不同的儀表板可視化能力,單一資料,多樣呈現 3. 主動示警: 根據特定的閥值設定警報,以便在系統運行狀況出現異常時即時接收通知,或整合自動 化機制,快速協助解決問題 CNCF Path Azure Path
  12. 支援 4 種角度切入觀察 - Cluster - Nodes - Controllers -

    Containers 涵蓋多種預設 Metrics 類型 - CPU - Memory - Disk - Network - GPU Cluster 視野,預設提供折線圖 (Line Plot Chart) Container 視野,預設提供表格圖 (Table Chart)
  13. Logging: 使用 Sentinel 現代化您的安全性營運中心 新世代雲原生 SIEM Solution,鳥瞰整個企業 IT 環境安全現況,進行智慧安全分析 Ref:

    https://learn.microsoft.com/en-us/azure/sentinel/data-connectors/f5-big-ip Azure Active Directory Log Analytics workspace Microsoft Sentinel Azure diagnostic logs TLS/SSL Rest API TLS/SSL Native Data Connectors Microsoft partners/Threat Intelligence/Vendors Built-in data connectors Microsoft Defender for Cloud Apps Microsoft Defender for Cloud Azure AD Identity Protection Azure Activity Microsoft Defender for Identity Microsoft Defender for Office 365 Microsoft Defender for IoT Microsoft Defender for Endpoint Azure Active Directory Cluster Log Forwarder - infrastructure - audit - application F5 Connector Syslog Connector 1. 巨量收集: 可收集雲地既有服務的任何資料來做關聯分析,不受限於地端硬體成本、規模、維護能量 2. 精準識別: 基於大量威脅情資 (惡意 IP/FQDN、File Hash 等等),輔以 Azure 強大的 AI 調查技術幫助 精準識別出關鍵事件或者是預先偵測尚未發現的威脅 3. 快速回應: 內建自動化機制快速回應威脅,如自動觸發防火牆規則、觸發 Ticket System Log
  14. • 通過將警報與優先事項關聯起來,誤報率下降 79% • 通過 AI 技術及自動化,減少 80% 回應時間 •

    透過持續性威脅情資更新,降低 56% 管理成本 內建 UEBA (使用者與實體行為分析) 允 許快速識別異常用戶行為,建立對於內 外部不良行為使用者的高度洞察力
  15. Tracing: 使用 Application Insight 透視應用程式性能 針對 App,提供應用程式效能監視 (APM) 能力 Backend

    Service Azure Red Hat OpenShift / Red Hat OpenShift 4 Log Analytics workspace Metrics Azure Container Insights OpenTelemetry Metrics / Application Insight AI Telemetry AI Frontend Service AI Web Pages AI HTTP requests Dependency Calls Application Insight 1. 分散式效能追蹤 (Distributed Tracing): 視覺化從使用者操作到後端效能,分析瓶頸,定位問題 2. 智慧型偵測 (Smart Detection): 採用 AI 學習,針對失敗異常、效能異常和例外狀況數量升高,提 供識別自動化能力 3. 支援雙框架收集遙測資料: 同時支援 Azure Application Insight 和 CNCF 主持的 OpenTelemetry 所提 供的 SDK 且能收集於統一資料平台
  16. 透過 Application Map 及 Span / Trace 的搭配使用,可於 Application Insight

    畫出服務之間相互關係 透過收集遙測數據 (Telemetry),支援即時 計量、可用性監測,以更貼近使用者的角度, 更理解端到端的效能
  17. Microsoft 現為 OpenTelemetry 前 3 大貢獻公司 • OpenTelemetry 提供廠商中立且跨語言一致的 Telemetry

    規格 • 4 種訊號類型 Tracing / Metrics / Log / Baggage • 4 個主要核心組件 APIs / SDKs / OpenTelemetry Protocol (OTLP) / Collector • Azure 提供資料收集和呈現報表 • Metrics: Azure Monitor • Tracing: Azure Application Insight • Log: Azure Log Analytics • 現行提供 .NET / Java / JavaScript / Python 後續 會陸續增加新的程式語言 Azure 與 OpenTelemetry 之間關係 Ref: https://learn.microsoft.com/zh-tw/azure/azure-monitor/faq#opentelemetry https://opentelemetry.devstats.cncf.io/d/5/companies-table?orgId=1&var-period_name=Last%20decade&var-metric=contributions
  18. Azure 提供給您的 3 大價值 採用 Azure 基礎架構的多種彈性選擇、迅速規模化和保持安全合規 打造雲原生環境的最佳合作夥伴 Azure /

    Red Hat / F5 Networks 導入 Azure OpenAI Service 賦能各式服務 以可觀測性 (Observability) 最佳化雲原生環境