Oracle Database Technology Night #62 Autonomous Health Framework (AHF) 概要と実践

Oracle Technology Night #62-1 Autonomous Health Framework(AHF)概要データベースの可用性とパフォーマンスを維持するための機械学習ベースのソリューション橋本琢爾
日本オラクル株式会社クラウド・エンジニアリング統括 COE本部データベース・ソリューション部 2022年12月

以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することを確約するものではないため、購買決定を行う際の判断材料になさらないで下さい。オラクル製品に関して記載されている機能の開発、リリース、時期及び価格については、弊社の裁量により決定され、変更される可能性があります。 2 Copyright ©
2022, Oracle and/or its affiliates

Agenda Autonomous Health Framework(AHF) Copyright © 2022, Oracle and/or its
affiliates 3 2 実装 AHF導入と実行例 1 解説概要説明各コンポーネントの役割

Autonomous Health Framework(AHF)の対処できること Copyright © 2022, Oracle and/or its affiliates
4 可用性の問題 • ソフトウェアの問題（DB、GI、O/S）または基礎となるハードウェア・リソース（CPU、メモリ、ネットワーク、ストレージ）を介してソフトウェア・スタックの可用性に影響を与える問題パフォーマンスの問題 • ソフトウェアの問題（バグ、構成、競合など）やクライアントの問題（デマンド、問合せのタイプ、接続管理など）を介してデータベース・クライアントまたはアプリケーションに発生し、システムのパフォーマンスに影響を与えるランタイムの問題 • AHFの様々なコンポーネントを連携させて実現可能な監視・管理

5 Copyright © 2022, Oracle and/or its affiliates Autonomous Health
Framework(AHF)に含まれる機能 Cluster Verification Utility • OS状態確認やGI/RAC環境の必須要件、 • ベスト・プラクティスをチェックし、レポーティング ORAchk・EXAchk • Grid Infrastructure やデータベースが稼働する環境全体の構成をレポーティング • ベスプラとの乖離や潜在的な既知問題を確認可能 Cluster Health Monitor • OSのメトリックを監視/収集 • 蓄積データは分析に活用でき、様々な機能で使用される Cluster Health Advisor • クラスタノードおよびデータベースに関する性能問題の根本原因、是正処置について早期に警告 Quality of Service Management • SLA担保の為に、システム全体のワークロードを監視 • 状態に応じてパフォーマンスレベルに合わせたリソース割り当てを自動的に行える Memory Guard • メモリの使用率に応じて接続を制御し、アプリケーションからの処理を保護 • RAC環境でメモリ不足による障害を防止 Hang Manager • データベースのハングを検知した際に、原因をロジカルに分析、解決可能な問題に対処 • 自動で解決して継続稼働と性能を保つ Trace File Analyzer • OS、Grid Infrastructure、データベースなどのログ収集・分析をシンプルに行えるツール • 問題発生時の分析の迅速化を図る Grid Infrastructure (12.2) から実装済み ⇨ 一部を Gird Infaructure 環境以外にも対応

Autonomous Health Framework(AHF)に含まれる機能 • Grid Infrastructure と AHF 特にクラスタ環境においては、 •
複数のマルチタイプ・データベース • 多ノード上に配置される複数インスタンス • 異なるバージョンの混在 • OLTP/Analyticsなどのマルチワークロードなど、環境が多岐にわたり、かつリ様々な層のリソースへ負荷がかかるため、Grid Infrastructure 層での監視・管理が必要となってくるクラスタ環境においては情報格納用に別途PDBを作成し、自律型の監視・管理へ拡張されているが、Grid Infrastructure に依存しない環境でも活用できるように進化している I/O, メモリ, CPU, N/W クラスタ環境の監視・管理 Copyright © 2022, Oracle and/or its affiliates 6

Autonomous Health Framework(AHF) • Grid Infrastructure / Real Application Clusters
における障害 Node1 (インスタンス1)へ接続不可が発生！「何が起きているのか?」【EMCC 13.5 】クラスタウェア Copyright © 2022, Oracle and/or its affiliates 7

Autonomous Health Framework(AHF) • Grid Infrastructure / Real Application Clusters
における障害への対応現状把握対処策の策定と意思決定対応・復旧 • インフラ観点 (H/W, N/W, OS など) • 故障/破損 • 高負荷など • OS, ドライバ、ファームウェア • 実行環境観点 (S/W, アプリケーション) • Database S/W • Database オブジェクト起因 • アプリケーション(人的な要素含む) • 設計や設定および運用観点 • 導入当初からの環境差異 • 最新のベストプラクティス • 初期サイジングからの乖離 • パッチなどメンテナンス状況 • 対策チーム編成 • 社内 + パートナー + ベンダ • インフラの復旧 (時間 / リソース / コスト) • 即時対応の可否 • トランザクション / アプリケーション観点 • サービス復旧への手順 • 暫定的な対処か、想定内の復旧手順か • 縮退稼働か、サイト間F/Oかなど • 復旧方針 (例として) Copyright © 2022, Oracle and/or its affiliates 8

• 最新のAHFはMOSから入手可能 Autonomous Health Framework(AHF) 現状把握のために 9 Copyright © 2022,
Oracle and/or its affiliates AHF はGrid Infrastructure に含まれる機能 RAC や Exadata では default 有効 Autonomous Health Framework (AHF) - Including TFA and ORAchk/EXAchk (ドキュメントID 2550798.1) – GI/RAC以外でも活用可能に 22.3.2

Framework(AHF)に含まれる機能 Cluster Verification Utility • OS状態確認やGI/RAC環境の必須要件、 • ベスト・プラクティスをチェックし、レポーティング ORAchk・EXAchk • Grid Infrastructure やデータベースが稼働する環境全体の構成をレポーティング • ベスプラとの乖離や潜在的な既知問題を確認可能 Cluster Health Monitor • OSのメトリックを監視/収集 • 蓄積データは分析に活用でき、様々な機能で使用される Cluster Health Advisor • クラスタノードおよびデータベースに関する性能問題の根本原因、是正処置について早期に警告 Quality of Service Management • SLA担保の為に、システム全体のワークロードを監視 • 状態に応じてパフォーマンスレベルに合わせたリソース割り当てを自動的に行える Memory Guard • メモリの使用率に応じて接続を制御し、アプリケーションからの処理を保護 • RAC環境でメモリ不足による障害を防止 Hang Manager • データベースのハングを検知した際に、原因をロジカルに分析、解決可能な問題に対処 • 自動で解決して継続稼働と性能を保つ Trace File Analyzer • OS、Grid Infrastructure、データベースなどのログ収集・分析をシンプルに行えるツール • 問題発生時の分析の迅速化を図る

Trace File Analyzer(TFA) 調査に必要な情報を一括で取集できるツール 11 Copyright © 2022, Oracle and/or
its affiliates 単一インタフェースでヘルス監視、障害検出と診断が容易に電子メールで通知も可能調査に必要な情報をクラスタ全体から簡単に収集診断情報をセキュアに収集情報収集と診断の迅速化により時間やコストの削減

TFA TFA Trace File Analyzer(TFA) ヘルス監視、障害検出と診断問題発生時に自動で情報収集オンデマンドでの情報収集 14 Copyright
© 2022, Oracle and/or its affiliates ①障害検知 ②診断自動収集 ③情報パッケージ化 ④通知 ⑤Oracle Supportに情報提供 ①操作をリクエスト ②リアルタイムサマリー確認 ③DBツール診断 ④診断収集 ⑤情報パッケージ化 DBA DBA サービス・リクエスト・データ収集(SRDC) ⑥Oracle Supportに情報提供サービス・リクエスト・データ収集(SRDC)

ORAchk/EXAchk ベスト・プラクティスの維持と既知問題に対する対応状況のレポート 15 Copyright © 2022, Oracle and/or its affiliates
影響が大きい既知問題に対するヘルスチェック定期ヘルスチェック・レポートを電子メールで送信環境構成やベストプラクティスとの乖離をレポートで確認レポートは他のツールと合わせて確認することも可能 (Collection Manager や Enterprise Manager 等) Engineered Systems Non- Engineered Systems EXAchk 共通のフレームワーク ORAchk ※ Oracle Database Appliance (ODA) には ORAchk を使用する

ORAchk/EXAchk ベスト・プラクティスの維持と既知問題に対する対応状況のレポート • Oracle DatabaseやEngineered System環境のベスト・プラクティスに基づく、ハードウェアおよびソフトウェア構成などについて数百種のチェックを実行し、結果および推奨をレポート • GI、DB、ASM、OS に対するソフトウェア・チェック
• MAA 標準に則しているかのチェック • Exadata や Database の既知の Critical Issue に、現在利用している Exadata や Database のパッチバージョンが該当していないかのチェック • Engineered Systemの場合: H/W構成のチェック(Database Server、Storage Server、InfiniBand Switch等) • 様々な便利なモードを実装 • 定期的な自動実行、結果のメール通知 • 複数レポートの比較(環境変更前後、本番環境とテスト環境の比較など)、アップグレード前後のチェック(アップグレード・レディネス・モード)、特定のコンポーネントに対するチェック • レポートの暗号化、REST 対応 • APEXを利用したコンソール画面での一元管理(Collection Manager) 16 Copyright © 2022, Oracle and/or its affiliates

ORAchk/EXAchk Copyright © 2022, Oracle and/or its affiliates 18 [reports
ディレクトリ] – orachk_browse_ノード名_SID_orachkID.html Database （RAC) 環境における、 • ASM関連パラメータ • Database 隠しパラメータを含む全ての初期化パラメータ • Database Server に関する設定値

TFA ORAchk EXAchk ORAchk/EXAchk と TFA の利用の流れ 19 2 @お客様
診断結果の表示と統合 2 問題検出 3 問題の通知トリム、キャプチャ、パッケージ、およびオプションで診断のアップロード 5 @ Oracle SRへのアドバイス 1 TFA UI (TFA Web) SR を診断してソリューションを推奨 2 Copyright © 2022, Oracle and/or its affiliates DBA Collection Manager その他 1 自動予防ヘルスチェック AHF との統合 4

Autonomous Health Framework(AHF)に含まれる機能 Copyright © 2022, Oracle and/or its affiliates
20 Cluster Verification Utility • OS状態確認やGI/RAC環境の必須要件、 • ベスト・プラクティスをチェックし、レポーティング ORAchk・EXAchk • Grid Infrastructure やデータベースが稼働する環境全体の構成をレポーティング • ベスプラとの乖離や潜在的な既知問題を確認可能 Cluster Health Monitor • OSのメトリックを監視/収集 • 蓄積データは分析に活用でき、様々な機能で使用される Cluster Health Advisor • クラスタノードおよびデータベースに関する性能問題の根本原因、是正処置について早期に警告 Quality of Service Management • SLA担保の為に、システム全体のワークロードを監視 • 状態に応じてパフォーマンスレベルに合わせたリソース割り当てを自動的に行える Memory Guard • メモリの使用率に応じて接続を制御し、アプリケーションからの処理を保護 • RAC環境でメモリ不足による障害を防止 Hang Manager • データベースのハングを検知した際に、原因をロジカルに分析、解決可能な問題に対処 • 自動で解決して継続稼働と性能を保つ Trace File Analyzer • OS、Grid Infrastructure、データベースなどのログ収集・分析をシンプルに行えるツール • 問題発生時の分析の迅速化を図る

Autonomous Health Framework(AHF) CVU(Cluster Verification Utility) ご注意下さい！ • CVUの記載は 19c
から AHFではなく、Clusterware 管理およびデプロイメント・ガイドに移りました 21 Copyright © 2022, Oracle and/or its affiliates https://docs.oracle.com/cd/F39414_01/cwadd/cluster-verification-utility-reference.html#GUID-B445A858-9F00-4423-990E-109545AC11C3

Autonomous Health Framework(AHF) CVU(Cluster Verify Utility) • GI セットアップ時に自動実行される •
GI セットアップ後はクラスタリソースとして稼働 $ crsctl status <return> … NAME=ora.cvu TYPE=ora.cvu.type TARGET=ONLINE STATE=ONLINE on node1 … 22 Copyright © 2022, Oracle and/or its affiliates CVUが実行される

Autonomous Health Framework(AHF) CVU(Cluster Verification Utility) • 常にオン - デフォルトで有効
• O/S、GI、DBの必須コンプライアンスをチェックし、ベストプラクティスを提供 • 6時間ごとにデーモンとして実行 • ASMベストプラクティスチェック • ベースラインコレクションの作成 • ユーザー指定問題チェックの追加/無効化 • ユーザーフレンドリーな新しいレポート形式 • ORAchk / EXAchk に統合されている 23 Copyright © 2022, Oracle and/or its affiliates -html オプションによる表示

Autonomous Health Framework(AHF) Quality of Service Management (QoS管理) • 11.2以降のすべての
RAC / R1N(RAC One Node) デプロイメントで動作（qosmserver) • 管理者管理とポリシー管理の両方をサポート • EMクラウドコントロールと統合 • KPIクラスター全体のダッシュボードを提供 • 測定、監視、管理モードの順に段階的に導入 • レポートとベースライン分析のためにパフォーマンス履歴をGIMRに保存 • 測定モードはデフォルトで有効– NEW！ • ワークロードパフォーマンスの低下を報告– NEW！ $ crsctl status <return> … NAME=ora.qosmserver TYPE=ora.qosmserver.type TARGET=ONLINE STATE=ONLINE on node1 … 25 Copyright © 2022, Oracle and/or its affiliates EM Cloud Control との完全な統合 * RACまたはR1Nライセンスが必要ポリシー定義評価とレポート分析・集計分類と測定監視とアラート

Autonomous Health Framework(AHF) Quality of Service Management (QoS管理) • EMCC
からポリシー・セットの作成 26 Copyright © 2022, Oracle and/or its affiliates

Autonomous Health Framework(AHF) Quality of Service Management (QoS管理) • SLAを満たすためのリソースの監視と管理によるパフォーマンスの維持
28 Copyright © 2022, Oracle and/or its affiliates

Autonomous Health Framework(AHF) Quality of Service Management (QoS管理) • ワークロード・パフォーマンスの履歴表示機能
30 Copyright © 2022, Oracle and/or its affiliates Average Response Time Requests per Sec Performance Satisfaction Metric

Autonomous Health Framework(AHF) Memory Guard • qosmserver に実装 • CHMからノードのメモリメトリックを収集
• クラスタウェアからクラスタトポロジーを収集 • SCANリスナーと接続し、新しい接続に対してサービスを開始 /停止する。 • すべてのメモリストレスの検出、サービスの開始と停止を以下の場所でログに記録 $ORACLE_BASE/crsdata/ノード名/qos/logs/dbwlm/auditing 32 Copyright © 2022, Oracle and/or its affiliates qosmserver Memory Guard Cluster Health Monitor Clusterware SCAN Listener Srv1 Srv２ Srv1 サービスを停止 Srv1側のノードでメモリリソース枯渇

Autonomous Health Framework(AHF) Memory Guard 33 Copyright © 2022, Oracle
and/or its affiliates MGS_TEXT に詳細が記録される Server userABC-hostABC-0 has violation risk level RED.New connection requests will no longer be accepted. Memory pressure in server userABC-hostABC-0 has returned to normal.New connection requests are now accepted. 【メモリ枯渇による新規接続の停止】【メモリ状態の復旧と接続処理の再開】

Autonomous Health Framework(AHF) • 常にオン - デフォルトで有効 (DIA0タスク) • データベースのハングアップやデッドロックを検出
• 自動的な解決 • SLAを維持するためのQoSパフォーマンスクラス、ランク、ポリシーに対応 • すべての検出と解決のログを記録 • 感度（Normal/High）およびトレースファイルサイズを設定するためのSQLインターフェース 34 Copyright © 2022, Oracle and/or its affiliates Session DIA0 EVALUATE DETECT ANALYZE Hung? VERIFY Victim QoS Policy grid 19906 1 0 09:08 ? 00:00:41 asm_dia0_+ASM1 oracle 20283 1 0 09:09 ? 00:00:32 ora_dia0_orcl2131 Hang Manager (バックグランド・プロセス)

Autonomous Health Framework(AHF) Full Resolution Dump Trace File and DB
Alert Log Audit Reports 35 Copyright © 2022, Oracle and/or its affiliates Dump file …/diag/rdbms/hm6/hm62/incident/incdir_5753/hm62_dia0_12656_i5753.trc Oracle Database 12c Enterprise Edition Release 12.2.0.0.0 - 64bit Beta With the Partitioning, Real Application Clusters, OLAP, Advanced Analytics and Real Application Testing options Build label: RDBMS_MAIN_LINUX.X64_151013 ORACLE_HOME: …/3775268204/oracle System name: Linux Node name: slc05kyr Release: 2.6.39-400.211.1.el6uek.x86_64 Version: #1 SMP Fri Nov 15 13:39:16 PST 2013 Machine: x86_64 VM name: Xen Version: 3.4 (PVM) Instance name: hm62 Redo thread mounted by this instance: 2 Oracle process number: 19 Unix process pid: 12656, image: oracle@slc05kyr (DIA0) *** 2015-10-13T16:47:59.541509+17:00 *** SESSION ID:(96.41299) 2015-10-13T16:47:59.541519+17:00 *** CLIENT ID:() 2015-10-13T16:47:59.541529+17:00 *** SERVICE NAME:(SYS$BACKGROUND) 2015-10-13T16:47:59.541538+17:00 *** MODULE NAME:() 2015-10-13T16:47:59.541547+17:00 *** ACTION NAME:() 2015-10-13T16:47:59.541556+17:00 *** CLIENT DRIVER:() 2015-10-13T16:47:59.541565+17:00 2015-10-13T16:47:59.435039+17:00 Errors in file /oracle/log/diag/rdbms/hm6/hm6/trace/hm6_dia0_12433.trc (incident=7353): ORA-32701: Possible hangs up to hang ID=1 detected Incident details in: …/diag/rdbms/hm6/hm6/incident/incdir_7353/hm6_dia0_12433_i7353.trc 2015-10-13T16:47:59.506775+17:00 DIA0 requesting termination of session sid:40 with serial # 43179 (ospid:13031) on instance 2 due to a GLOBAL, HIGH confidence hang with ID=1. Hang Resolution Reason: Automatic hang resolution was performed to free a significant number of affected sessions. DIA0: Examine the alert log on instance 2 for session termination status of hang with ID=1. In the alert log on the instance local to the session (instance 2 in this case), we see the following: 2015-10-13T16:47:59.538673+17:00 Errors in file …/diag/rdbms/hm6/hm62/trace/hm62_dia0_12656.trc (incident=5753): ORA-32701: Possible hangs up to hang ID=1 detected Incident details in: …/diag/rdbms/hm6/hm62/incident/incdir_5753/hm62_dia0_12656_i5753.trc 2015-10-13T16:48:04.222661+17:00 DIA0 terminating blocker (ospid: 13031 sid: 40 ser#: 43179) of hang with ID = 1 requested by master DIA0 process on instance 1 Hang Resolution Reason: Automatic hang resolution was performed to free a significant number of affected sessions. by terminating session sid:40 with serial # 43179 (ospid:13031) Hang Manager がハングを検出被害を受けるセッションを特定終了を要求するブロッカー・セッションを終了

Autonomous Health Framework(AHF) Grid Infrastructure Management Repository (GIMR) Grid Infrastructure
概要 37 Copyright © 2022, Oracle and/or its affiliates Grid Infrastructure Mgmt Repository Service Fleet Patching & Provisioning Shared Disk Grid Naming Service QoS Mgmt Service Flex ASM ASM Services ACFS Services Trace File Analyzer Trace File Analyzer Storage Sub System GIMR

Autonomous Health Framework(AHF) Grid Infrastructure Management Repository (GIMR) メリット •
リアルタイムおよび事後分析に自律ヘルスメトリックを格納 • クラスターヘルスモニター（CHM） • クラスターヘルスアドバイザー（CHA） • Quality of Service Management (QoSM) • デフォルトで72時間分を保持 • 最小化されたリソースフットプリント • 自動ライフサイクル管理が組み込み済 • 自動HAフェイルオーバーのサポート • DBA管理が不要 • メンバークラスタ用リモートGIMR構成が可能デメリット • GIMR 稼働・運用の負荷を考慮する必要がある • 30GB 以上の共有ディスクとCPU/メモリリソースの準備 38 Copyright © 2022, Oracle and/or its affiliates 12.1 12.2+ 18.1+ 19.1+ 19.5+ 21c オプション必須オプション (New) ベストプラクティスとして推奨

Autonomous Health Framework(AHF) Grid Infrastructure Management Repository (GIMR) 参考: GIMR
ストレージ要件 39 Copyright © 2022, Oracle and/or its affiliates Mgmt Repository Service GIMR ASMディスク・グループ冗長レベル DATAディスク・グループ (OCR/Voting) MGMTディスク・グループ Oracle Fleet Patching and Provisioning 合計記憶域外部 1 GB 28 GB 4を超える各ノード: 5 GB 1 GB 30 GB 標準 2 GB 56 GB 4を超える各ノード: 10 GB 2 GB 60 GB 高/フレックス/拡張 3 GB 84 GB 4を超える各ノード: 15 GB 3 GB 90 GB Oracle Clusterwareの記憶領域要件 https://docs.oracle.com/cd/F39414_01/cwlin/oracle-clusterware-storage-space- requirements.html#GUID-97FD5D40-A65B-4575-AD12-06C491AF3F41 $ crsctl status <return> … NAME=ora.mgmtdb TYPE=ora.mgmtdb.type TARGET=ONLINE STATE=ONLINE on node1

Autonomous Health Framework(AHF) Grid Infrastructure Management Repository (GIMR) 構成しない場合のデメリットとして GIMRの役割
グリッド・インフラストラクチャ管理リポジトリ(GIMR)は自律型ヘルス・フレームワークの操作全般における必須コンポーネントで、リアルタイム診断およびパフォーマンスの強化と、フリート・パッチ適用におよびプロビジョニングが提供されます。このリポジトリに全面的または部分的に依存するコンポーネントには、クラスタ・ヘルス・アドバイザ、クラスタ・ヘルス・モニター、QoS管理、フリート・パッチ適用およびプロビジョニングおよびクラスタ・アクティビティ・ログがあります。このオプションのインストールはベスト・プラクティスであり、インストールしないと問題の適時解決や利用可能パッチ適用機能が損なわれる可能性があります。 ------ 【マニュアルより GIMRに格納される情報】 • クラスタ状態モニターが収集するリアル・タイム・パフォーマンス・データ • Cluster Health Advisorが収集するフォルト、診断およびメトリック・データ • Oracle Clusterwareが収集する、すべてのリソースに関するクラスタ全体のイベント • QoS管理によって収集されるワークロード・パフォーマンスおよびCPUデータ • Oracle Fleet Patching and Provisioningに必要なメタデータ 40 Copyright © 2022, Oracle and/or its affiliates

Autonomous Health Framework(AHF) Cluster Health Monitor (CHM) • 常にオン -
デフォルトで有効 • 詳細なOSリソースメトリクスの提供 • ノード排除の分析支援 • すべてのプロセスデータをローカルに記録 • ピン留めされたプロセスをユーザーが定義可能 • プロセスを種類別に分類 • 分析に便利なCSV出力 • Diagsnapの収集 • CSSおよびGIPCイベントをリッス。 • プラグインO/Sコレクターに対応（例：traceroute、netstat、ping、など） 41 Copyright © 2022, Oracle and/or its affiliates [grid@ptvm01 ~]$ oclumon manage -get master Master = ptvm01 GIMR osysmond osysmond ologgerd (master) OS Data OS Data Local にも保持全ての情報を GIMR に保持 (72h)

Autonomous Health Framework(AHF) Cluster Health Monitor (CHM) w/ EMCC 42
Copyright © 2022, Oracle and/or its affiliates CHM Metrics on Terminal and Enterprise Manager

Oracle Cluster Health Monitorのローカル・モードのサポート • Oracle Cluster Health Monitorをローカル・モードで動作するよう構成し、GIMRをデプロイしていない場合でも oclumon
dumpnodeviewコマンドを使用してオペレーティング・システム・メトリック・レポートが可能に • ローカル・モードでは、ローカル・ノード・データのみを取得 • ローカル・モードでは、GIMRをインストールしていないデプロイメントでのOracle Cluster Health Monitorの機能は制限される • 以前のリリースのOracle Cluster Health Monitorでは、oclumon dumpnodeviewコマンドを使用してオペレーティング・システム・メトリックをレポートするにはGIMRが必要 Autonomous Health Framework(AHF) Copyright © 2022, Oracle and/or its affiliates 43

Oracle Cluster Health Monitorのローカル・モードのサポート oclumon dumpnodeview local コマンドを使用して、ノード・ビューの形式でシステム監視サービスからログ情報を表示ノート: oclumon
dumpnodeview local コマンドはGIMRまたはMGMTDBに依存せず、構成されているGIMRに関係なくクラスタ状態モニター・データを返す参考：従来のコマンド Autonomous Health Framework(AHF) Copyright © 2022, Oracle and/or its affiliates 44 oclumon dumpnodeview local [[([(-system | -protocols | -alert | -v)] | [(-cpu | -process | -procagg | -device | -nic | -filesystem | -nfs) [-detail] [-all] [-sort metric_name] [-filter string] [-head]]) [([-s start_time -e end_time] | -last duration)]] | [-h]] oclumon dumpnodeview [-allnodes | -n node1...] [-last duration | -s timestamp -e timestamp] [-i interval] [-v | [-system [-v2]] [-process] [-procag] [-device] [-filesystem] [-nic] [-advm] [- protocols] [-cpu] [-topconsumer] [-asminst_db] [-nfs]] [-format format type] [-dir directory [- append]]

Autonomous Health Framework(AHF) Aggregated Metric Data by Process Type 45
Copyright © 2022, Oracle and/or its affiliates

Autonomous Health Framework(AHF) Cluster Health Advisor (CHA) • デフォルトで有効化されており常に利用可能 •
ノードとデータベースの性能問題を検知 • 最も一般的な RAC の問題の機械学習モデル • 早期警告アラートと是正措置の提供 • 感度向上のためのオンサイト・キャリブレーションをサポート • Enterprise Manager Cloud Control Incident Manager と通知に統合 • スタンドアローン・インタラクティブ GUI ツール • 新しい Exadata モデルの自動ロード ✓ GI 19.7 以降での対応 $ crsctl status <return> … NAME=ora.chad TYPE=ora.chad.type TARGET=ONLINE , ONLINE STATE=ONLINE on node1, ONLINE on node2 46 Copyright © 2022, Oracle and/or its affiliates GIMR osysmond ologgerd (master) OS Data Node Health Prognostics Engine Database Health Prognostics Engine CHADDriver DB Data CHM CHA TFA EMCC Exadata OS Model Exadata DB Model NEW!

Autonomous Health Framework(AHF) Cluster Health Advisor (CHA) 47 Copyright ©
2022, Oracle and/or its affiliates GIMR osysmond ologgerd (master) OS Data Node Health Prognostics Engine Database Health Prognostics Engine CHADDriver DB Data CHM CHA TFA EMCC

Cluster Health Advisor – Command Line Operations Copyright © 2022,
Oracle and/or its affiliates 48 HTML Diagnostic Health Output Available (-html <file_name>)

Use Case: • DBのREDOログのパフォーマンスが通常より大幅に低下 Solution: 1. CHAがRedo LogのI/Oスローダウンを検出し、根本原因と可能な是正措置を決定 2. TFAまたはEMCC経由で管理者に通知
3. EMCCは、適切な対応のために問題のコンテキストと履歴を表示 Oracle Cluster Health Advisor 自動応答の例 Copyright © 2022, Oracle and/or its affiliates 49

Oracle Cluster Health Advisor 自動応答の例 Copyright © 2022, Oracle and/or
its affiliates 50

Framework(AHF)に含まれる機能 (再掲) Cluster Verification Utility • OS状態確認やGI/RAC環境の必須要件、 • ベスト・プラクティスをチェックし、レポーティング ORAchk・EXAchk • Grid Infrastructure やデータベースが稼働する環境全体の構成をレポーティング • ベスプラとの乖離や潜在的な既知問題を確認可能 Cluster Health Monitor • OSのメトリックを監視/収集 • 蓄積データは分析に活用でき、様々な機能で使用される Cluster Health Advisor • クラスタノードおよびデータベースに関する性能問題の根本原因、是正処置について早期に警告 Quality of Service Management • SLA担保の為に、システム全体のワークロードを監視 • 状態に応じてパフォーマンスレベルに合わせたリソース割り当てを自動的に行える Memory Guard • メモリの使用率に応じて接続を制御し、アプリケーションからの処理を保護 • RAC環境でメモリ不足による障害を防止 Hang Manager • データベースのハングを検知した際に、原因をロジカルに分析、解決可能な問題に対処 • 自動で解決して継続稼働と性能を保つ Trace File Analyzer • OS、Grid Infrastructure、データベースなどのログ収集・分析をシンプルに行えるツール • 問題発生時の分析の迅速化を図る

Oracle Cluster Health Advisor まとめ Copyright © 2022, Oracle and/or
its affiliates 52 AHF I/F として EMCCの活用が可能

Agenda Autonomous Health Framework(AHF) Copyright © 2022, Oracle and/or its
affiliates 53 2 実装 AHF導入と実行例 1 解説概要説明各コンポーネントの役割

Autonomous Health Framework(AHF) – 前提条件動作環境 (GIMR : Grid Infrastructure
Management Repository を除く) • サポート対象プラットフォーム • Linux (OEL、Linux RedHat、Linux SuSE、zLinux) • Oracle Solaris (SPARC、x86-64) • AIX • HP-UX • Microsoft Windows 64-bit、Microsoft Windows Server 2012 R2以上 • Java Runtime Edition 1.8を使用 • プラットフォームごとに、Perlのバージョン要件あり(例 : Linux上は5.10以上) • Trace File Analyzerのレポジトリの使用領域 • TFA_HOMEとORACLE_BASE用にそれぞれ100MBの空き領域が必要 • レポジトリ用に1GBの空き領域が必要 • レポジトリ内の古い情報は自動パージされる(デフォルト12時間。変更可能) 54 Copyright © 2022, Oracle and/or its affiliates

Autonomous Health Framework(AHF) 導入の手順と設定 • Autonomous Health Framework (AHF) -
Including TFA and ORAchk/EXAchk (ドキュメントID 2550798.1) 55 Copyright © 2022, Oracle and/or its affiliates (ahf_setup.sh 実行中の表示サンプル) #./ahf_setup.sh … The AHF Location and AHF Data Directory must exist on the above nodes AHF Location : /opt/oracle.ahf AHF Data Directory : /u01/app/21.0.0/grid_base/oracle.ahf/data … 参考: Do you want to add AHF Notification Email IDs ? [Y]|N : Do you want AHF to store your My Oracle Support Credentials for Automatic Upload ? Y|[N] : .-------------------------------------------------------------------------. | Summary of AHF Configuration | +-----------------+-------------------------------------------------------+ | Parameter | Value | +-----------------+-------------------------------------------------------+ | AHF Location | /opt/oracle.ahf | | TFA Location | /opt/oracle.ahf/tfa | | Orachk Location | /opt/oracle.ahf/orachk | | Data Directory | /u01/app/21.0.0/grid_base/oracle.ahf/data | | Repository | /u01/app/21.0.0/grid_base/oracle.ahf/data/repository | | Diag Directory | /u01/app/21.0.0/grid_base/oracle.ahf/data/ptvm10/diag | '-----------------+-------------------------------------------------------' 自動収集時のzipファイルが格納される

Autonomous Health Framework(AHF) 導入の手順と設定 • 設定情報の確認と変更 # tfactl print status
– クラスタ環境で動作する場合の表示 .---------------------------------------------------------------------------------------------. | Host | Status of TFA | PID | Port | Version | Build ID | Inventory Status | +--------+---------------+------+------+------------+----------------------+------------------+ | Node1 | RUNNING | 9612 | 5000 | 22.2.0.0.0 | 22200020220707070249 | COMPLETE | | Node2 | RUNNING | 6544 | 5000 | 22.2.0.0.0 | 22200020220707070249 | COMPLETE | '--------+---------------+------+------+------------+----------------------+------------------’ # tfactl print config – tfa 環境情報の表示 • 自動収集する際の zip ファイル最大サイズ • Trace File Analyzer に使用するリソース (CPU/メモリ) • リポジトリなど格納するLogデータのサイズや上限 • リポジトリなどの自動削除の可否や保持期間導入後、実行環境に合わせCPUリソース、他が調整が可能 • tfactl setresourcelimit • tfactl set 56 Copyright © 2022, Oracle and/or its affiliates .----------------------------------------------------------------------------------. | Node1 | +---------------------------------------------------------------------+------------+ | Configuration Parameter | Value | +---------------------------------------------------------------------+------------+ | TFA Version ( tfaversion ) | 22.2.0.0.0 | | Java Version ( javaVersion ) | 1.8 | | Public IP Network ( publicIp ) | true | | Repository current size (MB) ( currentsizemegabytes ) | 94 | | Repository maximum size (MB) ( maxsizemegabytes ) | 10240 | | Cluster Event Monitor ( clustereventmonitor ) | ON | | delayusinginstanceprincipal | OFF | | queryAPI | ON | | scandiskmon | OFF | | scanacfslog | OFF | | File Data Collection ( inventory ) | ON | | Automatic Purging ( autoPurge ) | ON | | Internal Search String ( internalSearchString ) | ON | | ISA Data Gathering ( collection.isa ) | ON | | Trim Files ( trimfiles ) | ON | ご注意 (AHF 22.1.0 ～) tfactl から ahfctl へ一部移行中

Autonomous Health Framework(AHF) 導入の手順と設定 • 設定ファイル tnt.prop について - /opt/oracle.ahf/tfa/ext/tnt/conf/tnt.prop
57 Copyright © 2022, Oracle and/or its affiliates TFAが検出すべきクリティカルな Error Code が予め記載されている

Autonomous Health Framework(AHF) analyze コマンドの # tfactl analyze -last 1d
(※tfactl analyze コマンドをGI/RAC環境で実施すると全ノードを分析す) 58 Copyright © 2022, Oracle and/or its affiliates CRS-1601検出 CRSのログを確認 CRSCTL コマンド

Appendix: Autonomous Health Framework(AHF) • Grid Infrastructure / Real Application
Clusters における障害 Node1 (インスタンス1)へ接続不可が発生！「何が起きているのか?」 Copyright © 2022, Oracle and/or its affiliates | Confidential: Internal 59 No. 障害部分の想定検出・確認補足 1 S/Wの不具合 TFA + AHF Utilities EMCC CVU ORAchk/EXAchk 2 OS, ドライバ, F/W, 設定 TFA + AHF Utilities + ベンダ提供Log 3 Public Network 障害 TFA + AHF Utilities 4 インスタンス障害 Cluster Health Advisor (EMCC インシデントビューア) 5 インターコネクト障害とノード排除 Cluster Health Advisor (EMCC インシデントビューア) TFA – Cluster Activity Log 6 ノード障害 (H/W) Cluster Health Monitor (EMCC インシデントビューア) 7 メモリ枯渇による一時的なサービス停止 Memory Guard 8 不明-再現待ち TFA SRDC Option 例えば …

ドキュメントマニュアル • Autonomous Health Framework User’s Guide https://docs.oracle.com/en/database/oracle/oracle-database/21/atnms/index.html •
Autonomous Health Framework Checks and Diagnostics User's Guide 21c https://docs.oracle.com/en/engineered-systems/health-diagnostics/autonomous-health-framework/ahfug/index.html https://docs.oracle.com/cd/F39414_01/atnms/running-administration-commands.html#GUID-2178AB8E-FEAE-43EA-9878- FD646DD67484 • E.2 Oracle Trace File Analyzer管理コマンドの実行 My Oracle Support ドキュメント • Doc ID 2550798.1: Autonomous Health Framework (AHF) - Including TFA and ORAchk/EXAchk 60 Copyright © 2022, Oracle and/or its affiliates

Oracle Technology Night #62-2 Autonomous Health Framework(AHF)概要 SR と TFA
(AHF - Trace File Analyzer) のリアルな関わりや効率的な解決の極意山本義正日本オラクル株式会社データベーステクノロジーサポート本部 2022年12月

以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することを確約するものではないため、購買決定を行う際の判断材料になさらないで下さい。オラクル製品に関して記載されている機能の開発、リリース、時期及び価格については、弊社の裁量により決定され、変更される可能性があります。 62 Copyright ©
2022, Oracle and/or its affiliates

アジェンダ 63 Copyright © 2022, Oracle and/or its affiliates ・TFA
利用の利点・TFA の活用に関する情報、機能のご紹介・TFA 22.3 新機能 Smart Problem Classification のご紹介・MOS Automation の享受・スピーディーで効果的な情報採取・従来型情報取得との比較・TFA が活用されたお問い合わせモデル・製品マニュアルのご紹介・分析目的に合わせた、オプション（-srdc）とウォークスルー・TFA を使ってみましょう・収集データの自動削除について・Appendix ・MOS Automation が導き出す効果・Quality と Resolution Time のご紹介・TFA 日本語 MOS ドキュメントのご紹介

Support Engineer TFA 利用の利点 64 Copyright © 2022, Oracle and/or
its affiliates スピーディーで効果的な情報採取 SR の解決は、十分な問題解析のための診断情報がないことや、何度も情報取得・提供が繰り返されることで、長引いてしまいます。TFA は、シンプルなコマンド1つで解析のための情報を取得することができます。 MOS (My Oracle Support) セキュアに管理された領域分析ユーティリティも各種実装 (systemstate dump,heap dump 解析など) 網羅的な初期情報取得による情報取得・提供繰り返しの低減メリット取得資料のボリュームを最適化し、情報取得、提供コストを低減メリット自動解析性能の向上メリット定型化された情報提供による早期情報把握、分析効率向上メリット Automation

TFA 利用の利点 65 Copyright © 2022, Oracle and/or its affiliates
MOS Automation の享受 MOS Automation は SR に提供された情報を元に自動解析と解析結果の自動提供を行う機能です。 TFA はシステムの安定稼働のためのフレームワークである Autonomous Health Framework の中の情報収集を行うための標準ツールです。MOS Automation と TFA は高い親和性で連携しており、 TFA を利用いただくことで、MOS Automation のメリットを最大限に享受することができるようになります。例えば RAC/GI 分野の 7 割の SR はすでに Oracle に報告され解析されている問題と同件という分析があります。TFA の情報が提供され Automation により解析されることで、即時にソリューションのドキュメント提示が行われる可能性も期待できます。またある ORA-600 エラーのお問い合わせの場合、SR 起票後から驚く程の短時間で自動的に原因特定とソリューションのご案内に至っているケースもあります。 MOS Automation の事例紹介など、詳しくは後程！！

従来型情報取得との比較パフォーマンス問題発生時の手動収集と TFA での情報収集の比較手動での情報取得ステップ How to Generate and Check an ADDM report (Doc ID 1680075.1) How to Collect Standard Diagnostic Information Using AWR Reports for Performance Issues (Doc ID 1903158.1) How to Collect Standard Diagnostic Information Using ASH Reports for Performance Issues (Doc ID 1903145.1) OSWatcher (Includes: [Video]) (Doc ID 301137.1) SQL Tuning Health-Check Script (SQLHC) (Doc ID 1366133.1) Script to Collect Log File Sync Diagnostic Information (lfsdiag.sql) (Doc ID 1064487.1) TFAでの収集 (コマンド1つ！） Tfactl diagcollect –srdc dbperf 障害が既に発生している状況で、複数の MOS ドキュメントを参照し、状況によってはその内容理解や確認を経て複数種類の情報を手動で取得する必要がありましたが、TFA を利用することで最小限のコマンド実行ステップで必要な情報が取得できます。

Autonomous Health Framework ユーザーズ・ガイド 19c F16138-03 第V部診断データの収集と問題の分類、診断および解決 Autonomous Health Framework ユーザーズ・ガイド 20c F25518-02 第V部診断データの収集と問題の分類、診断および解決製品マニュアルのご紹介 TFA は便利ツールではなく「製品」です。 TFA のインストールや利用にあたってのお問い合わせには SR を介してサポートエンジニアが対応します。また開発部門による対応も行われます。注力度の高い製品として扱われており、問題への修正や動作改訂が逐次行われています。また早い頻度で製品のアップデートも行われます。 Oracle® Autonomous Health Framework Checks and Diagnostics User's Guide F19065-37

MOS (My Oracle Support) Autonomous Health Framework (AHF) - Including TFA and ORAchk/EXAchk (Doc ID 2550798.1) 定期的なアップデート (手動または自動) セキュリティ対応機能強化、改訂情報取得の準備とトレーニング追加資料依頼頻度の低減 Severity 1 資料受領、初動スピードの向上 Support Engineer 担当者変更時の効率的な連携情報取得のリハーサル TFA がいつでも動かせる状態に！初期情報収集のオペレーション確立！問い合わせまでのスピードアップ！ローテーションによる情報不足の回避！すべての SR に TFA 添付でも OK！バックアップ＆リカバリのテストやパフォーマンス測定と同じぐらい、障害時の情報取得や SR 問い合わせのオペレーションの準備は重要です。 TFA が活用されたお問い合わせモデル

TFA の活用に関する情報、機能のご紹介 69 Copyright © 2022, Oracle and/or its affiliates
TFA を使ってみましょう [root@node1 grid]# tfactl diagcollect TFA will collect diagnostics for the last 1 hour(s). Please enter the time of the incident [YYYY-MM-DD HH24:MI:SS], or <RETURN> to collect for the last 1 hour(s). (Q|q to Quit): 基本となる収集は「tfactl diagcollect」の１コマンドでおこなえます。 <オプション例> 例1．tfactl diagcollect –last 4h … last で指定した時間から現在までの情報を収集します。例2．tfactl diagcollect -from “2020-09-22 09:00:00” -to “2020-09-22 10:00:00” … from から to で指定した時間帯の情報を収集します。 ※日時指定は「”」（ダブルクォーテーション）で囲む必要があります。例3．tfactl diagcollect –last 1h –node local … -node オプションを使用することで対象を絞ることができます。 ※ RAC環境の場合、デフォルトで全てのノードから情報を収集します。ノード名を指定することで別のノードの情報を収集します。また、「local」と記載した場合はコマンドを実行したノードでのみ情報を収集します。 .----------------------------------. | Collection Summary | +-------+-----------+------+-------+ | Host | Status | Size | Time | +-------+-----------+------+-------+ | node2 | Completed | 28MB | 1624s | | node1 | Completed | 24MB | 624s | '-------+-----------+------+-------' Logs are being collected to: /u01/64bit/app/grid/oracle.ahf/data/repository/collection_Wed_Dec_14_09_20_20_GMT_2022_node_all /u01/64bit/app/grid/oracle.ahf/data/repository/collection_Wed_Dec_14_09_20_20_GMT_2022_node_all/node2.tfa_Wed_Dec_14_09_20_12_GMT_2022.zip /u01/64bit/app/grid/oracle.ahf/data/repository/collection_Wed_Dec_14_09_20_20_GMT_2022_node_all/node1.tfa_Wed_Dec_14_09_20_12_GMT_2022.zip 実行結果が表示収集したファイルを表示収集する時間を指定この場合は空Enterで1時間前からの情報を収集 TFAサポートツールによる標準的な情報の収集方法 (Doc ID 2915563.1)

分析目的に合わせた、オプション（-srdc）とウォークスルー view ./celvpvm05942/srdc_expdp_logfile_2022-09-20.txt ;; Export: Release 19.0.0.0.0 - Production on Thu Sep 15 03:25:41 2022 Version 19.15.0.0.0 Copyright (c) 1982, 2019, Oracle and/or its affiliates. All rights reserved. ;;; Connected to: Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - Production Starting "SCOTT"."SYS_EXPORT_TABLE_01": SCOTT/********@orcl DIRECTORY=test_dir DUMPFILE=exp.dmp LOGFILE=exp.log tables=tb1 Processing object type TABLE_EXPORT/TABLE/TABLE_DATA Processing object type TABLE_EXPORT/TABLE/STATISTICS/TABLE_STATISTICS Processing object type TABLE_EXPORT/TABLE/STATISTICS/MARKER Processing object type TABLE_EXPORT/TABLE/TABLE . . exported "SCOTT"."TB1" 7.937 KB 100 rows Master table "SCOTT"."SYS_EXPORT_TABLE_01" successfully loaded/unloaded ****************************************************************************** # $TFA_HOME/bin/tfactl diagcollect -srdc dbexpdp Enter the Database Name [Required for this SRDC] : orcl Use of uninitialized value in subroutine entry at /refresh/home/oracle.ahf/tfa/bin/common/dbutil.pm line 891. Please enter the command line: [Required for this SRDC]: expdp SCOTT/SCOTT DIRECTORY=test_dir DUMPFILE=exp.dmp LOGFILE=exp.log tables=tb1 Do you use a parameter file in the above command? [Y|N] [Required for this SRDC]: n Please give the full path of the log file? [Required for this SRDC]: /refresh/home/SCOTT_dmp/exp.log Is the failure related to ORA-07445 Error [y,n, default y]?n Is the failure related to ORA-00600 Error [y,n, default y]?n Is an ORA-nnnnn raised? [Y|N] [Required for this SRDC]:| 障害内容に応じた様々な –srdc オプションが用意されています。たとえば tfactl diagcollect -srdc ORA-00600 -last 1h を実行すると、アラートログを参照し1時間以内に(ORA-00600が発生している場合に) 調査に有用な情報を選定して情報収集を実施します。また –srdc dbexpdp のように expdp 実行時に関する調査のための情報収集に特化したコマンドも利用いただけます。対話形式で必要項目を入力することで、調査に有用な情報を自動的に収集することができます。実際に datapump を実行して実行中の情報として収集をおこなうこともできます！

使用できる SRDC オプションは、AHF ユーザーガイドに記載されています。 https://docs.oracle.com/en/engineered-systems/health-diagnostics/autonomous-health- framework/ahfug/index.html Oracle Autonomous Health Framework Checks and Diagnostics User‘s Guide F19065-37 Oracle Trace File Analyzer Service Request Data Collections (SRDCs) -helpオプションで参照も可能です tfactl diagcollect –srdc –help 分析目的に合わせた、オプション（-srdc）とウォークスルー

分析目的に合わせた、オプション（-srdc）とウォークスルー $ tfactl diagcollect -srdc dbexpdpperf WARNING - AHF Software is older than 180 days. Please consider upgrading AHF to the latest version using ahfctl upgrade. This collection is only to be run when the performance issue is ongoing. Otherwise, please exit now and come back when experiencing performance issue. Do you need to exit now? [Y|y|N|n] [Y]: n Note: this collection takes more than 30 minutes due to collecting dynamic performance information multiple times with long intervals. Press Enter to continue. [Optional for this SRDC]: You have not entered a value for NOTICE. Any collections requiring this value will fail. Enter the Database Name [Required for this SRDC] : orcl Note: datapump performance diagnostic collection requires collecting SQL tracing. It can be turned on by running $ORACLE_HOME/bin/expdp username/password METRICS=Y TRACE=480300 parfile=my_expdp.par dumpfile=my_directory_name:my_dump.dmp logfile=my_directory_name:my_log. Have you collected SQL trace as such? [Y|N] [Required for this SRDC]: N ★資料取得状況に応じて Y/N を入力。 Please enter the command line: [Required for this SRDC]: exdp scott/tiger ★コマンドを入力して次に進む Do you use a parameter file in the above command? [Y|N] [Required for this SRDC]: N ★パラメータファイル未使用として次に進む Please give the full path of the log file? [Required for this SRDC]: The value: is not valid for LOG_FILE. Please give the full path of the log file? [Required for this SRDC]: /u01/home/oracle/test/a.txt ★datapump のログファイル Enter start time when the performance was bad [YYYY-MM-DD HH24:MI:SS] : 2022-09-15 08:06:10 ★遅延開始時間 Start time when the performance was bad: sep/15/2022 08:06:10 Enter stop time when the performance was bad [YYYY-MM-DD HH24:MI:SS] : 2022-09-15 09:00:00 ★遅延終了時間 Stop time when the performance was bad: sep/15/2022 09:00:00 For comparison, it is useful to gather data from another period with similar load where problems are not seen. Typically this is likely to be the same time period on a previous day. To compare to the same time period on a previous day enter the number of days ago you wish to use. [<RETURN> to provide other time range] : ★ Enter start time when the performance was good [YYYY-MM-DD HH24:MI:SS] : 2022-09-14 05:00:00 ★比較対象の健全な時間帯の start Start time when the performance was good Sep/14/2022 05:00:00 Enter stop time when the performance was good [YYYY-MM-DD HH24:MI:SS] : 2022-09-14 06:00:00 ★比較対象の健全な時間帯の end Stop time when the performance was good Sep/14/2022 ：実行時に対話形式で複数の項目の入力が必要な srdc もあります取得内容によっては多種の項目の入力を求められますが、それによりきめ細やかな情報採取を行います。

分析目的に合わせた、オプション（-srdc）とウォークスルー TFA を使用したデータベース・パフォーマンス診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2455240.1) 対話形式で要求される項目の説明と入力方法が解説されています。

TFA を使用したデータベースのエラーの診断情報の自動収集: ウォークスルーと詳細 (Doc ID 2213437.1) TFA を使用したデータベース・パフォーマンス診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2455240.1) TFA を使用した SQL パフォーマンス診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2440797.1) TFA を使用した ORA-1555 エラー診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895667.1) TFA を使用した AUM 診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895700.1) TFA を使用した UNDO に関する待機イベント診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895633.1) TFA を使用した DataPump の一般的な問題の自動収集: ウォークスルーおよび詳細 (Doc ID 2914288.1) TFA を使用した DataPump のパフォーマンス問題の自動収集: ウォークスルーおよび詳細 (Doc ID 2916739.1) AWR 領域の問題の TFA を使用したデータベース・パフォーマンス診断の自動収集: ウォークスルーおよび詳細 (Doc ID 2354767.1) srdc ウォークスルードキュメントのご紹介 And More …

75 Copyright © 2022, Oracle and/or its affiliates MOS Automation
が導き出す効果 Quality と Resolution Time のご紹介 Automation Solution Tracefile <SID>_j001_1022_i5487.trc shows ""ORA-00600 [qcopxla:1]"" in process J001 while executing a SQL Tuning Advisor job for SQL like: /* SQL Analyze(754,1) */ SELECT … <Query information> : This error typically only impacts the SQL Tuning job itself. If the error is a one off incident then you can ignore it. If such errors keep occurring in Jnnn processes when executing package DBMS_SQLTUNE_INTERNAL then a workaround is to disable the Automatic SQL Tuning Tasks as follows: BEGIN DBMS_AUTO_TASK_ADMIN.DISABLE( client_name => 'sql tuning advisor', operation => NULL, window_name => NULL ); END; / This will disable all automatic SQL tuning tasks but you can still perform ""on- demand"" SQL tuning to get advice on tuning specific SQL statements. Engineer Solution SQL チューニングアドバイザタスクは下記の SQL を分析する際に、1回で、 ORA-600 [qcopxla:1] が発生したことを確認しております。略本エラーにより、自動 SQL チューニングアドバイザの実行は失敗になりますが、業務を影響することは御座いません。そのため、稀に発生する場合、大変恐れ入りますが、ご無視をご検討頂ければ幸いで御座います。例え、本事象は多発する場合、SQL チューニングアドバイザタスクを無効頂き、オンデマンドによって、SQL チューニング・アドバイザを実行頂くことをご検討頂けばと存じます。 SQL チューニングアドバイザタスクを無効するコマンドは下記になります。 BEGIN DBMS_AUTO_TASK_ADMIN.DISABLE( client_name => 'sql tuning advisor', operation => NULL, window_name => NULL ); END; / また、SQLチューニング・アドバイザの実行について、下記の技術文章をご参考に案内させて頂きます。略エンジニアが出す回答とほぼ同じ回答

が導き出す効果 Quality と Resolution Time のご紹介 Automation Solution Tracefile <SID>_dbrm_2487_i960057.trc shows an ORA-700 [kskvmstatact: excessive swapping observed] . This error is a warning that is reported if the sum of the percentage memory swapped in and out appears to be higher that 2% in a 5 minute sample period. The error is documented in: - Note:1919850.1 - 12c: Warning Message About Heavy Swapping Observation and ORA-700 [kskvmstatact: excessive swapping observed] Onaji Suggested Actions: - This error is just a warning so it can be ignored. However if it appears repeatedly then check the system at OS level for signs swapping and for processes / allocations that are consuming a lot of memory. Engineer Solution ご送付いただいた資料から、ご利用している環境で ORA-00700 [kskvmstatact: excessive swapping observed] が発生したことを確認できました。上記事象について、弊社のナレッジベースにて確認いたしました。下記のドキュメントに記載されている事象に該当する可能性は高いと考えております。＜参照資料＞ 12c: スワップの発生についての警告メッセージと ORA-700 [kskvmstatact: excessive swapping observed] (Doc ID 2106500.1) DBRM(データベース・リソース・マネージャ・プロセス)にエラーを出力されましたが、ドキュメント 2106500.1 に記載されているように、本事象は期待された事象です。ORA-00700は全て無視して、問題ないので、対応は必要ありません。詳細について、ドキュメント2106500.1 をご参照いただけますようお願いいたします。エンジニアが出す回答とほぼ同じ回答

が導き出す効果 Quality と Resolution Time のご紹介 Automation Solution 29-Mar-2021 05:45:26 PM ODM Data Collection 提供資料の整理 29-Mar-2021 05:45:30 PM ODM Research 事例調査 29-Mar-2021 05:45:32 PM ODM Proposed Solution 回答のご提示 Engineer Solution 29-Mar-2021 05:48:38 PM ODM Issue Clarification 初期お問い合わせ内容の確認と明確化 29-Mar-2021 05:53:35 PM ODM Data Collection 提供資料の整理 : ＜資料からの調査時間＞ : 30-Mar-2021 09:48:47 AM ODM Action Plan 回答の作文とご提示 6秒 16時間 ※ORA-700 エラーに遭遇したケースの例です

が導き出す効果 Quality と Resolution Time のご紹介 Automation Solution 08-Feb-2021 04:26:23 PM ODM Data Collection 提供資料の整理 08-Feb-2021 04:26:26 PM ODM Research 事例調査 08-Feb-2021 04:26:28 PM ODM Proposed Solution 回答のご提示 Engineer Solution 08-Feb-2021 04:41:43 PM ODM Data Collection 提供資料の整理 08-Feb-2021 04:42:01 PM ODM Issue Verification 資料と事象の照合 08-Feb-2021 04:43:02 PM ODM Research 事例調査専門チームへの担当者変更～アサイン 12-Feb-2021 09:30:36 AM ASG 内容引継ぎと初期情報整理 12-Feb-2021 11:20:10 AM ODM Data Collection 提供資料の整理（再） 12-Feb-2021 11:54:39 AM ODM Action Plan 回答のご提示 5秒専門チームへの担当切り替え複数回の資料整理 ※ORA-600 エラーに遭遇したケースの例です

が導き出す効果 Quality と Resolution Time のご紹介 Automation Solution 26-Feb-2021 02:26:58 PM ODM Data Collection 提供資料の整理 26-Feb-2021 02:27:02 PM ODM Research 事例調査 26-Feb-2021 02:27:04 PM ODM Proposed Solution 回答のご提示 Engineer Solution 26-Feb-2021 02:41:52 PM ODM Data Collection 提供資料の整理 26-Feb-2021 03:03:46 PM ODM Issue Clarification 内容の明確化 26-Feb-2021 03:05:29 PM ODM Issue Verification 事象と資料の照合 26-Feb-2021 03:08:46 PM ODM Research 事例を含めた原因調査 27-Feb-2021 10:00:44 AM ODM ODM Action Plan 回答のご提示 6秒 19時間 5,6秒で回答エンジニアのアサイン前に回答 ※ORA-600 エラーに遭遇したケースの例です

Appendix 81 Copyright © 2022, Oracle and/or its affiliates TFA
22.3 新機能 Smart Problem Classification のご紹介 $ tfactl diagcollect No events found from 2022-11-24 19:46:08.000 to 2022-1… 1 . Enter a different event time 2 . Display Problem Categories X . Exit Choose the option [1-2]:2 ←★ Problem Categories: 1 . ACFS 2 . ASM Configuration 3 . ASM Errors/Other 4 . ASM Instance Crash 5 . CRS Client 6 . CRS Errors/Other 7 . Clusterware Installation 8 . Clusterware Patching 9 . Clusterware Startup : (省略) 16 . Database Memory 17 . Database Patching 18 . Database Performance 19 . Database RMAN 20 . Database Recovery 21 . Database Storage (ASM) 22 . Database Streams/AQ 23 . Database Upgrade 24 . Dataguard 25 . GoldenGate 26 . Node Eviction/Reboot 27 . Problem not listed, provide problem description X . Exit： TFA 22.3 からデフォルトで有効になる機能です。問題の種類に応じて情報収集方法を選択して利用いただけます。実際には各項目番号を入力後、最適な srdc オプションでの収集画面に遷移します。機能を無効化することで、従来型の１コマンドでの簡便な収集も引き続きご利用いただけます！ $ tfactl set smartprobclassifier=off Successfully set smartprobclassifier=OFF .---------------------------------. | standby | +-------------------------+-------+ | Configuration Parameter | Value | +-------------------------+-------+ | smartprobclassifier | OFF | '-------------------------+-------' [root@NODE1 tmp]# tfactl diagcollect TFA will collect diagnostics for the last 1 hour(s). Please enter the time of the incident [YYYY-MM-DD HH24:MI:SS], or <RETURN> to collect for the last 1 hour(s). (Q|q to Quit): TFAサポートツールによる標準的な情報の収集方法 (Doc ID 2915563.1)

Appendix 82 Copyright © 2022, Oracle and/or its affiliates 収集データの自動削除について
[oracle@node1 ~]$ tfactl print config .--------------------------------------------------------------------------. | node1 | +-------------------------------------------------------------+------------+ | Configuration Parameter | Value | +-------------------------------------------------------------+------------+ | TFA Version ( tfaversion ) | 22.2.5.0.0 | | Java Version ( javaVersion ) | 1.8 | | Public IP Network ( publicIp ) | true | | Repository current size (MB) ( currentsizemegabytes ) ★ | 149 | | Repository maximum size (MB) ( maxsizemegabytes ) ★ | 4193 | | Cluster Event Monitor ( clustereventmonitor ) | ON | | queryAPI | ON | | scandiskmon | OFF | | scanacfslog | OFF | | File Data Collection ( inventory ) ★ | ON | | Automatic Purging ( autoPurge ) | ON | | Internal Search String ( internalSearchString ) | ON | : | Logs older than the time period will be auto purged... | 30d | : TFA には収集したデータに対する自動削除の機能があります。デフォルトでは以下の２つに基づいて削除されます。 1) 定期的な周期 (デフォルト 30 日) 2) ハウスキープ削除に関する事項を含めて情報は tfactl print config で確認できます。 TFA ではリポジトリの概念を持っており、サイズの管理をおこなっています。リポジトリの空きサイズが 1 GB未満の場合に、自動削除がおこなわれます。 TFA 収集情報による領域枯渇が発生しないための工夫が自動削除により実現されています。削除に関する情報は tfactl print config からも確認できます。

Appendix 83 Copyright © 2022, Oracle and/or its affiliates Autonomous
Health Framework (AHF) - TFA と ORAchk/EXAChk が含まれています (Doc ID 2604563.1) ★最新版 AHF/TFA の入手もこちらから TFAサポートツールによる標準的な情報の収集方法 (Doc ID 2915563.1) ★基本的な利用方法をまとめています。 TFA 日本語 MOS ドキュメントのご紹介１） How to

を使用したデータベースのエラーの診断情報の自動収集: ウォークスルーと詳細 (Doc ID 2213437.1) TFA を使用したデータベース・パフォーマンス診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2455240.1) TFA を使用した SQL パフォーマンス診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2440797.1) TFA を使用した ORA-1555 エラー診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895667.1) TFA を使用した AUM 診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895700.1) TFA を使用した UNDO に関する待機イベント診断情報の自動収集: ウォークスルーおよび詳細 (Doc ID 2895633.1) TFA を使用した DataPump の一般的な問題の自動収集: ウォークスルーおよび詳細 (Doc ID 2914288.1) TFA を使用した DataPump のパフォーマンス問題の自動収集: ウォークスルーおよび詳細 (Doc ID 2916739.1) AWR 領域の問題の TFA を使用したデータベース・パフォーマンス診断の自動収集: ウォークスルーおよび詳細 (Doc ID 2354767.1) TFA 日本語 MOS ドキュメントのご紹介 2）ウォークスルー

Appendix 85 Copyright © 2022, Oracle and/or its affiliates 十分な
Perl モジュールがなく GI Home (11gR2) 環境で、最新の AHF インストールが失敗します (Doc ID 2914299.1) TFA起動時に応答がなく起動が完了しない (Doc ID 2907656.1) rootcrs -postpatch を実行後、AHF (Trace File Analyzer) が正しく動作しません (Doc ID 2907627.1) Windowsで最新のAHFを解凍した後、インストーラのファイルが見つかりません (Doc ID 2907222.1) AHF や Orachk の Email 通知が、Redhat や Oracle Linux 8上の AHF 21.1.4で動作しない (Doc ID 2904971.1) TFAにて、特定ポートの使用ができない (Doc ID 2904981.1) AHF を 22.2 にアップグレード後、OSWatcher が実行されない (Doc ID 2902777.1) tfactl diagcollect の実行が "python.exe - システムエラー" により失敗する (Doc ID 2897813.1) tfactl が 'User <user_name> does not have keys to run TFA. Please check with TFA Admin(root)' エラーで失敗する (Doc ID 2891177.1) TFA 日本語 MOS ドキュメントのご紹介 3）トラブルシューティング

ahf_setupが"Perl Module not found : Data::Dumper"エラーで失敗する (Doc ID 2889728.1) AHF (Trace File Analyzer)インストール中のエラー - [ERROR] : AHF-00074: Perl Modules not found : Math::BigInt (Doc ID 2889735.1) Oracle ユーザーでの TFA 実行時に pwd: Permission Denied エラーが発生する (Doc ID 2887407.1) TFA による情報収集が "Not enough space in Repository or TFA_BASE to run collections" で失敗する (Doc ID 2886975.1) 最新版の AHF ダウンロードが "Choose valid parameters." で失敗する (Doc ID 2886847.1) -perlhome を指定した Ahf_setup の実行が "AHF-00026: Perl is not owned by root" で失敗する。 (Doc ID 2884347.1) tfactl diagcollect が TFA-00404 XML file is not well formed で失敗する (Doc ID 2884357.1) tfactl stop の実行時に oswbb が自動的に停止されない (Doc ID 2884330.1) TFA-00002 - root / oracle ユーザにて、TFAでSRDCログを収集できない (Doc ID 2881506.1) TFA 日本語 MOS ドキュメントのご紹介 3）トラブルシューティング

Q & A 87 Copyright © 2022, Oracle and/or its
affiliates Q1. 19c19.16かつGIMRが未導入の環境の場合、Cluster Health Advisorによる、レポートは可能でしょうか？ A1. GIMR無しの状態でのレポートですが、GIMR前提での実装のため実行できる操作は極端に少なくなると思われます。 Q2.ノード排除が発生した際に、AHFを使用して原因調査を行う場合、どのような流れで実施すれば良いですか？ A2. ノード排除に至る原因は多岐に渡ります。 GI のログ、トレースファイルから排除が実施された時間からさかのぼって確認し、NHB のタイムアウトなどどの時点から契機となるエラー候補が記録されているかを追跡するアプローチが一般的です。追跡にはすべてのノードを対象に該当時間帯の情報を確認することが重要になります。TFA を使用すると特定時間帯におけるすべてのノードの情報を一貫性を考慮して取得します。また排除の要因が I/O など外的な要因に起因する場合がありますが、TFA を使用して網羅的に取得することで、最終的な原因調査に必要となり得る情報が初期段階の収集でカバーできる可能性があります。すべてのノードにまたがった調査、GI/RAC および OS, H/W にわたる確認が必要なケースでは特に TFA の効果が発揮されます。

affiliates Q3.実際導入する際にはAHF自体の性能負荷が気になります。RACでノード数が多いと負荷に注意が必要などありますか？ A3. AHFのコンポーネントには特定のノードで動くものと各ノードで動くものがあります。Cluster Health Monitor や GIMR は特定のノードで動き、他ノードの情報を一元管理(R/W)するのでノード数の影響を受け易いと思いますが、トランザクションに依存しない定期的なモニタリングでありDBのトランザクションへ影響を及ぼし難いとお考え下さい。 Q4. TFAでログを採取しようとした際に追加して作成したDBの情報が取得されない事がありました。登録作業を実施する事で取得がされるようになったのですが、DBやリスナーなど追加した場合に登録作業が必要となるなどTFAをインストールされた環境の注意点について纏まったドキュメントはありますでしょうか。 A4. 新しく追加したデータベースなど TFA による情報取得時に認識されていない場合は、「Please run “tfactl rediscover - mode full」という追加検出をおこなうためのコマンドがガイドされる仕組みになっています。事前にご案内可能な注意点としては「Autonomous Health Framework (AHF) - TFA と ORAchk/EXAChk が含まれています (Doc ID 2604563.1)」の FAQ、および本ドキュメントの Appendix でリストしたドキュメントをご参照頂けますと幸いです。

affiliates Q5. お客様へTFA導入を促す場合、TFAのメリットを理解してもらう必要があると思います。TFAのメリットについてまとめられたドキュメントやサイトはありますでしょうか。 A5. お客様への導入のご検討を頂きありがとうございます。本資料がこちらのご要件に対応しますのでご活用いただけますと幸いです。 Q6. TFA は SE2 の環境でも使用可能でしょうか？ A6. 可能です。 Oracle Autonomous Health Framework は、サポートされているすべてのバージョンの Oracle Database および Oracle Grid Infrastructure で使用できます。参考） https://docs.oracle.com/en/engineered-systems/health-diagnostics/autonomous-health-framework/ahfug/ahf-supported- platforms.html#GUID-EBF[…]ABEA3A883 Oracle Autonomous Health Framework Checks and Diagnostics User's Guide 1.2 Supported Platforms

affiliates Q7. TFAの取得を依頼した場合、TFAのみが提供され、従来のアラートログ等が提供されない場合があります。その場合、SR 発行前にこちらでも解析しようとするのですが、どのファイルが従来のログに対応しているのかが理解できていません。従来のログとTFAの中身との対応表のようなものをまとめている、ドキュメント等ありませんでしょうか？ A7. 現時点ではございません。TFA で取得される情報の一覧については現在情報の公開を検討中です。なお zip ファイルを解凍した後のディレクトリ構造は以下の形になります。 TFA 取得結果のトップディレクトリ “<ノード名>” ディレクトリ … OS コマンドによる情報取得結果、パッチ情報などが配置されています。 “diag” ディレクトリ “asm” … ASM に関するログ、トレースファイル “crs” … GI に関するログ、トレースファイル “rdbms” … DB に関するログ、トレースファイル：また各アラートログは上記配下に ADR の構造に準じて配置されていますのでこちらからご確認頂けますと幸いです。

Our mission is to help people see data in new
ways, discover insights, unlock endless possibilities. Our mission is to help people see data in new ways, discover insights, unlock endless possibilities. 91

Oracle Database Technology Night #62 Autonomous...

Oracle Database Technology Night #62 Autonomous Health Framework (AHF) 概要と実践

More Decks by oracle4engineer

Other Decks in Technology

Featured

Transcript