b. 一部の契約で証券番号が見入力、桁数が揃ってない。等は割とざらに存在する 2. 「妖怪1合わない」と戦う a. 求めている数値と合わないー>システム障害により一つのレコードに複数の計上の数値が混ざる b. 別事業部算出の結果とも合わないー> そのデータへの理解と説明が発生 3. 決定論的マッチング(メタデータの名寄せで利用 )を利用して一致を調査 a. 理由がつけばマッチとして、名称やデータを名寄せする(あくまで見えている範囲) b. 調査にはデータ分析基盤に付随のデータプロファイリング機能を大いに活用 Investigate Data Quality データ/品質の調査 パイプライン作成 カタログ作成 データマート公開 数 値 指 標 これ ※データが多いため、2023年度のデータに絞って確認
a. 日本語と英語では認知負荷の差が段違い(みんな同じ英語レベルではない。無理に英語にすると揺れる) 3. リネージュを整理するより、実際に現場で利用している紙 (やWeb)の申し込み画面を取り寄せて確認 a. データソースの最上位まで整理するのはかなり複雑で年単位を要する b. テクニカルな方法論ばかりに拘らず、現場を理解するのが一番手っ取り早い 4. ドメイン知識の整理(スプレッドシートに整理)にはテクニカルライティングを意識 a. 流れ(ストーリー)を意識した記入とし、データの一点だけを捉える書き方にしない i. bad: 契約の識別のために付与する番号で 12桁の数値で構成する。 ii. better: 代理店保険の受付システムに登録後に被保険者向けの保険証券へ付与するユニークな番号。 12桁の数値 で構成する。 b. 制約の記載 i. ソース側の障害などパイプラインでは対処不可な制約のみ記載し情報量を削減 Organize Data Catalogs データ/品質の調査 パイプライン作成 カタログ作成 データマート公開 数 値 指 標 これ
b. 効力範囲の明確化(WIP) i. 守るべきドキュメントなのかわからなければ誰も守らないため、決済や決議を通す c. 尺度の明確化(WIP) i. 品質低下によるアクション等を定め揺らぎの少ないプラクティカルなガイドラインへ 2. 運用スキームの構築と準備(オペレーショナルメタデータ) a. リリースサイクルの明確化(分析に参加するというオーナーシップを作るきっかけに) i. 定期的なリリースサイクル、変更がある場合の移行期間、移行の方法を明示 b. アクセスログによる利用者の監視導入 i. 利用促進やリソース最適化、不正利用の抑止につなげるため、アクセスログを取得・活用する仕組みを機械的に準備 Publish DataMarts データ/品質の調査 パイプライン作成 カタログ作成 データマート公開 数 値 指 標 これ