Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6回 データアーキテクト(データ整備人)-『誠実 × データ × 整備人』 ~誠実なデータを扱う誠実な企業・整備人であるための話~

Ringa_hyj
August 30, 2020

第6回 データアーキテクト(データ整備人)-『誠実 × データ × 整備人』 ~誠実なデータを扱う誠実な企業・整備人であるための話~

データインテグリティ、ガバナンスを日常的に考える話。
2020/09/24 発表資料 公開共有用。

Ringa_hyj

August 30, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. 出典:データ整備人の概観[shinu] より https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=15 自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa Use:R,

    python, SQL statistics, machine learning Field:Data science Life-science(pharmacy, chem) Manufacturing Information Technology ↑↑↑ データとの関わりはこんな感じ 分析側視点での発言が多い
  2. 厳しい医薬業界の 「データに関わるガイドライン」 を引用して考える (pdfは無料だし…) 今回はMHRAを主な参考元にする 医薬業界で有名なデータインテグリティのガイドライン PIC/S Good Practices for

    Data Management and Integrity MHRA ‘GXP’ Data Integrity Guidance and Definitions (6章から特に関係アリ) FDA Data Integrity and Compliance With Drug CGMP WHO GUIDELINE ON DATA INTEGRITY GAMP Good Practice Guide: Data Integrity - Manufacturing Records などなど 主に議論されているのは ・データインテグリティ ・データガバナンス 医薬の業界のガイドライン イギリスの厚生省的な機関
  3. データの管理に特に厳しい業界のひとつ=医薬 薬の品質は命に直結する 製造過程のデータ改ざん 臨床試験で不正 実験論文捏造 医薬に限らず他の企業でも 不正なお金の動き(財務報告) (システムの信頼性, IT統制 とか)

    不正・間違い「監査・査察」 ・故意に改ざん 今更、再び開発やり直しは…データ側をいじろう 国に申告,審査は時間も金もかかる…マヂムリ隠ぺいしよ
  4. データ活用に「監査」? 原因・関係が推定できる データ f(・) データ活用 で求められるデータ 観測された事象とそのデータから規則性を見つけ出す =記録されたデータは規則を正確に表している必要がある =不適切なデータから作られた理論・根拠は 意思決定サイエンスで(モデル)リスクにつながる

    使い方は違うがデータ(記録)に求められる性質に共通点がある =データの記録, 保存, 運用方法 の参考になる 製薬業界 で求められるデータ 出荷された完成品とその製造過程のデータが繋がること =記録されたデータは過程を正確に記録している必要がある =不適切な設定で作られた製品は質の低下(リスク)につながる g(・) h(・)
  5. ・データとは 製品の品質・安全性・有効性、について意思決定に重要 データがどのように用いられ、 どのレベルで意思決定に影響を与えているのかで重要度分けをする ・データに関するリスク 変更・削除・除外が起きてしまう場合をデータのリスクと考え、 これを検出できる機会があるのか? 複数機能を持ち、一貫しないプロセス(システム)のデータのリスクは高い ・具体的なデータ例 紙・電子・ハイブリッド状態・写真・動画・クロマトグラフィプレート、等が相当する

    人により記録される紙は、まちがい入力のリスク低減のため作業監視を検討する ・本質的なリスク 電子データはコンピューター化システムのDIの本質的リスクとして、 生成・利用するシステムがどの程度自由にデータに影響を与える設定ができるか、 および データライフサイクルデータ転送時にデータが操作出来てしまう可能性などに注意する。 これらを使用可能な技術を使って、リスクを低減するように設定を考えるべきである データって重要
  6. ・データはALCOAを満たす状態であるべき attributable to the person generationg the data データ生成者へ帰属することができる legible

    and permanent 見読性があり永続的である contemporaneous 同時性がある original recorf or certified true copy オリジナルもしくは保証付きの真正なコピーである accurate 正確である ・古いデータソース ・手入力での蓄積データ ・とりあえずの分析資料 に突き当たった時、これが満たされていないと感じる データインテグリティの「ALCOA」 ALCOA + なら以下も追加 complete 全部そろったデータ一式である consistent 自己一貫性をもつ enduring 耐久性がありライフサイクルを通じて持続する available ライフサイクルの中でレビュー、 査察のためにすぐに入手が可能である
  7. データのあるべき姿と製薬業界 実社会の製品の質(リスク)の原因を特定する必要がある ・いつの機械, パラメータの設定, 原料の管理, 購入元, 運送会社 製品が生まれるまでの過程を ”厳しく正確” に記録しておく必要がある

    (回収するための lot number 記録) 厳密に蓄えられたデータはどう活用できるのか? ・不良製品 → 製造ライン・設定値 脆弱な設定値の発見・不調機械の推定・故障予測 ・製品の出荷日 → 地域・受注のタイミング パーソナライズ広告・需要予測・顧客クラスタ分析
  8. どうやって蓄えられたデータなのかの証明 AIの学習過程を捏造 学習データ改ざん seed表改ざん 誰がいつ分析したか記録してない いつのソースから取ってきた データソースの中にエラーデータが入っていなかったか パッケージのバージョンは 解析処理に間違いは一切なかったのか ダブルチェックはしたのか

    再現性はあるのか 個人情報は入ってないのか 秘密保持契約に反していないか 分析途中のデータ、レポートは改ざんできない場所に保存されているのか スクリプトの著者、分析日が残っているか 生成したグラフ画像はスクリプトや分析日時が帰属できるのか データ活用に「監査」? ・データ分析、モデルを重要な意思決定に活用企業はまだ少ない ・いつか(何年後)はモデルやそのデータ元が監査対象になる・・・かも