Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6回 データアーキテクト(データ整備人)-『誠実 × データ × 整備人』 ~誠実なデータを扱う誠実な企業・整備人であるための話~

795a1c8d5e46f6b9067202655ea5dfae?s=47 Ringa_hyj
August 30, 2020

第6回 データアーキテクト(データ整備人)-『誠実 × データ × 整備人』 ~誠実なデータを扱う誠実な企業・整備人であるための話~

データインテグリティ、ガバナンスを日常的に考える話。
2020/09/24 発表資料 公開共有用。

795a1c8d5e46f6b9067202655ea5dfae?s=128

Ringa_hyj

August 30, 2020
Tweet

Transcript

  1. 医薬業界に学ぶ誠実なデータを扱う誠実な企業・整備人であるための話。 誠実 データ 整備人 2020/09/24 第6回 データアーキテクト(データ整備人)を”前向きに”考える会

  2. 出典:データ整備人の概観[shinu] より https://speakerdeck.com/shinu/maemuki-data-seibinin01?slide=15 自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa Use:R,

    python, SQL statistics, machine learning Field:Data science Life-science(pharmacy, chem) Manufacturing Information Technology ↑↑↑ データとの関わりはこんな感じ 分析側視点での発言が多い
  3. ・データの収集・保管・運用についての正しい在り方 厳しい医薬 (食品)業界のガイドラインを紹介 ・製薬業界で求められているデータの性質は データ活用時に求められる性質と共通点がある ・分析・意思決定への活用から見たデータのあるべき姿 注・医薬ガイドライン勉強会ではない どんな話をするか三行で

  4. ・データに近い全ての人 誰に向けての話? (出典:データ整備人概観 shinu) ・上位の経営層

  5. データに関する取り決め(ガバナンス)の話をします ガイドラインの目的は ・データに関して間違い・不正の起こらない環境(仕組み)を考えよう 教育,防止策,触れない仕組み,管理権限,ダブルチェック(承認), 問題を報告しやすい窓口 そしてこの話の目的は今後データを活用するために ・データを蓄積する際に厳しく整備しなければいけない部分を抽出 ↑どちらも権限を持った上位の経営層の協力が欲しい 不正・間違いを起こさない為に

  6. ・データに関する心構え ・どのようにデータを構築・活用していくか そのためのガイドライン・指針になるのが 鈍器 DMBOK 重い 多い(文字が) お高い(価格が) (導入として無料の) ガイドラインで感覚を掴もう

    ちょっと変わった視点からの知識を入れる データに関する本
  7. 厳しい医薬業界の 「データに関わるガイドライン」 を引用して考える (pdfは無料だし…) 今回はMHRAを主な参考元にする 医薬業界で有名なデータインテグリティのガイドライン PIC/S Good Practices for

    Data Management and Integrity MHRA ‘GXP’ Data Integrity Guidance and Definitions (6章から特に関係アリ) FDA Data Integrity and Compliance With Drug CGMP WHO GUIDELINE ON DATA INTEGRITY GAMP Good Practice Guide: Data Integrity - Manufacturing Records などなど 主に議論されているのは ・データインテグリティ ・データガバナンス 医薬の業界のガイドライン イギリスの厚生省的な機関
  8. なんのためにガイドラインがあるの?

  9. データの管理に特に厳しい業界のひとつ=医薬 薬の品質は命に直結する 製造過程のデータ改ざん 臨床試験で不正 実験論文捏造 医薬に限らず他の企業でも 不正なお金の動き(財務報告) (システムの信頼性, IT統制 とか)

    不正・間違い「監査・査察」 ・故意に改ざん 今更、再び開発やり直しは…データ側をいじろう 国に申告,審査は時間も金もかかる…マヂムリ隠ぺいしよ
  10. データのあるべき姿と製薬業界 実社会の製品の質(リスク)の原因を特定する必要がある ・いつの機械, パラメータの設定, 原料の管理, 購入元, 運送会社 製品が生まれるまでの過程を ”厳しく正確” に記録しておく必要がある

    (回収するための lot number 記録)
  11. データ活用に「監査」? 原因・関係が推定できる データ 製薬業界 で求められるデータ 出荷された完成品とその製造過程のデータが繋がること =記録されたデータは過程を正確に記録している必要がある =不適切な設定で作られた製品は質の低下(リスク)につながる

  12. データ活用に「監査」? 原因・関係が推定できる データ f(・) データ活用 で求められるデータ 観測された事象とそのデータから規則性を見つけ出す =記録されたデータは規則を正確に表している必要がある =不適切なデータから作られた理論・根拠は 意思決定サイエンスで(モデル)リスクにつながる

    使い方は違うがデータ(記録)に求められる性質に共通点がある =データの記録, 保存, 運用方法 の参考になる 製薬業界 で求められるデータ 出荷された完成品とその製造過程のデータが繋がること =記録されたデータは過程を正確に記録している必要がある =不適切な設定で作られた製品は質の低下(リスク)につながる g(・) h(・)
  13. ガイドラインは何と言っているの?

  14. ・データとは 製品の品質・安全性・有効性、について意思決定に重要 データがどのように用いられ、 どのレベルで意思決定に影響を与えているのかで重要度分けをする ・データに関するリスク 変更・削除・除外が起きてしまう場合をデータのリスクと考え、 これを検出できる機会があるのか? 複数機能を持ち、一貫しないプロセス(システム)のデータのリスクは高い ・具体的なデータ例 紙・電子・ハイブリッド状態・写真・動画・クロマトグラフィプレート、等が相当する

    人により記録される紙は、まちがい入力のリスク低減のため作業監視を検討する ・本質的なリスク 電子データはコンピューター化システムのDIの本質的リスクとして、 生成・利用するシステムがどの程度自由にデータに影響を与える設定ができるか、 および データライフサイクルデータ転送時にデータが操作出来てしまう可能性などに注意する。 これらを使用可能な技術を使って、リスクを低減するように設定を考えるべきである データって重要
  15. ・データインテグリティ データの完全性 データの信頼性 データの誠実さ ・データの理想の状態=データインテグリティが保証される状態 データが完全・正確・矛盾なく・信用できる・信頼できる、状態 かつ、 これらのデータの特性が、データライフサイクルを通じて維持される データのとるべき状態はALCOAを満たすべきであり、 データはセキュアな方法で収集、維持すべき

    データインテグリティを保証するためには、品質とリスクに対する管理が必要 データインテグリティの定義
  16. ・データはALCOAを満たす状態であるべき attributable to the person generationg the data データ生成者へ帰属することができる legible

    and permanent 見読性があり永続的である contemporaneous 同時性がある original recorf or certified true copy オリジナルもしくは保証付きの真正なコピーである accurate 正確である ・古いデータソース ・手入力での蓄積データ ・とりあえずの分析資料 に突き当たった時、これが満たされていないと感じる データインテグリティの「ALCOA」 ALCOA + なら以下も追加 complete 全部そろったデータ一式である consistent 自己一貫性をもつ enduring 耐久性がありライフサイクルを通じて持続する available ライフサイクルの中でレビュー、 査察のためにすぐに入手が可能である
  17. ・データガバナンス 形式(電子,紙)に関わらず、完全で矛盾なく正確であることを保証するように 確実に記録、処理、補完、使用するための 計画や準備のこと ライフサイクルを通じてオーナーシップと責任を明らかにしておくこと インテグリティに適合するためプロセスやシステムで改ざんが起こらない設計 その運用、監視について検討されていること そのための ・スタッフへのガバナンスの重要性トレーニング ・透明性をもった作業環境

    (エラーや作業漏れが見える、報告しやすい、環境) データガバナンス
  18. ・誰がデータガバナンス主導するか 上級経営者(senior management)は リスク最小化のためのシステムや手順書を実装 さらにリスクを特定したり管理し続けることに努める 委託の場合、契約・合意書に オーナーシップ、ガバナンス、アクセスの可能範囲(許可でなく) を盛り込むべき 契約の委託者は ベンダーのデータガバナンスレビューを実施すべき

    (相手の会社のガバナンスチェック) 監査の際データにアクセスできることも必要 データガバナンス
  19. ・監査証跡 記録の生成・変更・削除に関するアクション 誰が・何を・いつ・なぜ行ったのか、を含むメタデータ その記録が出力・保存できる仕組みが必要 生成・追加・削除・変更、等 データのライフサイクルのイベント詳細を オリジナルな記録が明瞭であるように記す必要がある 上書きしたり、オリジナルの記録に影響を与えてはならない セキュアに書き留める必要がある レガシーなシステムや、メタデータの履歴出力が無い場合、

    代替的にログブックを作り記録すること その記録が効果的であることを証明できること 知識:監査証跡
  20. ・トレーニングの重要性 データ生成のプロセスに関わるガイダンス トレーニングについても考慮されることが期待される (データエンジニア,サイエンスチームのリテラシ維持とかに置き換える) プロセスを自動化することでDIリスクを低減はできるが、無くならない。 特に人が記録・報告・保管に関与できてしまう余地があるならば、 いくらプロセスやシステムが自動化されていようとも (慢心していると)リスクは高くなる 技術的な環境だけでなく、人的な環境を整備すべし

  21. 気を付けるべきこと多くない?

  22. ・コントロール権限、アクセス権限が高い ・患者や環境に影響が少ない ・専門的なソフトで知識を持たないと変更できない場合 (エクセルは…) 上記のような場合、コントロール方策を軽減することは正当化できるかもしれない コントロールを緩めてもいい領域

  23. まとめ

  24. ①・データのオーナーシップを明らかにしておく (記録書、入力システム、抽出SQL、分析スクリプト) ②・いかなる形式(紙・電子) でも 完全性(すべて記録されること) 一貫性(どこかで矛盾がないこと) 正確である(データと実態が正しく整合性の取れていること) を満たすようにデータを管理 ③・人,システム,設備 を重要なところから日々

    設計,運用,変更 していく ④・データの変更はアクセス権によって防がれるべき 不可能な場合は監査証跡(足跡)を残す どうしたらいいのか
  25. ⑤・組織最高レベルで過小評価せず、重要視、承認されるべきである ⑥・データインテグリティリスク評価(DIRA) 生成・収集プロセスからデータの重要性やリスクを洗い出し文書化する ⑦・努力とリソースはリスクと、その影響に見合った注ぎ方をする (リスクとは 危険・不確実性) ⑧・弱点が判明したら 是正・予防すべき どうしたらいいのか、もっと

  26. ・規制当局があって合格ラインが決まる ・知っていて自分で誠実にデータに向き合うことは不利益ではない ・コンプライアンスコストを上げ過ぎないように 特にリスク・コストに応じてやりましょう ガイドラインを引用すると データリスク・重要性・ライフサイクルなど、 データ管理はリスクベースアプローチを推奨する。 GXP(意思決定)に影響を与えるデータを特定し、効果的かつ効率的にリスクベースで コントロール&レビューする必要がある こんなに細かくやってられんわ

  27. ・データ活用をズイズイ進めている会社・部署はまだ少ない ・課題解決するためのデータが綺麗に取得できている会社も少ないだろう 折角のデータ収集の機会をゴミにしてしまうシステム設計 良いデータから誤った出力をする分析 それが起きてしまう環境 数年後のデータ活用に向けて、 各個人が誠実に取り組むことは間違いなく有益である (数十年後の規制・監査で楽ができるかも) 最後に GIGO

    : garbage in, garbage out
  28. best practice ! Enjoy!

  29. http://www.it-asso.com/gxp/dataintegrity.html https://www.gmp-platform.com/topics_detail1/id=9679 https://ecompliance.co.jp/DI/DataIntegrity.html https://ecompliance.co.jp/FDA/CFR.html https://www.dodadsj.com/content/200601_governance/ https://www.gmp-platform.com/topics_detail1/id=4056 https://www.hes-ltd.co.jp/column/1203/ https://infogov-labo.jp/articles/importance-of-data-integrity-in-the-pharmaceutical-industry/ https://www.kanto.co.jp/dcms_media/other/CT_255_03.pdf 参考

  30. None
  31. ・データライフサイクル 生成・記録・分析・移動・処理・利用・保管・取り出し・破棄 データの人生のすべてのフェーズのこと データインテグリティの保証には、 データガバナンスをライフサイクル全体に対して適用し続けることが必要 そして適切にコントロールされているシステムによって保管されること。 知識:データのライフサイクル

  32. ・バリデートされたシステムを使う 設定を変更できないような電子システムは校正するだけで良い 複雑・手組のシステムは「意図した目的」に対するバリデーションが必要 望ましい結果を得るためにデータを操作する、 試験を繰り返すことが可能であり、 これを検出できないシステムとなると注意が必要 ・データ・システムを移行する データの移行、物理的データの電子化(スキャン) など情報量が落ちる可能性がある場合 保存形式の選択、なぜ電子化を選択したのか、

    検討から選択に至った根拠を文書化しておくべき 誠実なデータは誠実な肉体(システム)に宿る
  33. ・バリデーション FDA(CFR)によるバリデーション(妥当性の確認)の定義 定められた用途に対する特有の要求事項が一貫して満たされていることを 客観的証拠の検証および提供によって確認すること 意図した利用とシステムの仕様(機能)が 一致していることを確認すること (蓄積が目的なのに手入力だから正しく蓄積されてない、ってのは問題) (医薬の製造では機械の性能と薬剤の噴霧量が規定値でないとか、そういう話) バリデーション

  34. コンピュータ化システムは意図した目的に対してバリデーションすべき (電源が入ったヨシでなはい) コンピュータ化システムの提供者側はどうしても機械の良し悪しで判断するが ユーザーの求めている機能要件に対して機能検証(バリデーション)が行われるべき である 機能の検証は要求された情報が一貫性を持って完全に提示されることを証明するも のである バリデーション2

  35. ・真正コピー オリジナルと同じ情報を持っていることが検証・保証された記録であること 別形式に変形することも可能だが、再構築できるように履歴を残すこと 文書を電子化して破棄する場合には発生しうるリスクを検討すべき 知識:真正コピー

  36. ・メタデータ データの構成、要素、相互関係などを示すデータである 監査証跡(audit trails)も重要なメタデータ 監査証跡はデータを個人または元のデータ源に帰属させることができる情報 知識:メタデータ

  37. ・リスクの洗い出し、文書化 リスクに応じて優先づけを行い経営に報告 ・長期敵な是正が必要な場合、短期的な措置をまず実施していく (一歩づつリスクを減らす取り組みを) ・トレーサビリティのために適切なタイムゾーンにおけるタイムスタンプをデータと共に記録する 利用時にはそれをイベントとして記録する ・データのブランク書式(自由記入できる場合)は介入の痕跡を残すべき(残るようにする) ブランク書式の書類には事前にページ番号を割り振っておくことが防止に役立つ ・人の手入力によるミスを防ぐためバーコードスキャナ、 IDカードリーダーをつかったシステムによるやり取りに置き換える

    ・スタッフにデータインテグリティ原則のトレーニングが行われる リスク評価プロセスの専門家SMEが参加する ・ガバナンスに関する品質指標を経営層が監督する どうしたらいいのか、もっと もっと
  38. 収集や記録に関わるプロセス・システムについて、 その技術的背景知識を適切なレベルで保有しておくべきである オリジナル(真正コピー)・メタデータ・入力するデータ・変換結果・レポート これらは生成・記録され、再構築及び評価が可能であることが求められる 収集、解析時のデータの扱い

  39. None
  40. 活用を見据えた データの基盤構築人 業務とシステムの橋掛け データの抽出を頼まれる人 活用方法を考える人&支える人 「データ整備人」の参加者イメージ

  41. 過去こんな話もあった ↑近い話 https://speakerdeck.com/tanakarian/detafalsejia-zhi-woshi-wanaitamefalsedata-reliability

  42. データのあるべき姿と製薬業界 実社会の製品の質(リスク)の原因を特定する必要がある ・いつの機械, パラメータの設定, 原料の管理, 購入元, 運送会社 製品が生まれるまでの過程を ”厳しく正確” に記録しておく必要がある

    (回収するための lot number 記録) 厳密に蓄えられたデータはどう活用できるのか? ・不良製品 → 製造ライン・設定値 脆弱な設定値の発見・不調機械の推定・故障予測 ・製品の出荷日 → 地域・受注のタイミング パーソナライズ広告・需要予測・顧客クラスタ分析
  43. どうやって蓄えられたデータなのかの証明 AIの学習過程を捏造 学習データ改ざん seed表改ざん 誰がいつ分析したか記録してない いつのソースから取ってきた データソースの中にエラーデータが入っていなかったか パッケージのバージョンは 解析処理に間違いは一切なかったのか ダブルチェックはしたのか

    再現性はあるのか 個人情報は入ってないのか 秘密保持契約に反していないか 分析途中のデータ、レポートは改ざんできない場所に保存されているのか スクリプトの著者、分析日が残っているか 生成したグラフ画像はスクリプトや分析日時が帰属できるのか データ活用に「監査」? ・データ分析、モデルを重要な意思決定に活用企業はまだ少ない ・いつか(何年後)はモデルやそのデータ元が監査対象になる・・・かも
  44. None