Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リアルワールドデータ個人情報の匿名加工パイプライン構築【DeNA TechCon 2022】

リアルワールドデータ個人情報の匿名加工パイプライン構築【DeNA TechCon 2022】

データをセキュアに管理したい一方で、ボリュームは何倍にも増え、データ納品のオペレーションは複雑になり、サービス単位だけでなく横断分析も行いたいというような要求も増えていく。

ヘルスケア事業におけるリアルワールドデータの疫学研究・薬剤の臨床開発への利活用は世界的に見てもより加速しています。データの絶対的なボリュームを増やしながら、データ調達、データベース構築、データ分析にともなう様々な問題をソフトウェアの力で解決して健康寿命の延伸にコミットするべく、日々業務に取り組んでいます。

本セッションではリアルワールドデータの匿名加工処理をメインに、個人情報保護対策下においてのセキュアなデータプラットフォーム環境構築という様な、具体的な課題や事例をご紹介いたします。

資料内でのリンク集:
p9, https://www.ppc.go.jp/files/pdf/280603_siryou1.pdf
p14, https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/

◆ You Tube
https://youtu.be/TqY12RA6rBc

◆ You Tube チャンネル登録はこちら↓
https://youtube.com/c/denatech?sub_confirmation=1

◆ Twitter
https://twitter.com/DeNAxTech

◆ DeNA Engineering
https://engineering.dena.com/

◆ DeNA Engineer Blog
https://engineering.dena.com/blog/

◆ DeNA TechCon 2022 公式サイト
https://techcon2022.dena.dev/spring/

DeNA_Tech
PRO

March 17, 2022
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. リアルワールドデータ個人情報の 匿名加工パイプライン構築 佐々木 桃太

  2. 自己紹介 佐々木 桃太(Momota Sasaki) • 2021年にDeNAへジョイン • ヘルスケア事業部にて、データプラットフォームの開発・運用を担当

  3. 本セッションの想定視聴者とゴール 想定視聴者 • データプラットフォームの開発や運用に携わっている方 ゴール 以下のイメージを持っていただく事 • 医療データにまつわる業界の課題感 • 個人情報を取り扱うデータプラットフォームの開発や運用に関する要点

  4. • DeNAヘルスケアについて • リアルワールドデータが活用されるまでの道のり • 匿名加工基盤におけるデータパイプライン • まとめ アジェンダ

  5. • DeNAヘルスケアについて • リアルワールドデータが活用されるまでの道のり • 匿名加工基盤におけるデータパイプライン • まとめ アジェンダ

  6. DeNAヘルスケアのミッション シックケアからヘルスケアへの転換を実現し、 健康寿命を延伸する

  7. ヘルスケアにデータの力を 臨床・薬剤処方のリアルをデータで解明し、 疾病予防・重症化予防など 健康寿命延伸の糸口となるエビデンスを創出する

  8. • DeNAヘルスケアについて • リアルワールドデータが活用されるまでの道のり • 匿名加工基盤におけるデータパイプライン • まとめ アジェンダ

  9. リアルワールドデータとは • 日本全国の医療現場で得られるレセプトや健康診断データ (=健診データ)等の、各種医療データの総称のこと • 個人情報保護法の対象となる。また、病歴などのセンシ ティブな情報を含むデータは要配慮個人情報となる。 要配慮個人情報とは、「本人の人種、信条、社会的身分、病歴、犯罪 の経歴、犯罪によ り害を被った事実その他本人に対する不当な差別、偏見その他の不利益

    が生じないよう にその取扱いに特に配慮を要するものとして政令で定める記述等が含まれる個人情報」 をいう。 引用元 https://www.ppc.go.jp/files/pdf/280603_siryou1.pdf
  10. リアルワールドデータの種類 ・保険加入期間 ・資格喪失事由  etc ・身長 ・体重 ・血圧 ・血糖値 ・脂質 ・傷病情報

    ・医薬品情報 ・診療行為情報 etc 【対象レセ種別】 ・DPC ・医科(入院・入院外) ・調剤 ・歯科 1. kencomデータ 2. 健診データ 3. レセプトデータ ・歩数 ・体重(手動) ・血圧(手動) ・血糖値(手動) ・睡眠(開発予定) ・アンケート ・肝機能 ・腎機能 ・尿酸 ・貧血 etc 4.加入者台帳 ・加入者id ・生年月 ・性別
  11. リアルワールドデータがもたらす社会貢献 • 患者にとってより良い医療アクセスの提供 • 新薬の開発コストを削減し、また世に出すまでの時間を短縮 ◦ 臨床開発(治験)における対照群をリアルワールドデータで代替 • 薬の需要を予測することによる適切な在庫管理 •

    健康寿命延伸による医療費のコスト適正化 ◦ 国民皆保険制度の維持への恩恵も
  12. リアルワールドデータ活用の壁 リアルワールドデータの活用が出来るようにプラットフォームを作成・運用し 続けていくのは、大学や製薬企業にとっては非現実的。 ここをDeNAヘルスケアが解決しにいく。 多くの壁 • 日本全国に分散されているリアルワールドデータを、属性に偏りなく収集 ◦ 相当なデータ量 •

    バラバラのフォーマットを統一させる為のクレンジング • 個人情報であるリアルワールドデータを、二次利用が出来る様にする為の 匿名加工処理 • 更新され続ける医薬品や傷病マスタへの追従
  13. • DeNAヘルスケアについて • リアルワールドデータが活用されるまでの道のり • 匿名加工基盤におけるデータパイプライン • まとめ アジェンダ

  14. 匿名加工とは • 特定の個人を識別することができないように個人情報を加工 し、当該個人情報を復元できないようにした情報のことをいう • 個人情報保護法の観点からこのプロセスは必要不可欠 • 事業の根幹を成す部分なので内製にて実施。ノウハウを蓄積 出典:https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/

  15. リアルワールドデータが活用されるまでのフロー

  16. リアルワールドデータが活用されるまでのフロー 全体の流れ • 提携している健康保険組合様やkencom等 のリアルワールドデータを連携 • 匿名加工基盤にてデータクレンジング、 匿名加工処理、データ品質チェックを実 施 •

    匿名加工後のデータに対して許諾を頂い た後に、二次利用データ基盤に転送して データウェアハウスを作成 • 目的別にデータマートを構築し、様々な 利活用に繋げている ◦ 大学や製薬企業様へのデータ納品 ◦ 分析Webサービスへのデータ連携 ◦ etc
  17. 匿名加工基盤におけるデータパイプライン 話すこと • 匿名加工基盤について ◦ 個人情報をどのように守っているか ◦ その上で、どのように処理を効率化して いってるか 話さないこと

    • 二次利用データ基盤について • 匿名加工基盤における各処理の具体的な内容
  18. 匿名加工基盤のアーキテクチャ

  19. 個人情報を守るために ガイドラインの策定と運用 • 情報セキュリティポリシーや個人情報保 護法を加味した社内ガイドラインがヘル スケア事業部のセキュリティチームによ り策定 • このガイドラインの準拠を維持していく ことで個人情報の保護に努める

    • システムの構築や変更における設計の段 階でセキュリティ部への相談を必須と し、ガイドラインに準拠しているか確認 を取る
  20. 個人情報を守るために 認可された者だけがアクセスできるVPC • セキュリティルームにある専用端末及 び専用線を通じてのアクセスに限定 ◦ インターネットを介さず通信 • 匿名加工を実施するEC2へのssh権限を 有するユーザーは台帳で管理

    • 入室や接続の記録を保持、監視 匿名加工を実施する者以外が個人情報にア クセスすることは不可能
  21. 個人情報を守るために 認可された者だけがアクセスできるS3 • バケットポリシーにより、指定のVPC Endpoint(PrivateLink)以外からのオブ ジェクト操作を拒否 • オブジェクトの暗号化 • オブジェクトのバージョン管理を有効化

    • S3へのアクセスをログを取得、可視化
  22. Airflowによる匿名加工パイプラインの効率化 As Is • 匿名加工チームによるEC2上での手作業の 運用 To Be • 匿名加工基盤における一連のプロセスを

    Airflowに置き換えることで効率化を実現し ていく
  23. Airflowによる匿名加工パイプラインの効率化 Airflowとは(概要) • データの取り込みや変換、分析等の各タスク(処理)を、依存関 係を持たせる形で繋げた「ワークフロー」の実行基盤 • ワークフローをスケジューリングしたり、実行状況を監視した りすることが出来る • データプラットフォームの構築においてよく使われるソフト

    ウェアの1つ
  24. Airflowによる匿名加工パイプラインの効率化 Airflowとは(ワークフロー / DAG) 各タスクを、依存関係を持たせる形で繋げる際に閉路のな い、つまりタスクの出発点に戻らないような形の「有向非巡 回グラフ(DAG)」として設計し、これをワークフローと呼ぶ

  25. Airflowによる匿名加工パイプラインの効率化 Airflowとは(Operator) • Airflowにおいて各タスクを実装する際に必要になる概念 ◦ 例えば、BigQueryにSQLを実行するタスク」であれば 「BigQueryExecuteQueryOperator」を用いる • Operatorはたくさんの種類があり、要件に1番フィットす るOperatorを選択して実装していく

  26. Airflowによる匿名加工パイプラインの効率化 Airflow採用の理由 • 豊富なOperatorによるデータのETLもしく はELT処理および、DAGによる依存関係の 構築が容易に可能 • Cloud Composerによる二次利用データ基盤 での運用実績

    • チームメンバーがAirflowの実務経験がある ため学習コストはほぼ無し AWSのマネージドAirflow(MWAA)を採用 • Airflowの環境構築、運用の負荷を限りなく 減らしデータパイプラインの開発により専 念が出来る
  27. Airflowによる匿名加工パイプラインの効率化 Airflowが現時点で担っているプロセス • kencomデータの抽出から匿名加工盤への データ連携 • 二次利用許諾を得たデータのGCS連携 • 匿名加工処理の一部 効率化の恩恵

    • 人間が行なっていたデータ抽出や連携を Airflowにすることにより工数を大幅に削減
  28. 今後の展望 匿名加工処理及び前後のプロセスもAirflowに集約してさらなる 効率化を目指す • 匿名加工前の保険者データ連携 • 匿名加工前のクレンジング処理 • 匿名加工後のデータ品質管理(DQM)

  29. • DeNAヘルスケアについて • リアルワールドデータが活用されるまでの道のり • 匿名加工基盤におけるデータパイプライン • まとめ アジェンダ

  30. まとめ • リアルワールドデータの活用は健康寿命の延伸につながる • 一方で、リアルワールドデータを収集し使える形にするの は多くの壁がある • エンジニアリングの力でリアルワールドデータのプラット フォームを構築・運用して課題を解決していく

  31. ご清聴ありがとうございました