Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リアルワールドデータ個人情報の匿名加工パイプライン構築【DeNA TechCon 2022】

リアルワールドデータ個人情報の匿名加工パイプライン構築【DeNA TechCon 2022】

データをセキュアに管理したい一方で、ボリュームは何倍にも増え、データ納品のオペレーションは複雑になり、サービス単位だけでなく横断分析も行いたいというような要求も増えていく。

ヘルスケア事業におけるリアルワールドデータの疫学研究・薬剤の臨床開発への利活用は世界的に見てもより加速しています。データの絶対的なボリュームを増やしながら、データ調達、データベース構築、データ分析にともなう様々な問題をソフトウェアの力で解決して健康寿命の延伸にコミットするべく、日々業務に取り組んでいます。

本セッションではリアルワールドデータの匿名加工処理をメインに、個人情報保護対策下においてのセキュアなデータプラットフォーム環境構築という様な、具体的な課題や事例をご紹介いたします。

資料内でのリンク集:
p9, https://www.ppc.go.jp/files/pdf/280603_siryou1.pdf
p14, https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/

◆ You Tube
https://youtu.be/TqY12RA6rBc

◆ You Tube チャンネル登録はこちら↓
https://youtube.com/c/denatech?sub_confirmation=1

◆ Twitter
https://twitter.com/DeNAxTech

◆ DeNA Engineering
https://engineering.dena.com/

◆ DeNA Engineer Blog
https://engineering.dena.com/blog/

◆ DeNA TechCon 2022 公式サイト
https://techcon2022.dena.dev/spring/

DeNA_Tech

March 17, 2022
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. リアルワールドデータの種類 ・保険加入期間 ・資格喪失事由  etc ・身長 ・体重 ・血圧 ・血糖値 ・脂質 ・傷病情報

    ・医薬品情報 ・診療行為情報 etc 【対象レセ種別】 ・DPC ・医科(入院・入院外) ・調剤 ・歯科 1. kencomデータ 2. 健診データ 3. レセプトデータ ・歩数 ・体重(手動) ・血圧(手動) ・血糖値(手動) ・睡眠(開発予定) ・アンケート ・肝機能 ・腎機能 ・尿酸 ・貧血 etc 4.加入者台帳 ・加入者id ・生年月 ・性別
  2. リアルワールドデータが活用されるまでのフロー 全体の流れ • 提携している健康保険組合様やkencom等 のリアルワールドデータを連携 • 匿名加工基盤にてデータクレンジング、 匿名加工処理、データ品質チェックを実 施 •

    匿名加工後のデータに対して許諾を頂い た後に、二次利用データ基盤に転送して データウェアハウスを作成 • 目的別にデータマートを構築し、様々な 利活用に繋げている ◦ 大学や製薬企業様へのデータ納品 ◦ 分析Webサービスへのデータ連携 ◦ etc
  3. Airflowによる匿名加工パイプラインの効率化 Airflow採用の理由 • 豊富なOperatorによるデータのETLもしく はELT処理および、DAGによる依存関係の 構築が容易に可能 • Cloud Composerによる二次利用データ基盤 での運用実績

    • チームメンバーがAirflowの実務経験がある ため学習コストはほぼ無し AWSのマネージドAirflow(MWAA)を採用 • Airflowの環境構築、運用の負荷を限りなく 減らしデータパイプラインの開発により専 念が出来る