Upgrade to Pro — share decks privately, control downloads, hide ads and more …

医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE

医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE

JAWS DAYS 2021-03-20の登壇資料。
株式会社JMDCのデータレイクの取扱いについて紹介します。

https://jawsdays2021.jaws-ug.jp/timetable/track-d-1100/

小森谷 一生

March 20, 2021
Tweet

More Decks by 小森谷 一生

Other Decks in Technology

Transcript

  1. 自己紹介 • 名前: 小森谷 一生 • 所属: 株式会社JMDC データプラットフォーム開発本部 本部長

    • 開発: バックエンドエンジニア (Ruby, AWS) データ基盤、アドテク、ゲームAPIなど • 好きなAWSサービス: Athena • JAWS DAYS: 2年ぶり2回目
  2. 背景1: 大量の非構造化データ 患者ID 検査日 検査名 結果 1 21/03/19 尿酸 12.6

    2 21/03/20 血糖 80 ID DATE CODE RESULT 1 2021-03-19 AA ++ 2 2021-03-20 BB (-) A病院 基幹システム B病院 基幹システム
  3. 背景1: 大量の非構造化データ id date code result 1 2021-03-19 1 12.6

    2 2021-03-20 2 80 構造化! エンジニア フィールドエンジニア 医療知識者
  4. JMDCで主流の構成 Lambda S3 Athena Catalog Redshift QuickSight ETL DWH BI

    • ETLの前段としてLambda を利用 • ETLメイン処理としては Athena • 加工処理後、用途に合わせ コピーなどを行う
  5. メインETL処理をAthenaでやるときの苦労 • より高速化させたいためにEMR Prestoを試してみる。 • Athena: 8秒くらいのクエリ • EMR Presto:

    m5.2xlarge x 30TASK 24秒くらい • getPartitionのAPI問題はEMR Prestoでも発生 • Athenaコスパいいー!となり戻ってくる。 • UDFが2019/11にPreview版で一部のRegionにサポートされたが、それ以来 音沙汰がない。Tokyo Regionで半角英数記号の全角化とかをやりたいであり ます。
  6. 現在の課題 Data lake Data lake Data lake Data lake Data

    lake • 利用者の分析環境によってデータとカタログのコピーが発生し、 領域の管理が負担に。
  7. Redshift lake house architecture BigData – JAWS #16 Lake House

    Architecture Pattern クラスメソッド 石川さん https://dev.classmethod.jp/articles/20210301-bigdata-jaws-16-lake-house- architecture-pattern/ • こういった課題の対応へRedshift lake house architectureとして、Redshift Spectrumを中心とする構成に向けてAWSより新機能がGAされている。 • BigData – JAWS#16のクラスメソッド石川さんの発表が非常に参考になりまし た。