Slide 1

Slide 1 text

Rを用いた医療データの加工・ 可視化方法 福岡リハビリテーション病院 光安 達仁 病院経営データ分析入門 1

Slide 2

Slide 2 text

私について 職業:理学療法士 京都大学附属医療技術短期大学部卒業(2002年) 所属:福岡リハビリテーション病院入職(2002年) データサイエンスのコースを修了(2018年:R, 2019年:Python) 今年度よりデータ分析業務にも挑戦 2

Slide 3

Slide 3 text

Rとは R言語(あーるげんご)はオープンソース・フリーソフトウェアの統計解 析向けのプログラミング言語及びその開発実行環境である。 3

Slide 4

Slide 4 text

最初から 色々な機能 集計・グラフ・統計 データ加工 データのダウンロード 機能を追加 アプリをダウンロード パッケージをダウンロード 機械学習、便利ツール ベースは無料 ベースはandroid メーカーによって作り替えられる Rを扱うソフトが 複数ある Rのイメージ:スマホのandroid 4

Slide 5

Slide 5 text

Rの画面 素のR Rstudio

Slide 6

Slide 6 text

データ分析の流れ 6 データを 読み込む 加工する (前処理) 集計 表・グラフ 統計 機械学習・AI レポート アプリ は全部できる(データを作る事以外。 プログラムさえ作ってしまえば自動化もできる! AIとアプリはpythonが優位)

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

大変なのは前処理 9 前処理できる(自動化できる)ことがRの強みの1つ

Slide 10

Slide 10 text

Rのダウンロード 1. R(本体)のダウンロード 2. Rstudio(Rを使うソフト)のダウンロード 10

Slide 11

Slide 11 text

Rのダウンロード 11 どちらでもOK CRANを選択 パソコンのOSに合わせる https://www.r-project.org/

Slide 12

Slide 12 text

Rstudioのダウンロード 12 無料版を選択 https://www.rstudio.com/ RとRstudio2つのソフトが入るが起動させるのはRstudio

Slide 13

Slide 13 text

実際例 13 https://www.mhlw.go.jp/content/12404000/000758182.xlsx https://www.mhlw.go.jp/content/12404000/000758251.xlsx https://www.mhlw.go.jp/content/12404000/000758281.xlsx

Slide 14

Slide 14 text

施設概要表 DPC病院の一覧や市区町村番号、病床数などの概要がわかる 告示番号:この番号で他のファイルと揃えることができる 通番:1年前の告示番号 14

Slide 15

Slide 15 text

MDCについて 15 今回はこのデータを扱う

Slide 16

Slide 16 text

(2)MDC別医療機関別件数(割合) 今回はMDC16(外傷・熱傷・中毒)の手術ありのデータを使用 手術有りのみのデータを使用 16

Slide 17

Slide 17 text

市町村番号 市町村番号のままだと使いにくい 17

Slide 18

Slide 18 text

(8)疾患別手術別集計_MDC16 手術無し:99 手術あり:99と97(輸血以外の再掲)を除いた合計 18

Slide 19

Slide 19 text

複数のExcelを繋げる ・Excelの順番がバラバラでも行数がそろって いなくてもIDなどあれば繋げてくれる 文字列処理 ・データから特定の文字やパターンを抽出 ・特定の文字を置換 ・空白セルの処理 列や行のフィルタ ・条件に合った列や行を選択できる ・手術なしだけの行や列を選択 計算 ・身長と体重の列でBMIを計算 ・年齢を10歳ごとに区切る ・データの個数や平均・標準偏差を計算 縦持ち⇆横持ちに変換 ・ExcelとRではグラフにするときの 表の並べ方が違う ・グラフや集計しやすい形に変形 繰り返し処理 ・複数のExcelを一気に読み込んで処理 ・データを条件に分けて分割→まとめて処理 Rでデータの加工 19

Slide 20

Slide 20 text

加工したデータ 今回は1つなのでExcelでも可能。だけど全部しようとしたら… →数が増えるほどプログラミングの恩恵が受けられる 20

Slide 21

Slide 21 text

Excelで散布図 21

Slide 22

Slide 22 text

Rで散布図 plot(横軸, 縦軸)の1行で散布図を作成 22

Slide 23

Slide 23 text

見た目を変更し、福岡市だけを抽出 23

Slide 24

Slide 24 text

さらに区ごとに色を変更 24

Slide 25

Slide 25 text

区ごとにグラフを分けることも可能 25

Slide 26

Slide 26 text

26 手術数10件以上の病院名を載せる

Slide 27

Slide 27 text

27 視点を変えても分析できる 肘、膝の外傷の手術がMDC16の8割を超えている病院 分析の視点はいくらでも

Slide 28

Slide 28 text

Rの特徴 ・自分でデータが加工できる ・Excel自体のデータを変更していないので元データが壊れる心配がない ・データが更新されてもRのコードは変える必要がない ・コードが残っているので思い出せる(再現性がある) ・Rのコードから直接Wordやpdfファイルを作成することもできる ・複数ファイルをまとめて操作することができる ・統計や機械学習といった使い方ができる ・無料

Slide 29

Slide 29 text

Rのデメリット ・学習コストがかかる(プログラムのコードに慣れない) ・数百万~数千万行のデータの読み込みなどは時間がかかることがある (SQLなどのデータを扱うソフトが必要な場合もある)

Slide 30

Slide 30 text

まとめ Rはデータの加工〜可視化まで全部できる Excelでももちろん可能だがデータ数が増える、多くのファイルを扱う、 繰り返し行う事が増えれば増えるほどプログラミングが役に立つ 決して簡単ではありませんが、自分の閃きを独力で自由に分析できる事が Rの強みだと思います(Rと似たpythonでも同じ)。 30

Slide 31

Slide 31 text

実際に触ってみたい方 https://mittidata.com/archives/cat_313106.html Rの基本的な使い方を紹介しています

Slide 32

Slide 32 text

参考図書と発表者twitter 発表者Twitter 32