Slide 1

Slide 1 text

Rによるオープンデータ前処 理勉強会(医療データ) NDBオープンデータのファイルを大量ダウンロードする 西田典充

Slide 2

Slide 2 text

今回お話させていただく内容 →NDBオープンデータアプリの「データ取得」の話です!

Slide 3

Slide 3 text

NDBオープンデータアプリの作成手順 厚生労働省 NDBオープンデータ HP R URL情報 エクセルファイル Tidyデータ アプリ用データ ダウンロード データクリーニング データ加工 Shinyアプリケーション

Slide 4

Slide 4 text

NDBオープンデータアプリの作成手順 厚生労働省 NDBオープンデータ HP R Tidyデータ アプリ用データ データクリーニング データ加工 Shinyアプリケーション URL情報 エクセルファイル ダウンロード

Slide 5

Slide 5 text

スクリプトファイルの置き場所 https://github.com/ironwest/ndb_open_data

Slide 6

Slide 6 text

URL情報 エクセルファイル ダウンロード 52行!

Slide 7

Slide 7 text

read_html()で、「xml_node」というオブジェクトが取得できます。

Slide 8

Slide 8 text

xml_node のイメージ

Slide 9

Slide 9 text

xml_nodeのイメージ

Slide 10

Slide 10 text

内容
内容
内容

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

html_nodes(, "<目的のタグ>")

Slide 16

Slide 16 text

html_nodes(, "<目的のタグ>") html_text(<対象とするノードセット>) 対象とするノードセット

Slide 17

Slide 17 text

html_nodes(, "<目的のタグ>") html_attr(<対象とするノードセット> , "href") 対象とするノードセット

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

No content

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

a b 1 A 2 B 3 C map2(a,b,func_example) func_example(1,A) func_example(2,B) func_example(3,C) fe_res suji moji 1 A suji moji 1 B 2 B suji moji 1 C 2 C 3 C

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

No content

Slide 30

Slide 30 text

No content

Slide 31

Slide 31 text

保存したファイル 手作業で直したファイル

Slide 32

Slide 32 text

URL情報 エクセルファイル ダウンロード 62行!

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

No content

Slide 37

Slide 37 text

エクセルファイルの保存先ディレクトリのパスを kaiとh3タグから作成 作成したパスが存在するなら何もせず、 存在しないならそのディレクトリを作成する 次にdata変数にあるh4タグの内容を一意な値で取り出す data/ndb//

/

という名前のディレクトリが あったら何もしない。なければ作成 dl_to列をdata tibbleに追加。(内容は保存す るエクセルファイルのパス)

Slide 38

Slide 38 text

ありがとうございました!