Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#前処理R ダウンロード

#前処理R ダウンロード

654bfd58e2b78f573bd9b40a60cb0b44?s=128

ironwest

July 27, 2021
Tweet

Transcript

  1. Rによるオープンデータ前処 理勉強会(医療データ) NDBオープンデータのファイルを大量ダウンロードする 西田典充

  2. 今回お話させていただく内容 →NDBオープンデータアプリの「データ取得」の話です!

  3. NDBオープンデータアプリの作成手順 厚生労働省 NDBオープンデータ HP R URL情報 エクセルファイル Tidyデータ アプリ用データ ダウンロード

    データクリーニング データ加工 Shinyアプリケーション
  4. NDBオープンデータアプリの作成手順 厚生労働省 NDBオープンデータ HP R Tidyデータ アプリ用データ データクリーニング データ加工 Shinyアプリケーション

    URL情報 エクセルファイル ダウンロード
  5. スクリプトファイルの置き場所 https://github.com/ironwest/ndb_open_data

  6. URL情報 エクセルファイル ダウンロード 52行!

  7. read_html(<URL>)で、「xml_node」というオブジェクトが取得できます。

  8. xml_node のイメージ

  9. xml_nodeのイメージ

  10. <HTML> <body> <div>内容</div> <div>内容</div> <div>内容</div> <div> <div> ・・・ <li>・・・ <a

    href="....../00423234.xlsx">初再診料_性年齢別算定回数</a> </div> </div> </body> </HTML>
  11. <a href="....../00423234.xlsx">初再診料_性年齢別算定回数</a> <a href="リンク先のアドレス">表示したいリンクの文字</a>

  12. None
  13. None
  14. None
  15. html_nodes(<xml_node>, "<目的のタグ>")

  16. html_nodes(<xml_node>, "<目的のタグ>") html_text(<対象とするノードセット>) 対象とするノードセット

  17. html_nodes(<xml_node>, "<目的のタグ>") html_attr(<対象とするノードセット> , "href") 対象とするノードセット

  18. None
  19. None
  20. None
  21. None
  22. None
  23. None
  24. a b 1 A 2 B 3 C map2(a,b,func_example) func_example(1,A)

    func_example(2,B) func_example(3,C) fe_res suji moji 1 A suji moji 1 B 2 B suji moji 1 C 2 C 3 C
  25. None
  26. None
  27. None
  28. None
  29. None
  30. None
  31. 保存したファイル 手作業で直したファイル

  32. URL情報 エクセルファイル ダウンロード 62行!

  33. None
  34. None
  35. None
  36. None
  37. エクセルファイルの保存先ディレクトリのパスを kaiとh3タグから作成 作成したパスが存在するなら何もせず、 存在しないならそのディレクトリを作成する 次にdata変数にあるh4タグの内容を一意な値で取り出す data/ndb/<kai>/<h3>/<h4>という名前のディレクトリが あったら何もしない。なければ作成 dl_to列をdata tibbleに追加。(内容は保存す るエクセルファイルのパス)

  38. ありがとうございました!