Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
前処理勉強会_発表資料_MITTI_20210724.pdf
Search
mitti1210
July 21, 2021
Science
1.4k
3
Share
前処理勉強会_発表資料_MITTI_20210724.pdf
Rによるオープンデータ前処理勉強会(医療データ)の発表資料です。
勉強会はこちら
https://connpass.com/event/219249/
mitti1210
July 21, 2021
More Decks by mitti1210
See All by mitti1210
前処理R 第2回資料
mitti1210
0
420
Rによるオープンデータ 前処理勉強会(医療データ) _オープニング
mitti1210
3
2.1k
前処理をRでしたい! ~DPCデータに挑戦!~
mitti1210
2
240
Fukuoka.R #15 順序尺度の時系列変化を 折れ線グラフとヒートマップで 可視化してみた
mitti1210
1
13k
20190605_プログラム未経験者がMOOCでRを独学してみたら・・・
mitti1210
1
13k
Other Decks in Science
See All in Science
Conversation is the New Dashboard: 属人性を排除する第4世代BIツールの勢力図
shomaekawa
1
580
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
910
Tensor Factorization Meets Deformed Information Geometry: Convex Relaxation under Deformed Algebra
gkazunii
0
100
Testing the Longevity Bottleneck Hypothesis
chinson03
0
290
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
1.1k
Understanding CVP Waveforms: Interpretation and Clinical Implications in Anesthesiology
taka88
0
540
DMMにおけるABテスト検証設計の工夫
xc6da
1
1.9k
HDC tutorial
michielstock
2
680
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
700
HajimetenoLT vol.17
hashimoto_kei
1
230
なぜ21は素因数分解されないのか? - Shorのアルゴリズムの現在と壁
daimurat
0
430
Amusing Abliteration
ianozsvald
1
190
Featured
See All Featured
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
380
Site-Speed That Sticks
csswizardry
13
1.2k
The untapped power of vector embeddings
frankvandijk
2
1.7k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
370
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
310
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
290
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
How to Think Like a Performance Engineer
csswizardry
28
2.6k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
340
Transcript
લॲཧΛRͰͬͯΈͨʂ DPCσʔλʹઓʂ 1 2021/07/24 MITTI
ϑΥϧμͷ४උ .*55*ͷൃදͰҎԼͷߏͰϑΥϧμΛ࡞͍ͬͯ·͢ 3ͰͰ͖·͕࣌ؒ͢ͷ߹্ল͘ͷͰࣄલʹ࡞͢ΔͱਐΊ͍͢Ͱ͢ 2 ϓϩδΣΫτ ϑΥϧμ JOQVU TVNNBSZ .%$@@ PVUQVU
JOQVU .%$@@
μϯϩʔυ 3 ͜ͷ4 ࢪઃ֓ཁද ʢ̔ʣ࣬ױผखज़ผूܭ MDC07 ˎ2016,20172ͭʹ͔Ε͍ͯΔ MDC07ɿܗ֎Պ
μϯϩʔυͱอଘϑΝΠϧ໊ ͜ͷϑΥϧμ໊ͱϑΝΠϧ໊ͰਐΊ·͢ 4 ϓϩδΣΫτ ϑΥϧμ JOQVU TVNNBSZ .%$@@ PVUQVU TVNNBSZ
.%$@@ ʢ̔ʣ࣬ױผखज़ผूܭ MDC07 ࢪઃ֓ཁද
ࣄલ४උ 5 #ࠓճtidyverseύοέʔδΛ͍·͢ɻ #Πϯετʔϧͨ͜͠ͱͳ͍ํઌʹΠϯετʔϧ install.packages(“tidyverse") #ͲͪΒͷൃදͰ͍·͢ #Πϯετʔϧͨ͠ύοέʔδͷݺͼग़͠ library(tidyverse) #ࠓճಛʹdplyr,tidyr,stringr,purrrΛ༻ library(readxl)
#excelͷಡΈࠐΈʹ༻
ୀӃױऀௐࠪ 6 https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html
ख࡞ۀͰͰ͖Δʁ 7 ෳྻ໊ ࡏӃ ͍Βͳ͍ ϋΠϑϯ ͍Βͳ͍ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ
පӃ໊͕มΘΔ͜ͱ͕͋Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ ʢ༌݂Ҏ֎ͷ࠶ܝʣ Λআ͍͕ͨ߹ܭ ͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸
͜ΕͳΒੳʹ͔͚ͨΓάϥϑ͕࡞ΕΔ 8 ͰมΘΔ൪߸Λ ἧ͑ͨ ࢢொଜ໊͚ͨ ෳΛͭͳ͛ͨ ප໊ͰݕࡧͰ͖Δ ਓ͚ͩʹͨ͠
ࠓճͷલॲཧ ˔UJEZʢવσʔλʣʹ͢Δ ˔จࣈྻॲཧ ˔܁Γฦ͠ॲཧʹରԠ͢Δ ˔ؔͰ·ͱΊΔ 9
UJEZʢવσʔλʣͱʁ 8JLJQFEJB༷ΑΓ IUUQTKBXJLJQFEJBPSHXJLJ5JEZ@EBUB 10
σʔλͷܗɿUJEZS 11 ࡶવσʔλ %>% pivot_longer ( col = c("6࣌", "12࣌",
“18࣌”) , names_to = “࣌ࠁ” , values_to = “ఱؾ”)
UJEZʹ͢ΔͨΊͷઓ͍ 12 5JEZ /PU5JEZ
ࠓճͷલॲཧ ˔UJEZʢવσʔλʣʹ͢ΔɿUJEZS ˔จࣈྻॲཧɿTUSJOHS ˔܁Γฦ͠ॲཧʹରԠ͢ΔɿQVSSS ˔ؔͰ·ͱΊΔɿGVODUJPO ˔͚ͬͭ͘ΔɿKPJO 13
จࣈྻॲཧɿTUSJOHS 14 TUSJOHS දతͳؔ આ໌ ݕࡧ TUS@EFUFDU ͋Δจࣈྻؚ͕·Ε͍ͯͨΒ536& நग़ TUS@FYUSBDU
TUS@FYUSBDU@BMM TUS@TVC ͋ΔύλʔϯʹҰக͢ΔจࣈྻΛநग़ ࠷ॳʢ࠷ޙʣ˓จࣈΛநग़ ஔ͖͑ TUS@SFQMBDF TUS@SFQMBDF@BMM ύλʔϯʹϚονͨ͠ՕॴΛஔ Ճ TUS@D จࣈྻΛ͚ͬͭ͘Δ https://kazutan.github.io/kazutanR/stringr-intro.html ͕ৄ͍͠Ͱ͢ʂ
TUSJOHSͱਖ਼نදݱ 15 ྫʣ“MDC_02_8_07_2019.xlsx"ͱ͍͏ϑΝΠϧ໊͔Β৭ʑऔΓग़͍ͨ͠ str_extract(“จࣈྻ”, “݅” ) ݅ʹ৭ʑͳࢦఆ͕Ͱ͖Δ [ ] ͜ͷதʹ͋Δɾจࣈɾه߸
\\d \\D จࣈ . ͳΜͰO K * 0ճҎ্ͷ܁Γฦ͠ { } ׅހͷ͚ͩ܁Γฦ͠ ^ จࣈྻͷઌ಄ $ จࣈྻͷ࠷ޙ fi MFl.%$@@@@YMTY TUS@FYUSBDU fi MF z<aaE>\^z TUS@FYUSBDU fi MF z.%$ <aaE>\^z TUS@FYUSBDU fi MF l<>Y z 4ܻ MDCɹҙͷ܁Γฦ͠ɹ4ܻ .(ه߸ͷυοτ)ɹ xɹɹɹҙͷ܁Γฦ͠
˔UJEZʢવσʔλʣʹ͢Δ ˔จࣈྻॲཧ ˔܁Γฦ͠ॲཧʹରԠ͢Δ ˔ؔͰ·ͱΊΔ 16
17 ྫʣ&YDFMͷෳλϒΛҰؾʹಡΈࠐΉ ܁Γฦ͠QVSSS
͚ͬͭ͘ΔɿEQMZSKPJO 18 https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf
˔UJEZʢવσʔλʣʹ͢Δ ˔܁Γฦ͠ॲཧʹରԠ͢Δ ˔จࣈྻॲཧ ˔ؔͰ·ͱΊΔ 19
ؔͰ·ͱΊΔϝϦοτͱϙΠϯτ ˔ෆཁͳม͕ݮΔ ˔ଞͷϑΝΠϧͰར༻Ͱ͖ΔɻNBQ͕͍͘͢ͳΔɻ 20 ؔͰΘΕΔม Βͳ͍ ϑΥϧμʹ͋ΔϑΝΠϧΛ ·ͱΊͯಡΈࠐΊΔ
ؔͰ·ͱΊΔϝϦοτͱϙΠϯτ ˔͋Δ্͕ख͍͔ͬͨ͘Βͱ͍ͬͯҧ͏Ͱ্ख͘ߦ͔֬͘ೝඞཁ ɹɾYMT͕YMTYʹมΘͬͯରԠͰ͖Δίʔυ ɹɾΤϥʔ͕ग़ͨΒͦͷؔ͠ʹܧ͍͗ͯ͘͠ 21
۩ମྫ 22
ࠂࣔ൪߸Λଗ͑ΔͨΊͷલॲཧ 23
σʔλΛ֬ೝ ɾཉ͍͠σʔλ͚ͩ͜͜ ɾ˞ͷϚʔΫ͍Βͳ͍ ɾͷྻΛ͍ͨ͠ ɾվߦ͍Βͳ͍ 24 ▶︎
͜Ε͚ͩͳΒίʔυ͔͚ͦ͏
Ͱྻ໊͕มΘ͍ͬͯͳ͍͔νΣοΫ 25 1ʙ3ྻͱ”ࢪઃ໊”ͷྻ͚ͩཉ͍͠ʂ select(1:3, “ࢪઃ໊”)
SFBE@FYDFMͰಡΈࠐΉ 26 read_excel ( path=ϑΝΠϧͷύε , sheet=γʔτͷ໊લ͔˓൪ͷγʔτ, #ࢦఆ͠ͳ͚Ε1ຕͷγʔτ skip=ઌ಄ʹ͍Βͳ͍ߦ͕͋Εࢦఆ ,
col_names=ྻ໊Λࢦఆ͍ͨ͠߹ʢFALSEʹ͢Δͱྻ໊ΛಡΈࠐ·ͳ͍ʣ , n_max=Կߦ·ͰಡΈࠐΉ͔ʁ ) ଓ͖σϞͰʂ
࡞ͬͨͷΛؔʹ͢Δ 27 ଓ͖σϞͰʂ
ࠂࣔ൪߸ͱ௨൪ͷؔ 28 ৽͍͠ͷ௨൪ͱݹ͍ͷࠂࣔ൪߸ͷࣈ͕߹͏Α͏ʹjoin͢Δ ৽͍͠ %>% left_join(ݹ͍, by = c(“௨൪” =
“ࠂࣔ൪߸”)
ʂ 29 ଓ͖σϞͰʂ
ࢢொଜ൪߸ ૯লͷσʔλ͔ΒࢢொଜίʔυͷϑΝΠϧ͕μϯϩʔυͰ͖Δ 30 https://www.soumu.go.jp/denshijiti/code.html
ୀӃױऀௐࠪ 31 https://www.mhlw.go.jp/stf/shingi2/0000196043_00003.html
·ͣྻ໊͔Β 32 ෳྻ໊ ࡏӃ ͍Βͳ͍ ϋΠϑϯ ͍Βͳ͍ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ
පӃ໊͕มΘΔ͜ͱ͕͋Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ ʢ༌݂Ҏ֎ͷ࠶ܝʣ Λআ͍͕ͨ߹ܭ ͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸
࡞ઓ ˔ྻ໊ͷΈΛಡΈࠐΈॎʹ͢Δ 33
࡞ઓ ˔UJEZS fi MM Ͱ/"Λ্ͷͰຒΊΔ 34
࡞ઓ ˔UJEZSVOJUF ͰෳྻΛͭʹ߹ମͤ͞Δ 35 ৽͍͠ྻ໊ ܨ͍͛ͨྻ ϕΫτϧʹม QVMM Ͱ0, ͜͜Ͱશ෦
࡞ઓ ˔TUS@SFQMBSF@BMMͰ/"ه߸Λফ͢ 36 ΈͰ͜ΕΒͷه߸εϖʔεΛফ͢͜ͱՄೳ ࠓճɻͱεϖʔεΛফͨ͠
ؔʹ͢Δ 37 ଓ͖σϞͰʂ
දه༳Εͷ֬ೝ 38 ࡏӃ ͍Βͳ͍ ϋΠϑϯ ͍Βͳ͍ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ පӃ໊͕มΘΔ͜ͱ͕͋Δ
͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ ʢ༌݂Ҏ֎ͷ࠶ܝʣ Λআ͍͕ͨ߹ܭ ͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸
දه༳ΕΛ୳͢ ˔֤ͷྻ໊Λऔಘ ˔TFUEJ ff Ͱยํʹ͔͠ͳ͍ͷΛ୳͢ TFUEJ ff " #
▶︎ "ʹ͔͠ແ͍ͷΛநग़ TFUEJ ff # " ▶︎ #ʹ͔͠ແ͍ͷΛநग़ 39
40 ͱɺͱಉ͡ ͱʹҧ͍͕͋Εදه༳ΕͷՄೳੑ දه༳ΕͰͳ͘ ͦͦͦͷʹ͔͠ͳ͔ͬͨՄೳੑ
͜ΕͰσʔλ͕ಡΈࠐΊΔʢޙͰ͢ʣ 41 ଓ͖σϞͰʂ
͍Βͳ͍ྻ 42 ࡏӃ ͍Βͳ͍ ϋΠϑϯ ͍Βͳ͍ ͕มΘΔͱ පӃ໊͕มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ
ʢ༌݂Ҏ֎ͷ࠶ܝʣ Λআ͍͕ͨ߹ܭ ͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ
ࡏӃͱʢ࠶ܝʣͷྻ͍Βͳ͍ ˔TFMFDU ͱDPOUBJOT ͰߜΓࠐΊΔ 43
ϋΠϑϯΛফ͢ ▶︎ σʔλʹม 44 ϋΠϑϯ ͍Βͳ͍ ͕มΘΔͱ පӃ໊͕มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ
͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ
SFBESQBSTF@OVNCFS ˔SFBESQBSTF@OVNCFS ࢦఆͨ͠ྻΛσʔλʹ͢Δ ˔NVUBUF BDSPTT બͼ͍ͨྻ ؔ Ͱෳྻಉ࣌ʹॲཧ͢Δ 45
/"Λʹม͢Δ ˔SFQMBDF@OB ࢦఆͨ͠ྻ ม͍ͨ͠ ˔ؔʹҾ͕͋Δ߹ෳͷؔΛඞཁͱ͢Δ߹ ɹNVUBUF BDSPTT બͼ͍ͨྻ
dؔ Λ͏ 46
͜͜·ͰΛؔʹ͢Δ 47 ଓ͖σϞͰʂ
ࠂࣔ൪߸͕Ͱҧ͏ 48 ͕มΘΔͱ පӃ໊͕มΘΔ͜ͱ͕͋Δ ԣྻɺॎߦ ºؒ ͕มΘΔͱ ൪߸ҧ͏͜ͱ͕͋Δ ௨൪ʹલͷͷࠂࣔ൪߸ ͕มΘΔͱ
૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ
ࢪઃ֓ཁදͱKPJO͢ΔʂDTWϑΝΠϧʹ͢Δ 49 ଓ͖σϞͰʂ
͜͜·ͰͰ͖Δͱ܁Γฦ͢͜ͱ͕Ͱ͖Δ 50 ԣྻɺॎߦ ºؒ ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ
51 ྫʣ&YDFMͷෳλϒΛҰؾʹಡΈࠐΉ ܁Γฦ͠QVSSS
˔ϑΥϧμʹ͋ΔΤΫηϧϑΝΠϧΛ·ͱΊͯಡΈࠐΉ -JTU fi MFT ϑΥϧμ໊ NBQؔΛͬͯ܁Γฦ͢ 52 pattern=Ͱ݅ΛߜΔ ଓ͖σϞͰʂ
ྻҧ͏ 53 ͕มΘΔͱ ૿͑ͨΓݮͬͨΓ͢Δ ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ
XJEFσʔλ 54 σʔλ͕ԣʹฒΜͰ͍Δ
MPOHσʔλͳΒؔͳ͍ʂ ˔UJEZͳΒྻ͕૿͑Δ͚ͩ 55
UJEZSQJWPU@MPOHFSͰॎ࣋ͪσʔλʹม QJWPU@MPOHFS ɹDPMT·ͱΊ͍ͨྻ ɹOBNFT@UP·ͱ·ͬͨޙʢྻ໊ʣͷྻ໊ ɹWBMVFT@UP·ͱ·ͬͨޙʢʣͷྻ໊ 56
QJWPU@MPOHFSͷOBNFT@TFQ OBNFT@TFQͰྻΛׂ͢Δ͜ͱ͕Ͱ͖Δ 57
5JEZ 58 ଓ͖σϞͰʂ
දه༳ΕΛ͢ 59 ͕มΘΔͱ ප໊มΘΔ͜ͱ͕͋Δ
දه༳ΕΛ͢ ˔UJEZʹͳ͔ͬͨΒNVUBUFͱJGFMTFͰ͙͢ʹͤΔ 60
61 ྫʣ&YDFMͷෳλϒΛҰؾʹಡΈࠐΉ ܁Γฦ͠QVSSS
࠷ޙʹશ෦ͷϑΝΠϧΛಡΈࠐΉ 62 ଓ͖σϞͰʂ
͓ർΕ༷Ͱͨ͠ʂʂʂ ྻߦͷσʔλʂʂ 63
՝ ࠓճ࠷৽ͷͷපӃͷ໊લʹ߹Θ͍ͤͯΔ ɹɾ࠷৽ͷʹͳ͍පӃল͔Ε͍ͯΔ ɹɾ߹ซͨ͠පӃରԠ͍ͯ͠ͳ͍ ▶︎ ʢࣗͷࣄͷൣғͩͱࠔΒͳ͍͕ʣ ɹɹݚڀͰ͏ͳΒͬͱݫີʹ͢Δඞཁ͕͋Δ͔͠Εͳ͍
▶︎ ɹ%1$Λѻ͏ํͷҙݟΛͬͯΈ͍ͨͰ͢ɻ 64
લॲཧ͕Ͱ͖Ε࣍ʹਐΊΔ ूܭɹɹɹɹɹɹɹɹɹɹɹɹɹɹ8&#ΞϓϦʢTIJOZʣ 65
TIJOZͳΒʂʂʂ 66
ऴΘΓʹ ˔&YDFMͷख࡞ۀͰͰ͖ͳ͍͜ͱ͕3QZUIPOͳΒͰ͖ͯ͠·͍·͢ ˔ҩྍ౷ܭ&YDFMͷ࡞Γํ͕ྑ͚Εલॲཧ΄΅ඞཁ͋Γ·ͤΜ ˔ͨͩ৭ʑͳσʔλΛੳͨ͘͠ͳΔͱલॲཧඞཁʹͳΓ·͢ ɹʢ༧ࢉͷׂҎ্લॲཧʹ͍ͬͯΔͱ͍͏ӟʜʣ ˔·ͩ·ͩஓͳίʔυଟ͍Ͱ͢ɻ ɹͲͷఔͷ࣮ྗ͔ʢશવμϝ ࠷ݶΫϦΞ
ଈઓྗʹͳΔPSOPUʣ ɹΞυόΠεɾϑΟʔυόοΫ͍͚ͨͩΔͱ͍Ͱ͢ʂ 67