Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory: データラングリング:テキスト・データの加工
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Kan Nishida
January 15, 2019
Technology
3.9k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Exploratory: データラングリング:テキスト・データの加工
ExploratoryとRを使った、テキスト・データを加工するための様々なデータラングリングの手法を紹介します。
Kan Nishida
January 15, 2019
More Decks by Kan Nishida
See All by Kan Nishida
Seminar #52 - Introduction to Exploratory Server
kanaugust
0
470
Exploratory セミナー #61 政府のオープンデータ e-Statの活用
kanaugust
0
1.2k
Exploratory セミナー #60 時系列データの加工、可視化、分析手法の紹介
kanaugust
0
1.4k
Seminar #51 - Machine Learning - How Variable Importance Works
kanaugust
0
790
Exploratory セミナー #59 テキストデータの加工
kanaugust
0
780
Seminar #50 - Salesforce Data, Clean, Visualize, Analyze, & Dashboard
kanaugust
1
540
Exploratory セミナー #58 Exploratory x Salesforce
kanaugust
0
400
Exploratory Seminar #49 - Introduction to Dashboard Cycle with Exploratory
kanaugust
0
570
Seminar #48 - Introduction to Exploratory v6.6
kanaugust
0
460
Other Decks in Technology
See All in Technology
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
520
AIプラットフォームを運用し続けるための可観測性
tanimuyk
4
1.2k
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
4
1.8k
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
270
EventBridge Connection
_kensh
5
650
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
190
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.9k
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
570
いまさら聞けない人のためのAIコーディング入門
devops_vtj
0
130
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
0
210
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
220
Featured
See All Featured
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Six Lessons from altMBA
skipperchong
29
4.3k
The browser strikes back
jonoalderson
0
1.2k
The SEO identity crisis: Don't let AI make you average
varn
0
480
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Testing 201, or: Great Expectations
jmmastey
46
8.2k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
The World Runs on Bad Software
bkeepers
PRO
72
12k
How to Talk to Developers About Accessibility
jct
2
220
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Transcript
EXPLORATORY
2 εϐʔΧʔ ా צҰ CEO EXPLORATORY ུྺ ถΦϥΫϧຊࣾͰɺ16ʹΘͨΓσʔλαΠΤϯεͷ։ൃνʔϜΛ ͍ɺػցֶशɺϏοάɾσʔλɺϏδωεɾΠϯςϦδΣϯεɺσʔ λϕʔεʹؔ͢Δଟ͘ͷΛੈʹૹΓग़͢ɻ
2016ॳ಄ʹɺΦʔϓϯιʔεͷੈքͰى͖͍ͯΔσʔλαΠΤϯε ͷֵ৽తͳਐาΛɺੈքͷ99%ͷϓϩάϥϛϯάΛ͠ͳ͍ਓͨͪͷ ͱಧ͚͍ͨͱ͍͏ࢥ͍ͷͱɺExploratory, Inc Λ্ཱͪ͛Δɻ ݱࡏExploratory, Inc.ͰCEOΛΊΔ͔ͨΘΒɺσʔλαΠΤϯεɾ ϒʔτΩϟϯϓɾτϨʔχϯάͳͲΛ௨ͯ͠γϦίϯόϨʔͰߦΘΕ ͍ͯΔ࠷ઌͷσʔλαΠΤϯεͷීٴͱڭҭʹऔΓΉɻ @KanAugust
Vision ͯ͢ͷਓ͕σʔλΛͬͯ ΑΓΑ͍ҙࢥܾఆΛ͢Δ
Mission ΞφϦςΟΫεͷຽओԽ
5 ୈ̏ͷ σʔλαΠΤϯεɺAIɺػցֶश౷ܭֶऀɺ։ൃऀͷͨΊ͚ͩͷͷͰ͋Γ·ͤΜɻ σʔλʹڵຯͷ͋ΔਓͳΒ୭͕ੈքͰ࠷ઌͷΞϧΰϦζϜΛͬͯ ϏδωεσʔλΛ؆୯ʹੳͰ͖Δ͖Ͱ͢ɻ Exploratory͕ͦ͏ͨ͠ੈքΛՄೳʹ͠·͢ɻ
ୈ1ͷ ୈ̎ͷ ୈ̏ͷ ϓϥΠϕʔτ(ߴ͍/ݹ͍) Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ϓϩάϥϛϯά ϓϩάϥϛϯά 2016
2000 1976 ϚωλΠθʔγϣϯ ίϞσΟςΟԽ ຽओԽ ౷ܭֶऀ σʔλαΠΤϯςΟετ Exploratory ΞϧΰϦζϜ Ϣʔβʔɾ ମݧ πʔϧ Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ࣗಈԽ ϏδωεɾϢʔβʔ ςʔϚ σʔλαΠΤϯεͷຽओԽ
質問 σʔλαΠΤϯεɾϫʔΫϑϩʔ 伝える データアクセス 加⼯ 可視化 機械学習・AI 統計
質問 ExploratoryͰ؆୯ʹͰ͖ΔλεΫ 伝える データアクセス 加⼯ 可視化 機械学習/AI・ 統計
ςΩετɾσʔλΛૢΔ
جૅ
ਖ਼نදݱ ςΩετ͔ΒΛநग़͢Δ [\d,]+(\.\d+)? “ϏοτίΠϯͷҝସϨʔτ288,425.12ԁͰ͢ɻ” 288,425.12
@[[a-zA-Z0-9].-]+$ “
[email protected]
” exploratory.io emailΞυϨε͔ΒυϝΠϯΛநग़͢Δ ਖ਼نදݱ
͔͠͠ɺ ॏཁͳςΩετॲཧͷଟ͘ਖ਼نදݱͳ͠Ͱ Ͱ͖Δɻ
ॏཁͳςΩετૢ࡞ 1. ࣈͷม 2. จࣈྻΛݟ͚ͭΔ 3. ෳͷྻͷׂ 4. ෳͷߦͷׂ 5.
ΫϦʔϯΞοϓ 6. ஔ͢Δ 7. Ұ෦Λൈ͖ग़͢ 8. ݁߹͢Δ
આ໌ - σʔλ • Ϣʔβʔใ • ͦΕͧΕͷߦɺ͋ΔΣϒαʔϏεͷϢʔβʔΞΧϯτใΛද͢ • 4,386 ݅ͷϢʔβʔΞΧϯτ
• ֤ϢʔβʔΞΧϯτʹɺemailɺ ɺ໊ɺࠃɺڵຯɺ༻OSͷྻ ͕͋Δ
None
None
ࣈͷม
ࣈͷม - average_monthly_spendingྻจࣈܕͷ σʔλܕ͕ͩɺ͔ͦ͜ΒΛऔΓग़͠ ͍ͨɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “σʔλλΠϓΛม”Λબ 2. “ʹม”Λબ ࣈͷม - ݺͼग़͠
ࣈͷม - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ
จࣈྻΛݟ͚ͭΔ - ԿਓͷϢʔβʔ͕gmailΛ͍ͬͯΔ͔ʁ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετσʔλΛૢ࡞”Λબ 2. “͜ͷจࣈྻΛؚΉ͔Ͳ͏͔”Λબ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
͠emailΞυϨε͕gmailͳΒ ͜ͷྻͷTRUEʹͳΔɻ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠ gmailΛ͍ͬͯΔϢʔβʔ 592ਓͰશମͷ13.50%
ෳͷྻͷׂ
emailΞυϨεΛ໊લͷ෦ͱυϝΠϯͷ ෦ʹׂ͍ͨ͠ɻ ෳͷྻͷׂ -
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱྻʹׂ”Λબ 3. “ΧελϜ”Λબ ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷߦͷׂ
ෳͷߦͷׂ - Ϣʔβʔͷڵຯ(͔̍ͭͦΕҎ্)͕ ΧϯϚ۠ΓͰinterestsͱ͍͏ྻ ʹ֨ೲ͞Ε͍ͯΔ͕ɺڵຯҰͭʹ ͍ͭͯҰߦʹ͍ͨ͠ɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱߦʹׂ”Λબ 3. “Comma(,)” ෳͷߦͷׂ - ݺͼग़͠
ෳͷߦͷׂ - ݺͼग़͠
“interests” ྻͷ ΧϯϚͰ۠ͬͯෳͷߦׂ͞Εͨɻ ෳͷߦͷׂ - ݺͼग़͠
͋͠ΔϢʔβʔ͕ෳͷ߲Λ “interests”ྻʹೖΕ͍ͯͨ߹ɺ ߲Ұͭʹରͯ͠ߦ͕ҰߦͰ͖͍ͯΔͷ ͕Θ͔Δ ෳͷߦͷׂ - ݺͼग़͠
ΫϦʔϯΞοϓ
ΫϦʔϯΞοϓ - σʔλʹվߦίʔυ(\n)ɺλϒ(\t)ͱ ͍ͬͨෆඞཁͳจࣈ͕͍ࠞͬͯ͟Δ͜ ͱ͕͋͠͠Δɻ͜ͷෆඞཁͳจࣈ ʹΑͬͯɺ్ʹσʔλ͕ѻ͍ʹ͘͘ ͳΔɻྫ͑ɺಉ໊͡લͳͷʹɺผͷ ໊લͱͯ͠ೝࣝ͞Εͯ͠·͏ͱ͍͏͜ ͱ͕ى͜Δɻ͜͏ͨ͜͠ͱΛ͙ͨΊ
ʹɺσʔλΛΫϦʔϯΞοϓ͢Δɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετσʔλΛΫϦʔϯΞοϓ” Λબ ΫϦʔϯΞοϓ - ݺͼग़͠
ΫϦʔϯΞοϓ - ݺͼग़͠
ஔ͢Δ
ஔ͢Δ - interestsྻΛΑ͘ݟΔͱɺ“Tech”ͱ “Technology”͕ࠞࡏ͍ͯ͠Δͷʹؾ͘ɻͲ ͪΒجຊతʹಉ͡ͳͷͰɺ྆ํ·ͱΊͯɺ “Tech”ʹ͍ͨ͠ɻ
ஔ͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ஔ”Λબ
ஔ͢Δ - ݺͼग़͠
Technology͕Techʹஔ͞Εͨ
Ұ෦Λൈ͖ग़͢
Ұ෦Λൈ͖ग़͢ - ϑΝʔετωʔϜ͔Β࠷ॳͷ 1จࣈ(Πχγϟϧ)Λൈ͖ग़͠ ͍ͨɻ
Ұ෦Λൈ͖ग़͢ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετͷൣғΛநग़”Λબ
࠷ॳͷࣈ (1)։࢝Ґஔ ̎൪ͷࣈ (͜Ε·ͨ1)ऴྃҐஔ Ұ෦Λൈ͖ग़͢ - ݺͼग़͠
݁߹͢Δ
last_name first_name_initial Nishida K ݁߹͢Δ - ϑΝʔετωʔϜͷ̍จࣈͱɺϥετωʔϜશ෦ΛΞϯμʔ είΞ(_)Λͬͯ݁߹͠ɺϢʔβʔ໊Λ࡞Γ͍ͨɻ username
K_Nishida
݁߹͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετΛ࿈݁”Λબ
࿈͍݁ͨ͠จࣈྻΛΧϯϚ(,)Ͱ۠ͬͯ str_cͷதʹฒΔɻ ݁߹͢Δ - ݺͼग़͠
݁߹ͯ͠usernameྻ͕࡞͞ΕΔ
ΫϨδοτ
stringr Simple & Consistent Functions for Common String Operations https://stringr.tidyverse.org
Hadley Wickham
None
• ϓϩάϥϛϯάͳ͠ RݴޠͷUIͰ͋ΔExploratoryΛੳπʔϧͱͯ͠༻͢ΔͨΊडߨதɺϏδωεͷ Λղܾ͢ΔͨΊʹඞཁͳσʔλαΠΤϯεͷख๏ͷशಘʹ100ˋूதͰ͖Δ • ੳπʔϧͷϕϯμʔϩοΫΠϯͳ͠ ExploratoryͰͷ࡞ۀશͯಠཱͨ͠ΦʔϓϯιʔεͷRڥͰ࠶ݱ͕Մೳ • ࢥߟྗͱεΩϧͷशಘ σʔλαΠΤϯεͷεΩϧशಘ͚ͩͰͳ͘ɺσʔλੳʹඞཁͳࢥߟྗशಘͰ͖Δ
ಛ
Q & A
࿈བྷઌ ϝʔϧ
[email protected]
ΣϒαΠτ https://ja.exploratory.io ϒʔτΩϟϯϓɾτϨʔχϯά https://ja.exploratory.io/training-jp Twitter @KanAugust
จࣈྻؔͷνʔτγʔτ