Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory: データラングリング:テキスト・データの加工
Search
Kan Nishida
January 15, 2019
Technology
0
3.8k
Exploratory: データラングリング:テキスト・データの加工
ExploratoryとRを使った、テキスト・データを加工するための様々なデータラングリングの手法を紹介します。
Kan Nishida
January 15, 2019
Tweet
Share
More Decks by Kan Nishida
See All by Kan Nishida
Seminar #52 - Introduction to Exploratory Server
kanaugust
0
350
Exploratory セミナー #61 政府のオープンデータ e-Statの活用
kanaugust
0
1.1k
Exploratory セミナー #60 時系列データの加工、可視化、分析手法の紹介
kanaugust
0
1.2k
Seminar #51 - Machine Learning - How Variable Importance Works
kanaugust
0
680
Exploratory セミナー #59 テキストデータの加工
kanaugust
0
690
Seminar #50 - Salesforce Data, Clean, Visualize, Analyze, & Dashboard
kanaugust
1
410
Exploratory セミナー #58 Exploratory x Salesforce
kanaugust
0
360
Exploratory Seminar #49 - Introduction to Dashboard Cycle with Exploratory
kanaugust
0
400
Seminar #48 - Introduction to Exploratory v6.6
kanaugust
0
360
Other Decks in Technology
See All in Technology
ガバメントクラウドの概要と自治体事例(名古屋市)
techniczna
2
240
AI時代こそ求められる設計力- AWSクラウドデザインパターン3選で信頼性と拡張性を高める-
kenichirokimura
3
310
「れきちず」のこれまでとこれから - 誰にでもわかりやすい歴史地図を目指して / FOSS4G 2025 Japan
hjmkth
1
310
Introduction to Bill One Development Engineer
sansan33
PRO
0
300
プレーリーカードを活用しよう❗❗デジタル名刺交換からはじまるイベント会場交流のススメ
tsukaman
0
160
Claude Code Subagents 再入門 ~cc-sddの実装で学んだこと~
gotalab555
3
800
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
12
80k
LLM時代にデータエンジニアの役割はどう変わるか?
ikkimiyazaki
6
1.4k
Vibe Coding Year in Review. From Karpathy to Real-World Agents by Niels Rolland, CEO Paatch
vcoisne
0
140
オープンソースでどこまでできる?フォーマル検証チャレンジ
msyksphinz
0
140
能登半島地震で見えた災害対応の課題と組織変革の重要性
ditccsugii
0
910
ニッポンの人に知ってもらいたいGISスポット
sakaik
0
140
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Typedesign – Prime Four
hannesfritz
42
2.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
620
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
61k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
Transcript
EXPLORATORY
2 εϐʔΧʔ ా צҰ CEO EXPLORATORY ུྺ ถΦϥΫϧຊࣾͰɺ16ʹΘͨΓσʔλαΠΤϯεͷ։ൃνʔϜΛ ͍ɺػցֶशɺϏοάɾσʔλɺϏδωεɾΠϯςϦδΣϯεɺσʔ λϕʔεʹؔ͢Δଟ͘ͷΛੈʹૹΓग़͢ɻ
2016ॳ಄ʹɺΦʔϓϯιʔεͷੈքͰى͖͍ͯΔσʔλαΠΤϯε ͷֵ৽తͳਐาΛɺੈքͷ99%ͷϓϩάϥϛϯάΛ͠ͳ͍ਓͨͪͷ ͱಧ͚͍ͨͱ͍͏ࢥ͍ͷͱɺExploratory, Inc Λ্ཱͪ͛Δɻ ݱࡏExploratory, Inc.ͰCEOΛΊΔ͔ͨΘΒɺσʔλαΠΤϯεɾ ϒʔτΩϟϯϓɾτϨʔχϯάͳͲΛ௨ͯ͠γϦίϯόϨʔͰߦΘΕ ͍ͯΔ࠷ઌͷσʔλαΠΤϯεͷීٴͱڭҭʹऔΓΉɻ @KanAugust
Vision ͯ͢ͷਓ͕σʔλΛͬͯ ΑΓΑ͍ҙࢥܾఆΛ͢Δ
Mission ΞφϦςΟΫεͷຽओԽ
5 ୈ̏ͷ σʔλαΠΤϯεɺAIɺػցֶश౷ܭֶऀɺ։ൃऀͷͨΊ͚ͩͷͷͰ͋Γ·ͤΜɻ σʔλʹڵຯͷ͋ΔਓͳΒ୭͕ੈքͰ࠷ઌͷΞϧΰϦζϜΛͬͯ ϏδωεσʔλΛ؆୯ʹੳͰ͖Δ͖Ͱ͢ɻ Exploratory͕ͦ͏ͨ͠ੈքΛՄೳʹ͠·͢ɻ
ୈ1ͷ ୈ̎ͷ ୈ̏ͷ ϓϥΠϕʔτ(ߴ͍/ݹ͍) Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ϓϩάϥϛϯά ϓϩάϥϛϯά 2016
2000 1976 ϚωλΠθʔγϣϯ ίϞσΟςΟԽ ຽओԽ ౷ܭֶऀ σʔλαΠΤϯςΟετ Exploratory ΞϧΰϦζϜ Ϣʔβʔɾ ମݧ πʔϧ Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ࣗಈԽ ϏδωεɾϢʔβʔ ςʔϚ σʔλαΠΤϯεͷຽओԽ
質問 σʔλαΠΤϯεɾϫʔΫϑϩʔ 伝える データアクセス 加⼯ 可視化 機械学習・AI 統計
質問 ExploratoryͰ؆୯ʹͰ͖ΔλεΫ 伝える データアクセス 加⼯ 可視化 機械学習/AI・ 統計
ςΩετɾσʔλΛૢΔ
جૅ
ਖ਼نදݱ ςΩετ͔ΒΛநग़͢Δ [\d,]+(\.\d+)? “ϏοτίΠϯͷҝସϨʔτ288,425.12ԁͰ͢ɻ” 288,425.12
@[[a-zA-Z0-9].-]+$ “
[email protected]
” exploratory.io emailΞυϨε͔ΒυϝΠϯΛநग़͢Δ ਖ਼نදݱ
͔͠͠ɺ ॏཁͳςΩετॲཧͷଟ͘ਖ਼نදݱͳ͠Ͱ Ͱ͖Δɻ
ॏཁͳςΩετૢ࡞ 1. ࣈͷม 2. จࣈྻΛݟ͚ͭΔ 3. ෳͷྻͷׂ 4. ෳͷߦͷׂ 5.
ΫϦʔϯΞοϓ 6. ஔ͢Δ 7. Ұ෦Λൈ͖ग़͢ 8. ݁߹͢Δ
આ໌ - σʔλ • Ϣʔβʔใ • ͦΕͧΕͷߦɺ͋ΔΣϒαʔϏεͷϢʔβʔΞΧϯτใΛද͢ • 4,386 ݅ͷϢʔβʔΞΧϯτ
• ֤ϢʔβʔΞΧϯτʹɺemailɺ ɺ໊ɺࠃɺڵຯɺ༻OSͷྻ ͕͋Δ
None
None
ࣈͷม
ࣈͷม - average_monthly_spendingྻจࣈܕͷ σʔλܕ͕ͩɺ͔ͦ͜ΒΛऔΓग़͠ ͍ͨɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “σʔλλΠϓΛม”Λબ 2. “ʹม”Λબ ࣈͷม - ݺͼग़͠
ࣈͷม - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ
จࣈྻΛݟ͚ͭΔ - ԿਓͷϢʔβʔ͕gmailΛ͍ͬͯΔ͔ʁ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετσʔλΛૢ࡞”Λબ 2. “͜ͷจࣈྻΛؚΉ͔Ͳ͏͔”Λબ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
͠emailΞυϨε͕gmailͳΒ ͜ͷྻͷTRUEʹͳΔɻ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠ gmailΛ͍ͬͯΔϢʔβʔ 592ਓͰશମͷ13.50%
ෳͷྻͷׂ
emailΞυϨεΛ໊લͷ෦ͱυϝΠϯͷ ෦ʹׂ͍ͨ͠ɻ ෳͷྻͷׂ -
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱྻʹׂ”Λબ 3. “ΧελϜ”Λબ ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷߦͷׂ
ෳͷߦͷׂ - Ϣʔβʔͷڵຯ(͔̍ͭͦΕҎ্)͕ ΧϯϚ۠ΓͰinterestsͱ͍͏ྻ ʹ֨ೲ͞Ε͍ͯΔ͕ɺڵຯҰͭʹ ͍ͭͯҰߦʹ͍ͨ͠ɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱߦʹׂ”Λબ 3. “Comma(,)” ෳͷߦͷׂ - ݺͼग़͠
ෳͷߦͷׂ - ݺͼग़͠
“interests” ྻͷ ΧϯϚͰ۠ͬͯෳͷߦׂ͞Εͨɻ ෳͷߦͷׂ - ݺͼग़͠
͋͠ΔϢʔβʔ͕ෳͷ߲Λ “interests”ྻʹೖΕ͍ͯͨ߹ɺ ߲Ұͭʹରͯ͠ߦ͕ҰߦͰ͖͍ͯΔͷ ͕Θ͔Δ ෳͷߦͷׂ - ݺͼग़͠
ΫϦʔϯΞοϓ
ΫϦʔϯΞοϓ - σʔλʹվߦίʔυ(\n)ɺλϒ(\t)ͱ ͍ͬͨෆඞཁͳจࣈ͕͍ࠞͬͯ͟Δ͜ ͱ͕͋͠͠Δɻ͜ͷෆඞཁͳจࣈ ʹΑͬͯɺ్ʹσʔλ͕ѻ͍ʹ͘͘ ͳΔɻྫ͑ɺಉ໊͡લͳͷʹɺผͷ ໊લͱͯ͠ೝࣝ͞Εͯ͠·͏ͱ͍͏͜ ͱ͕ى͜Δɻ͜͏ͨ͜͠ͱΛ͙ͨΊ
ʹɺσʔλΛΫϦʔϯΞοϓ͢Δɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετσʔλΛΫϦʔϯΞοϓ” Λબ ΫϦʔϯΞοϓ - ݺͼग़͠
ΫϦʔϯΞοϓ - ݺͼग़͠
ஔ͢Δ
ஔ͢Δ - interestsྻΛΑ͘ݟΔͱɺ“Tech”ͱ “Technology”͕ࠞࡏ͍ͯ͠Δͷʹؾ͘ɻͲ ͪΒجຊతʹಉ͡ͳͷͰɺ྆ํ·ͱΊͯɺ “Tech”ʹ͍ͨ͠ɻ
ஔ͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ஔ”Λબ
ஔ͢Δ - ݺͼग़͠
Technology͕Techʹஔ͞Εͨ
Ұ෦Λൈ͖ग़͢
Ұ෦Λൈ͖ग़͢ - ϑΝʔετωʔϜ͔Β࠷ॳͷ 1จࣈ(Πχγϟϧ)Λൈ͖ग़͠ ͍ͨɻ
Ұ෦Λൈ͖ग़͢ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετͷൣғΛநग़”Λબ
࠷ॳͷࣈ (1)։࢝Ґஔ ̎൪ͷࣈ (͜Ε·ͨ1)ऴྃҐஔ Ұ෦Λൈ͖ग़͢ - ݺͼग़͠
݁߹͢Δ
last_name first_name_initial Nishida K ݁߹͢Δ - ϑΝʔετωʔϜͷ̍จࣈͱɺϥετωʔϜશ෦ΛΞϯμʔ είΞ(_)Λͬͯ݁߹͠ɺϢʔβʔ໊Λ࡞Γ͍ͨɻ username
K_Nishida
݁߹͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετΛ࿈݁”Λબ
࿈͍݁ͨ͠จࣈྻΛΧϯϚ(,)Ͱ۠ͬͯ str_cͷதʹฒΔɻ ݁߹͢Δ - ݺͼग़͠
݁߹ͯ͠usernameྻ͕࡞͞ΕΔ
ΫϨδοτ
stringr Simple & Consistent Functions for Common String Operations https://stringr.tidyverse.org
Hadley Wickham
None
• ϓϩάϥϛϯάͳ͠ RݴޠͷUIͰ͋ΔExploratoryΛੳπʔϧͱͯ͠༻͢ΔͨΊडߨதɺϏδωεͷ Λղܾ͢ΔͨΊʹඞཁͳσʔλαΠΤϯεͷख๏ͷशಘʹ100ˋूதͰ͖Δ • ੳπʔϧͷϕϯμʔϩοΫΠϯͳ͠ ExploratoryͰͷ࡞ۀશͯಠཱͨ͠ΦʔϓϯιʔεͷRڥͰ࠶ݱ͕Մೳ • ࢥߟྗͱεΩϧͷशಘ σʔλαΠΤϯεͷεΩϧशಘ͚ͩͰͳ͘ɺσʔλੳʹඞཁͳࢥߟྗशಘͰ͖Δ
ಛ
Q & A
࿈བྷઌ ϝʔϧ
[email protected]
ΣϒαΠτ https://ja.exploratory.io ϒʔτΩϟϯϓɾτϨʔχϯά https://ja.exploratory.io/training-jp Twitter @KanAugust
จࣈྻؔͷνʔτγʔτ