Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory: データラングリング:テキスト・データの加工
Search
Kan Nishida
PRO
January 15, 2019
Technology
0
3.7k
Exploratory: データラングリング:テキスト・データの加工
ExploratoryとRを使った、テキスト・データを加工するための様々なデータラングリングの手法を紹介します。
Kan Nishida
PRO
January 15, 2019
Tweet
Share
More Decks by Kan Nishida
See All by Kan Nishida
Seminar #52 - Introduction to Exploratory Server
kanaugust
PRO
0
190
Exploratory セミナー #61 政府のオープンデータ e-Statの活用
kanaugust
PRO
0
920
Exploratory セミナー #60 時系列データの加工、可視化、分析手法の紹介
kanaugust
PRO
0
840
Seminar #51 - Machine Learning - How Variable Importance Works
kanaugust
PRO
0
490
Exploratory セミナー #59 テキストデータの加工
kanaugust
PRO
0
530
Seminar #50 - Salesforce Data, Clean, Visualize, Analyze, & Dashboard
kanaugust
PRO
0
260
Exploratory セミナー #58 Exploratory x Salesforce
kanaugust
PRO
0
260
Exploratory Seminar #49 - Introduction to Dashboard Cycle with Exploratory
kanaugust
PRO
0
230
Seminar #48 - Introduction to Exploratory v6.6
kanaugust
PRO
0
240
Other Decks in Technology
See All in Technology
Java EE/Jakarta EEの現状と将来―クラウドネイティブ時代にJava EEは対応できるのか?―
takakiyo
1
120
WebアプリケーションにおけるPDOの使い方入門 / phpcon odawara 2024
meihei3
2
440
プロトタイピングによる不確実性の低減 / Reducing Uncertainty through Prototyping
ohbarye
5
370
ServiceNow Knowledge 24の歩き方 EYストラテジー・アンド・コンサルティング
manarobot
0
170
データベース02: データベースの概念
trycycle
0
130
Next'24 事例セッションの紹介とクラウド資格を活用したキャリア形成について語りMuscle
yasumuusan
1
410
開発生産性向上サービスを作るFindyが自分たちで開発生産性を爆上げした組織づくりの歩み / Findy's path to boosting its own development productivity 2024-04-17
ma3tk
3
470
AOAI をきっかけに 社内の Azure 管理を見直した話
recruitengineers
PRO
1
170
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
130
**強い**エンジニアのなり方 - フィードバックサイクルを勝ち取る / grow one day each day
soudai
64
18k
検証を通して見えてきたTiDBの性能特性
lycorptech_jp
PRO
6
3.7k
Terraformあれやこれ/terraform-this-and-that
emiki
8
1.3k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
186
16k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
20
1.6k
Six Lessons from altMBA
skipperchong
20
3k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
10 Git Anti Patterns You Should be Aware of
lemiorhan
647
58k
Docker and Python
trallard
33
2.7k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
BBQ
matthewcrist
80
8.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
24
2.3k
Facilitating Awesome Meetings
lara
41
5.6k
A Philosophy of Restraint
colly
196
16k
Transcript
EXPLORATORY
2 εϐʔΧʔ ా צҰ CEO EXPLORATORY ུྺ ถΦϥΫϧຊࣾͰɺ16ʹΘͨΓσʔλαΠΤϯεͷ։ൃνʔϜΛ ͍ɺػցֶशɺϏοάɾσʔλɺϏδωεɾΠϯςϦδΣϯεɺσʔ λϕʔεʹؔ͢Δଟ͘ͷΛੈʹૹΓग़͢ɻ
2016ॳ಄ʹɺΦʔϓϯιʔεͷੈքͰى͖͍ͯΔσʔλαΠΤϯε ͷֵ৽తͳਐาΛɺੈքͷ99%ͷϓϩάϥϛϯάΛ͠ͳ͍ਓͨͪͷ ͱಧ͚͍ͨͱ͍͏ࢥ͍ͷͱɺExploratory, Inc Λ্ཱͪ͛Δɻ ݱࡏExploratory, Inc.ͰCEOΛΊΔ͔ͨΘΒɺσʔλαΠΤϯεɾ ϒʔτΩϟϯϓɾτϨʔχϯάͳͲΛ௨ͯ͠γϦίϯόϨʔͰߦΘΕ ͍ͯΔ࠷ઌͷσʔλαΠΤϯεͷීٴͱڭҭʹऔΓΉɻ @KanAugust
Vision ͯ͢ͷਓ͕σʔλΛͬͯ ΑΓΑ͍ҙࢥܾఆΛ͢Δ
Mission ΞφϦςΟΫεͷຽओԽ
5 ୈ̏ͷ σʔλαΠΤϯεɺAIɺػցֶश౷ܭֶऀɺ։ൃऀͷͨΊ͚ͩͷͷͰ͋Γ·ͤΜɻ σʔλʹڵຯͷ͋ΔਓͳΒ୭͕ੈքͰ࠷ઌͷΞϧΰϦζϜΛͬͯ ϏδωεσʔλΛ؆୯ʹੳͰ͖Δ͖Ͱ͢ɻ Exploratory͕ͦ͏ͨ͠ੈքΛՄೳʹ͠·͢ɻ
ୈ1ͷ ୈ̎ͷ ୈ̏ͷ ϓϥΠϕʔτ(ߴ͍/ݹ͍) Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ϓϩάϥϛϯά ϓϩάϥϛϯά 2016
2000 1976 ϚωλΠθʔγϣϯ ίϞσΟςΟԽ ຽओԽ ౷ܭֶऀ σʔλαΠΤϯςΟετ Exploratory ΞϧΰϦζϜ Ϣʔβʔɾ ମݧ πʔϧ Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ࣗಈԽ ϏδωεɾϢʔβʔ ςʔϚ σʔλαΠΤϯεͷຽओԽ
質問 σʔλαΠΤϯεɾϫʔΫϑϩʔ 伝える データアクセス 加⼯ 可視化 機械学習・AI 統計
質問 ExploratoryͰ؆୯ʹͰ͖ΔλεΫ 伝える データアクセス 加⼯ 可視化 機械学習/AI・ 統計
ςΩετɾσʔλΛૢΔ
جૅ
ਖ਼نදݱ ςΩετ͔ΒΛநग़͢Δ [\d,]+(\.\d+)? “ϏοτίΠϯͷҝସϨʔτ288,425.12ԁͰ͢ɻ” 288,425.12
@[[a-zA-Z0-9].-]+$ “
[email protected]
” exploratory.io emailΞυϨε͔ΒυϝΠϯΛநग़͢Δ ਖ਼نදݱ
͔͠͠ɺ ॏཁͳςΩετॲཧͷଟ͘ਖ਼نදݱͳ͠Ͱ Ͱ͖Δɻ
ॏཁͳςΩετૢ࡞ 1. ࣈͷม 2. จࣈྻΛݟ͚ͭΔ 3. ෳͷྻͷׂ 4. ෳͷߦͷׂ 5.
ΫϦʔϯΞοϓ 6. ஔ͢Δ 7. Ұ෦Λൈ͖ग़͢ 8. ݁߹͢Δ
આ໌ - σʔλ • Ϣʔβʔใ • ͦΕͧΕͷߦɺ͋ΔΣϒαʔϏεͷϢʔβʔΞΧϯτใΛද͢ • 4,386 ݅ͷϢʔβʔΞΧϯτ
• ֤ϢʔβʔΞΧϯτʹɺemailɺ ɺ໊ɺࠃɺڵຯɺ༻OSͷྻ ͕͋Δ
None
None
ࣈͷม
ࣈͷม - average_monthly_spendingྻจࣈܕͷ σʔλܕ͕ͩɺ͔ͦ͜ΒΛऔΓग़͠ ͍ͨɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “σʔλλΠϓΛม”Λબ 2. “ʹม”Λબ ࣈͷม - ݺͼग़͠
ࣈͷม - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ
จࣈྻΛݟ͚ͭΔ - ԿਓͷϢʔβʔ͕gmailΛ͍ͬͯΔ͔ʁ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετσʔλΛૢ࡞”Λબ 2. “͜ͷจࣈྻΛؚΉ͔Ͳ͏͔”Λબ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
͠emailΞυϨε͕gmailͳΒ ͜ͷྻͷTRUEʹͳΔɻ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠ gmailΛ͍ͬͯΔϢʔβʔ 592ਓͰશମͷ13.50%
ෳͷྻͷׂ
emailΞυϨεΛ໊લͷ෦ͱυϝΠϯͷ ෦ʹׂ͍ͨ͠ɻ ෳͷྻͷׂ -
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱྻʹׂ”Λબ 3. “ΧελϜ”Λબ ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷߦͷׂ
ෳͷߦͷׂ - Ϣʔβʔͷڵຯ(͔̍ͭͦΕҎ্)͕ ΧϯϚ۠ΓͰinterestsͱ͍͏ྻ ʹ֨ೲ͞Ε͍ͯΔ͕ɺڵຯҰͭʹ ͍ͭͯҰߦʹ͍ͨ͠ɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱߦʹׂ”Λબ 3. “Comma(,)” ෳͷߦͷׂ - ݺͼग़͠
ෳͷߦͷׂ - ݺͼग़͠
“interests” ྻͷ ΧϯϚͰ۠ͬͯෳͷߦׂ͞Εͨɻ ෳͷߦͷׂ - ݺͼग़͠
͋͠ΔϢʔβʔ͕ෳͷ߲Λ “interests”ྻʹೖΕ͍ͯͨ߹ɺ ߲Ұͭʹରͯ͠ߦ͕ҰߦͰ͖͍ͯΔͷ ͕Θ͔Δ ෳͷߦͷׂ - ݺͼग़͠
ΫϦʔϯΞοϓ
ΫϦʔϯΞοϓ - σʔλʹվߦίʔυ(\n)ɺλϒ(\t)ͱ ͍ͬͨෆඞཁͳจࣈ͕͍ࠞͬͯ͟Δ͜ ͱ͕͋͠͠Δɻ͜ͷෆඞཁͳจࣈ ʹΑͬͯɺ్ʹσʔλ͕ѻ͍ʹ͘͘ ͳΔɻྫ͑ɺಉ໊͡લͳͷʹɺผͷ ໊લͱͯ͠ೝࣝ͞Εͯ͠·͏ͱ͍͏͜ ͱ͕ى͜Δɻ͜͏ͨ͜͠ͱΛ͙ͨΊ
ʹɺσʔλΛΫϦʔϯΞοϓ͢Δɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετσʔλΛΫϦʔϯΞοϓ” Λબ ΫϦʔϯΞοϓ - ݺͼग़͠
ΫϦʔϯΞοϓ - ݺͼग़͠
ஔ͢Δ
ஔ͢Δ - interestsྻΛΑ͘ݟΔͱɺ“Tech”ͱ “Technology”͕ࠞࡏ͍ͯ͠Δͷʹؾ͘ɻͲ ͪΒجຊతʹಉ͡ͳͷͰɺ྆ํ·ͱΊͯɺ “Tech”ʹ͍ͨ͠ɻ
ஔ͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ஔ”Λબ
ஔ͢Δ - ݺͼग़͠
Technology͕Techʹஔ͞Εͨ
Ұ෦Λൈ͖ग़͢
Ұ෦Λൈ͖ग़͢ - ϑΝʔετωʔϜ͔Β࠷ॳͷ 1จࣈ(Πχγϟϧ)Λൈ͖ग़͠ ͍ͨɻ
Ұ෦Λൈ͖ग़͢ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετͷൣғΛநग़”Λબ
࠷ॳͷࣈ (1)։࢝Ґஔ ̎൪ͷࣈ (͜Ε·ͨ1)ऴྃҐஔ Ұ෦Λൈ͖ग़͢ - ݺͼग़͠
݁߹͢Δ
last_name first_name_initial Nishida K ݁߹͢Δ - ϑΝʔετωʔϜͷ̍จࣈͱɺϥετωʔϜશ෦ΛΞϯμʔ είΞ(_)Λͬͯ݁߹͠ɺϢʔβʔ໊Λ࡞Γ͍ͨɻ username
K_Nishida
݁߹͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετΛ࿈݁”Λબ
࿈͍݁ͨ͠จࣈྻΛΧϯϚ(,)Ͱ۠ͬͯ str_cͷதʹฒΔɻ ݁߹͢Δ - ݺͼग़͠
݁߹ͯ͠usernameྻ͕࡞͞ΕΔ
ΫϨδοτ
stringr Simple & Consistent Functions for Common String Operations https://stringr.tidyverse.org
Hadley Wickham
None
• ϓϩάϥϛϯάͳ͠ RݴޠͷUIͰ͋ΔExploratoryΛੳπʔϧͱͯ͠༻͢ΔͨΊडߨதɺϏδωεͷ Λղܾ͢ΔͨΊʹඞཁͳσʔλαΠΤϯεͷख๏ͷशಘʹ100ˋूதͰ͖Δ • ੳπʔϧͷϕϯμʔϩοΫΠϯͳ͠ ExploratoryͰͷ࡞ۀશͯಠཱͨ͠ΦʔϓϯιʔεͷRڥͰ࠶ݱ͕Մೳ • ࢥߟྗͱεΩϧͷशಘ σʔλαΠΤϯεͷεΩϧशಘ͚ͩͰͳ͘ɺσʔλੳʹඞཁͳࢥߟྗशಘͰ͖Δ
ಛ
Q & A
࿈བྷઌ ϝʔϧ
[email protected]
ΣϒαΠτ https://ja.exploratory.io ϒʔτΩϟϯϓɾτϨʔχϯά https://ja.exploratory.io/training-jp Twitter @KanAugust
จࣈྻؔͷνʔτγʔτ