Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory: データラングリング:テキスト・データの加工
Search
Kan Nishida
January 15, 2019
Technology
0
3.8k
Exploratory: データラングリング:テキスト・データの加工
ExploratoryとRを使った、テキスト・データを加工するための様々なデータラングリングの手法を紹介します。
Kan Nishida
January 15, 2019
Tweet
Share
More Decks by Kan Nishida
See All by Kan Nishida
Seminar #52 - Introduction to Exploratory Server
kanaugust
0
380
Exploratory セミナー #61 政府のオープンデータ e-Statの活用
kanaugust
0
1.1k
Exploratory セミナー #60 時系列データの加工、可視化、分析手法の紹介
kanaugust
0
1.2k
Seminar #51 - Machine Learning - How Variable Importance Works
kanaugust
0
710
Exploratory セミナー #59 テキストデータの加工
kanaugust
0
730
Seminar #50 - Salesforce Data, Clean, Visualize, Analyze, & Dashboard
kanaugust
1
460
Exploratory セミナー #58 Exploratory x Salesforce
kanaugust
0
370
Exploratory Seminar #49 - Introduction to Dashboard Cycle with Exploratory
kanaugust
0
460
Seminar #48 - Introduction to Exploratory v6.6
kanaugust
0
390
Other Decks in Technology
See All in Technology
複雑さを受け入れるか、拒むか? - 事業成長とともに育ったモノリスを前に私が考えたこと #RSGT2026
murabayashi
1
1.2k
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
19k
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
290
Oracle Cloud Infrastructure:2025年12月度サービス・アップデート
oracle4engineer
PRO
0
190
[Data & AI Summit '25 Fall] AIでデータ活用を進化させる!Google Cloudで作るデータ活用の未来
kirimaru
0
4.2k
SES向け、生成AI時代におけるエンジニアリングとセキュリティ
longbowxxx
0
290
技術選定、下から見るか?横から見るか?
masakiokuda
0
180
Eight Engineering Unit 紹介資料
sansan33
PRO
0
6.1k
Scrum Guide Expansion Pack が示す現代プロダクト開発への補完的視点
sonjin
0
340
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
3
680
Agentic AIが変革するAWSの開発・運用・セキュリティ ~Frontier Agentsを試してみた~ / Agentic AI transforms AWS development, operations, and security I tried Frontier Agents
yuj1osm
0
210
Digitization部 紹介資料
sansan33
PRO
1
6.4k
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
4
35k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
110
30 Presentation Tips
portentint
PRO
1
180
Automating Front-end Workflow
addyosmani
1371
200k
The agentic SEO stack - context over prompts
schlessera
0
580
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
74
How to Talk to Developers About Accessibility
jct
1
94
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
690
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Chasing Engaging Ingredients in Design
codingconduct
0
94
Skip the Path - Find Your Career Trail
mkilby
0
38
Transcript
EXPLORATORY
2 εϐʔΧʔ ా צҰ CEO EXPLORATORY ུྺ ถΦϥΫϧຊࣾͰɺ16ʹΘͨΓσʔλαΠΤϯεͷ։ൃνʔϜΛ ͍ɺػցֶशɺϏοάɾσʔλɺϏδωεɾΠϯςϦδΣϯεɺσʔ λϕʔεʹؔ͢Δଟ͘ͷΛੈʹૹΓग़͢ɻ
2016ॳ಄ʹɺΦʔϓϯιʔεͷੈքͰى͖͍ͯΔσʔλαΠΤϯε ͷֵ৽తͳਐาΛɺੈքͷ99%ͷϓϩάϥϛϯάΛ͠ͳ͍ਓͨͪͷ ͱಧ͚͍ͨͱ͍͏ࢥ͍ͷͱɺExploratory, Inc Λ্ཱͪ͛Δɻ ݱࡏExploratory, Inc.ͰCEOΛΊΔ͔ͨΘΒɺσʔλαΠΤϯεɾ ϒʔτΩϟϯϓɾτϨʔχϯάͳͲΛ௨ͯ͠γϦίϯόϨʔͰߦΘΕ ͍ͯΔ࠷ઌͷσʔλαΠΤϯεͷීٴͱڭҭʹऔΓΉɻ @KanAugust
Vision ͯ͢ͷਓ͕σʔλΛͬͯ ΑΓΑ͍ҙࢥܾఆΛ͢Δ
Mission ΞφϦςΟΫεͷຽओԽ
5 ୈ̏ͷ σʔλαΠΤϯεɺAIɺػցֶश౷ܭֶऀɺ։ൃऀͷͨΊ͚ͩͷͷͰ͋Γ·ͤΜɻ σʔλʹڵຯͷ͋ΔਓͳΒ୭͕ੈքͰ࠷ઌͷΞϧΰϦζϜΛͬͯ ϏδωεσʔλΛ؆୯ʹੳͰ͖Δ͖Ͱ͢ɻ Exploratory͕ͦ͏ͨ͠ੈքΛՄೳʹ͠·͢ɻ
ୈ1ͷ ୈ̎ͷ ୈ̏ͷ ϓϥΠϕʔτ(ߴ͍/ݹ͍) Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ϓϩάϥϛϯά ϓϩάϥϛϯά 2016
2000 1976 ϚωλΠθʔγϣϯ ίϞσΟςΟԽ ຽओԽ ౷ܭֶऀ σʔλαΠΤϯςΟετ Exploratory ΞϧΰϦζϜ Ϣʔβʔɾ ମݧ πʔϧ Φʔϓϯɾιʔε(ແྉ/࠷ઌ) UI & ࣗಈԽ ϏδωεɾϢʔβʔ ςʔϚ σʔλαΠΤϯεͷຽओԽ
質問 σʔλαΠΤϯεɾϫʔΫϑϩʔ 伝える データアクセス 加⼯ 可視化 機械学習・AI 統計
質問 ExploratoryͰ؆୯ʹͰ͖ΔλεΫ 伝える データアクセス 加⼯ 可視化 機械学習/AI・ 統計
ςΩετɾσʔλΛૢΔ
جૅ
ਖ਼نදݱ ςΩετ͔ΒΛநग़͢Δ [\d,]+(\.\d+)? “ϏοτίΠϯͷҝସϨʔτ288,425.12ԁͰ͢ɻ” 288,425.12
@[[a-zA-Z0-9].-]+$ “
[email protected]
” exploratory.io emailΞυϨε͔ΒυϝΠϯΛநग़͢Δ ਖ਼نදݱ
͔͠͠ɺ ॏཁͳςΩετॲཧͷଟ͘ਖ਼نදݱͳ͠Ͱ Ͱ͖Δɻ
ॏཁͳςΩετૢ࡞ 1. ࣈͷม 2. จࣈྻΛݟ͚ͭΔ 3. ෳͷྻͷׂ 4. ෳͷߦͷׂ 5.
ΫϦʔϯΞοϓ 6. ஔ͢Δ 7. Ұ෦Λൈ͖ग़͢ 8. ݁߹͢Δ
આ໌ - σʔλ • Ϣʔβʔใ • ͦΕͧΕͷߦɺ͋ΔΣϒαʔϏεͷϢʔβʔΞΧϯτใΛද͢ • 4,386 ݅ͷϢʔβʔΞΧϯτ
• ֤ϢʔβʔΞΧϯτʹɺemailɺ ɺ໊ɺࠃɺڵຯɺ༻OSͷྻ ͕͋Δ
None
None
ࣈͷม
ࣈͷม - average_monthly_spendingྻจࣈܕͷ σʔλܕ͕ͩɺ͔ͦ͜ΒΛऔΓग़͠ ͍ͨɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “σʔλλΠϓΛม”Λબ 2. “ʹม”Λબ ࣈͷม - ݺͼग़͠
ࣈͷม - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ
จࣈྻΛݟ͚ͭΔ - ԿਓͷϢʔβʔ͕gmailΛ͍ͬͯΔ͔ʁ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετσʔλΛૢ࡞”Λબ 2. “͜ͷจࣈྻΛؚΉ͔Ͳ͏͔”Λબ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
͠emailΞυϨε͕gmailͳΒ ͜ͷྻͷTRUEʹͳΔɻ จࣈྻΛݟ͚ͭΔ - ݺͼग़͠
จࣈྻΛݟ͚ͭΔ - ݺͼग़͠ gmailΛ͍ͬͯΔϢʔβʔ 592ਓͰશମͷ13.50%
ෳͷྻͷׂ
emailΞυϨεΛ໊લͷ෦ͱυϝΠϯͷ ෦ʹׂ͍ͨ͠ɻ ෳͷྻͷׂ -
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱྻʹׂ”Λબ 3. “ΧελϜ”Λબ ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷྻͷׂ - ݺͼग़͠
ෳͷߦͷׂ
ෳͷߦͷׂ - Ϣʔβʔͷڵຯ(͔̍ͭͦΕҎ্)͕ ΧϯϚ۠ΓͰinterestsͱ͍͏ྻ ʹ֨ೲ͞Ε͍ͯΔ͕ɺڵຯҰͭʹ ͍ͭͯҰߦʹ͍ͨ͠ɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ׂ”Λબ 2. “…Ͱߦʹׂ”Λબ 3. “Comma(,)” ෳͷߦͷׂ - ݺͼग़͠
ෳͷߦͷׂ - ݺͼग़͠
“interests” ྻͷ ΧϯϚͰ۠ͬͯෳͷߦׂ͞Εͨɻ ෳͷߦͷׂ - ݺͼग़͠
͋͠ΔϢʔβʔ͕ෳͷ߲Λ “interests”ྻʹೖΕ͍ͯͨ߹ɺ ߲Ұͭʹରͯ͠ߦ͕ҰߦͰ͖͍ͯΔͷ ͕Θ͔Δ ෳͷߦͷׂ - ݺͼग़͠
ΫϦʔϯΞοϓ
ΫϦʔϯΞοϓ - σʔλʹվߦίʔυ(\n)ɺλϒ(\t)ͱ ͍ͬͨෆඞཁͳจࣈ͕͍ࠞͬͯ͟Δ͜ ͱ͕͋͠͠Δɻ͜ͷෆඞཁͳจࣈ ʹΑͬͯɺ్ʹσʔλ͕ѻ͍ʹ͘͘ ͳΔɻྫ͑ɺಉ໊͡લͳͷʹɺผͷ ໊લͱͯ͠ೝࣝ͞Εͯ͠·͏ͱ͍͏͜ ͱ͕ى͜Δɻ͜͏ͨ͜͠ͱΛ͙ͨΊ
ʹɺσʔλΛΫϦʔϯΞοϓ͢Δɻ
ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετσʔλΛΫϦʔϯΞοϓ” Λબ ΫϦʔϯΞοϓ - ݺͼग़͠
ΫϦʔϯΞοϓ - ݺͼग़͠
ஔ͢Δ
ஔ͢Δ - interestsྻΛΑ͘ݟΔͱɺ“Tech”ͱ “Technology”͕ࠞࡏ͍ͯ͠Δͷʹؾ͘ɻͲ ͪΒجຊతʹಉ͡ͳͷͰɺ྆ํ·ͱΊͯɺ “Tech”ʹ͍ͨ͠ɻ
ஔ͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ஔ”Λબ
ஔ͢Δ - ݺͼग़͠
Technology͕Techʹஔ͞Εͨ
Ұ෦Λൈ͖ग़͢
Ұ෦Λൈ͖ग़͢ - ϑΝʔετωʔϜ͔Β࠷ॳͷ 1จࣈ(Πχγϟϧ)Λൈ͖ग़͠ ͍ͨɻ
Ұ෦Λൈ͖ग़͢ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετͷൣғΛநग़”Λબ
࠷ॳͷࣈ (1)։࢝Ґஔ ̎൪ͷࣈ (͜Ε·ͨ1)ऴྃҐஔ Ұ෦Λൈ͖ग़͢ - ݺͼग़͠
݁߹͢Δ
last_name first_name_initial Nishida K ݁߹͢Δ - ϑΝʔετωʔϜͷ̍จࣈͱɺϥετωʔϜશ෦ΛΞϯμʔ είΞ(_)Λͬͯ݁߹͠ɺϢʔβʔ໊Λ࡞Γ͍ͨɻ username
K_Nishida
݁߹͢Δ - ݺͼग़͠ ΧϥϜϔομϝχϡʔ͔Β 1. “ςΩετΛૢ࡞”Λબ 2. “ςΩετΛ࿈݁”Λબ
࿈͍݁ͨ͠จࣈྻΛΧϯϚ(,)Ͱ۠ͬͯ str_cͷதʹฒΔɻ ݁߹͢Δ - ݺͼग़͠
݁߹ͯ͠usernameྻ͕࡞͞ΕΔ
ΫϨδοτ
stringr Simple & Consistent Functions for Common String Operations https://stringr.tidyverse.org
Hadley Wickham
None
• ϓϩάϥϛϯάͳ͠ RݴޠͷUIͰ͋ΔExploratoryΛੳπʔϧͱͯ͠༻͢ΔͨΊडߨதɺϏδωεͷ Λղܾ͢ΔͨΊʹඞཁͳσʔλαΠΤϯεͷख๏ͷशಘʹ100ˋूதͰ͖Δ • ੳπʔϧͷϕϯμʔϩοΫΠϯͳ͠ ExploratoryͰͷ࡞ۀશͯಠཱͨ͠ΦʔϓϯιʔεͷRڥͰ࠶ݱ͕Մೳ • ࢥߟྗͱεΩϧͷशಘ σʔλαΠΤϯεͷεΩϧशಘ͚ͩͰͳ͘ɺσʔλੳʹඞཁͳࢥߟྗशಘͰ͖Δ
ಛ
Q & A
࿈བྷઌ ϝʔϧ
[email protected]
ΣϒαΠτ https://ja.exploratory.io ϒʔτΩϟϯϓɾτϨʔχϯά https://ja.exploratory.io/training-jp Twitter @KanAugust
จࣈྻؔͷνʔτγʔτ