Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of da...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shoichiro Nagai(shnagai)
February 25, 2021
Technology
1
2.3k
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ
コネヒトマルシェオンライン「機械学習・データ分析」の資料です
Shoichiro Nagai(shnagai)
February 25, 2021
Tweet
Share
More Decks by Shoichiro Nagai(shnagai)
See All by Shoichiro Nagai(shnagai)
テックビジョンを活用した技術戦略の実践/Implementation-of-Technology-Strategy-leveraging-Tech-Vision
shoichiron
0
81
GoでBigQueryを操作する時にStructを使うか悩んでる話/go-bigquery-struct-worries
shoichiron
1
200
AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
shoichiron
4
9.1k
ECS×Fargateで実現する運用コストほぼ0なコンテナ運用の仕組み/ ecs fargate low cost operation
shoichiron
14
18k
ママリで動くカテゴリ類推エンジンの仕組み ~機械学習導入の4つの勘所を添えて~/mamari category analogy
shoichiron
0
810
SIGNATEの練習問題コンペで 57位までスコアを上げた話/ The story of the signate competition
shoichiron
2
6k
AWSサービスで実現するバッチ実行環境のコンテナ/サーバレス化/ Container service of batch execution environment realized by AWS service
shoichiron
11
7.1k
Fargateは何がうれしいのか/ fargate-whats-nice
shoichiron
4
11k
コンテナ導入の正攻法〜ママリのコンテナ移行舞台裏〜/Confrontation-of-Container-Transfer
shoichiron
1
3.9k
Other Decks in Technology
See All in Technology
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
360
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
5
1.1k
Kiro のクレジットを使い切る!
otanikohei2023
0
110
「使いにくい」も「運用疲れ」も卒業する UIデザイナーとエンジニアが創る持続可能な内製開発
nrinetcom
PRO
1
780
DX Improvement at Scale
ntk1000
2
290
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
22k
20260305_【白金鉱業】分析者が地理情報を武器にするための軽量なアドホック分析環境
yucho147
1
170
どこで打鍵するのが良い? IaCの実行基盤選定について
nrinetcom
PRO
2
170
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.4k
Kaggleの経験が実務にどう活きているか / kaggle_findy
sansan_randd
4
750
Windows ネットワークを再確認する
murachiakira
PRO
0
260
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
Featured
See All Featured
[SF Ruby Conf 2025] Rails X
palkan
2
810
Practical Orchestrator
shlominoach
191
11k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Ruling the World: When Life Gets Gamed
codingconduct
0
160
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
エンジニアに許された特別な時間の終わり
watany
106
240k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Being A Developer After 40
akosma
91
590k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
950
Six Lessons from altMBA
skipperchong
29
4.2k
Transcript
ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝Λղܾ͢Δ σʔλج൫ͷऔΈ ӬҪউҰ!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλੳʯ
ࣗݾհ ओͳ׆ಈ "84Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃճ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ
σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ͠·͢ɻ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿग़དྷͳ͍ͷͰɺ ·ͣඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ
1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ
Ϟσϧ࡞ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ
ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹతʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
ࣗલͰॻ͘ͱେมͳσʔλऩूσʔλج൫Ͱٵऩ
ඞཁͳσʔλલͬͯσʔλج൫Ͱऩू ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞
৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁͳ͍ ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞ ։ൃத
ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝Λղܾ w .-ΤϯδχΞσʔλαΠΤϯςΟετ࠷ՁΛൃشग़དྷΔ ϞσϦϯάνϡʔχϯάʹྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠ޭ֬Λ্͛Δ
͞ΒͳΔαʔϏεͷػցֶश׆༻ͷΛݻΊΔͨΊʹ σʔλج൫Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH