Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of da...
Search
Shoichiro Nagai(shnagai)
February 25, 2021
Technology
1
2.2k
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ
コネヒトマルシェオンライン「機械学習・データ分析」の資料です
Shoichiro Nagai(shnagai)
February 25, 2021
Tweet
Share
More Decks by Shoichiro Nagai(shnagai)
See All by Shoichiro Nagai(shnagai)
GoでBigQueryを操作する時にStructを使うか悩んでる話/go-bigquery-struct-worries
shoichiron
1
150
AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
shoichiron
4
5k
ECS×Fargateで実現する運用コストほぼ0なコンテナ運用の仕組み/ ecs fargate low cost operation
shoichiron
14
18k
ママリで動くカテゴリ類推エンジンの仕組み ~機械学習導入の4つの勘所を添えて~/mamari category analogy
shoichiron
0
750
SIGNATEの練習問題コンペで 57位までスコアを上げた話/ The story of the signate competition
shoichiron
2
5.6k
AWSサービスで実現するバッチ実行環境のコンテナ/サーバレス化/ Container service of batch execution environment realized by AWS service
shoichiron
11
6.7k
Fargateは何がうれしいのか/ fargate-whats-nice
shoichiron
4
11k
コンテナ導入の正攻法〜ママリのコンテナ移行舞台裏〜/Confrontation-of-Container-Transfer
shoichiron
1
3.6k
1年間の本番運用でわかったコンテナがチーム開発にもたらしてくれたもの/container-brought-to-team-development
shoichiron
11
13k
Other Decks in Technology
See All in Technology
バクラクの認証基盤の成長と現在地 / bakuraku-authn-platform
convto
4
690
Goの組織でバックエンドTypeScriptを採用してどうだったか / How was adopting backend TypeScript in a Golang company
kaminashi
12
8.4k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
0
290
Cursor AgentによるパーソナルAIアシスタント育成入門―業務のプロンプト化・MCPの活用
os1ma
15
5.3k
React ABC Questions
hirotomoyamada
0
540
彩の国で始めよう。おっさんエンジニアから共有したい、当たり前のことを当たり前にする技術
otsuki
0
160
白金鉱業Meetup_Vol.18_生成AIはデータサイエンティストを代替するのか?
brainpadpr
3
150
Road to Go Gem #rubykaigi
sue445
0
940
Dynamic Reteaming And Self Organization
miholovesq
3
640
Spring Bootで実装とインフラをこれでもかと分離するための試み
shintanimoto
7
880
Linuxのパッケージ管理とアップデート基礎知識
go_nishimoto
0
470
PicoRabbit: a Tiny Presentation Device Powered by Ruby
harukasan
PRO
2
250
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Fireside Chat
paigeccino
37
3.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
32
5.4k
Site-Speed That Sticks
csswizardry
5
500
Agile that works and the tools we love
rasmusluckow
328
21k
GitHub's CSS Performance
jonrohan
1030
460k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
For a Future-Friendly Web
brad_frost
176
9.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
The Cost Of JavaScript in 2023
addyosmani
49
7.7k
Building a Modern Day E-commerce SEO Strategy
aleyda
40
7.2k
Transcript
ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝Λղܾ͢Δ σʔλج൫ͷऔΈ ӬҪউҰ!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλੳʯ
ࣗݾհ ओͳ׆ಈ "84Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃճ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ
σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ͠·͢ɻ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿग़དྷͳ͍ͷͰɺ ·ͣඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ
1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ
Ϟσϧ࡞ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ
ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹతʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
ࣗલͰॻ͘ͱେมͳσʔλऩूσʔλج൫Ͱٵऩ
ඞཁͳσʔλલͬͯσʔλج൫Ͱऩू ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞
৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁͳ͍ ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞ ։ൃத
ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝Λղܾ w .-ΤϯδχΞσʔλαΠΤϯςΟετ࠷ՁΛൃشग़དྷΔ ϞσϦϯάνϡʔχϯάʹྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠ޭ֬Λ্͛Δ
͞ΒͳΔαʔϏεͷػցֶश׆༻ͷΛݻΊΔͨΊʹ σʔλج൫Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH