Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of da...
Search
Shoichiro Nagai(shnagai)
February 25, 2021
Technology
1
2.2k
機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ
コネヒトマルシェオンライン「機械学習・データ分析」の資料です
Shoichiro Nagai(shnagai)
February 25, 2021
Tweet
Share
More Decks by Shoichiro Nagai(shnagai)
See All by Shoichiro Nagai(shnagai)
テックビジョンを活用した技術戦略の実践/Implementation-of-Technology-Strategy-leveraging-Tech-Vision
shoichiron
0
65
GoでBigQueryを操作する時にStructを使うか悩んでる話/go-bigquery-struct-worries
shoichiron
1
180
AWS Step Functions × AWS SAMで実現する家族ノートの低運用コストETL基盤/ kazokunote-stepfunctions-awssam-etl
shoichiron
4
5.2k
ECS×Fargateで実現する運用コストほぼ0なコンテナ運用の仕組み/ ecs fargate low cost operation
shoichiron
14
18k
ママリで動くカテゴリ類推エンジンの仕組み ~機械学習導入の4つの勘所を添えて~/mamari category analogy
shoichiron
0
790
SIGNATEの練習問題コンペで 57位までスコアを上げた話/ The story of the signate competition
shoichiron
2
5.9k
AWSサービスで実現するバッチ実行環境のコンテナ/サーバレス化/ Container service of batch execution environment realized by AWS service
shoichiron
11
6.9k
Fargateは何がうれしいのか/ fargate-whats-nice
shoichiron
4
11k
コンテナ導入の正攻法〜ママリのコンテナ移行舞台裏〜/Confrontation-of-Container-Transfer
shoichiron
1
3.8k
Other Decks in Technology
See All in Technology
Snowflakeとdbtで加速する 「TVCMデータで価値を生む組織」への進化論 / Evolving TVCM Data Value in TELECY with Snowflake and dbt
carta_engineering
1
170
書籍『実践 Apache Iceberg』の歩き方
ishikawa_satoru
1
490
文字列操作の達人になる ~ Kotlinの文字列の便利な世界 ~ - Kotlin fest 2025
tomorrowkey
2
520
ソフトウェアエンジニアとデータエンジニアの違い・キャリアチェンジ
mtpooh
1
470
品質保証の取り組みを広げる仕組みづくり〜スキルの移譲と自律を支える実践知〜
tarappo
1
110
CloudComposerによる大規模ETL 「制御と実行の分離」の実践
leveragestech
0
190
ソフトウェアテストのAI活用_ver1.50
fumisuke
0
150
データとAIで明らかになる、私たちの課題 ~Snowflake MCP,Salesforce MCPに触れて~ / Data and AI Insights
kaonavi
0
340
Oracle Cloud Infrastructure:2025年10月度サービス・アップデート
oracle4engineer
PRO
0
110
Databricks Free Editionで始めるMLflow
taka_aki
0
800
ソフトウェア品質を支える テストとレビュー再考 / 吉澤 智美さん
findy_eventslides
1
420
Raycast AI APIを使ってちょっと便利なAI拡張機能を作ってみた
kawamataryo
1
250
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
116
20k
KATA
mclloyd
PRO
32
15k
Become a Pro
speakerdeck
PRO
29
5.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
Gamification - CAS2011
davidbonilla
81
5.5k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
960
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
Designing for Performance
lara
610
69k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
950
Transcript
ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝Λղܾ͢Δ σʔλج൫ͷऔΈ ӬҪউҰ!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλੳʯ
ࣗݾհ ओͳ׆ಈ "84Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃճ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ
σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ͠·͢ɻ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿग़དྷͳ͍ͷͰɺ ·ͣඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ
1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ
Ϟσϧ࡞ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ
ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀσʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔? ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর
ᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυ ϥΠϒϥϦ͔Βࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ੳ͍͢͠Α͏ʹpandasͰσʔλܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹతʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
ࣗલͰॻ͘ͱେมͳσʔλऩूσʔλج൫Ͱٵऩ
ඞཁͳσʔλલͬͯσʔλج൫Ͱऩू ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞
৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁͳ͍ ۀσʔλ Ϛελʔσʔλ ࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀσʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ
DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞ ։ൃڥͰͷϞσϧ࡞ ։ൃத
ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝Λղܾ w .-ΤϯδχΞσʔλαΠΤϯςΟετ࠷ՁΛൃشग़དྷΔ ϞσϦϯάνϡʔχϯάʹྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠ޭ֬Λ্͛Δ
͞ΒͳΔαʔϏεͷػցֶश׆༻ͷΛݻΊΔͨΊʹ σʔλج൫Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH