Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PDFファイルからデータを抜き出してテーブルに入れてみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
fkd
November 12, 2023
790
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
PDFファイルからデータを抜き出してテーブルに入れてみた
fkd
November 12, 2023
More Decks by fkd
See All by fkd
Snowflake Cortex LLM関数のいろんなモデルを試せるチャットボットを作ってみた
fkd
0
24
Snowflakeでダミーデータを作ろう
fkd
0
170
Snowflake DCR
fkd
0
330
Featured
See All Featured
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Rails Girls Zürich Keynote
gr2m
96
14k
Chasing Engaging Ingredients in Design
codingconduct
0
210
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Optimizing for Happiness
mojombo
378
71k
Why Our Code Smells
bkeepers
PRO
340
58k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
30 Presentation Tips
portentint
PRO
1
320
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Transcript
PDFファイルから データを抜き出して テーブルに入れてみた Using Snowpark for Python 2023/11/10@沖縄 KDDIアジャイル開発センター株式会社 福田陽一
自己紹介 • 名前 : 福田陽一 • 会社 : KDDIアジャイル開発センター株式会社 (KAG)
• 役職 : Infrastructure Engineer / Application Engineer • プロフィール • 2023年4月 KAG入社。 • 前職、前々職からKDDI関係の業務で関わりがあった。 • 現在はData Clean Roomの開発に従事。 2023/11/10@沖縄
Snowflakeにデータを取り込むには • データロードに対応したファイル形式 • https://docs.snowflake.com/ja/user-guide/intro-summary-loading • データロードに対応する形式にPDFは含まれていない 2023/11/10@沖縄
PDFの内容を取り込むには • Pythonで解決 • 実行方法 • Pythonワークシートで実行 (今回はこちら) • ストアドプロシージャとして定義して実行
• ローカル(自端末)から実行 • Snowpark • https://docs.snowflake.com/ja/developer-guide/snowpark/index > Snowparkライブラリは、Snowflakeで大規模にデータを > クエリおよび処理するための直感的なライブラリを提供します。 > 3つの言語のいずれかのライブラリを使用して、 > アプリケーションコードが実行されるシステムに > データを移動することなくSnowflakeでデータを処理し、 > 柔軟性があるサーバーレスのSnowflakeエンジンの > 一部として大規模に処理するアプリケーションをビルドできます。 • Pythonのライブラリを使用可能 2023/11/10@沖縄
PDFにある表データを取り込んでみる • 試してみるPDF • https://www.stat.go.jp/data/mesh/pdf/gaiyo1.pdf • 日本の地域メッシュに関する資料 • やること •
読み込みたいPDFを内部ステージに格納する • このPDFの14ページにある表のデータを抜き出して Snowflakeのテーブルに格納する 2023/11/10@沖縄 … この部分を取り込んでみる
Pythonワークシートでコードを書く 2023/11/10@沖縄 Snowsight上で日本語を デバッグ出力する設定 必要なライブラリのimport PDFから必要データを抜き出す コードは地道に書く ステージからファイルを読み込む PDFを読み込む データフレーム形式のデータを作成して
Snowflakeのテーブルとして書き込む
実行結果 • うまく取得できた! 2023/11/10@沖縄 Pythonワークシートのreturn値 Pythonワークシートの デバッグ出力
SQLワークシートでも確認してみる • PDFからデータを抜き出して、Snowflakeのテーブルとして取り込むことができた 2023/11/10@沖縄
SQLワークシートでも確認してみる • 以下のSQLの実行結果は何が表示されると思いますか? 2023/11/10@沖縄 〜 ヒント
SQLワークシートでも確認してみる • 以下のSQLの実行結果は何が表示されると思いますか? 2023/11/10@沖縄 〜 ヒント