Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PDFファイルからデータを抜き出してテーブルに入れてみた

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for fkd fkd
November 12, 2023
750

 PDFファイルからデータを抜き出してテーブルに入れてみた

Avatar for fkd

fkd

November 12, 2023
Tweet

Transcript

  1. 自己紹介 • 名前 : 福田陽一 • 会社 : KDDIアジャイル開発センター株式会社 (KAG)

    • 役職 : Infrastructure Engineer / Application Engineer • プロフィール • 2023年4月 KAG入社。 • 前職、前々職からKDDI関係の業務で関わりがあった。 • 現在はData Clean Roomの開発に従事。 2023/11/10@沖縄
  2. PDFの内容を取り込むには • Pythonで解決 • 実行方法 • Pythonワークシートで実行 (今回はこちら) • ストアドプロシージャとして定義して実行

    • ローカル(自端末)から実行 • Snowpark • https://docs.snowflake.com/ja/developer-guide/snowpark/index > Snowparkライブラリは、Snowflakeで大規模にデータを > クエリおよび処理するための直感的なライブラリを提供します。 > 3つの言語のいずれかのライブラリを使用して、 > アプリケーションコードが実行されるシステムに > データを移動することなくSnowflakeでデータを処理し、 > 柔軟性があるサーバーレスのSnowflakeエンジンの > 一部として大規模に処理するアプリケーションをビルドできます。 • Pythonのライブラリを使用可能 2023/11/10@沖縄
  3. PDFにある表データを取り込んでみる • 試してみるPDF • https://www.stat.go.jp/data/mesh/pdf/gaiyo1.pdf • 日本の地域メッシュに関する資料 • やること •

    読み込みたいPDFを内部ステージに格納する • このPDFの14ページにある表のデータを抜き出して Snowflakeのテーブルに格納する 2023/11/10@沖縄 … この部分を取り込んでみる