Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PDFファイルからデータを抜き出してテーブルに入れてみた

fkd
November 12, 2023
320

 PDFファイルからデータを抜き出してテーブルに入れてみた

fkd

November 12, 2023
Tweet

Transcript

  1. 自己紹介 • 名前 : 福田陽一 • 会社 : KDDIアジャイル開発センター株式会社 (KAG)

    • 役職 : Infrastructure Engineer / Application Engineer • プロフィール • 2023年4月 KAG入社。 • 前職、前々職からKDDI関係の業務で関わりがあった。 • 現在はData Clean Roomの開発に従事。 2023/11/10@沖縄
  2. PDFの内容を取り込むには • Pythonで解決 • 実行方法 • Pythonワークシートで実行 (今回はこちら) • ストアドプロシージャとして定義して実行

    • ローカル(自端末)から実行 • Snowpark • https://docs.snowflake.com/ja/developer-guide/snowpark/index > Snowparkライブラリは、Snowflakeで大規模にデータを > クエリおよび処理するための直感的なライブラリを提供します。 > 3つの言語のいずれかのライブラリを使用して、 > アプリケーションコードが実行されるシステムに > データを移動することなくSnowflakeでデータを処理し、 > 柔軟性があるサーバーレスのSnowflakeエンジンの > 一部として大規模に処理するアプリケーションをビルドできます。 • Pythonのライブラリを使用可能 2023/11/10@沖縄
  3. PDFにある表データを取り込んでみる • 試してみるPDF • https://www.stat.go.jp/data/mesh/pdf/gaiyo1.pdf • 日本の地域メッシュに関する資料 • やること •

    読み込みたいPDFを内部ステージに格納する • このPDFの14ページにある表のデータを抜き出して Snowflakeのテーブルに格納する 2023/11/10@沖縄 … この部分を取り込んでみる