KotlinとCloud Vision APIで領収書の電子帳簿保存法対応をする

KotlinとCloud Vision APIで領収書の電子帳簿保存法対応をする 2024年4月26日 Kotlin愛好会 vol.51(Swift愛好会合同) 竹端尚人

自己紹介

概要竹端尚人主にバックエンドエンジニア Twitter: @n_takehata • 2006.04 公務員 •
2007.12 SES • 2014.04 株式会社アプリボット(Kotlinを始める) • 2020.06 株式会社ZOZOテクノロジーズ • 2020.12 フリーランス(現在) 現在は主に株式会社ヘンリーでの開発に従事

登壇、執筆 • CEDEC 2018、2019登壇 • Software Design 2019年2月号〜4月号で短期連載「サーバーサイド開発の品質を向上させる Java→Kotlin
移行のススメ」執筆 • 2021年4月書籍「Kotlin サーバーサイドプログラミング実践開発」出版 • 2023年4月 Techpitにて「Kotlin入門ガイドー言語思想から特徴・歴史・使いどころまで、まるっと予備知識がわかる教科書」執筆

宣伝

最近力を入れているマネジメントについて書いているnote https://note.com/n_takehata (毎週投稿中)

Kotlin Fest 2024にて採択いただきました！

アジェンダ 1. 開発の目的 2. KotlinとCloud Vision APIで実装する 3. 今後やりたいこと

1. 開発の目的

電子帳簿保存法に対応した領収書管理を楽にするため

• 国税関係の帳簿や書類を電子データで保存する際のルールを定めた法律 • 2024年1月から領収書などの電子データ保存が完全義務化された(施行は2022年1月) • 電子データには「検索機能の確保」が必要電子帳簿保存法とは？

1. 取引年月日・取引金額・取引先名の条件で検索できること 2. 取引年月日・取引金額の記録項目は、範囲を指定して検索できること 3. 任意の記録項目を複数組み合わせて検索できること電子帳簿保存法の検索要件

ファイル名に検索要件の情報を入れることで対応している例) 20240426_Amazon_1980.pdf ※税理士さんに確認済みの方法

※ちなみに売上5,000万円未満の事業者は検索要件への対応不要です ※しかし、どのみちなにかしら領収書の管理は必要なので私は対応しています

1. ファイルをダウンロード 2. 日付と金額を確認 3. リネームこれを毎月何ファイルも・・・ (年1でまとめてやっている人はさらに地獄・・・) ただ作業が面倒くさい・・・

なので自動化したい

PDFから請求日と金額を取得してファイルをリネームする

2. KotlinとCloud Vision APIで実装する

• Googleの提供する画像認識サービス • Google 独自の機械学習モデルを使用して、画像を分析している • 画像から文字を抽出したりすることもできる Cloud Vision
APIとは？

Cloud Vision APIのセットアップ

ChatGTPに聞いた手順(これ見てできました) Google Cloud SDKをセットアップして認証情報を取得する手順は以下の通りです。 1. Google Cloud Consoleにアクセスし、プロジェクトを作成します（既存のプロジェクトを使用する場合はスキップできます）。 2.
プロジェクトを選択し、[APIとサービス] > [ダッシュボード]に移動します。 3. [APIを有効にする] をクリックし、Google Cloud Vision APIを有効にします。 4. [APIとサービス] > [認証情報]に移動し、[認証情報を作成]をクリックします。 5. [サービスアカウント] を選択し、必要な情報を入力してサービスアカウントを作成します。 6. 作成されたサービスアカウントを選択し、[鍵を追加]をクリックして新しい鍵を作成します。鍵のタイプはJSONにしてください。 7. JSON形式の認証情報ファイルがダウンロードされます。このファイルをGoogle Cloud Vision APIを使用するKotlinコードから参照できる場所に保存します。

ダウンロードしたJSONを環境変数に設定する例) GOOGLE_APPLICATION_CREDENTIALS=/Users/example/credentials.json

build.gradle.ktsのdependenciesに以下を追加 implementation("com.google.cloud:google-cloud-vision:3.39.0") implementation("org.apache.pdfbox:pdfbox:2.0.31") • Cloud Vision APIのSDK • Apache PDFBoxというPDFを扱うライブラリ

Kotlinのコード実装

この領収書の情報を使います

1. PDFを画像に変換しrequestを作成する

val pdfPath = "/Users/example/hogehoge.pdf" try { // PDFを画像に変換 val document
= PDDocument.load(File(pdfPath)) val renderer = PDFRenderer(document) val requestBuilder = BatchAnnotateImagesRequest.newBuilder() for (pageIndex in 0 until document.numberOfPages) { val image: BufferedImage = renderer.renderImageWithDPI(pageIndex, 300f) val byteArrayOutputStream = ByteArrayOutputStream() ImageIO.write(image, "png", byteArrayOutputStream) val imageBytes = ByteString.copyFrom(byteArrayOutputStream.toByteArray()) // Vision APIリクエストの構築 val visionImage = Image.newBuilder().setContent(imageBytes).build() val feature = Feature.newBuilder().setType(Feature.Type.DOCUMENT_TEXT_DETECTION).build() val request = AnnotateImageRequest.newBuilder().addFeatures(feature) .setImage(visionImage).build() requestBuilder.addRequests(request) } document.close() ① ② ①Cloud Vision APIは画像ファイルしか受け付けないので、PDFを画像に変換する ②画像に変換したPDFを渡してCloud Vision APIのrequestを作成する

2. Cloud Vision APIへrequestを送信

val settings = ImageAnnotatorSettings.newBuilder().setCredentialsProvider { GoogleCredentials.getApplicationDefault() } .build() val client
= ImageAnnotatorClient.create(settings) val response = client.batchAnnotateImages(requestBuilder.build()) val list = response.responsesList.first().fullTextAnnotation.text.split("\r\n", "\n") client.close() ①Cloud Vision APIのclientを生成 ②requestを送信して分析結果を取得し、各行ごとの値のlistにsplitする ① ②

amazon.co.jp 注文番号xxx-xxxxxxx-xxxxxxxの領収書様注文日: 2024年4月19日発行日: 2024年4月22日 Amazon.co.jp 注文番号: xxx-xxxxxxx-xxxxxxx
ご請求額:¥1,190 2024年4月22日に発送済み注文商品税込価格 1点 USB-C & USB-A 3.1(Gen2) ケーブル(0.5m, ブラック) Popolier 【10Gbpsデータ転送/3A 60W高速充電】 USB3.1 Gen2 ケーブル USB-A to USB-C ケーブル高耐久PVC素材 Xperia/Galaxy/Huawei/Pixel などのusb type c機器と互換販売: Popolier-JP (適格請求書発行可) (出品者のプロフィール) \ 780 法人価格コンディション: 新品お届け先住所: 竹端尚人 xxx-xxxx 東京都日本配送方法: 通常配送支払い情報支払い方法: |Visa | カード番号の一部: xxxx 商品の小計: 配送料・手数料: \ 410 \ 780 請求先住所: 竹端尚人 150-0013 東京都日本クレジットカードへの請求注文合計:¥1,190 ご請求額:¥1,190 Visa (下4けたがxxxx): 2024年4月22日: ¥ 1,190 注文の状況を確認するには、注文内容をご覧ください。利用規約 | プライバシー規約 1996-2020, Amazon.com, Inc. and its afﬁliates

3. responseから請求日と金額を抽出する

var date = "" var amount = "" list.forEach {
if (it.startsWith("注文日")) { date = LocalDate.parse(it.replace("注文日: ", ""), DateTimeFormatter .ofPattern("yyyy年M月d日")) .format(DateTimeFormatter.ofPattern("yyyyMMdd")) } if (it.startsWith("ご請求額")) { it.replace(Regex(" |　"), "").replace(Regex("ご請求額:¥|,"), "") } } ①注文日を抽出し、yyyyMMddのフォーマットに変換 ②請求額を抽出し、ラベルの文字列とカンマを削除 ① ②

4. ファイルをリネームする

val oldFile = File("/Users/example/hogehoge.pdf") val newFile = File("/Users/example/result/${date}_Amazon_$amount.pdf") Files.copy(oldFile.toPath(), newFile.toPath(),
StandardCopyOption.REPLACE_EXISTING) ①抽出した請求日と金額を埋め込み、変更後のファイル名を定義 ②変更前のファイルをコピーし定義した変更後のファイル名で保存 ① ②

こういうファイル名にリネームされる 20240419_Amazon_1190.pdf

サンプルコード https://github.com/n-takehata/kotlin-cloud-vision-api-example

3. 今後やりたいこと

• reponseのtextデータを処理して値を取る部分をインターフェース化し、領収書のフォーマット毎の実装を増やす • 生成AIでテキスト解析し、フォーマット関係なく取得できるようにする • Web UIからPDFをアップロードして動かせるようにする

ご清聴ありがとうございました

KotlinとCloud Vision APIで領収書の電子帳簿保存法対応をする

KotlinとCloud Vision APIで領収書の電子帳簿保存法対応をする

More Decks by Takehata Naoto

Other Decks in Technology

Featured

Transcript