S3に関する調査が必要になったときの効率よく調査できるTips

S3に関する調査が必要になったときの効率よく調査できる Tips Mountpoint for S3を活⽤したデータ調査の⾼速化発表者名: ⾼良真也 (X:
@takarake) Amazon S3 | データ調査 | パフォーマンス向上

自己紹介 • 高良真也 • 　@takarake　　 @shinya.takara.3 • 技術統括本部　マネージャー •
東京、沖縄、ベトナムをまたいで仕事 💦

本日のアジェンダ S3調査でよくある悩み⼤量のS3データ調査における共通の課題と問題点従来の調査⽅法とその課題ローカルへの全件ダウンロードによる時間‧コスト的問題解決策：Mountpoint for S3 ファイルシステムインターフェースによるS3データの効率的アクセス実践：Mountpoint活⽤事例
具体的な活⽤⽅法と実際の調査事例補⾜とまとめ得られた効果とMountpoint for S3の活⽤ポイント発表時間: 40分 2 / 18

S3調査でよくある悩み Amazon S3に保存された⼤量のデータを調査する際に直⾯する⼀般的な課題ファイルが多すぎて、どれを⾒ればいいかわからない膨⼤な数のファイルの中から、⽬的のデータを⾒つけ出すのに苦労する。調査のために全ファイルをダウンロードするのは時間とコストがかかりすぎる必要なデータがファイルの⼀部であるにも関わらず、全
体をダウンロードしなければならず、時間、ネットワーク帯域、データ転送コストが無駄になる。ローカルPCのストレージが⾜りない⼤規模なS3数据をローカル環境にすべて保存するだけのストレージ容量がない。データ鮮度の問題ダウンロードしたデータはS3上の最新の状態を反映しておらず、データが古くなる可能性がある。これらの課題を解決するための新しいアプローチ 3 / 18

従来の調査方法：ローカルへの全件ダウンロード S3に保存されたデータを調査する際、最も直感的な⽅法の⼀つが、必要なファイルをローカル環境にダウンロードすることです。 S3バケットダウンロードローカル環境調査時間と帯域幅の消費⼤容量のファイルをダウンロードするには、膨⼤な時間とネットワーク帯域幅が必要です。必要なデータがファイルの⼀部である場合で
も、全体をダウンロードしなければならないため、無駄が⽣じます。ストレージ容量の圧迫ローカル環境のストレージ容量には限りがあり、⼤規模なS3数据をすべて保存することは現実的ではありません。コストの増加データ転送量に応じて料⾦が発⽣するため、不要なダウンロードはコストの増加に直結します。データ鮮度の問題ダウンロードしたデータは、その時点のスナップショットであり、S3 上の数据が更新された場合、ローカルのデータは古くなります。従来の調査⽅法の課題 4 / 18

解決策：Mountpoint for S3とは？ Mountpoint for Amazon S3は、Amazon S3バケットをローカルのファイルシステムのようにマウントできるオープンソースのファイルクライアントです。これにより、S3 APIを意識することなく、使い慣れたLinuxコマンドや既存のファイ
ルベースのアプリケーションでS3上のファイルに直接アクセスできるようになります。 S3バケットローカルファイルシステム既存アプリケーションファイルシステムインターフェース S3オブジェクトをファイルとしてマウントし、ファイルアプリケーションのAPIコールをS3 REST APIコールに変換します。⾼いスループット性能 AWS Common Runtime (CRT)と統合され、データのプリフェッチ、シーケンシャルデータの最適化、データのキャッシングによってパフォーマンスが向上します。既存ツールの活⽤ UNIXスタイルのファイルアクセスを知っている既存のアプリケーション、コマンド、ツール（ls, cat, dd, ﬁndなど）をS3バケットに対してそのまま使⽤できます。

Mountpoint for S3の仕組み Mountpoint for S3は、Linuxの仮想ファイルシステム (VFS) を利⽤하여動作します。ユーザーが⾏うファイル操作がどのようにS3 API コールに変換されるかを以下のように追跡できます。
ファイル操作 ls, cat, open, read などのコマンドや関数 VFS (仮想ファイルシステム) ファイル操作をMountpoint への呼び出しに変換 Mountpoint 呼び出しをS3 APIコールに変換して処理 S3 API LIST, GET, PUT などのS3 APIコール透過的な変換アプリケーション側でS3 APIを直接扱うためのコード変更が不要。既存のツールやワークフローをそのまま活⽤できます。 API抽象化 S3 APIの詳細を意識せずに、標準的なファイルシステムインターフェースでS3オブジェクトにアクセスできます。 Mountpoint for S3 はオープンソースのファイルクライアントです 7 / 18

Mountpoint for S3の主な特徴① ファイルシステムインターフェース S3オブジェクトをファイルとしてマウントし、ファイル操作のように扱えますファイルアプリケーションのAPIコールをS3 REST API コールに変換します
既存のツールやワークフローを変更せずに利⽤できます⾼いスループット性能 AWS Common Runtime (CRT)と統合され、効率的なデータ処理が可能にデータのプリフェッチ、シーケンシャル最適化、キャッシング機能でパフォーマンス向上ネットワーク帯域を有効に活⽤し、最⼤100 GB/秒のデータ転送能⼒を活⽤ Mountpoint for S3はオープンソースのファイルクライアントです 8 / 18

Mountpoint for S3の主な特徴② 既存ツールの活⽤ S3オブジェクトをファイルとしてマウントし、既存のLinuxコマンドやアプリケーションで直接操作可能 `ls`, `cat`,
`dd`, `ﬁnd`などの UNIXスタイルファイルアクセスをS3バケットにも適⽤ S3 APIを意識せずに、使い慣れたツールでデータ操作が可能に開発効率の向上ローカルファイルのようにS3上のデータを扱えるため、開発サイクルの短縮に寄与学習コストや作業の複雑さが軽減され、エンジニアの⽣産性と満⾜度が向上既存のスキルセットとツールを最⼤限に活⽤できる画期的なアプローチコスト削減の可能性必要なデータのみをオンデマンドで読み込むことで、不要なデータ転送量を削減 S3オペレーションコストを効果的に抑えることができる Mountpoint⾃体の利⽤に追加料⾦は発⽣せず、⽀払いは基礎となるS3オペレーションに対してのみ実務上でのメリットが豊富にあります 9 / 18

導入手順：コマンド例 1 RPMパッケージのダウンロードダウンロードコマンド $ wget https://s3.amazonaws.com/mountpoint-s3-release/latest/x86_64/mount-s3.rpm Mountpoint for S3のRPMパッケージをダウンロードします
2 Mountpointのインストールインストールコマンド $ sudo yum install ./mount-s3.rpm ダウンロードしたRPMパッケージをインストールします Mountpoint for S3の導⼊⼿順 10 / 18

導入手順：コマンド例 4 S3バケットのマウントマウントコマンド $ mount-s3 hogehoge hogehoge 作成したディレクトリにS3バケットをマウントします 3
マウントポイントの作成ディレクトリ作成 $ mkdir hogehoge S3バケットをマウントするためのローカルディレクトリを作成します Mountpoint for S3の導⼊⼿順 10 / 18

実践例：S3上のファイル探索マウントしたS3バケット内をLinuxコマンドで探索する実例 bash - 80x24 $ cd hogehoge $ ls
-l | head -10 total 0 drwxr-xr-x 2 hoge hoge 0 Aug 7 23:07 2024_12_30 drwxr-xr-x 2 hoge hoge 0 Aug 7 23:07 2024_12_31 ... $ cd 2024_12_30/hogehoge $ ls -l | head -10 total 2680 -rw-r--r-- 1 jeff jeff 19337 Feb 10 2024 17-12-01.jpg -rw-r--r-- 1 jeff jeff 19380 Feb 10 2024 17-15-01.jpg ... ファイル探索の効率化 S3バケット内のファイル構造を即座に把握可能必要に応じて特定のディレクトリのみに移動して探索ローカル環境に全ファイルをダウンロードすることなく、必要最⼩限の情報のみ取得既存のLinuxコマンド（ls, ﬁnd, grepなど）をそのまま使⽤可能 Mountpoint for S3の利点 12 / 18

実践例：S3上のファイルを直接処理 Mountpoint for S3を使⽤することで、S3上のファイルをローカルにダウンロードすることなく直接操作できます。 ripgrepによるファイル検索 S3バケット内に保存された⼤量のファイルから特定の⽂字列を含むファイル名を検索する例です。通常であればすべてをダウンロードする必要がありますが、Mountpointを使⽤すれば直接処理可能です。
重要なポイントローカル環境への全ダウンロードが不要使い慣れたLinuxコマンドをそのまま使⽤ S3の存在を意識せずにファイル操作可能 bash # S3バケットをマウント $ mount-s3 hogehoge hogehoge # 画像ファイルが含まれたディレクトリに移動 $ cd hogehoge/2024_12_30/hoge # ripgrepで文字列でファイル検索 (スレッドを利用して並列実行も可能) $ ./rg --threads $(($(nproc) * 2)) -l --glob '!hogehoge-prod/monitoring/' \ "memory|cpu|" \ ./hogehoge-prod/ > /tmp/filecontent_hit_list_globed.txt MountpointがバックグラウンドでS3からのデータ読み込みを効率的に処理するため、ユーザーはS3の存在を意識せずに既存のツールを活⽤できます。 Mountpoint for S3 13 / 18

Mountpoint導入による効果① 調査時間の劇的な短縮⼤容量ファイルのダウンロード待ち時間がゼロ必要なデータに即座にアクセス可能バージニア等、遠隔地のデータでも⾼速 ※24万件中 2300件のファイル抽出が30分かからずデータ転送コストの削減必要なデータのみをオンデマンドで読み込むため、不要なデータ転送が削減され、S3からのデー
タ転送コストを抑制できます。Mountpointの利⽤⾃体には追加コストがかかりません。ローカルストレージの節約⼤規模なS3数据をローカルに保存する必要がなくなり、ローカルPCのストレージ容量を圧迫する⼼配がなくなります。必要な場合のみデータがローカルにキャッシュされるため、効率的なストレージ利⽤が可能です。エンジニアの作業ストレス軽減 S3 APIを意識することなく、使い慣れたLinuxコマンドや既存のアプリケーションでS3上のデータを扱えるため、学習コストや作業の複雑さが軽減され、エンジニアの⽣産性と満⾜度が向上します。 Mountpoint for S3の導⼊による定量的効果 14 / 18

他のS3調査手法との比較 Mountpoint for S3 特徴 • ファイルシステムインターフェース • ⾼いスループット性能 •
既存ツールの活⽤可最適なユースケース • ⼤規模データ調査 • ETLプロセス Amazon Athena 特徴 • SQLによるクエリ • 即座に実⾏可能 • コスト効率が良い最適なユースケース • 分析クエリ • レポート作成 S3 Select 特徴 • JSONデータの抽出 • 低遅延で⾼効率 • API経由でのアクセス最適なユースケース • API連携 • データ加⼯⽬的に応じて最適な調査⼿法を選択し、活⽤することが重要です S3調査⼿法の⽐較 16 / 18

まとめ：Mountpoint for S3の活用ポイントファイルシステムインターフェースの活⽤既存のLinuxコマンドやアプリケーションを変更せずにS3 データに対して直接アクセスできるため、調査フローワークの効率化が期待できる。⾼いスループット性能 AWS Common
Runtimeと統合され、データのプリフェッチやキャッシングによりパフォーマンスが向上。ネットワーク帯域を効率的に活⽤できる。コスト削減の効果必要なデータのみをオンデマンドで読み込むことで、不要なデータ転送量を削減し、S3オペレーションコストを抑えることができる。既存ツールの活⽤ `ls`, `cat`, `grep`, `ripgrep`など、⻑年使い慣れたコマンドラインツールやスクリプトをS3データに対してそのまま適⽤できる。ベストプラクティス S3バケットのマウントポイントは、⽤途に合わせて適切なオプションで設定する⼤規模データセットの調査には、Mountpoint for S3を推奨 Mountpoint for S3 | 効率的なS3データ調査 17 / 18

ご清聴ありがとうございましたまとめ Mountpoint for S3により、S3上の⼤量データを効率的に調査できるようになりました不要なダウンロードとコスト削減が実現既存のLinuxコマンドやアプリケーションを変更せずに利⽤可能質疑応答本発表についてご質問がございましたら、今ご質問ください。
参考資料 Mountpoint for S3 GitHubリポジトリ Amazon S3マウントポイントのドキュメントクラウド環境でのデータ調査が、ずっと効率的になりましたら幸いです 2025-10-28 18 / 18

S3に関する調査が必要になったときの効率よく調査できるTips

S3に関する調査が必要になったときの効率よく調査できるTips

caad TakaraShinya

More Decks by caad TakaraShinya

Other Decks in Technology

Featured

Transcript