【AWS Lambda（SAM）でつくるクローラー】Crawler Night 2020 Winter

AWS Lambda（SAM）でつくるクローラー株式会社空⽥仲紘典

⾃⼰紹介 2 2012年〜2016年ヤフーアドテクのインフラエンジニアや社内システムの開発・保守を主に担当。その他に、新卒研修のメンター・次世代リーダー育成 Yahoo!アカデミアにも参加をし、育成⼒とリーダーシップ⼒を向上させる。 2013年頃から副業も⾏い、AWSや開発などの技術サ
ポートを初めて経験。 2016年〜空ホテル向け料⾦設定サービス「MagicPrice」の⽴ち上げ期からエンジニアとして携り、2016年6⽉取締役兼エンジニアとして参画。現在はプロダクト責任者（Chief Production Oﬃcer）。

会社紹介 3

4 社名︓株式会社空代表者︓松村⼤貴設⽴︓2015年従業員︓30名（⾮正規社員含む） URL︓https://www.sora.ﬂights/

Vision 5 ⾰新的なサービスをつくりながら、幸せな働き⽅を世界に広めます

6 世界中の価格を最適化し、売り⼿も買い⼿も嬉しい世界を作る Mission

7 「MagicPrice」ホテルの料⾦設定をとことんシンプルに Service

精度＝料⾦設定のムラノウハウが属⼈化しており、担当者が変わるとやり⽅が変わる。経験とカンに頼る部分が⼤きく、上⼿くいく⽉といかない⽉が出てしまう。⼿間＝料⾦設定のムダ調査や分析にかかる時間は1⽇1〜3時間。⽉に60時間も、経営や戦略を担う従業員の時間を使っている。 Issues
8

クローリングをどこで利⽤しているのか 9

Research 10 予約状況⾃ホテル︓⾃ホテルの予約データを連携競合ホテル︓マーケット情報を収集予約プラン予約金額
・・・掲載状況掲載プラン掲載金額・・・クローリング

Components Frontend クローリング結果 Backend 顧客データDB クローリング結果 DB Proxy Crawler Batch
クロール対象の⼀部ログ保存集計結果保存 MagicPrice 共通基盤 Machine Learning データ基盤予約サイトイベント予約台帳・料⾦更新連携サイトコントローラ PMS Batch 11

リアルタイムクローリングに Lambda（SAM）を選択 12

クローリング・スクレイピング 13 ウェブサイトからHTMLを取得 HTMLから任意の情報を抽出

クローリング︓２種類のパターン • バッチ ◦ 情報差分の更新やデータ分析に時系列情報としての取り扱いなど特に即時性は求めないが、一定間隔でデータ取得をしておくパターン • リアルタイム ◦ ホテルで言えば、価格や在庫の情報など現在情報を知るために、
即時にデータ取得を行うパターン 14

クローリング︓取得タイミング 15 ⼀定 vs. 不明バッチリアルタイム

クローリング︓取得の速さ 16 求められ「ない」 vs. 求められ「る」バッチリアルタイム

クローリング︓わがままなリアルタイム︕ • バッチ ◦ 情報差分の更新やデータ分析に時系列情報としての取り扱いなど特に即時性は求めないが、一定間隔でデータ取得をしておくパターン • リアルタイム ◦ ホテルで言えば、価格や在庫の情報など現在情報を知るために、
即時にデータ取得を行うパターン 17 制約が強いところを解決したい︕

ぼんやりイメージしていたこと • 取得タイミング不明の解消・取得速度 ◦ キューやAPIなどをフックにイベントを受け付ける ◦ 起動を早める。AutoScalingでは起動に時間がかかる ◦ EC2などサーバの常時稼働はコストが嵩む。サーバレス？Lambda？ •
ローカルからリリース ◦ CloudFormation？serverless framework？ • ローカルで本番とほぼ同⼀環境構築 18

【個⼈的に】インフラの前提として、気にしていること • ローコストで本番稼働できる ◦ 一度開発したら、なかなか修正できないから設計段階で考える • ローカルで単体テスト + 周辺の結合テストまで実⾏できる ◦
クラウド環境でできるだけ動かさない ◦ 周辺の結合テストはできる限り • 可能な限りデフォルトを利⽤する ◦ あれこれライブラリ入れない ◦ 小難しいことしない 19

クローリングに選択した構成 20 AWS Lambda Amazon S3 Amazon SQS queue クロール対象サイト
1. ホテル単位など分割して、 SQSにキューを貯める 2. キューをフックにLambdaを起動させ、クローリングする 3. ２と同時にスクレイピングし、 S3にデータを保存する

ローカル開発︓SAM（サーバーレスアプリケーションモデル） 21

ローカル開発︓SAM（サーバーレスアプリケーションモデル） 22

Lambda（SAM）でクローリング 23

実⾏環境 • ランタイム︓Ruby 2.5 • ライブラリ ◦ nokogiri：HTMLやXML、SAXのパーサー。XPath または CSS
セレクタを利用して要素抽出 ◦ robotex：robot.txt からクローラーの判定可否 ◦ aws-sdk-xxxxx（AWSは個別のサービス）：AWSのサービスを操作 24

実⾏してみよう 25 • sam local invoke で簡単に実⾏できる。

ライブラリは、Layer 使おう（１） 26 • インストールしたライブラリのパス追加やイメージビルドなどしなくても、デフォルトでパス追加されている • 別のLambda関数で利⽤したい場合、共通で扱うこともできます。
⾃作したライブラリの共通化もできる • バイナリやスクリプトも配置できる例．クローリングでは、HeadlessChromeで遷移していきたいケースがある（参考︓https://github.com/hirontan/sam- template/tree/master/scraping_using_headless_c hrome_from_lambda） CloudFormation

ライブラリは、Layer 使おう（２） 27 • ライブラリの配置先は決まっている（/opt 配下に）

⼀つだけ、Layer のハマりポイント 28 • Rubyのバージョンが揃っていないとライブラリの読み込みされない可能性がある。 • イメージ「 lambci/lambda:build-ruby2.5 」を利⽤して、ビルドした結果をローカルに配置し直した結果を利⽤する
• スクリプト⽤意しているので参考にしてください layers/ ├── builds │ └── build_ruby-serverless-crawling-gems.sh ├── docker │ └── Dockerfile_ruby-serverless-crawling-gems └── gemfiles ├── Gemfile_ruby-serverless-crawling-gems └── Gemfile_ruby-serverless-crawling-gems.lock https://github.com/hirontan/sam-template/tree/master/scraping_from_lambda/layers

イベント︓⾮同期的に呼び出す（１） 29 • リアルタイムに実⾏できる • S３／ SQS ／ CloudWatch
Events など扱えるイベントはデフォルトで備わっている • ローカルでは、jsonファイルで擬似的に実⾏できる sam local generate-event でイベント作成 • 本番環境では、プロパティに Events を書いて、デプロイする。CloudFormationの yaml ファイルに記述するだけ CloudFormation

イベント︓⾮同期的に呼び出す（２） 30 • キューの受け取りは event[ʻRecordsʼ] 簡単に受け取れる • ⼀度にキューを複数受け取りできる設定も、SQS・Kinesis などでも、
プロパティに BatchSize と記述すると設定できるソースコード

同時実⾏数 31 • クローリング対象サイトにダメージを与えないように同時アクセス数は気にしなければいけない。そのコントロールとして、同時実⾏数の制御を⾏う（もちろんソースコード内でもスリープも考える） • プロパティ ReservedConcurrentExecutions
で同時実⾏の予約数を制御することを忘れない • もしRDSも接続するなら、データベースへの同時接続数制御にも。情報があまり変わらないのであれば、 DataPipelineなどでデータベースのテーブルを CSV化して、CSVにアクセスする⽅法もあります。 CloudFormation

コスト⾯での注意（CloudWatch PutLogEvents） 32 • S３／ SQS ／ CloudWatch Events
／ Lambda など、⼀つ⼀つは、正直積み重ならない。しかし、無闇にログをCloudWatchに履き続けると PutLogEventsが発⽣し、料⾦が嵩む。正常系はログに出さないなど、障害に備えられるログ出しにしてください

時間あったら本当に実⾏してみる︕ 33 https://github.com/hirontan/sam- template/tree/master/scraping_fr om_lambda

わかったこと・まとめ • Lambda（SAM） x Layer でクローリングできる • リアルタイムな実⾏に適してそう（実⾏した分だけなので安価なことから） • CloudFormation・AWSサービスを理解していれば、
組み合わせだけで簡単に仕組みが作れる • CloudWatch PutLogEventsは気を付けろ︕ 34

参考⽂献 • AWS サーバーレスアプリケーションモデル https://aws.amazon.com/jp/serverless/sam/ • AWS Lambda レイヤー https://docs.aws.amazon.com/ja_jp/lambda/latest/dg/conﬁguration-
layers.html • AWS CloudFormation https://aws.amazon.com/jp/cloudformation/ • AWS::Lambda::EventSourceMapping https://docs.aws.amazon.com/ja_jp/AWSCloudFormation/latest/User Guide/aws-resource-lambda-eventsourcemapping.html 36

【AWS Lambda（SAM）でつくるクローラー】Crawler Night 2020 Wi...

【AWS Lambda（SAM）でつくるクローラー】Crawler Night 2020 Winter

Hironori Tanaka

More Decks by Hironori Tanaka

Other Decks in Technology

Featured

Transcript

AWS Lambda（SAM）でつくるクローラー株式会社空⽥仲紘典

会社紹介 3

4 社名︓株式会社空代表者︓松村⼤貴設⽴︓2015年従業員︓30名（⾮正規社員含む） URL︓https://www.sora.ﬂights/

Vision 5 ⾰新的なサービスをつくりながら、幸せな働き⽅を世界に広めます

6 世界中の価格を最適化し、売り⼿も買い⼿も嬉しい世界を作る Mission

7 「MagicPrice」ホテルの料⾦設定をとことんシンプルに Service

クローリングをどこで利⽤しているのか 9

Research 10 予約状況⾃ホテル︓⾃ホテルの予約データを連携競合ホテル︓マーケット情報を収集予約プラン予約金額

Components Frontend クローリング結果 Backend 顧客データDB クローリング結果 DB Proxy Crawler Batch

リアルタイムクローリングに Lambda（SAM）を選択 12

クローリング・スクレイピング 13 ウェブサイトからHTMLを取得 HTMLから任意の情報を抽出

クローリング︓取得タイミング 15 ⼀定 vs. 不明バッチリアルタイム

クローリング︓取得の速さ 16 求められ「ない」 vs. 求められ「る」バッチリアルタイム

【個⼈的に】インフラの前提として、気にしていること • ローコストで本番稼働できる ◦ 一度開発したら、なかなか修正できないから設計段階で考える • ローカルで単体テスト + 周辺の結合テストまで実⾏できる ◦

クローリングに選択した構成 20 AWS Lambda Amazon S3 Amazon SQS queue クロール対象サイト

ローカル開発︓SAM（サーバーレスアプリケーションモデル） 21

ローカル開発︓SAM（サーバーレスアプリケーションモデル） 22

Lambda（SAM）でクローリング 23

実⾏環境 • ランタイム︓Ruby 2.5 • ライブラリ ◦ nokogiri：HTMLやXML、SAXのパーサー。XPath または CSS

実⾏してみよう 25 • sam local invoke で簡単に実⾏できる。

ライブラリは、Layer 使おう（１） 26 • インストールしたライブラリのパス追加やイメージビルドなどしなくても、デフォルトでパス追加されている • 別のLambda関数で利⽤したい場合、共通で扱うこともできます。

ライブラリは、Layer 使おう（２） 27 • ライブラリの配置先は決まっている（/opt 配下に）

イベント︓⾮同期的に呼び出す（１） 29 • リアルタイムに実⾏できる • S３／ SQS ／ CloudWatch

イベント︓⾮同期的に呼び出す（２） 30 • キューの受け取りは event[ʻRecordsʼ] 簡単に受け取れる • ⼀度にキューを複数受け取りできる設定も、SQS・Kinesis などでも、

コスト⾯での注意（CloudWatch PutLogEvents） 32 • S３／ SQS ／ CloudWatch Events

時間あったら本当に実⾏してみる︕ 33 https://github.com/hirontan/sam- template/tree/master/scraping_fr om_lambda

わかったこと・まとめ • Lambda（SAM） x Layer でクローリングできる • リアルタイムな実⾏に適してそう（実⾏した分だけなので安価なことから） • CloudFormation・AWSサービスを理解していれば、

35

参考⽂献 • AWS サーバーレスアプリケーションモデル https://aws.amazon.com/jp/serverless/sam/ • AWS Lambda レイヤー https://docs.aws.amazon.com/ja_jp/lambda/latest/dg/conﬁguration-