crawler_by_aws_and_kotlin

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 1/56 AWS と KOTLIN で作るクローラー
AWS と KOTLIN で作るクローラー azihsoyn 2019/02/26 scouty Crawler Night 2019

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 2/56 趣味釣りアニメ今期はかぐや様は告らせたい
上野さんは不器用業務ではサーバーサイドエンジニア Go Kotlin っていうポッドキャストやってます自己紹介自己紹介ふそやん@azihsoyn rehash.fm

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 3/56

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 4/56 もあります！グノスポ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 5/56

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 6/56 テックブログもあるので是非読んでみてください導入編 AppSync 編
デザイン編サーバー編インフラ編

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 7/56 今回話すこと今回話すことグノスポで作ったクローラーのレシピクローラーの知見

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 8/56 今回話すクローラーの定義今回話すクローラーの定義クローラーは提携メディアのフィードを定期的にクロール
提携メディアはグノスポが定めたフォーマット (Atom/RSS2.0) でフィードを作成 (google bot みたいに無差別にクロールするわけではない)

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 9/56 グノスポのサーバーサイドのアーキテクチャグノスポのサーバーサイドのアーキテクチャ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 10/56 クローラーはこれだけクローラーはこれだけ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 11/56 使っているライブラリ使っているライブラリ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 12/56 使っているライブラリ使っているライブラリ XML PARSER
+ HTTP CLIENT XML PARSER + HTTP CLIENT

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 13/56 XML PARSER + HTTP
CLIENT XML PARSER + HTTP CLIENT RETROFIT + JAXB RETROFIT + JAXB

CLIENT XML PARSER + HTTP CLIENT retrofit 公式のconverter がある retrofit-conberers/jaxb

CLIENT XML PARSER + HTTP CLIENT private val retrofit: Retrofit by lazy { Retrofit.Builder() .baseUrl("https://dummy.gunosy.sport/") .addConverterFactory(JaxbConverterFactory.create() .addCallAdapterFactory(RxJava2CallAdapterFactory.c .build() interface FeedClient { @GET fun getRSS(@Url url: String): Observable<RSS> @GET fun getAtom(@Url url: String): Observable<Atom> }

CLIENT XML PARSER + HTTP CLIENT data class でxml の構造を定義 @XmlAccessorType(XmlAccessType.FIELD) @XmlRootElement @JaxbPojo // noarg用annotation data class RSS( @XmlAttribute val version: String, @JaxbPojo val channel: Channel )

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 17/56 NOARG とは NOARG とは
kotlin のdata class にデフォルト引数を書かなくて済むようになるplugin no-arg-compiler-plugin

CLIENT XML PARSER + HTTP CLIENT 呼び出し retrofit.create(FeedClient::class.java).getRSS(url).subscribe( /* 処理 */ }, { error -> error.printStackTrace() })

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 19/56 その他検討した XML PARSER その他検討した
XML PARSER 最近になった一部のxml がパースできなかったため不採用 javax.xml.parsers 一部のxml がパースできなかったため不採用 retrofit-converter-simplexml FasterXML/jackson-module-kotlin

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 20/56 HTML PARSER HTML PARSER

これはほぼ一択特にハマることもなく使えた html 内の画像のパスを書き換えたりするのに利用 JSOUP JSOUP

// 本文内画像 val doc = Jsoup.parse(rawArticle.content, "UTF-8") doc.select("img").map { img -> try { val image = uploadImage(img.attr("src").toString()) img.attr("src", image.url) img.attr("data-gs-width", image.width.toString()) img.attr("data-gs-height", image.height.toString()) } catch (e: Exception) { e.printStackTrace() } }

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 23/56 ファイル形式検出ファイル形式検出

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 24/56 ファイル形式検出ファイル形式検出画像のファイル識別に利用アプリが対応している画像だけをサーバーに保
存メディアが間違えておかしなファイルを指定してしまったときに弾く MIME-UTIL MIME-UTIL

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 25/56 使ってる AWS サービス使ってる
AWS サービス

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 26/56 クローリング編クローリング編

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 27/56 LAMBDA LAMBDA クロールする処理をlambda 関数として実行
java 8 ランタイムメトリクスも自動で取れるので監視などが楽

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 28/56 REKOGNITION REKOGNITION 画像をアプリのリストに表示する際に選手の顔がちゃんと表示されるようにする
認識に1 秒もかからないぐらい早い

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 29/56 DYNAMODB DYNAMODB クロールした各種情報の保存提携メディアのfeed
テーブルクロールした記事のarticle テーブル試合情報チーム情報 …etc

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 30/56 DYNAMODB DYNAMODB 現在lambda から気軽に使えるデータ永続化サー
ビスは実質DynamoDB しか選択肢がない Data API for Aurora Serverless が東京リージョンにきたら一部乗り換える予定参考: https://dev.classmethod.jp/cloud/aws/amazon- aurora-serverless-avaible-http-endpoint/

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 31/56 DYNAMODB DYNAMODB DynamoDB を使う上で問題になるのはどうやって
ユニークなID を発番するか article ごとに一意なキーが必要今回はをカスタマイズして利用 snowflake

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 32/56 SNOWFLAKE とは SNOWFLAKE とは
twitter が採用している( いた?) id 生成ロジックグノスポではtimestamp 部 + feed_id 部 + incr 部から生成 lambda は必ずfeed_id 毎に実行同じfeed_id でlambda が同時に走らないことが前提

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 33/56 S3 S3 画像や記事本文を保存 CLOUDWATCH
LOGS CLOUDWATCH LOGS lambda のログはすべてcloudwatch logs に流すが出たのでとても便利 CloudWatch Logs Insight

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 34/56 スケジューリング編スケジューリング編

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 35/56 CLOUDWATCH EVENTS CLOUDWATCH EVENTS
クローラー毎に異なるスケジュールを設定コンテンツの特性に合わせる試合中の情報は1 分( 最短) 間隔試合のスケジュールは1 時間記事の更新は10 分とか

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 36/56 SQS SQS 同じlambda を異なるパラメータで同時に実行し
たいときに利用 feed 毎の記事の収集試合中のデータの更新 cludwatch events → lambda( ジョブをキューイング) → SQS → lambda( クロール) を使うとができる Amazon SQS FIFO メッセージ重複排除

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 37/56 作り方終わり作り方終わり

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 38/56 知見の話知見の話

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 39/56 クローラー、肥大化してませんか？クローラー、肥大化してませんか？

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 40/56 サービスに新しい機能やコンテンツをサービスに新しい機能やコンテンツを追加するためにクローラーは改修が多追加するためにクローラーは改修が多
くなりがちくなりがち

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 41/56 増えるif 文増えるフラグ増えるエンティティ
増える依存関係増えるデータベース …etc

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 42/56 管理できていれば問題ない管理できていれば問題ない

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 43/56 今流行りのクリーンアーキテクチャ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 44/56 いい本なので読みましょういい本なので読みましょう ( クリーンアーキテクチャでクローラーを作りまし
ょうという話じゃないです)

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 45/56 責務を分ける責務を分ける

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 46/56 もう一度サーバーサイドのアーキテクチャの確認もう一度サーバーサイドのアーキテクチャの確認

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 47/56 こうしてしまいがちこうしてしまいがち

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 48/56 全部クローラー！！全部クローラー！！

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 49/56 今回設計の段階でクロールした生データとアプリケーションから参照されるデータは別にしようというルールにした (
深く考えていたわけではないがAppSync を使う上でこうなった) アプリケーションから参照されるデータはpre process というフローで生成するクローラーはxml をパースして画像をS3 にアップロードしてDynamoDB にデータを保存することに専念する

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 50/56 クローラーは XML をパースして画像をクローラーは
XML をパースして画像を S3 にアップロードして DYNAMODB にデ S3 にアップロードして DYNAMODB にデータを保存することに専念するータを保存することに専念する

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 51/56 シンプル！！シンプル！！

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 52/56 まとめまとめ

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 53/56 使ってるライブラリ使ってるライブラリ Retrofit +
JAXB Jsoup mime-util noarg

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 54/56 使ってる AWS サービス使ってる
AWS サービス lambda SQS CloudWatch Events CloudWatch Logs S3 DynamoDB rekognition

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 55/56 責務を分ける責務を分ける

2019/2/26 AWS とKotlin で作るクローラー http://localhost:10000/?print-pdf#/ 56/56 THANKS! THANKS!

crawler_by_aws_and_kotlin

crawler_by_aws_and_kotlin

More Decks by azihsoyn

Other Decks in Technology

Featured

Transcript