Pythonで作るWebクローラ入門

Python で作るWeb クローラ入門真嘉比愛（Ai Makabi） 2016-09-21 @PyConJP 2016
Room 203 #pyconjp_203

真嘉比愛（Ai Makabi） DATUM STUDIO 株式会社 PyLadies Tokyo 各種アカウント Slack: @amacbee
Twitter: @a_macbee Facebook: ai.makabi Python ライブラリ厳選レシピ（共著）

Web クローラとは？～利用事例や注意点を添えて～

Web クローラ Wikipedia より抜粋混同されがちな言葉クローリング： Web ペー
ジのリンクを辿りながら保存する作業スクレイピング：保存したページから特定の情報を抽出する作業クローラ（Crawler）とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。 “ “

クローラの利用事例クローラで情報を収集して分析… という流れは多い類似映画検索システム EC サイトのトレンド分析システム株価トレンド分析システム Twitter
センチメント抽出システム etc.

事例1: 類似映画検索数十万件/3 ヶ月．Azure 上で動作

事例2: EC サイトのトレンド分析約100 万件/ 日（10 数台で7～8 時間）．GCP 上で動作

クローラを利用してデータを収集することでデータ分析の幅が圧倒的に広がる

本セッションの内容 Python を利用したクローラ作成・運用方法を一通り知ることを目標とする 1. Web クローラを利用する上での注意点
2. Python 製クローラフレームワーク「Scrapy」 Scrapy を利用してPyJobBoard クローラを作成クローラ作成のTips 作成したクローラの管理 3. その他クローラ構築に有用なPython ライブラリ

時間の都合上省略 BeautifulSoup4 を中心とした各種スクレイピングライブラリについて JavaScript を解釈するクローラの話（scrapy- splash, Selenium）上記の内容を聞きにきて頂いた方がいましたら申し訳
ありませんm(_ _;)m またの機会に話したいです

クローラを作成する上での注意点

岡崎市立中央図書館事件事件概要：図書館の蔵書検索システムを日常的にクロールしていた男性が，高頻度のリクエストを故意に送りつけシステムに接続障害を与えたとして偽計業務妨害容疑で逮捕された（別名：LibraHack 事件）
--> 収集したデータの使用目的やスクレイピング方法によっては，法に触れることもある ※ 事件自体は違法性はなかったと考えられている

クローリングの際に遵守したいことデータの収集／公開は著作権法に配慮して行う robots.txt に記載されたアクセス制限を守る API が容易されている場合はそちらを利用するサー
バへアクセスする間隔は最低でも1 秒以上あけるようにする会員のみが閲覧できるページは利用規約を守る参考：Web スクレイピングの注意事項一覧

Python でお手軽にクローラを書きたい！

クローラフレームワーク

Scrapy - latest: 1.1.2 Python 製のクローラフレームワーククロー
ラ界におけるDjango のような存在クローラ作成時に考慮しなければならない機能をオプションを指定するだけで簡単に実現可能 e.g. サイトクローリング間隔，robots.txt の解釈スケジューリング，ジョブ管理，etc. 機能を内包 2016 年5 月にリリースされたScrapy 1.1 より Python 3 に対応

Scrapy Architecture 各機能はコンポーネントに分かれている

Scrapy 利用環境の構築 pip を使って簡単に導入できます $ pip install scrapy ※Windows 環境の場合，
別途設定が必要 ※Ubuntu 環境ではapt-get も利用可能 $ sudo apt-get install python-scrapy

Scrapy を利用して PyJobBoard クローラを作成（Hello Scrapy!）

www.python.org/jobs 複数の企業のジョブオファーが列挙されている募集内容・勤務地・企業名の情報が記載されている下部に次のページへ行くためのリンクがある

Scrapy を用いたクローリングの流れ www.python.org のサイトにあるJob Board をクロールするクローラを作成する以下の手順を踏みます
1. プロジェクトを作成 2. クロール対象を定義 3. クローラを作成 4. クローリング＆結果の保存

1. プロジェクトを作成 $ cd 任意のフォルダ $ scrapy startproject プロジェクト名 e.g.
pyjob プロジェクト ├ ─ ─ pyjob │ ├ ─ ─ __init__.py │ ├ ─ ─ __pycache__ │ ├ ─ ─ items.py # クロール対象について記載 │ ├ ─ ─ pipelines.py │ ├ ─ ─ settings.py # クロールオプション │ └ ─ ─ spiders # クローラ本体（spider）を格納 │ ├ ─ ─ __init__.py │ └ ─ ─ __pycache__ └ ─ ─ scrapy.cfg # デプロイ設定

2. クロール対象を定義 scrapy.Field() を利用して，取得したい情報を item.py に追記（今回は募集タイトル・社名・
勤務場所） import scrapy class PyjobItem(scrapy.Item): title = scrapy.Field() # タイトル company = scrapy.Field() # 社名 location = scrapy.Field() # 勤務場所

3. クローラを作成（1/7） scrapy genspider コマンドで雛形となるクローラ（spider）を自動的に作成 $
scrapy genspider クローラ名クロール対象ドメイン例えば， python.org ドメインをクロールするクローラの雛形を作成するには以下の通り実行 $ cd pyjob $ scrapy genspider pyjob_spider python.org ※ 作成されたクローラはpyjob/spiders 以下にある

3. クローラを作成（2/7）作成したクローラの雛形の中身自動作成された変数 name: クローラ名 allowed_domain:
クロール対象ドメイン start_urls: クロール開始ページのURL リスト自動作成されたメソッド parse: クロールしたページのパース ※ 後述

3. クローラを作成（3/7） e.g. python.org ドメイン中の python.org/jobs ページを起点にクロー
リング from ..items import PyjobItem import scrapy class PyjobSpiderSpider(scrapy.Spider): name = "pyjob_spider" allowed_domains = ["python.org"] start_urls = ( 'https://www.python.org/jobs/', ) def parse(self, response): # 後述 ※ 複数のドメイン・URL を指定可能

3. クローラを作成（4/7） parse メソッドでは主に2 つの処理を行う 1. ページからクロール対象の要素を抽出して返す
Item クラスに必要な情報を格納 ※Item クラスの定義はitem.py で定義 2. 次のクロール対象ページのURL を返す scrapy.Request(url) で返されたURL は新たなクローリング対象となる（callback 引数にparse メソッドを指定すると，再帰的にクロールを実行）

3. クローラを作成（5/7） def parse(self, response): # ページ中のジョブオファー情報を全て取得
for res in response.xpath("//h2[@class='list..."): job = PyjobItem() job['title'] = res.xpath(".//span[@cla...")... job['company'] = res.xpath(".//span[@cla...")... job['location'] = res.xpath(".//a[start...")... yield job # 「Next」のリンクを取得してクロールする next_page = response.xpath("//li[@cla...").extract() if next_page: url = response.urljoin(next_page[0]) yield scrapy.Request(url, callback=self.parse) タグ要素の取得にはXPath やCSS のセレクタを利用

3. クローラを作成（6/7） settings.py でクローリングのオプションを設定絶対に設定して欲しい項目は以下パラメータ意味
DOWNLOAD_DELAY クロール間隔（秒） robots.txt に従うか否かを設定する ROBOTSTXT_OBEY はデフォルトで True （Scrapy 1.1+）

3. クローラを作成（7/7） e.g. pyjob のクローリングオプション設定 BOT_NAME = 'pyjob'
SPIDER_MODULES = ['pyjob.spiders'] NEWSPIDER_MODULE = 'pyjob.spiders' ROBOTSTXT_OBEY = True # robots.txt に従う DOWNLOAD_DELAY = 3 # 同一サイトへのアクセス間隔は3 秒

4. クローリング＆結果の保存 $ scrapy crawl 作成したクローラ名 -o
出力先ファイル名 e.g. pyjob クローラを実行して，結果をCSV 形式で保存（クローリングの実行ログも残す） $ scrapy crawl pyjob_spider -o result.json \ --logfile pyjob.log ※ 拡張子からファイルタイプを自動判定 ※DB 等へデータを保存する処理は， pipeline.py を編集することで追加できるが，ここでは省略

クローリング結果を確認 result.json [ { "title": "Lead Python API and
Automation Developers", "location": "Remote, USA", "company": "FICO" }, { "title": "Python Developer", "location": "London, UK", "company": "BMLL Technologies" }, ...

クローリングログを確認 pyjob_spider.log 2016-09-21 01:20:30 [scrapy] INFO: Scrapy 1.1.2 started
(bot: pyjob) 2016-09-21 01:20:30 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'pyjob.spiders', 'LOG_FILE': 'pyjob_spider.log', 'BOT_NAME': 'pyjob', 'SPIDER_MODULES': ['pyjob.spiders'], 'FEED_URI': 'result.json', 'ROBOTSTXT_OBEY': True, 'DOWNLOAD_DELAY': 3, 'FEED_FORMAT': 'json'} 2016-09-21 01:20:30 [scrapy] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', ...

クローラ作成のTips（1/3） Google Chrome の「デベロッパーツール」を使うと3
ステップでスクレイピング箇所を特定出来る

クローラ作成のTips（2/3） scrapy shell を利用してスクレイピング結果をインタラクティブに確認 $ scrapy shell 'https://www.python.org/jobs/'
... >>> response.css('title') [<Selector xpath='descendant-or-self::title' data='<title>Python Job Board | Python.org</ti'>] >>> response.xpath('//title') [<Selector xpath='//title' data='<title>Python Job Board | Python.org</ti'>] ※ requests + BeautifulSoup4 でも代替出来る

クローラ作成のTips（3/3）クローリング過程とスクレイピング過程を分けるサイト構造の変更によるスクレイピングの失敗は珍しくない => 失敗してもクローリングを再実行しない =>
クローリング／スクレイピング共に失敗していないか監視する対象サイトにJavaScript が含まれているか確認する JavaScript が含まれるか含まれないかで難易度が大きく変わるため，JavaScript が含まれる場合は別サイトの利用も検討する

[ まとめ] クローラ作成 with Scrapy 以下の手順を踏むことで，特定サイトから欲しいデータをクロール出来た
1. プロジェクトを作成 2. クロール対象を定義 3. クローラを作成 4. クローリング＆結果の保存

作成したクローラを管理するにはどうするのか？

クローラ管理 Scrapy 専用の管理ツールを2 つ紹介 Scrapy Cloud scrapyd

Scrapy Cloud クローラ管理用クラウドサービス「scrapinghub」上で動くScrapy 環境 https://scrapinghub.com/scrapy-cloud/ Scrapy Clound
の便利なポイントツールの導入が簡単（ pip install shub ） API キーを使って簡単deploy（ shhub login --> shub deploy ）簡易かつリッチなUI スケジューリングも容易（ Periodic Jobs ）

Scrapy Cloud の課金体系クロール範囲が1 サイト以下の場合は無料クレジットカードの登録も必要なしデー
タ保存期間は1 週間新しくクロール先を追加するたびに +9$ / month https://scrapinghub.com/pricing/

scrapyd Scrapy のデーモン作成したクローラのジョブ管理が行えるインストールが容易（ pip
install scrapyd scrapyd-client ）シンプルなAPI を利用した操作 ※ Python 3 に対応していない

クローラをscrapyd にdeploy 1. scrapy.cfg の [deploy] にあるurl をコメントアウト [deploy]
url = http://localhost:6800/ project = pyjob 2. scrapyd を起動 $ scrapyd 3. 作成したクローラをscrapyd にdeploy $ scrapyd-deploy -p pyjob

API を利用したジョブの登録 schedule.json: ジョブを登録 $ curl http://localhost:6800/schedule.json \ ß-d project=pyjob
-d spider=pyjob_spider cancel.json: ジョブの中止 $ curl http://localhost:6800/cancel.json \ -d project=pyjob -d job= ジョブID その他のAPI： https://scrapyd.readthedocs.io/en/stable/api.html

クローラ作成に最適な Python ライブラリの紹介

クローラ向けライブラリ（1/2） 1. requests 人間が利用することを意識して書かれた非常にシンプルなHTTP ライブラリ（その限りではないが）使い捨てのコー
ドを書くのに最適 >>> import requests >>> res = requests.get('http://www.python.org/jobs/') >>> res.status_code 200 >>> with open('pyjob.html') as fout: ... fout.write(res.content)

クローラ向けライブラリ（2/2） 2. aiohttp Python 3.4 から追加されたasyncio を利用した非同期 HTTP Server/Client
1 プロセス内で複数のリクエストを同時に実行（=IO 多重化） => 待ち時間を有効に活用して高速に動作公式サイト： http://aiohttp.readthedocs.io

e.g. aiohttp を利用したシンプルなクローラ from aiohttp import request, wait import
asyncio @asyncio.coroutine def get(*args, **kwargs): res = yield from request('GET', *args, **kwargs) return (yield from res.read_and_close()) @asyncio.coroutine def print(): page = yeild from get(url) print(page) urls = ['****', '****', '****'] f = wait([print(url) for url in urls]) loop = asyncio.get_event_loop() loop.run_untile_complete(f)

本日のまとめ

話したこと Web クローラについて説明クローラの利用事例を紹介クローリング時の注意点について説明 Scrapy を利用したクロー
ラ構築方法を一通り説明クローラ構築方法について最低限の流れを説明クローラ構築時のTips について共有クローラの管理に便利なツールを紹介ありがとうございました！

Pythonで作るWebクローラ入門

Pythonで作るWebクローラ入門

More Decks by amacbee

Other Decks in Technology

Featured

Transcript