Webスクレイピング

第46回勉強会 Webスクレイピング 2019/06/25 安齋佑司 1 — Curious Vehicle Conﬁdential
—

もくじ • Webスクレイピングとは • 環境構成 • 処理概要 • 実行結果 •
まとめ 2 — Curious Vehicle Conﬁdential —

Webスクレイピングとはインターネットから情報を抽出すること — Curious Vehicle Conﬁdential — 3

Webスクレイピングとは • 用途 1. 競合分析 2. データ補充 3. データマイニング —
Curious Vehicle Conﬁdential — 4

Webスクレイピングとは • スクレイピングの流れ 1. Webクローリング 2. 抽出対象箇所の情報抽出 (ノイズを削除) 3. 整形
— Curious Vehicle Conﬁdential — 5 今回は、ある目的でとあるWebサイトから情報を抽出したのでその方法と結果を紹介します。

環境構成 1. インターネットに接続した端末 (クラウド推奨) 2. crawler4j (Java) 3. 整形用のスクリプト (Python)
4. 分析用ライブラリ (Python, gensim) — Curious Vehicle Conﬁdential — 6 クローリングされたサイトからアクセスが遮断されても影響が出ないようにクラウドからクローリングをかけている。 ※ サイト側からはDoSと見分けがつかないため。

処理概要 1. クローリング 2. 情報抽出 3. クレンジング 4. 分析 —

処理概要 1. クローリング https://github.com/yasserg/crawler4j — Curious Vehicle Conﬁdential — 8

処理概要 — Curious Vehicle Conﬁdential — 9 テキスト情報を取得するため More Examples
の Basic crawler を利用した

処理概要 — Curious Vehicle Conﬁdential — 10 テキスト情報を取得するため More Examples
の Basic crawler を利用した

処理概要 — Curious Vehicle Conﬁdential — 11 並列数、インターバル、階層の深さ、最大取得ページ数、URLを設定

処理概要 — Curious Vehicle Conﬁdential — 12 フィルタ情報を設定し、ファイルに出力する処理を追記

処理概要 — Curious Vehicle Conﬁdential — 13 Installation に従って pom.xml
を記述して Maven でビルド (面倒)

処理概要 — Curious Vehicle Conﬁdential — 14 プログラムを実行して目的のページ数が取得されるまで待つ１秒インターバル、４並列 *１ページ表示にかかる時間
→ 2万ページを取得するまで放置した。

処理概要 2. 情報抽出 — Curious Vehicle Conﬁdential — 15 使わずにタグの文字列で当てに行った

処理概要 2. 情報抽出 — Curious Vehicle Conﬁdential — 16

処理概要 3. クレンジング — Curious Vehicle Conﬁdential — 17 英語以外の言語のページを除外
(2万 → 13270に減少) コンテンツに混ざっているHTMLタグを除外

処理概要 3. クレンジング — Curious Vehicle Conﬁdential — 18 文章から特徴を抽出するために、以下の情報を削除
• Stop words • 前置詞、接続詞、代名詞、数詞など単語の正規化 • 複数形を単数形に寄せる • 原形に寄せる ※ この辺は vi マクロでコードを書いたが NLP系のライブラリを使えばよかった

処理概要 4. 分析 — Curious Vehicle Conﬁdential — 19 各ページのトピックを
LDAで出力

処理概要 4. 分析 — Curious Vehicle Conﬁdential — 20 全ページから
Word Count を出力

実行結果 — Curious Vehicle Conﬁdential — 21 LDA １コンテンツ１行でトピックを出力

実行結果 — Curious Vehicle Conﬁdential — 22 Word Count 頻度順に出力

まとめ • WebスクレイピングはWeb上の資源を抽出できる • クローリングはサイトに迷惑をかけないように • 他の方法もあるので今回の方法が最善ではない • やってみると発見があるから面白い —

おしまいご清聴ありがとうございました。 — Curious Vehicle Conﬁdential — 24

Webスクレイピング

Webスクレイピング

株式会社Curious Vehicle

More Decks by 株式会社Curious Vehicle

Featured

Transcript

第46回勉強会 Webスクレイピング 2019/06/25 安齋佑司 1 — Curious Vehicle Conﬁdential

もくじ • Webスクレイピングとは • 環境構成 • 処理概要 • 実行結果 •