Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Webスクレイピング

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 Webスクレイピング

Avatar for 株式会社Curious Vehicle

株式会社Curious Vehicle

February 07, 2025
Tweet

More Decks by 株式会社Curious Vehicle

Transcript

  1. Webスクレイピングとは • スクレイピングの流れ 1. Webクローリング 2. 抽出対象箇所の情報抽出 (ノイズを削除) 3. 整形

    — Curious Vehicle Confidential — 5 今回は、ある目的でとあるWebサイトから情報を抽出したので その方法と結果を紹介します。
  2. 環境構成 1. インターネットに接続した端末 (クラウド推奨) 2. crawler4j (Java) 3. 整形用のスクリプト (Python)

    4. 分析用ライブラリ (Python, gensim) — Curious Vehicle Confidential — 6 クローリングされたサイトからアクセスが遮断されても 影響が出ないようにクラウドからクローリングをかけている。 ※ サイト側からはDoSと見分けがつかないため。
  3. 処理概要 3. クレンジング — Curious Vehicle Confidential — 17 英語以外の言語のページを除外

    (2万 → 13270に減少) コンテンツに混ざっているHTMLタグを除外
  4. 処理概要 3. クレンジング — Curious Vehicle Confidential — 18 文章から特徴を抽出するために、以下の情報を削除

    • Stop words • 前置詞、接続詞、代名詞、数詞 など 単語の正規化 • 複数形を単数形に寄せる • 原形に寄せる ※ この辺は vi マクロでコードを書いたが NLP系のライブラリを使えばよかった