Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Webスクレイピング

 Webスクレイピング

Avatar for 株式会社Curious Vehicle

株式会社Curious Vehicle

February 07, 2025
Tweet

Transcript

  1. Webスクレイピングとは • スクレイピングの流れ 1. Webクローリング 2. 抽出対象箇所の情報抽出 (ノイズを削除) 3. 整形

    — Curious Vehicle Confidential — 5 今回は、ある目的でとあるWebサイトから情報を抽出したので その方法と結果を紹介します。
  2. 環境構成 1. インターネットに接続した端末 (クラウド推奨) 2. crawler4j (Java) 3. 整形用のスクリプト (Python)

    4. 分析用ライブラリ (Python, gensim) — Curious Vehicle Confidential — 6 クローリングされたサイトからアクセスが遮断されても 影響が出ないようにクラウドからクローリングをかけている。 ※ サイト側からはDoSと見分けがつかないため。
  3. 処理概要 3. クレンジング — Curious Vehicle Confidential — 17 英語以外の言語のページを除外

    (2万 → 13270に減少) コンテンツに混ざっているHTMLタグを除外
  4. 処理概要 3. クレンジング — Curious Vehicle Confidential — 18 文章から特徴を抽出するために、以下の情報を削除

    • Stop words • 前置詞、接続詞、代名詞、数詞 など 単語の正規化 • 複数形を単数形に寄せる • 原形に寄せる ※ この辺は vi マクロでコードを書いたが NLP系のライブラリを使えばよかった