TUT Python スクレイピングハンズオン

Python Boot Camp in TUT Python 初心者入門第2回スクレイピング

スクレイピングとは • ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 (Wikipedia 日本語版ウェブスクレイピングより引用)

スクレイピングに必要なモノ(ライブラリ) •urlilb5 •beautifulsoup4

ライブラリのインストール (1) •pipyというライブラリ管理ツールを使います。 •ubuntu でいうaptitude(apt)と同じような感じのものと思って下さい。

ライブラリのインストール (2) •まず、pip3をaptでインストールします。 •sudo apt install python3-pip •pip3でurlli5とbeautifulsoup4をインストールします。 •sudo pip3
install urllib5 beautifulsoup4

ライブラリの使い方 (1) •プログラム内でライブラリを使うときにはimportをします。 • importの仕方ライブラリ全体をimport import ライブラリ名ライブラリの一部をimport from
ライブラリ名 import 関数名など

ライブラリの使い方 (2) •importしたものに別の名前をつけることもできます。 •例えば長い関数名を省略したいときなんかに便利です。 from ライブラリ名 import 関数名 as 別名

スクレイピングの基本 •まずスクレイピングするサイトの構造を観察します。 •自分が取得したい情報が入っているタグなどを見つけます。 •またタグに振ってあるクラスやIDも手がかりになります。

構造の観察 (1) •今回、「妹さえいればいい。」のニュースページをスクレイピングしていきたいと思いますので、まずそのサイトを開き、キーボードの[F12] を押して下さい。 •開発者ツールが開きますので、開発者ツール左上の要素選択ツールをクリックして、拾いたい要素(今回はニュースのタイトル)をクリックします。

構造の観察 (2) •クリックすると、HTMLソースの対応した部分をブラウザが表示してくれます。

構造の観察 (3) •この要素は h1タグで「c-thumb-index__title」というクラスである •ということがわかります。 •これを手がかりに、データを抽出していきます。

スクレイピング (1) •まずは以下のサイトのコードを「scraping.py」というファイルに入力して実行してみたください。 https://goo.gl/mDyxXU

スクレイピング (2) • 行っていることの解説 • まず最初の２行 from urllib import request
from bs4 import BeautifulSoup as BS • urllibというライブラリからrequestという機能をインポート • bs4というライブラリからBeautifulSoupという機能をインポートしてBSという別名を付与

スクレイピング (3) url = "http://imotosae.com/news/" req = request.Request(url) res =
request.urlopen(req) html = res.read() • 変数urlにスクレイピングするサイトのurlを代入 • urlを取得するというオブジェクトをreqに代入 • reqを実行して得られたオブジェクトをresに代入 • htmlにresをStringとして代入

スクレイピング (4) soup = BS(html, "lxml") topics = soup.find_all('h1', 'c-thumb-index__title')
for i in range(len(topics)): print(topics[i].string, "\n") • htmlを「lxml」というHTMLパーサを使って内容を解析して結果を変数 soup に代入 • soupの中から「c-thumb-index__title」というクラス名を持つ「h1」タグを抽出して変数 topics にリストとして代入 • topicsの中身を出力

TUT Python スクレイピングハンズオン

TUT Python スクレイピングハンズオン

panakuma

More Decks by panakuma

Other Decks in Education

Featured

Transcript

Python Boot Camp in TUT Python 初心者入門第2回スクレイピング

スクレイピングとは • ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 (Wikipedia 日本語版ウェブスクレイピングより引用)

スクレイピングに必要なモノ(ライブラリ) •urlilb5 •beautifulsoup4

ライブラリのインストール (1) •pipyというライブラリ管理ツールを使います。 •ubuntu でいうaptitude(apt)と同じような感じのものと思って下さい。

ライブラリのインストール (2) •まず、pip3をaptでインストールします。 •sudo apt install python3-pip •pip3でurlli5とbeautifulsoup4をインストールします。 •sudo pip3

ライブラリの使い方 (1) •プログラム内でライブラリを使うときにはimportをします。 • importの仕方ライブラリ全体をimport import ライブラリ名ライブラリの一部をimport from

ライブラリの使い方 (2) •importしたものに別の名前をつけることもできます。 •例えば長い関数名を省略したいときなんかに便利です。 from ライブラリ名 import 関数名 as 別名

スクレイピングの基本 •まずスクレイピングするサイトの構造を観察します。 •自分が取得したい情報が入っているタグなどを見つけます。 •またタグに振ってあるクラスやIDも手がかりになります。

構造の観察 (2) •クリックすると、HTMLソースの対応した部分をブラウザが表示してくれます。

構造の観察 (3) •この要素は h1タグで「c-thumb-index__title」というクラスである •ということがわかります。 •これを手がかりに、データを抽出していきます。

スクレイピング (1) •まずは以下のサイトのコードを「scraping.py」というファイルに入力して実行してみたください。 https://goo.gl/mDyxXU

スクレイピング (2) • 行っていることの解説 • まず最初の２行 from urllib import request

スクレイピング (3) url = "http://imotosae.com/news/" req = request.Request(url) res =

スクレイピング (4) soup = BS(html, "lxml") topics = soup.find_all('h1', 'c-thumb-index__title')