Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
基本技!スクレイピングをシッカリ学ぶ!
Search
HANACCHI
May 31, 2021
0
820
基本技!スクレイピングをシッカリ学ぶ!
20210528 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~
HANACCHI
May 31, 2021
Tweet
Share
More Decks by HANACCHI
See All by HANACCHI
テスト系アクティビティを使ってみる
hanacchi
0
280
君も小説家になろう!
hanacchi
0
140
トライ キャッチの闇
hanacchi
0
33
マンション理事長、動く!
hanacchi
0
17
業務時間外で作ったロボット
hanacchi
0
19
Integration Service
hanacchi
0
69
はなっち!
hanacchi
0
150
SPEAKERDECK From Sign up, Sign in, Upload your slide and Sign out
hanacchi
0
120
開発の現場で求められた効率化ツール
hanacchi
1
1.3k
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1356
200k
Design by the Numbers
sachag
274
18k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
2
1.3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
21
1.6k
Unsuck your backbone
ammeep
663
57k
BBQ
matthewcrist
80
8.8k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
125
32k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Fireside Chat
paigeccino
21
2.6k
What's in a price? How to price your products and services
michaelherold
237
11k
Transcript
基本技! スクレイピングをシッカリ学ぶ! WA使いのとある方におねだりして、書いていただきました!
はなっち!とは… 2019年10月 UiPath Japan MVP 2019 認定 2020年10月
UiPath Japan MVP 2020 認定 2020年11月 定年退職 同 年同月 有期契約社員 お客様先でRPAサポート&開発 Twitter:hjmkzk Qiita:@HANACCHI FaceBook:hajime.kozaki
スクレイピングとは https://ja.wikipedia.org/wiki/ウェブスクレイピング ウェブスクレイピング(Web scraping)とは、 ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通 常このようなソフトウェアプログラムは低レベルのHTTPを実装するこ とで、もしくはウェブブラウザを埋め込むことによって、WWWのコン テンツを取得する。
←Amazon上の扱い商品一覧がざくざく採れる! ↓Yahoo!ファイナンス上の株価データがざくざく採れる! ↓図書館サイト上の蔵書情報がざくざく採れる!
ざくざく採れる!と言うことは 人手で検索し、情報を得るより、 ROBOTで、自動的に情報を得ると、以下のメリットがある 1) 情報取得までの操作が不要! 2) 24時間休まずに情報が取れる! 3) 取得した情報は正確! と、言うことは!
1) 情報取得までの操作が不要! ⇒ RPAの醍醐味! 2) 24時間休まずに情報が取れる! ⇒ サーバに負荷! 3) 取得した情報を正確に取れる! ⇒ 人手との格差! 4) サイトから取得したデータにバグ ⇒ 株価情報だと、損失発生!
サーバに負荷、人手との格差と言うことは 利用規約で、ロボットで情報を収集しないで!と言うサイトがある! Amazonの利用規約 Twitterの利用規約 Yahoo!ファイナンス … と、言うことは! 1. 基本的には利用規約を見る! 2.
「Ctrl + F」でページ内検索をかけて「自動」、「ボット」、 「スクレイピング」などで検索! 3. ちゃんと文章読んでみよう! 【※絶対に自動化してはいけない】自動化禁止サイトまとめ!
無視してアクセスしつづけていると…(故意でなくても…) 岡崎市立中央図書館事件 2010年3月頃に岡崎市立図書館の蔵書検索システムにアク セス障害が発生し、利用者の一人が逮捕された事件である。 利用者に攻撃の意図はなく、また、根本的な原因が図書館 側のシステムの不具合にあったことから論議を呼んだ。 逮捕された人物が取調べの後、Librahackというサイトを立 ち上げて解説をしたことから、Librahack事件とも呼ばれる。 Librahack :
容疑者から見た岡崎図書館事件 https://ja.wikipedia.org/wiki/岡崎市立中央図書館事件
None
None
None
スクレイピングは スクレイピングがダメと書かれていないサイトを対象にしましょ う! • みずほ銀行 • CONNPASS • 社内システム(管理者に確認した方がいい) RPAを理解しない管理者により、アクセス許可が下りない事例あ
り!
操作! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
こんな流れで設定していきます! 開始 終了 抽出列第一要素選択 取得件数の確認 複数ページ指定 抽出列第二要素選択 全表対象 他の列必要? 抽出列第一要素
抽出列第二要素 データスクレイピングはどうやるの? Yes Yes No No
対象のサイトを開いておきましょう! データスクレイピングはどうやるの?
Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?
抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?
「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?
表全体を一気にスクレイプしていいかの確認画面 データスクレイピングはどうやるの?
ホバー位置が違っても、多少は補正(?)してくれる データスクレイピングはどうやるの?
データスクレイピングは、 <table> - テーブル(表)で記述された情報を抽出します データスクレイピングはどうやるの?
あれ?Hyperlinkに関する情報が取れていない! ⇒表全体を選択すると、Hyperlinkは無視される データスクレイピングはどうやるの?
Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?(HyperLinkも取得する)
抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?(HyperLinkも取得する)
「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?(HyperLinkも取得する)
データスクレイピングはどうやるの?(HyperLinkも取得する) 表全体を取らず、2番目の要素を自分で指定する!
在る筈のHyperLinkがない! データスクレイピングはどうやるの?(HyperLinkも取得する) 「☑URLを取得」をチェックON!
データスクレイピングはどうやるの?(振り出しに戻って) URLが指定されているUI要素を選択!
データスクレイピングはどうやるの?(振り出しに戻って) 表全体を取らず、2番目の要素を自分で指定する!
HyperLinkが取れた! データスクレイピングはどうやるの?(振り出しに戻って) 「☑URLを取得」をチェックON!
データスクレイピングはどうやるの?(他の列も欲しい!) 他の列を取得するには、「相関するデータを抽出」を!
データスクレイピングはどうやるの?(他の列も欲しい!) 2番目の要素を選択する(2行目でも3行目でもOK)
データスクレイピングはどうやるの?(他の列も欲しい!) 必要な列分、以上の操作を繰り返す…
データスクレイピングはどうやるの?(取得件数の指定) 0を設定すると全データ取得! 1Tableから取得する件数を指定!
データスクレイピングはどうやるの?(複数ページの対応) お話の都合で、今は「いいえ」をクリック!
データスクレイピングはどうやるの?(アクティビティの中身-設定値) 取得件数 変数! ExtractDataTable アクティビティのプロパティを見てみましょう!
データスクレイピングはどうやるの?(アクティビティの中身-セレクター) セレクターは、どのTableをスクレイプするかを指定!
データスクレイピングはどうやるの?(アクティビティの中身-メタデータ抽出) メタデータ抽出は、Tableのどの列をスクレイプするかを指示!
<extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact='1' name='Column1'
attr='text' name2='Column2' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='Column3' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='Column4' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> <extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact=‘1’ name=‘メニュー’ attr=‘text’ name2=‘リンク' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='説明' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='豆知識' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> データスクレイピングはどうやるの?(列名の見直し) 列名は、ここで見直せます!
データスクレイピングはどうやるの?(列名の見直し) XMLエディター上で修正する事!
データスクレイピングはどうやるの?(実行結果) 実行結果
実践! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/ ちゃんと求めるデータがあるか確認!
CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/event/ 次ページがある!
CONNPASSから、開催イベント情報を取得してみる! 第1要素選択 第2要素選択 前の章のようにやってみる!
CONNPASSから、開催イベント情報を取得してみる! 次ページ選択 複数ページあるので、次ページ用ボタンを選択!
CONNPASSから、開催イベント情報を取得してみる! "<webctrl aaname='次へ>>' parentid='contents' tag='A' />" 無指定時、30000ミリ秒なので、 100ミリ秒など小さい値を設定する アクティビティのプロパティを見てみましょう!
CONNPASSから、開催イベント情報を取得してみる! 実行してみましょう! Column1,Column2 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~,https://rpacommunity.connpass.com/event/212426/ RPA勉強会!Power Automate Talk #11~実務で使えるフローを実演で紹介~,https://rpacommunity.connpass.com/event/212389/ RPA勉強会
Automation Anywhere Talk vol.5~業務で使える基本テク~,https://rpacommunity.connpass.com/event/211416/ 【増席】RPA勉強&LT会!RPALT vol4 with Tech Night!@ソフトバンク,https://rpacommunity.connpass.com/event/94853/ 【増席】RPA勉強&LT会!RPALT vol3@ウイングアーク1st,https://rpacommunity.connpass.com/event/90549/ 【増席】RPA勉強&LT会!RPALT vol2@ウイングアーク1st,https://rpacommunity.connpass.com/event/84458/ 【増席】RPA勉強&LT会!RPALT vol1@Innovation Space DEJIMA,https://rpacommunity.connpass.com/event/80348/ RPA導入経験者が語る!RPAユーザー座談会(UiPath、Bizrobo、WinActor),https://rpacommunity.connpass.com/event/81227/ 取得結果(抜粋)
レッツ! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
• そのサイトのデータ、スクレイプなどしていいか、利用規 約を確認しよう! • 第1要素した時点で、表全体情報が取得できる場合がある! • 第1要素、第2要素の選択後、取得結果を見て確認しよう! • 列名は後で修正出来る! •
データスクレイピングした結果は、変数 「ExtractDataTable」である ⇒複数回スクレイピングする場合、混用に注意!