Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
基本技!スクレイピングをシッカリ学ぶ!
Search
HANACCHI
May 31, 2021
0
890
基本技!スクレイピングをシッカリ学ぶ!
20210528 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~
HANACCHI
May 31, 2021
Tweet
Share
More Decks by HANACCHI
See All by HANACCHI
メール本文をどうやっつけるか
hanacchi
0
220
2024年のローコード界隈最新事情~業務担当者でもAI・生成AIを活用できる!~
hanacchi
0
350
AI JIMY - 登壇(インストール編)
hanacchi
0
400
AI JIMY - 登壇(設定編)
hanacchi
0
370
AI JIMY - 登壇(実行編)
hanacchi
0
370
パスワードを保存しますか?
hanacchi
0
380
テスト系アクティビティを使ってみる
hanacchi
0
420
君も小説家になろう!
hanacchi
0
180
トライ キャッチの闇
hanacchi
0
92
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
50
7.2k
Intergalactic Javascript Robots from Outer Space
tanoku
268
27k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Scaling GitHub
holman
458
140k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
4
380
Build The Right Thing And Hit Your Dates
maggiecrowley
32
2.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Transcript
基本技! スクレイピングをシッカリ学ぶ! WA使いのとある方におねだりして、書いていただきました!
はなっち!とは… 2019年10月 UiPath Japan MVP 2019 認定 2020年10月
UiPath Japan MVP 2020 認定 2020年11月 定年退職 同 年同月 有期契約社員 お客様先でRPAサポート&開発 Twitter:hjmkzk Qiita:@HANACCHI FaceBook:hajime.kozaki
スクレイピングとは https://ja.wikipedia.org/wiki/ウェブスクレイピング ウェブスクレイピング(Web scraping)とは、 ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通 常このようなソフトウェアプログラムは低レベルのHTTPを実装するこ とで、もしくはウェブブラウザを埋め込むことによって、WWWのコン テンツを取得する。
←Amazon上の扱い商品一覧がざくざく採れる! ↓Yahoo!ファイナンス上の株価データがざくざく採れる! ↓図書館サイト上の蔵書情報がざくざく採れる!
ざくざく採れる!と言うことは 人手で検索し、情報を得るより、 ROBOTで、自動的に情報を得ると、以下のメリットがある 1) 情報取得までの操作が不要! 2) 24時間休まずに情報が取れる! 3) 取得した情報は正確! と、言うことは!
1) 情報取得までの操作が不要! ⇒ RPAの醍醐味! 2) 24時間休まずに情報が取れる! ⇒ サーバに負荷! 3) 取得した情報を正確に取れる! ⇒ 人手との格差! 4) サイトから取得したデータにバグ ⇒ 株価情報だと、損失発生!
サーバに負荷、人手との格差と言うことは 利用規約で、ロボットで情報を収集しないで!と言うサイトがある! Amazonの利用規約 Twitterの利用規約 Yahoo!ファイナンス … と、言うことは! 1. 基本的には利用規約を見る! 2.
「Ctrl + F」でページ内検索をかけて「自動」、「ボット」、 「スクレイピング」などで検索! 3. ちゃんと文章読んでみよう! 【※絶対に自動化してはいけない】自動化禁止サイトまとめ!
無視してアクセスしつづけていると…(故意でなくても…) 岡崎市立中央図書館事件 2010年3月頃に岡崎市立図書館の蔵書検索システムにアク セス障害が発生し、利用者の一人が逮捕された事件である。 利用者に攻撃の意図はなく、また、根本的な原因が図書館 側のシステムの不具合にあったことから論議を呼んだ。 逮捕された人物が取調べの後、Librahackというサイトを立 ち上げて解説をしたことから、Librahack事件とも呼ばれる。 Librahack :
容疑者から見た岡崎図書館事件 https://ja.wikipedia.org/wiki/岡崎市立中央図書館事件
None
None
None
スクレイピングは スクレイピングがダメと書かれていないサイトを対象にしましょ う! • みずほ銀行 • CONNPASS • 社内システム(管理者に確認した方がいい) RPAを理解しない管理者により、アクセス許可が下りない事例あ
り!
操作! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
こんな流れで設定していきます! 開始 終了 抽出列第一要素選択 取得件数の確認 複数ページ指定 抽出列第二要素選択 全表対象 他の列必要? 抽出列第一要素
抽出列第二要素 データスクレイピングはどうやるの? Yes Yes No No
対象のサイトを開いておきましょう! データスクレイピングはどうやるの?
Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?
抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?
「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?
表全体を一気にスクレイプしていいかの確認画面 データスクレイピングはどうやるの?
ホバー位置が違っても、多少は補正(?)してくれる データスクレイピングはどうやるの?
データスクレイピングは、 <table> - テーブル(表)で記述された情報を抽出します データスクレイピングはどうやるの?
あれ?Hyperlinkに関する情報が取れていない! ⇒表全体を選択すると、Hyperlinkは無視される データスクレイピングはどうやるの?
Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?(HyperLinkも取得する)
抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?(HyperLinkも取得する)
「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?(HyperLinkも取得する)
データスクレイピングはどうやるの?(HyperLinkも取得する) 表全体を取らず、2番目の要素を自分で指定する!
在る筈のHyperLinkがない! データスクレイピングはどうやるの?(HyperLinkも取得する) 「☑URLを取得」をチェックON!
データスクレイピングはどうやるの?(振り出しに戻って) URLが指定されているUI要素を選択!
データスクレイピングはどうやるの?(振り出しに戻って) 表全体を取らず、2番目の要素を自分で指定する!
HyperLinkが取れた! データスクレイピングはどうやるの?(振り出しに戻って) 「☑URLを取得」をチェックON!
データスクレイピングはどうやるの?(他の列も欲しい!) 他の列を取得するには、「相関するデータを抽出」を!
データスクレイピングはどうやるの?(他の列も欲しい!) 2番目の要素を選択する(2行目でも3行目でもOK)
データスクレイピングはどうやるの?(他の列も欲しい!) 必要な列分、以上の操作を繰り返す…
データスクレイピングはどうやるの?(取得件数の指定) 0を設定すると全データ取得! 1Tableから取得する件数を指定!
データスクレイピングはどうやるの?(複数ページの対応) お話の都合で、今は「いいえ」をクリック!
データスクレイピングはどうやるの?(アクティビティの中身-設定値) 取得件数 変数! ExtractDataTable アクティビティのプロパティを見てみましょう!
データスクレイピングはどうやるの?(アクティビティの中身-セレクター) セレクターは、どのTableをスクレイプするかを指定!
データスクレイピングはどうやるの?(アクティビティの中身-メタデータ抽出) メタデータ抽出は、Tableのどの列をスクレイプするかを指示!
<extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact='1' name='Column1'
attr='text' name2='Column2' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='Column3' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='Column4' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> <extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact=‘1’ name=‘メニュー’ attr=‘text’ name2=‘リンク' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='説明' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='豆知識' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> データスクレイピングはどうやるの?(列名の見直し) 列名は、ここで見直せます!
データスクレイピングはどうやるの?(列名の見直し) XMLエディター上で修正する事!
データスクレイピングはどうやるの?(実行結果) 実行結果
実践! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/ ちゃんと求めるデータがあるか確認!
CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/event/ 次ページがある!
CONNPASSから、開催イベント情報を取得してみる! 第1要素選択 第2要素選択 前の章のようにやってみる!
CONNPASSから、開催イベント情報を取得してみる! 次ページ選択 複数ページあるので、次ページ用ボタンを選択!
CONNPASSから、開催イベント情報を取得してみる! "<webctrl aaname='次へ>>' parentid='contents' tag='A' />" 無指定時、30000ミリ秒なので、 100ミリ秒など小さい値を設定する アクティビティのプロパティを見てみましょう!
CONNPASSから、開催イベント情報を取得してみる! 実行してみましょう! Column1,Column2 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~,https://rpacommunity.connpass.com/event/212426/ RPA勉強会!Power Automate Talk #11~実務で使えるフローを実演で紹介~,https://rpacommunity.connpass.com/event/212389/ RPA勉強会
Automation Anywhere Talk vol.5~業務で使える基本テク~,https://rpacommunity.connpass.com/event/211416/ 【増席】RPA勉強&LT会!RPALT vol4 with Tech Night!@ソフトバンク,https://rpacommunity.connpass.com/event/94853/ 【増席】RPA勉強&LT会!RPALT vol3@ウイングアーク1st,https://rpacommunity.connpass.com/event/90549/ 【増席】RPA勉強&LT会!RPALT vol2@ウイングアーク1st,https://rpacommunity.connpass.com/event/84458/ 【増席】RPA勉強&LT会!RPALT vol1@Innovation Space DEJIMA,https://rpacommunity.connpass.com/event/80348/ RPA導入経験者が語る!RPAユーザー座談会(UiPath、Bizrobo、WinActor),https://rpacommunity.connpass.com/event/81227/ 取得結果(抜粋)
レッツ! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!
• そのサイトのデータ、スクレイプなどしていいか、利用規 約を確認しよう! • 第1要素した時点で、表全体情報が取得できる場合がある! • 第1要素、第2要素の選択後、取得結果を見て確認しよう! • 列名は後で修正出来る! •
データスクレイピングした結果は、変数 「ExtractDataTable」である ⇒複数回スクレイピングする場合、混用に注意!