Slide 1

Slide 1 text

基本技! スクレイピングをシッカリ学ぶ! WA使いのとある方におねだりして、書いていただきました!

Slide 2

Slide 2 text

はなっち!とは…  2019年10月 UiPath Japan MVP 2019 認定  2020年10月 UiPath Japan MVP 2020 認定  2020年11月 定年退職  同 年同月 有期契約社員  お客様先でRPAサポート&開発  Twitter:hjmkzk  Qiita:@HANACCHI  FaceBook:hajime.kozaki

Slide 3

Slide 3 text

スクレイピングとは https://ja.wikipedia.org/wiki/ウェブスクレイピング ウェブスクレイピング(Web scraping)とは、 ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通 常このようなソフトウェアプログラムは低レベルのHTTPを実装するこ とで、もしくはウェブブラウザを埋め込むことによって、WWWのコン テンツを取得する。 ←Amazon上の扱い商品一覧がざくざく採れる! ↓Yahoo!ファイナンス上の株価データがざくざく採れる! ↓図書館サイト上の蔵書情報がざくざく採れる!

Slide 4

Slide 4 text

ざくざく採れる!と言うことは 人手で検索し、情報を得るより、 ROBOTで、自動的に情報を得ると、以下のメリットがある 1) 情報取得までの操作が不要! 2) 24時間休まずに情報が取れる! 3) 取得した情報は正確! と、言うことは! 1) 情報取得までの操作が不要! ⇒ RPAの醍醐味! 2) 24時間休まずに情報が取れる! ⇒ サーバに負荷! 3) 取得した情報を正確に取れる! ⇒ 人手との格差! 4) サイトから取得したデータにバグ ⇒ 株価情報だと、損失発生!

Slide 5

Slide 5 text

サーバに負荷、人手との格差と言うことは 利用規約で、ロボットで情報を収集しないで!と言うサイトがある! Amazonの利用規約 Twitterの利用規約 Yahoo!ファイナンス … と、言うことは! 1. 基本的には利用規約を見る! 2. 「Ctrl + F」でページ内検索をかけて「自動」、「ボット」、 「スクレイピング」などで検索! 3. ちゃんと文章読んでみよう! 【※絶対に自動化してはいけない】自動化禁止サイトまとめ!

Slide 6

Slide 6 text

無視してアクセスしつづけていると…(故意でなくても…) 岡崎市立中央図書館事件 2010年3月頃に岡崎市立図書館の蔵書検索システムにアク セス障害が発生し、利用者の一人が逮捕された事件である。 利用者に攻撃の意図はなく、また、根本的な原因が図書館 側のシステムの不具合にあったことから論議を呼んだ。 逮捕された人物が取調べの後、Librahackというサイトを立 ち上げて解説をしたことから、Librahack事件とも呼ばれる。 Librahack : 容疑者から見た岡崎図書館事件 https://ja.wikipedia.org/wiki/岡崎市立中央図書館事件

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

スクレイピングは スクレイピングがダメと書かれていないサイトを対象にしましょ う! • みずほ銀行 • CONNPASS • 社内システム(管理者に確認した方がいい) RPAを理解しない管理者により、アクセス許可が下りない事例あ り!

Slide 11

Slide 11 text

操作! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

Slide 12

Slide 12 text

こんな流れで設定していきます! 開始 終了 抽出列第一要素選択 取得件数の確認 複数ページ指定 抽出列第二要素選択 全表対象 他の列必要? 抽出列第一要素 抽出列第二要素 データスクレイピングはどうやるの? Yes Yes No No

Slide 13

Slide 13 text

対象のサイトを開いておきましょう! データスクレイピングはどうやるの?

Slide 14

Slide 14 text

Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?

Slide 15

Slide 15 text

抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?

Slide 16

Slide 16 text

「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?

Slide 17

Slide 17 text

表全体を一気にスクレイプしていいかの確認画面 データスクレイピングはどうやるの?

Slide 18

Slide 18 text

ホバー位置が違っても、多少は補正(?)してくれる データスクレイピングはどうやるの?

Slide 19

Slide 19 text

データスクレイピングは、 - テーブル(表)で記述された情報を抽出します データスクレイピングはどうやるの?

Slide 20

Slide 20 text

あれ?Hyperlinkに関する情報が取れていない! ⇒表全体を選択すると、Hyperlinkは無視される データスクレイピングはどうやるの?

Slide 21

Slide 21 text

Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?(HyperLinkも取得する)

Slide 22

Slide 22 text

抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?(HyperLinkも取得する)

Slide 23

Slide 23 text

「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?(HyperLinkも取得する)

Slide 24

Slide 24 text

データスクレイピングはどうやるの?(HyperLinkも取得する) 表全体を取らず、2番目の要素を自分で指定する!

Slide 25

Slide 25 text

在る筈のHyperLinkがない! データスクレイピングはどうやるの?(HyperLinkも取得する) 「☑URLを取得」をチェックON!

Slide 26

Slide 26 text

データスクレイピングはどうやるの?(振り出しに戻って) URLが指定されているUI要素を選択!

Slide 27

Slide 27 text

データスクレイピングはどうやるの?(振り出しに戻って) 表全体を取らず、2番目の要素を自分で指定する!

Slide 28

Slide 28 text

HyperLinkが取れた! データスクレイピングはどうやるの?(振り出しに戻って) 「☑URLを取得」をチェックON!

Slide 29

Slide 29 text

データスクレイピングはどうやるの?(他の列も欲しい!) 他の列を取得するには、「相関するデータを抽出」を!

Slide 30

Slide 30 text

データスクレイピングはどうやるの?(他の列も欲しい!) 2番目の要素を選択する(2行目でも3行目でもOK)

Slide 31

Slide 31 text

データスクレイピングはどうやるの?(他の列も欲しい!) 必要な列分、以上の操作を繰り返す…

Slide 32

Slide 32 text

データスクレイピングはどうやるの?(取得件数の指定) 0を設定すると全データ取得! 1Tableから取得する件数を指定!

Slide 33

Slide 33 text

データスクレイピングはどうやるの?(複数ページの対応) お話の都合で、今は「いいえ」をクリック!

Slide 34

Slide 34 text

データスクレイピングはどうやるの?(アクティビティの中身-設定値) 取得件数 変数! ExtractDataTable アクティビティのプロパティを見てみましょう!

Slide 35

Slide 35 text

データスクレイピングはどうやるの?(アクティビティの中身-セレクター) セレクターは、どのTableをスクレイプするかを指定!

Slide 36

Slide 36 text

データスクレイピングはどうやるの?(アクティビティの中身-メタデータ抽出) メタデータ抽出は、Tableのどの列をスクレイプするかを指示!

Slide 37

Slide 37 text

データスクレイピングはどうやるの?(列名の見直し) 列名は、ここで見直せます!

Slide 38

Slide 38 text

データスクレイピングはどうやるの?(列名の見直し) XMLエディター上で修正する事!

Slide 39

Slide 39 text

データスクレイピングはどうやるの?(実行結果) 実行結果

Slide 40

Slide 40 text

実践! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

Slide 41

Slide 41 text

CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/ ちゃんと求めるデータがあるか確認!

Slide 42

Slide 42 text

CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/event/ 次ページがある!

Slide 43

Slide 43 text

CONNPASSから、開催イベント情報を取得してみる! 第1要素選択 第2要素選択 前の章のようにやってみる!

Slide 44

Slide 44 text

CONNPASSから、開催イベント情報を取得してみる! 次ページ選択 複数ページあるので、次ページ用ボタンを選択!

Slide 45

Slide 45 text

CONNPASSから、開催イベント情報を取得してみる! "" 無指定時、30000ミリ秒なので、 100ミリ秒など小さい値を設定する アクティビティのプロパティを見てみましょう!

Slide 46

Slide 46 text

CONNPASSから、開催イベント情報を取得してみる! 実行してみましょう! Column1,Column2 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~,https://rpacommunity.connpass.com/event/212426/ RPA勉強会!Power Automate Talk #11~実務で使えるフローを実演で紹介~,https://rpacommunity.connpass.com/event/212389/ RPA勉強会 Automation Anywhere Talk vol.5~業務で使える基本テク~,https://rpacommunity.connpass.com/event/211416/ 【増席】RPA勉強&LT会!RPALT vol4 with Tech Night!@ソフトバンク,https://rpacommunity.connpass.com/event/94853/ 【増席】RPA勉強&LT会!RPALT vol3@ウイングアーク1st,https://rpacommunity.connpass.com/event/90549/ 【増席】RPA勉強&LT会!RPALT vol2@ウイングアーク1st,https://rpacommunity.connpass.com/event/84458/ 【増席】RPA勉強&LT会!RPALT vol1@Innovation Space DEJIMA,https://rpacommunity.connpass.com/event/80348/ RPA導入経験者が語る!RPAユーザー座談会(UiPath、Bizrobo、WinActor),https://rpacommunity.connpass.com/event/81227/ 取得結果(抜粋)

Slide 47

Slide 47 text

レッツ! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

Slide 48

Slide 48 text

• そのサイトのデータ、スクレイプなどしていいか、利用規 約を確認しよう! • 第1要素した時点で、表全体情報が取得できる場合がある! • 第1要素、第2要素の選択後、取得結果を見て確認しよう! • 列名は後で修正出来る! • データスクレイピングした結果は、変数 「ExtractDataTable」である ⇒複数回スクレイピングする場合、混用に注意!