Upgrade to Pro — share decks privately, control downloads, hide ads and more …

基本技!スクレイピングをシッカリ学ぶ!

27b73d7672b2f75a58184c544df1e721?s=47 HANACCHI
May 31, 2021
340

 基本技!スクレイピングをシッカリ学ぶ!

20210528 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~

27b73d7672b2f75a58184c544df1e721?s=128

HANACCHI

May 31, 2021
Tweet

Transcript

  1. 基本技! スクレイピングをシッカリ学ぶ! WA使いのとある方におねだりして、書いていただきました!

  2. はなっち!とは…  2019年10月 UiPath Japan MVP 2019 認定  2020年10月

    UiPath Japan MVP 2020 認定  2020年11月 定年退職  同 年同月 有期契約社員  お客様先でRPAサポート&開発  Twitter:hjmkzk  Qiita:@HANACCHI  FaceBook:hajime.kozaki
  3. スクレイピングとは https://ja.wikipedia.org/wiki/ウェブスクレイピング ウェブスクレイピング(Web scraping)とは、 ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通 常このようなソフトウェアプログラムは低レベルのHTTPを実装するこ とで、もしくはウェブブラウザを埋め込むことによって、WWWのコン テンツを取得する。

    ←Amazon上の扱い商品一覧がざくざく採れる! ↓Yahoo!ファイナンス上の株価データがざくざく採れる! ↓図書館サイト上の蔵書情報がざくざく採れる!
  4. ざくざく採れる!と言うことは 人手で検索し、情報を得るより、 ROBOTで、自動的に情報を得ると、以下のメリットがある 1) 情報取得までの操作が不要! 2) 24時間休まずに情報が取れる! 3) 取得した情報は正確! と、言うことは!

    1) 情報取得までの操作が不要! ⇒ RPAの醍醐味! 2) 24時間休まずに情報が取れる! ⇒ サーバに負荷! 3) 取得した情報を正確に取れる! ⇒ 人手との格差! 4) サイトから取得したデータにバグ ⇒ 株価情報だと、損失発生!
  5. サーバに負荷、人手との格差と言うことは 利用規約で、ロボットで情報を収集しないで!と言うサイトがある! Amazonの利用規約 Twitterの利用規約 Yahoo!ファイナンス … と、言うことは! 1. 基本的には利用規約を見る! 2.

    「Ctrl + F」でページ内検索をかけて「自動」、「ボット」、 「スクレイピング」などで検索! 3. ちゃんと文章読んでみよう! 【※絶対に自動化してはいけない】自動化禁止サイトまとめ!
  6. 無視してアクセスしつづけていると…(故意でなくても…) 岡崎市立中央図書館事件 2010年3月頃に岡崎市立図書館の蔵書検索システムにアク セス障害が発生し、利用者の一人が逮捕された事件である。 利用者に攻撃の意図はなく、また、根本的な原因が図書館 側のシステムの不具合にあったことから論議を呼んだ。 逮捕された人物が取調べの後、Librahackというサイトを立 ち上げて解説をしたことから、Librahack事件とも呼ばれる。 Librahack :

    容疑者から見た岡崎図書館事件 https://ja.wikipedia.org/wiki/岡崎市立中央図書館事件
  7. None
  8. None
  9. None
  10. スクレイピングは スクレイピングがダメと書かれていないサイトを対象にしましょ う! • みずほ銀行 • CONNPASS • 社内システム(管理者に確認した方がいい) RPAを理解しない管理者により、アクセス許可が下りない事例あ

    り!
  11. 操作! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

  12. こんな流れで設定していきます! 開始 終了 抽出列第一要素選択 取得件数の確認 複数ページ指定 抽出列第二要素選択 全表対象 他の列必要? 抽出列第一要素

    抽出列第二要素 データスクレイピングはどうやるの? Yes Yes No No
  13. 対象のサイトを開いておきましょう! データスクレイピングはどうやるの?

  14. Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?

  15. 抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?

  16. 「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?

  17. 表全体を一気にスクレイプしていいかの確認画面 データスクレイピングはどうやるの?

  18. ホバー位置が違っても、多少は補正(?)してくれる データスクレイピングはどうやるの?

  19. データスクレイピングは、 <table> - テーブル(表)で記述された情報を抽出します データスクレイピングはどうやるの?

  20. あれ?Hyperlinkに関する情報が取れていない! ⇒表全体を選択すると、Hyperlinkは無視される データスクレイピングはどうやるの?

  21. Studioの「データスクレイピング」をクリック! データスクレイピングはどうやるの?(HyperLinkも取得する)

  22. 抽出ウィザート画面と、対象サイトを並べました! データスクレイピングはどうやるの?(HyperLinkも取得する)

  23. 「次へ」をクリックし、スクレイピングする場所をホバーします データスクレイピングはどうやるの?(HyperLinkも取得する)

  24. データスクレイピングはどうやるの?(HyperLinkも取得する) 表全体を取らず、2番目の要素を自分で指定する!

  25. 在る筈のHyperLinkがない! データスクレイピングはどうやるの?(HyperLinkも取得する) 「☑URLを取得」をチェックON!

  26. データスクレイピングはどうやるの?(振り出しに戻って) URLが指定されているUI要素を選択!

  27. データスクレイピングはどうやるの?(振り出しに戻って) 表全体を取らず、2番目の要素を自分で指定する!

  28. HyperLinkが取れた! データスクレイピングはどうやるの?(振り出しに戻って) 「☑URLを取得」をチェックON!

  29. データスクレイピングはどうやるの?(他の列も欲しい!) 他の列を取得するには、「相関するデータを抽出」を!

  30. データスクレイピングはどうやるの?(他の列も欲しい!) 2番目の要素を選択する(2行目でも3行目でもOK)

  31. データスクレイピングはどうやるの?(他の列も欲しい!) 必要な列分、以上の操作を繰り返す…

  32. データスクレイピングはどうやるの?(取得件数の指定) 0を設定すると全データ取得! 1Tableから取得する件数を指定!

  33. データスクレイピングはどうやるの?(複数ページの対応) お話の都合で、今は「いいえ」をクリック!

  34. データスクレイピングはどうやるの?(アクティビティの中身-設定値) 取得件数 変数! ExtractDataTable アクティビティのプロパティを見てみましょう!

  35. データスクレイピングはどうやるの?(アクティビティの中身-セレクター) セレクターは、どのTableをスクレイプするかを指定!

  36. データスクレイピングはどうやるの?(アクティビティの中身-メタデータ抽出) メタデータ抽出は、Tableのどの列をスクレイプするかを指示!

  37. <extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact='1' name='Column1'

    attr='text' name2='Column2' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='Column3' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='Column4' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> <extract> <row exact='1'> <webctrl tag='tr' /> </row> <column exact=‘1’ name=‘メニュー’ attr=‘text’ name2=‘リンク' attr2='href'> <webctrl tag='tr' /> <webctrl tag='td' idx='1' /> <webctrl tag='a' idx='1' /> </column> <column exact='1' name='説明' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='2' /> </column> <column exact='1' name='豆知識' attr='text'> <webctrl tag='tr' /> <webctrl tag='td' idx='3' /> </column> </extract> データスクレイピングはどうやるの?(列名の見直し) 列名は、ここで見直せます!
  38. データスクレイピングはどうやるの?(列名の見直し) XMLエディター上で修正する事!

  39. データスクレイピングはどうやるの?(実行結果) 実行結果

  40. 実践! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

  41. CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/ ちゃんと求めるデータがあるか確認!

  42. CONNPASSから、開催イベント情報を取得してみる! https://rpacommunity.connpass.com/event/ 次ページがある!

  43. CONNPASSから、開催イベント情報を取得してみる! 第1要素選択 第2要素選択 前の章のようにやってみる!

  44. CONNPASSから、開催イベント情報を取得してみる! 次ページ選択 複数ページあるので、次ページ用ボタンを選択!

  45. CONNPASSから、開催イベント情報を取得してみる! "<webctrl aaname='次へ&gt;&gt;' parentid='contents' tag='A' />" 無指定時、30000ミリ秒なので、 100ミリ秒など小さい値を設定する アクティビティのプロパティを見てみましょう!

  46. CONNPASSから、開催イベント情報を取得してみる! 実行してみましょう! Column1,Column2 RPA勉強会!UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!~,https://rpacommunity.connpass.com/event/212426/ RPA勉強会!Power Automate Talk #11~実務で使えるフローを実演で紹介~,https://rpacommunity.connpass.com/event/212389/ RPA勉強会

    Automation Anywhere Talk vol.5~業務で使える基本テク~,https://rpacommunity.connpass.com/event/211416/ 【増席】RPA勉強&LT会!RPALT vol4 with Tech Night!@ソフトバンク,https://rpacommunity.connpass.com/event/94853/ 【増席】RPA勉強&LT会!RPALT vol3@ウイングアーク1st,https://rpacommunity.connpass.com/event/90549/ 【増席】RPA勉強&LT会!RPALT vol2@ウイングアーク1st,https://rpacommunity.connpass.com/event/84458/ 【増席】RPA勉強&LT会!RPALT vol1@Innovation Space DEJIMA,https://rpacommunity.connpass.com/event/80348/ RPA導入経験者が語る!RPAユーザー座談会(UiPath、Bizrobo、WinActor),https://rpacommunity.connpass.com/event/81227/ 取得結果(抜粋)
  47. レッツ! データスクレイピング! WA使いのとある方におねだりして、書いていただきました!

  48. • そのサイトのデータ、スクレイプなどしていいか、利用規 約を確認しよう! • 第1要素した時点で、表全体情報が取得できる場合がある! • 第1要素、第2要素の選択後、取得結果を見て確認しよう! • 列名は後で修正出来る! •

    データスクレイピングした結果は、変数 「ExtractDataTable」である ⇒複数回スクレイピングする場合、混用に注意!