スクレイピングは茨の道/Scraping is a thorny road

2018年12月15日 kanazawa.rb meetup#76 εΫϨΠϐϯά͸ ҵͷಓ

!DPUUPO@EFTV ΏΔͬͱ;ΘͬͱอकΤϯδχΞ ׂ৽ن։ൃɾۀ຿վળ ׂอक ػೳ௥Ճɺػೳमਖ਼ɺόάमਖ਼ FUD

ΞδΣϯμ લճ-5ͷ͓͞Β͍ લճ-5ࣦഊ͔ΒֶͿ ιʔεͷमਖ਼ ݁࿦

લճ-5ͷ͓͞Β͍

1ZUIPO 4FMFOJVN #FBVUJGVM4PVQͰεΫϨΠϐϯά

εΫϨΠϐϯάͱ͸ʁ

εΫϨΠϐϯά w ΢ΣϒαΠτ͔Β৘ใΛநग़͢Δ ίϯϐϡʔλιϑτ΢ΣΞٕज़ w ݴޠ͸1FSMɺ1ZUIPOɺ3VCZɺ+BWB4DSJQUͰ ϥΠϒϥϦ͋Γ

શମͷߏ੒ਤ

શମͷߏ੒ਤ ϑΥϧμ EJSFOW WFOW QZϑΝΠϧ 4FMFOJVN XFCESJWFS ϩάΠϯϖʔδ $ISPNF

%FNP͕՚ྷʹ Τϥʔ

લճ-5ࣦഊ͔ΒֶͿ

ίʔυ֬ೝ

class main(): options = Options() # ChromeͷύεʢStableνϟωϧͰ--headless͕࢖͑ΔΑ͏ʹͳͬͨΒෆཁͳ͸ͣʣ options.binary_location = '/Applications/Google
Chrome.app/Contents/MacOS/Google Chrome' # ϔουϨεϞʔυΛ༗ޮʹ͢Δʢ࣍ͷߦΛίϝϯτΞ΢τ͢Δͱը໘͕දࣔ͞ΕΔʣɻ options.add_argument('--headless') # ChromeͷWebDriverΦϒδΣΫτΛ࡞੒͢Δɻ driver = webdriver.Chrome( os.environ["CHROMEDRIVER"], chrome_options=options) # ϩάΠϯαΠτURL driver.get(os.environ["URL"]) # ϩάΠϯID driver.find_element_by_xpath( "//div[@class='sub-content']/dl/dd/div/input").send_keys( os.environ["LOGIN_USER_ID"]) # ϩάΠϯύεϫʔυ username = driver.find_element_by_xpath( "//div[@class='sub-content']/dl/dd[2]/div/input").send_keys( os.environ["LOGIN_USER_PASS"]) # ϩάΠϯϘλϯԡԼ driver.find_element_by_name("login").click() # ޱ࠲؅ཧʹભҠ driver.find_element_by_xpath(“//div[@id='link']/ul/li[10]").click() html = driver.page_source soup = BeautifulSoup(html, 'html.parser')

# อ༗ޱ਺ɺऔಘ୯Ձɺऔಘ୯ՁɺධՁଛӹͷऔಘ item_name = ['อ༗ޱ਺ɹɹ |', 'औಘ୯Ձɹɹ |', 'ج४Ձֹɹɹ |',
'ධՁଛӹɹɹ |'] # ౤ࢿ৴ୗ໊ͷऔಘ investmentname = [] investments = soup.find_all('td', class_='mbody', colspan="3") for investment in investments: investmentname.append(investment.a.text) inves_num = 0 row_num = 0 various_values = soup.find_all('tr', bgcolor='#eaf4e8', align="right") for various_value in various_values: # ౤ࢿ৴ୗ໊ͷදࣔ print(investmentname[inves_num]) # อ༗ޱ਺ͷදࣔ print(item_name[row_num], various_value.td.text) for other in various_value.td.find_next_siblings("td"): row_num = row_num + 1 # อ༗ޱ਺Ҏ֎ͷදࣔ print(item_name[row_num], other.text) row_num = 0 inves_num = inves_num + 1 # શͯͷΫοΩʔΛ࡟আ driver.delete_all_cookies() driver.quit() if __name__ == "__main__": main()

໰୊఺

ҟৗऴྃ࣌ʹϓϩηε ͕࢒Γଓ͚Δ ϔουϨεϒϥ΢βͷͨΊΘ͔Γʹ͍͘

ղܾࡦ

ҟৗऴྃ࣌Ͱ΋ϓϩηε Λऴྃͤ͞Δඞཁ͕͋Δ

ιʔεͷमਖ਼

class main(): try: options = Options() # ChromeͷύεʢStableνϟωϧͰ--headless͕࢖͑ΔΑ͏ʹͳͬͨΒෆཁͳ͸ͣʣ options.binary_location =
'/Applications/Google Chrome.app/Contents/MacOS/Google Chrome' # ϔουϨεϞʔυΛ༗ޮʹ͢Δʢ࣍ͷߦΛίϝϯτΞ΢τ͢Δͱը໘͕දࣔ͞ΕΔʣɻ options.add_argument('--headless') # ChromeͷWebDriverΦϒδΣΫτΛ࡞੒͢Δɻ driver = webdriver.Chrome( os.environ["CHROMEDRIVER"], chrome_options=options) # ϩάΠϯαΠτURL driver.get(os.environ["URL"]) # ϩάΠϯID driver.find_element_by_xpath( "//div[@class='sub-content']/dl/dd/div/input").send_keys( os.environ["LOGIN_USER_ID"]) # ϩάΠϯύεϫʔυ username = driver.find_element_by_xpath( "//div[@class='sub-content']/dl/dd[2]/div/input").send_keys( os.environ["LOGIN_USER_PASS"]) # ϩάΠϯϘλϯԡԼ driver.find_element_by_name("login").click() # ޱ࠲؅ཧʹભҠ driver.find_element_by_xpath(“//div[@id='link']/ul/li[10]").click() html = driver.page_source soup = BeautifulSoup(html, 'html.parser') मਖ਼Օॴ͸੺࿮

# อ༗ޱ਺ɺऔಘ୯Ձɺऔಘ୯ՁɺධՁଛӹͷऔಘ item_name = ['อ༗ޱ਺ɹɹ |', 'औಘ୯Ձɹɹ |', 'ج४Ձֹɹɹ |',
'ධՁଛӹɹɹ |'] # ౤ࢿ৴ୗ໊ͷऔಘ investmentname = [] investments = soup.find_all('td', class_='mbody', colspan="3") for investment in investments: investmentname.append(investment.a.text) inves_num = 0 row_num = 0 various_values = soup.find_all('tr', bgcolor='#eaf4e8', align="right") for various_value in various_values: # ౤ࢿ৴ୗ໊ͷදࣔ print(investmentname[inves_num]) # อ༗ޱ਺ͷදࣔ print(item_name[row_num], various_value.td.text) for other in various_value.td.find_next_siblings("td"): row_num = row_num + 1 # อ༗ޱ਺Ҏ֎ͷදࣔ print(item_name[row_num], other.text) row_num = 0 inves_num = inves_num + 1 except NoSuchElementException as e: print("seleniumͷૢ࡞தʹΤϥʔ͕ൃੜ͠·ͨ͠ɻ") traceback.print_exc() finally: # શͯͷΫοΩʔΛ࡟আ driver.delete_all_cookies() driver.quit() if __name__ == "__main__": main() मਖ਼Օॴ͸੺࿮

݁࿦ w εΫϨΠϐϯά͸ඞͣ੒ޭ͢Δͱ͸ݶΒͳ͍ w ྫ֎ॲཧ USZFYDFQUpOBMMZ ͕ඞཁ w ͍ͭͰ΋ਖ਼ৗऴྃͤ͞Δॲཧ͕ඞཁ

スクレイピングは茨の道/Scraping is a thorny road

スクレイピングは茨の道/Scraping is a thorny road

cottondesu

More Decks by cottondesu

Other Decks in Programming

Featured

Transcript

2018年12月15日 kanazawa.rb meetup#76 εΫϨΠϐϯά͸ ҵͷಓ

!DPUUPO@EFTV ΏΔͬͱ;ΘͬͱอकΤϯδχΞ ׂ৽ن։ൃɾۀ຿վળ ׂอक ػೳ௥Ճɺػೳमਖ਼ɺόάमਖ਼ FUD

ΞδΣϯμ લճ-5ͷ͓͞Β͍ લճ-5ࣦഊ͔ΒֶͿ ιʔεͷमਖ਼ ݁࿦

લճ-5ͷ͓͞Β͍

1ZUIPO 4FMFOJVN #FBVUJGVM4PVQͰεΫϨΠϐϯά

εΫϨΠϐϯάͱ͸ʁ

εΫϨΠϐϯά w ΢ΣϒαΠτ͔Β৘ใΛநग़͢Δ ίϯϐϡʔλιϑτ΢ΣΞٕज़ w ݴޠ͸1FSMɺ1ZUIPOɺ3VCZɺ+BWB4DSJQUͰ ϥΠϒϥϦ͋Γ

શମͷߏ੒ਤ

શମͷߏ੒ਤ ϑΥϧμ EJSFOW WFOW QZϑΝΠϧ 4FMFOJVN XFCESJWFS ϩάΠϯϖʔδ $ISPNF

%FNP͕՚ྷʹ Τϥʔ

લճ-5ࣦഊ͔ΒֶͿ

ίʔυ֬ೝ

class main(): options = Options() # ChromeͷύεʢStableνϟωϧͰ--headless͕࢖͑ΔΑ͏ʹͳͬͨΒෆཁͳ͸ͣʣ options.binary_location = '/Applications/Google

# อ༗ޱ਺ɺऔಘ୯Ձɺऔಘ୯ՁɺධՁଛӹͷऔಘ item_name = ['อ༗ޱ਺ɹɹ |', 'औಘ୯Ձɹɹ |', 'ج४Ձֹɹɹ |',

໰୊఺

ҟৗऴྃ࣌ʹϓϩηε ͕࢒Γଓ͚Δ ϔουϨεϒϥ΢βͷͨΊΘ͔Γʹ͍͘

ղܾࡦ

ҟৗऴྃ࣌Ͱ΋ϓϩηε Λऴྃͤ͞Δඞཁ͕͋Δ

ιʔεͷमਖ਼

class main(): try: options = Options() # ChromeͷύεʢStableνϟωϧͰ--headless͕࢖͑ΔΑ͏ʹͳͬͨΒෆཁͳ͸ͣʣ options.binary_location =

# อ༗ޱ਺ɺऔಘ୯Ձɺऔಘ୯ՁɺධՁଛӹͷऔಘ item_name = ['อ༗ޱ਺ɹɹ |', 'औಘ୯Ձɹɹ |', 'ج४Ձֹɹɹ |',

݁࿦

݁࿦ w εΫϨΠϐϯά͸ඞͣ੒ޭ͢Δͱ͸ݶΒͳ͍ w ྫ֎ॲཧ USZFYDFQUpOBMMZ ͕ඞཁ w ͍ͭͰ΋ਖ਼ৗऴྃͤ͞Δॲཧ͕ඞཁ