발표자 소개 이준범 ( [email protected] ) DjangoGirls Seoul Organizer < 나만의 웹 크롤러> 블로그 연재 < 파이썬을 활용한 실전 웹크롤링 CAMP> 패스트캠퍼스 강의 Python + Django = <3 파이썬쓰세요 두번쓰세요 GDG Campus SummerParty: 쓸데많은 웹 크롤러 만들기 with Python 2
사용하는 도구 python v3.6 (CPython 을 사용합니다.) requests v2.18 HTTP Request beautifulsoup v4.6 HTML to Python Object lxml v3.8 HTML(XML) Parser selenium v3.5 Browser Control pip 로 설치하면 됩니다 pip install requests bs4 lxml selenium # 한번에 전부 설치하기 GDG Campus SummerParty: 쓸데많은 웹 크롤러 만들기 with Python 8
크롬을 넣으면 보통 잘 동작한다 import requests s = requests.Session() s.headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) '\ 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36' } 만약 내가 쓰는 브라우저의 속성을 알고싶다면: 구글에 My User Agent 검색 GDG Campus SummerParty: 쓸데많은 웹 크롤러 만들기 with Python 19
Selenium 써보기 from selenium import webdriver driver = webdriver.Chrome('/Users/ 사용자이름/Downloads/chromedriver') driver.implicitly_wait(3) driver.get('https://naver.com') # requests 의 .text( 소스보기) 와 다르게 브라우저의 Elements 탭과 동일한 DOM html = driver.text 브라우저에 렌더링된 DOM 구조와 동일 ( 화면에 나타나지 않는 것 ( 렌더링 되지 않은것) 은 가져올 수 없음) GDG Campus SummerParty: 쓸데많은 웹 크롤러 만들기 with Python 46