在不同的網站上都有珍貴的資料,但人工去將網站中資料一筆一筆的複製下來相當麻煩、甚至是有些資料是對方不願意開 API 出來給開發者使用,但你想使用對吧?
此場議程將會為各位介紹爬蟲技術入門:當各位使用瀏覽器連上一個網站時,是如何運作的,並使用封包相關分析工具,分析一個網站的運作。最後將以 Javascript 基於 Node.js,介紹如何撰寫簡單的 Javascript 自動化模擬瀏覽器的瀏覽行為、並使用現有的套件來將網站中想要的資料撈下來保存到本地端。
議程內包含網頁請求封包分析、Node.js 封包分析、Yahoo翻譯請求自動發送、PTT自動爬站爬蟲撰寫開發之開發基礎練習。課堂示範練習題目公布於 Github 上,請參閱至 https://github.com/aaaddress1/nodeSpiderExam