游騰林 TENG-LIN YU | Mail:
[email protected]
NCCU - 資料視覺化工作坊
為什麼網路爬蟲程式很容易失效?
• 公司出於優化網站體驗的目的對網站做改版/更新,導致爬蟲程式定位失敗
• 公司新增反爬蟲機制來阻擋爬蟲程式抓取資料
• 資料本身是公司的寶貴資產(?)
• 爬蟲程式帶來無效的網路流量,無法幫公司帶來產品/廣告收益
• 消耗的網路流量會影響其他用戶的瀏覽體驗(變慢)
• 典型的反爬蟲機制
• ex: header, captcha, IP, 帳號, referer, cookie, … 等等
• 雖然有大神熱心開源網路爬蟲程式,但通常只會在短時間內有效!
(就像我們目前遇到的狀況!)
• 爬蟲界名言: 開發一時爽,維護火葬場
• 因此也衍生出許多專門幫公司爬資料的產業/工作
8
有開源專案很便利沒錯,但自身還是
但自己還是得具備資料工程的能力來應對突發狀況!