Node.js 蟲蟲危機 - 手作你的第一個自動上網資料分析機器人！

[email protected] ⼿手作你的第⼀一個⾃自動上網資料分析機器⼈人！ Node.js 蟲蟲危機

[email protected] ./Bio • ⾺馬聖豪, aaaddress1 aka adr • Chroot, TDOH
• TDOHConf: 2016 議程組長 & 2017 活動組長 • 精通 C/C++、Windows 特性、逆向⼯工程 • Speaker: HITCON CMT 2015, CMT 2016 Lightning, CMT 2017 SITCON 2016, 2017 iThome#Chatbot 2017 BSidesLV 2016 ICNC'17 MC2015 CISC 2016 資訊安全基礎技術⼯工作坊資安實務攻防研習營⼤大.⼤大.⼤大..⼤大概啦

[email protected] Introduction 1. #murmur 2. HTTP (aka Hypertext Transfer Protocol)
3. Javascript & Node.js on Windows 4. Chrome, 網⾴頁封包分析練習 5. cheerio & request 6. 實戰練習 i. Yahoo 翻譯網路路請求發送 ii. PTT 熱⾨門看板列列舉 iii. PTT 爆卦爬蟲機器⼈人

[email protected] #murmur ٩(˃ ̶ ͈ ̀௰˂ ̶ ͈ ́)و╭(°A°`)╮∑(ﾟДﾟ)

[email protected]

[email protected] 先別被嚇哭！對，Javascript 很恐怖我知道，但今天不會講太深 :)

爬蟲？

網路路爬蟲啦！ https://zh.wikipedia.org/wiki/網路路爬蟲

[email protected] 比⽅方說當個 Google 認證的帥哥

[email protected] Funtime 機票比價網

[email protected] 各種奇怪搶票機s（複數+s）

[email protected] 所以... 它們怎麼做到這些⿇麻瓜辦不到的事？

[email protected] HTTP Hypertext Transfer Protocol

[email protected] 網⾴頁瀏覽器模擬⼀一般使⽤用者的瀏覽器⾏行行為去對伺服器收發 POST/GET 要求

[email protected] School Server POST /login HTTP/1.1  usr=adr&pass=handsome HTTP/1.1 200 OK
Set-Cookie: hello=world; … 網⾴頁瀏覽器

[email protected] HTTP/1.1 200 OK <p>hello world! adr<p> Cookie: hello=world; （⾝身份資訊）
網⾴頁瀏覽器 GET /index.php HTTP/1.1 Cookie: hello=world;

[email protected] HTTP/1.1 200 OK <p>hello world! adr<p> Cookie: hello=world; （⾝身份資訊）
網⾴頁瀏覽器 GET /index.php HTTP/1.1 Cookie: hello=world; 收到伺服器回應的網⾴頁原始碼，解析並更更新 UI 顯⽰示給使⽤用者

[email protected] 請求回應 Cookie:⾝身份辨識資訊; 網⾴頁瀏覽器

[email protected] Javascript Javascript & Node.js on Windows

Javascript 第⼀一次聽到嗎？事實上每個⼈人電腦都已經具備可以跑 Javascript 環境啦！

Javascript https://zh.wikipedia.org/wiki/JavaScript 「⋯⋯JavaScript，⼀一種⾼高階程式語⾔言，通過解釋執⾏行行，是⼀一⾨門動態型別，物件導向（基於原型）的直譯語⾔言。它已經由ECMA（歐洲電腦製造商協會）通過ECMAScript實現語⾔言的標準化[4]。它被世界上的絕⼤大多數網站所使⽤用，也被世界主流瀏覽器（Chrome、IE、 FireFox、Safari、Opera）⽀支援⋯⋯」

[email protected] Javascript

[email protected] Javascript 當那個彈出來來後⋯⋯對，我說偵錯介⾯面，你就可以輸入 Javascript 來來執⾏行行啦！

Node.js? https://zh.wikipedia.org/wiki/Node.js 「Node.js是⼀一個能夠在伺服器端運⾏行行JavaScript的開放原始碼、跨平台JavaScript 執⾏行行環境。Node.js由Node.js基⾦金金會持有和維護，並與Linux基⾦金金會有合作關係。 Node.js 採⽤用Google開發的V8執⾏行行程式碼，使⽤用事件驅動、非阻塞和非同步輸入輸出模型等技術來來提⾼高效能，可優化應⽤用程式的傳輸量量和規模。這些技術通常⽤用於資料密集的事實應⽤用程式。⋯⋯」

V8? https://zh.wikipedia.org/wiki/V8_(JavaScript引擎) 「V8是⼀一個由美國Google開發的開源JavaScript引擎，⽤用於Google Chrome及 Chromium中。Lars Bak是這個項⽬目的組長。」

[email protected] https://nodejs.org

[email protected] 提⽰示命令字元開始 > 執⾏行行... > cmd.exe

[email protected] 提⽰示命令字元 > node 這時候輸入 Javascript 指令如果有回應就代表安裝成功啦！

[email protected] hello.js@~\desktop\project\ 也可以把你想執⾏行行的 Javascript 程式碼存為 *.js 腳本

[email protected] hello.js@~\desktop\project\ 然後⽤用 Node <腳本路路徑> 使⽤用 Node.js 引擎執⾏行行腳本

[email protected] 封包分析練習⽤用 Chrome 瀏覽器內建的封包⼯工具分析網⾴頁封包

[email protected] 網⾴頁封包分析⼯工具網⾴頁任意處右鍵 > 檢查 > Network 分⾴頁

[email protected] 網⾴頁封包分析⼯工具記得將 Network 分⾴頁中的 Preserve log 選項勾選，當網⾴頁有多重跳轉的時候，封包才不會被洗掉 ╭(°A°`)╮

Exam 1 在 Yahoo 奇摩字典上輸入單字，並分析封包如何傳遞、使⽤用者的資料如何傳送出去 https://tw.dictionary.yahoo.com

[email protected] Exam 1

[email protected] Exam 1 你會發現每次打的字不同的時候，都會送出⼀一個新的封包到 https://tw.dictionary.yahoo.com/_td/api/resource?bkt=...（省略略）這是⽤用 POST 的⽅方式送出資料，資料如下： {"requests":{"g0": {"resource":"SpellCheck","operation":"read","params":
{"query":"ap"}}},"context":{"bkt":"","crumb":"LpDntKQ/ xn8","device":"desktop","intl":"tw","lang":"zh-Hant- TW","partner":"none","prid":"74b45q5d7emli","region":"US","site" :"all","tz":"Asia/Taipei","ver":"1.0.208"}}

[email protected] Exam 1 使⽤用者查詢的字詞被 POST 出去後，回應其他可能的關鍵單字（JSON 格式） {"g0": {"data":
{"gossip": { "qry": "ap", "gprid": "uwJS5P5mQveG7SvxZORrDA", "results": [ { "key": "ap", "mrk": 0 }, { "key": "app", "mrk": 0 }, { "key": "appreciate", "mrk": 0 } ...

[email protected] Exam 1 按「搜尋」後，會看到將使⽤用者欲查詢的單字送⾄至： https://tw.dictionary.yahoo.com/dictionary?p=<單字> 並回應 HTML 網⾴頁原始碼，這就是我們瀏覽器看到的⾴頁⾯面

[email protected] request ⽤用於發送網⾴頁封包的 Node.js 套件

[email protected] request ⼀一個超棒開源的套件，可以讓你發送網⾴頁封包變得超簡單超舒服！！

[email protected] $ npm install request 使⽤用命令提⽰示字元進入到專案的資料夾，下指令 npm install request
後， request 套件就會被安裝到這個專案資料夾上了了 :)

[email protected] 舉個 var request = require('request'); request('http://www.google.com', (error, response, body)
=> { console.log('error:', error); // Print the error if one occurred console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received console.log('body:', body); // Print the HTML for the Google homepage. });

Exam 2 試著⽤用 request 套件取得 PTT 熱⾨門看板的網⾴頁原始碼 https://www.ptt.cc/bbs/index.html

這時候你會發現⿇麻煩⼤大了了網⾴頁原始碼那麼⼤大⼀一坨，我要怎麼取得我想要的資訊？

[email protected] 怎麼取得網⾴頁指定內容？ 1. ⽂文字切割⼤大法 - 讚讚讚！刻苦耐勞，22K 有前途！ 2. ...

[email protected] 怎麼取得網⾴頁指定內容？ 1. ⽂文字切割⼤大法 - 讚讚讚！刻苦耐勞，22K 有前途！ 2. 正則表達式忍術 -
WoW！你也懂得⿊黑魔法！  下⼀一個接⼿手的⼯工程師會很痛苦啦 ( ･᷄ὢ･᷅ ) 3. ...

你以為我想教⿊黑魔法嗎？因為時間不夠，所以我們就不能教正則表達⿊黑魔法了了絕對不是因為我覺得教正則表達很⿇麻煩

[email protected] 怎麼取得網⾴頁指定內容？ 1. ⽂文字切割⼤大法 - 讚讚讚！刻苦耐勞，22K 有前途！ 2. 正則表達式忍術 -
WoW！你也懂得⿊黑魔法！ 3. cheerio - 你、我，聰明肥宅都愛⽤用的⾸首選！  （來來賓請掌聲⿎鼓勵⿎鼓勵）

[email protected] 讓我們談談 $ 吧你說錢錢嗎？不，我是說 JQuery 的 $。

[email protected] cheerio 有良好相容性、仿造 JQuery ⽅方式操作 DOM 物件的 Node.js 套件

[email protected] cheerio ⼀一樣超棒開源、超多⼈人維護、超穩定的 DOM 解析套件

[email protected] $ npm install cheerio 使⽤用命令提⽰示字元進入到專案的資料夾，下指令 npm install cheerio
後， cheerio 套件就會被安裝到這個專案資料夾上了了 :)

[email protected] 舉個 const cheerio = require('cheerio'); const $ = cheerio.load(
'<h2 class="title">Hello world</h2>' ); $('h2.title').text('Hello there!'); $('h2').addClass('welcome'); $.html(); //=> <h2 class="title welcome">Hello there!</h2>

[email protected] DOM 檢閱在 Chrome 裡⾯面我要怎麼確認指定 DOM 物件的元素資訊？

[email protected] DOM 檢閱我們剛剛⽤用 request 可以取得 PTT 熱⾨門看板的網⾴頁原始碼

[email protected] DOM 檢閱對著你想檢查的物件右鍵 > 檢查

[email protected] DOM 檢閱會發現它是⼀一個 tagName 為 a、 id 為 logo
的 DOM 物件

[email protected] cheerio + request 組・組・組，組合技！

[email protected] cheerio + request

Exam 3 試著⽤用 request 與 cheerio 套件取得 PTT 熱⾨門看板所有看板名稱與連結地址
• https://www.ptt.cc/bbs/index.html • https://github.com/cheeriojs/cheerio

[email protected] Exam 3 選取任意⼀一個看板，右鍵 > 檢查，會發現：

[email protected] Exam 3 a.board(href=看板網址) div.board-name 看板名稱 div.board-nuser 看板⼈人數(??? 不清楚) div.board-class
看板類型 div.board-title 看板標題

PTT 爆卦⽂文章爬蟲試著⽤用 request 與 cheerio 套件取得 PTT 前⼗十熱⾨門看板被列列為「爆」的⽂文章與網址
• https://www.ptt.cc/bbs/index.html • https://github.com/cheeriojs/cheerio

[email protected] PTT 爆卦⽂文章爬蟲先偷偷⽤用 Promise + async/await 把 request 調⽤用簡化⼀一下

[email protected] PTT 爆卦⽂文章爬蟲把熱⾨門看板列列出前⼗十筆的網址，丟給⾃自幹好的函數（listHotTopic）去處理理分析熱⾨門貼⽂文部分

[email protected] PTT 爆卦⽂文章爬蟲函數內只需要將每⼀一列列新的貼⽂文結構給列列舉出來來，記下網址與推數，如果推數顯⽰示為「爆」就打印出來來 :)

[email protected] [爆卦] 32⾏行行解決貼⽂文爬蟲！

[email protected] PTT 爆卦⽂文章爬蟲⾝身為狂熱鄉⺠民就可以即時追蹤到⼤大家在茶茶餘飯後什什麼啦！

*cheers* Thanks!

[email protected] Thanks! Facebook: ⾺馬聖豪 Twitter: @aaaddress1 Email: [email protected] PoC: github.com/aaaddress1/nodeSpiderExam

Node.js 蟲蟲危機 - 手作你的第一個自動上網資料分析機器人！

Node.js 蟲蟲危機 - 手作你的第一個自動上網資料分析機器人！

More Decks by adr

Other Decks in Technology

Featured

Transcript