Slide 1

Slide 1 text

黑特東華在黑特什麼? 網路、社會與文字探勘實務 游騰林 | TENG-LIN YU 2022-11-24

Slide 2

Slide 2 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 校長 接到 教育部 的指示 請學校要改善學生對學校的滿意度 2 2022.11.24 今天先假設學生的滿意度是學校、系所評鑒考核的重要指標>”<

Slide 3

Slide 3 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 身為 社會調查師 的你, 可以怎麼提供學校方向和建議? 3

Slide 4

Slide 4 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 黑特東華 在 黑特 東華 什麼? 4 (N.) (V.) (N.)

Slide 5

Slide 5 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分析目的 1. 黑特東華在黑特哪些事情? • 通過數據技術來對貼文自動分群(取代傳統的人工逐一檢視&歸類) 2. 不同議題的黑特文各自有多少數量? • 透過數量來評估問題的重要性 3. 收斂分析洞察和建議 • 將分析結果回饋給學校作為管理建議 5

Slide 6

Slide 6 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 游騰林 國泰世華銀行 | 數據部 | 資料科學分析師 Facebook: https://www.facebook.com/tlyu0419 SD: https://speakerdeck.com/tlyu0419 Github: https://github.com/TLYu0419/ 6

Slide 7

Slide 7 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 7 Join at Slido.com #2369429

Slide 8

Slide 8 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 8

Slide 9

Slide 9 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 資料介紹 • 黑特東華分析專頁 • 15K likes • 16K followers • 11,000+ posts • 黑特東華 NDHU Hate | Facebook • 來自各方的黑特文 • 教、職、員、工、生、店家 • 可以將黑特文視為客訴, 天生就適合用來找出學校的問題 9 在實際的工作中, 一項重大客訴的處理成本要高達 3,000 元

Slide 10

Slide 10 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 資料收集方式 10 • Github: TLYu0419/facebook_crawler • Publish Date: 2021-06-14 • Stars: 205 / Forks: 43 簡單 高效 免登入

Slide 11

Slide 11 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 資料內容 總共 11,468 則貼文,資料時間範圍: 2014 ~ 欄位說明: • NAME: 粉絲專頁名稱 • POSTID: 貼文ID • TIME: 貼文時間 • MESSAGE: 貼文內容 • REACTIONCOUNT: 總互動數(LIKE, HAHA,WOW…) • COMENTCOUNT: 留言數 • SHARECOUNT: 分享數 • LIKE, HAHA, WOW, SAD, LOVE, CARE: 各種情緒的數量 11

Slide 12

Slide 12 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 探索性資料分析(EDA) 12 EDA的目的是 幫助分析者和讀者更加了解你的資料

Slide 13

Slide 13 text

13 LIKE Comment LOVE SAD SHARE WOW HAHA CARE

Slide 14

Slide 14 text

14 LIKE Comment LOVE SAD SHARE WOW HAHA CARE

Slide 15

Slide 15 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 文字雲(不分類) • 將黑特東華上的所有貼文 做 斷詞 後,根據出現次數 設定為詞的大小,藉此繪 製出的文字雲 15 如果未預先對文本進行分群/分類, 繪製出的文字雲將沒有任何意義! (也看不出個所以然)

Slide 16

Slide 16 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 斷詞 (前面省略) … 不如 / 買 / 一兩台 / 救護車 / 然後 / 設個 / 24hr / 救護站 / 讓 / 喜歡 / 在 / 外環 / 飆車 / 出 / 車禍 / 的 / 可以 / 得到 / 即時 / 的 / 救護 / 即便 / 手腳 / 截肢 / 都要 / 讓 / 飆車 / 的 / 活下來 / 讓 / 他 / 享受 / 生命 / 的 / 價值 16 斷詞是為了將非結構化資料轉為結構化資料的方式 通過 統計、模型或領域知識都能幫忙提升斷詞的效果 範例貼文

Slide 17

Slide 17 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 斷詞 – 範例 17 來 東 華 就 是 要 到 東 華 牛 排 吃 牛 排 將 東華牛排 當成一個詞 將 東華 和 牛排 當成兩個詞 東華, 牛排 和 東華牛排 分別都指涉了截然不同的意義 將文本適當的斷詞能減少許多後續分析的困難度

Slide 18

Slide 18 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 找出文本中的代表關鍵詞 18 小量的樣本可以用人工的方式挑關鍵詞 文本數量較多時則需要通過演算法來處理

Slide 19

Slide 19 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 找出文本中的代表關鍵詞 – 範例 19 斷詞結果 [ 這是 / 早上 / 五點 / 整個 / 外環 / 一盞 / 路 燈 / 都沒有 / 可能 / 會有 / 人 / 說 / 照片 / 可 能 / 看起來 / 很亮 / 但 / 真的 / 是 / 爆幹 / 黑 / 的 / 不知道 / 這 / 到底是 / 什麼 / 心態 / 反 正 / 路上 / 都沒 / 車就 / 關燈 / 省電 / 反正 / 出事 / 了 / 就 / 先 / 檢討 / 被害人 / 一定是 / 自己 / 不注意 / 一定是 / 自己 / 不檢點 / 反 正 / 都不會 / 是 / 你 / 的 / 錯]

Slide 20

Slide 20 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 找出文本中的代表關鍵詞 – 範例 20 [ 這是 / 早上 / 五點 / 整個 / 外環 / 一盞 / 路 燈 / 都沒有 / 可能 / 會有 / 人 / 說 / 照片 / 可 能 / 看起來 / 很亮 / 但 / 真的 / 是 / 爆幹 / 黑 / 的 / 不知道 / 這 / 到底是 / 什麼 / 心態 / 反 正 / 路上 / 都沒 / 車就 / 關燈 / 省電 / 反正 / 出事 / 了 / 就 / 先 / 檢討 / 被害人 / 一定是 / 自己 / 不注意 / 一定是 / 自己 / 不檢點 / 反 正 / 都不會 / 是 / 你 / 的 / 錯] 斷詞結果 TF-IDF 結果 [ 出事 / 五點 / 路燈 / 心態 / 檢討 / 都不會 / 黑 / 錯 / 看起來 / 都沒]

Slide 21

Slide 21 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 階段性流程回顧 21 • 步驟1: 斷詞 • 新增 SEG_MESSAGE 欄位 • 步驟2:找出代表關鍵詞 • 新增 TFIDF_KWS 欄位 • 步驟3: 抽取文本向量 • 新增 DOC_VECTORS • 步驟4: 分群模型 • 新增 CLUSTER 欄位

Slide 22

Slide 22 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 22

Slide 23

Slide 23 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 文本轉向量 23 [-1.27, -3.76, … , 0.05, -0.57] [深夜在校園遇到…] [ 0.08, -1.25, … , -5.52 , 0.13] [這是一個真實的…] [ 0.57, 0.17, … , -0.63, 0.03] [就在今天我在…] [ 0.21, 0.91, … , -0.14 ,0.22] [……] 語言模型 11,468 則貼文 文本特徵 [-1.27, -3.76, … , 0.05, -0.57] [ 0.08, -1.25, … , -5.52 , 0.13] [ 0.57, 0.17, … , -0.63, 0.03] [ 0.21, 0.91, … , -0.14 ,0.22]

Slide 24

Slide 24 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 透過文本向量進行分群 24 此處以 2 維空間示意 (在這個分析案中用了 512 維) 分群流程說明 1. 透過轉換後的文本向量進行分群 1. 想像不同的文本是不同的人,X 和 Y 軸分別 代表身高和體重 2. 我們可以將人依據身材分成不同的群 2. 跑分群模型,測試不同分群數時的效度 3. 解析分群的結果與意義 問題的關鍵在於轉換出的文本向量好不好 理論上語義相近的文本的距離要接近,反之較遠

Slide 25

Slide 25 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 所以具體要怎麼將文本轉向量? 25 對於社會系的學生來說下面的流程會有些陌生 先把注意力放在各階段的產出即可

Slide 26

Slide 26 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 早期的方式(2013) : 詞向量模型 • 以詞的共現關係來訓練模型 • Cbow • Skip-gram • 取得詞向量 • 經過模型訓練後,可以將每個詞 轉換為 K 維的數值 • 後續應用 • 以詞向量取代詞本身進行分析 26 Ref: 通俗易懂理解——Skip-gram和CBOW算法原理 通常會將 K 值設定在100 - 400維 具體會再根據文本數量、複雜度調整 詞向量的訓練方式 – window size = 1

Slide 27

Slide 27 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 早期的方式(2013): 詞向量模型 – 範例 • 這是 word2vec 模型 通過 黑特東華 11,000 則貼文後,學習到的詞向量 • 取得各個詞之後我們就能計算不同詞之 間的距離,並通過距離還衡量兩兩間的 相似度 • 詞向量的結果會跟主觀經驗有一些落差,因 為模型能學習的資料僅限於這些貼文 • 然而即使是人,在評估不同詞之間的相似度 其實也會存在落差 27

Slide 28

Slide 28 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 近期的方式(2020): 🤗 Transformers • Hugging Face (github.com) • Hugging Face 官宣 1亿美元C轮 融资,估值20亿美元 28 Ref: Transformers: State-of-the-Art Natural Language Processing

Slide 29

Slide 29 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Sentence-Transformer 使用方式 1. 安裝套件 2. 載入模型 3. 將文本轉向量 29 Ref: Sentence-Transformer的使用及fine-tune教程 Sentences 即是我們抓取的貼文,將其放入 Sentence-Transformer 的模型抽取文本的向量

Slide 30

Slide 30 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 抽取文本向量 30 以簡化的 2 維空間示意 經過 Sentence-Transformer 將貼文都轉成向量 後面就能再接分群模型對文本做分群 [-1.27, -3.76, … , 0.05, -0.57] [ 0.08, -1.25, … , -5.52 , 0.13] [ 0.57, 0.17, … , -0.63, 0.03] [ 0.21, 0.91, … , -0.14 ,0.22]

Slide 31

Slide 31 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分群模型 • Kmeans 分群演算法 1. 決定要將資料分為 k 群 2. 隨機初始化 k 個點在資料空間的位置 3. 計算每個樣本最靠近哪個k點 4. 計算群中心,並更新 k 的點的位置 5. 反覆做 3 – 4 的步驟直到收斂 31 Kmeans 分群迭代過程 但是問題的關鍵在於 k 值如何決定?

Slide 32

Slide 32 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分群模型 – 如何決定分群組數 • 如何決定合適的分群組數 • By 統計指標 • Elbow • Silhouette • Gap statistic • By 領域知識 • 分群組數沒有絕對的對或錯 • 顆粒度粗: 模型可能會說有一群貼文都在討論學生宿舍的議題 • 顆粒度細: 模型可能會再將宿舍議題拆分成 宿舍的環境 的問題、宿舍的安寧等等的問題 32 Ref: 2.3. Clustering — scikit-learn 1.1.2 documentation 分群的顆粒度太粗會看不出東西, 分的太細也會增加後續分析的工作量,喪失分群的目的 Elbow point

Slide 33

Slide 33 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 整體流程回顧 • 步驟1: 斷詞 • 新增 SEG_MESSAGE 欄位 • 步驟2:找出代表關鍵詞 • 新增 TFIDF_KWS 欄位 • 步驟3: 抽取文本向量 • 新增 DOC_VECTORS • 步驟4: 分群模型 • 新增 CLUSTER 欄位 33

Slide 34

Slide 34 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 34

Slide 35

Slide 35 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 各分群貼文數的長條圖 • 在這次的分析中我共分了 40 群,X軸是不同的分群結果,Y軸為數量 • 如下圖的觀察,有些議題的貼文數較多,有些議題則較少 35

Slide 36

Slide 36 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分群與時間的熱力圖 36

Slide 37

Slide 37 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 黑特議題 37 交通安全 1,383 則貼文 宿舍環境 983 則貼文 性別問題 451 則 我先挑出幾個數量較多的議題做討論, 後面還有其他許多類型但數量相對較少的貼文

Slide 38

Slide 38 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 東華大學的組成成員 38 學校一/二級主管 1 2 2 3 學生 家長 店家/房東 其實還有 畢業校友 / 地方居民…等等不同角色 稍後要請大家切換到不同身份來想事情 • 校長 / 學務長 / 教務長 / 學院院長 • 各系所主管/教授 • 行政單位員工 • 各系所學 / 碩 / 博士班學生 • 學生家長 • 校內外餐飲店家 • 校外房東

Slide 39

Slide 39 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 交通安全 • 交通安全的子議題 • 增設教學區停車場 • 麵包坡 • 機車進內環 • 區間測速 • 背後的關係人與關心的事情 • 學校&家長: 校園安全 • 學生: 交通便利 39 Cluster Num: 19, 30, 37, 16, 21

Slide 40

Slide 40 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 增設教學區停車場 40 停車場離教學區真的太遠了>”<

Slide 41

Slide 41 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 麵包坡 41 • 學生要的是能討論的空間, 不要被轉來轉去最後不了了之 • 但學生也要思考 有沒有將意見傳遞給正確的人

Slide 42

Slide 42 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 機車進內環(反對意見) 42 • 車速過快 • 空氣污染 • 噪音 • 停車空間 • 機車人口量大

Slide 43

Slide 43 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 機車進內環(支持意見) 43 • 公平性的角度出發 • 懲罰到遵守規則的同學 (不超速、不違規、沒噪音)

Slide 44

Slide 44 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 區間測速 44 • 為了確保交通安全,學校裝設區間測速有其必要性 • 但是學校可以邀請學生一起討論要設定多少來當速度的上限 • 另外也要公平執法,不能只抓特定族群(學生)

Slide 45

Slide 45 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 宿舍環境 45 • 宿舍安全的子議題 • 垃圾分類 • 公共衛生 • 生活習慣 • 背後的關係人與關心的事情 • 學校: 垃圾分類&回收 • 學生: 室友作息不要和自己有太大的落差 Cluster Num: 3, 9, 22, 28

Slide 46

Slide 46 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 垃圾分類 46 從以前的垃圾子母車,到後來轉為垃圾車 丟垃圾流程的轉換其實背後都有一些原因和故事

Slide 47

Slide 47 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 公共衛生 47 宿舍的環境要靠大家一起維持

Slide 48

Slide 48 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 生活習慣 48 有沒有機會在抽宿舍的系統中預先做調查 依照玩遊戲、早睡、講電話的需求分宿舍(?

Slide 49

Slide 49 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 性別問題 49 • 性別問題的子議題 • 分手 • 性騷擾 • 背後的關係人與關心的事情 • 學校: 不要有性騷擾的事件 (含老師和學生) • 學生: 感情問題 Cluster Num: 27, 29

Slide 50

Slide 50 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分手 50 基於許多原因 95% 的大學情侶都不會走到最後 在一起時認真對待另一半,分手後也不用覺得遺憾或受傷

Slide 51

Slide 51 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 性騷擾 51 尊重不同性別的同學, 不論是在學校或線上都不要開不適當的玩笑

Slide 52

Slide 52 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 52

Slide 53

Slide 53 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分群總覽(1/2) 53 分群0 分群1 分群2 分群3 分群4 分群5 分群6 分群7 分群8 分群9 分群10 分群11 分群12 分群13 分群14 分群15 分群16 分群17 分群18 分群19

Slide 54

Slide 54 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 分群總覽(2/2) 54 分群20 分群21 分群22 分群23 分群24 分群25 分群26 分群27 分群28 分群29 分群30 分群31 分群32 分群33 分群34 分群35 分群36 分群37 分群38 分群39

Slide 55

Slide 55 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 資料內容 55 歡迎同學來信索取這份資料(進行分析/期末報告) 一起幫學校找出問題&想解決方案

Slide 56

Slide 56 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 56

Slide 57

Slide 57 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 總結 • 實務面 • 除了傳統的問卷調查,網路上也有許多資料能用來幫我們分析、理解問題 • 文本分析的技術除了能幫我們了解有哪些問題外,還能跟我們說問題有多少數量(評估重要性) • 傳統會用人逐一檢視貼文,理解內容後再進行分類,但缺點是會花費大量時間, 而資料科學的方法則是反過來,先將文本根據相似度進行分群,接著再理解群的內容 • 這樣的分析方法可以帶到以後的工作上,如用來分析客訴、公文、新聞…等等 • 社會學面 • 社會學的學生應該要能夠看到問題背後的問題,不能只有看到表面的問題 • 特別是要多從結構、家庭、階層、制度、角色等等不同的角度去思考問題以及解決方案 • 要有改變社會、制度的企圖心,多問自己為什麼會這樣,以及(我)做些什麼會不會更好 57

Slide 58

Slide 58 text

游騰林 TENG-LIN YU | Mail: [email protected] 黑特東華在黑特什麼? 網路、社會與文字探勘實務 Outline • 分析目的 • 資料介紹 • 分析方法 • 分析發現 • 分群總覽 • 總結 • 程式 Demo 58