Upgrade to Pro — share decks privately, control downloads, hide ads and more …

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

tlyu0419
December 13, 2024
5

網路爬蟲與文字探勘 證券公司 App 評論分析的資料科學旅程

App 的使用體驗是各間金融公司在進行數位轉型時的一項重要環節,直接影響到客戶對於企業的忠誠度與公司營收。然而要透過數據驅動的力量來分析使用體驗卻不是件容易的事
雖然 Google Play/Apple Store 的應用程式市集已經提供 APP 的滿意度分數了,而滿意度卻過度的簡化了使用體驗背後所包含的訊息,也無法直接提供對 APP 的優化建議
在這次的課程中我們將以台灣前 10 大證券公司的 APP 評論資料為例,嘗試運用網路爬蟲的技術蒐集 Google Play APP 的評論資料,並藉由文字探勘的技術進行分析,嘗試提供公司具有商業意義的分析洞察與建議

tlyu0419

December 13, 2024
Tweet

Transcript

  1. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 •

    App 的使用體驗是各間金融公司在進行數位轉型時的一項重 要環節,直接影響到客戶對於企業的忠誠度與公司營收。然 而要透過數據驅動的力量來分析使用體驗卻不是件容易的事 • 雖然 Google Play/Apple Store 的應用程式市集已經提供 APP 的滿意度分數了,而滿意度卻過度的簡化了使用體驗背 後所包含的訊息,也無法直接提供對 APP 的優化建議 • 在這次的課程中我們將以台灣前 10 大證券公司的 APP 評論 資料為例,嘗試運用網路爬蟲的技術蒐集 Google Play APP 的評論資料,並藉由文字探勘的技術進行分析,嘗試提供公 司具有商業意義的分析洞察與建議 大葉大學 管理學院 文字探勘課程 December 7, 2024 網路爬蟲與文字探勘: 證券公司 App 評論分析的資料科學旅程 #Python #網路爬蟲 #數位金融 游騰林(tlyu0419) 目前在 富邦證券 擔任資料科學家,先後在電信業 和金融業服務,有超過 8 年的數據分析、機器/深度 學習模型的實務經驗 喜歡透過資料科學技術動手解決現實世界中的問題, 閒暇之餘也會在各大技術年會分享實踐經驗與心得 心中理想的工作形態是擔任顧問,透過分享資料科學 的專案經驗與技術,協助企業提升經營成效 #文字探勘
  2. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 2
  3. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 議題擬定

    3 最近公司(富邦證券)的市佔率有下降的趨 勢,請數據部門幫忙分析可能的原因,並 根據分析發現提供公司一些經營建議
  4. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 資料來源

    • 公司內部資料 • 客戶進線客服中心的進線記錄 • 客戶的開戶資料 • 客戶的下委託/成交的交易記錄 • 各個營業系統 • 外部資料 • Google Play / Apple Store • PTT / Dcard • Youtube • Facebook / Instgram • 股票爆料同樂會 • 台灣證券交易所 • … 4 透過 SQL 指令 至公司資料庫 撈取&分析資料 開發網路爬蟲程式 至指定的網站收集資料
  5. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 外部資料

    – Google Play 網站 5 元大證券 凱基證券 富邦證券 永豐金證券 國泰證券 元富證券 群益證券 華南永昌 統一證券 兆豐證券 台灣前 10 大證券商
  6. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲的開源套件 6 Ref: JoMingyu/google-play-scraper Github 上開源的 google play 爬蟲專案 獲得高達 772 的 Star 和 212 個 Fork 應該能快速安裝&抓到需要的資料吧?
  7. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play Scraper 的使用結果 7 明明寫 5,840 則評論 怎麼會只有 43 筆資料? 怎麼可能只有43筆資料!
  8. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 為什麼網路爬蟲程式很容易失效?

    • 公司出於優化網站體驗的目的對網站做改版/更新,導致爬蟲程式定位失敗 • 公司新增反爬蟲機制來阻擋爬蟲程式抓取資料 • 資料本身是公司的寶貴資產(?) • 爬蟲程式帶來無效的網路流量,無法幫公司帶來產品/廣告收益 • 消耗的網路流量會影響其他用戶的瀏覽體驗(變慢) • 典型的反爬蟲機制 • ex: header, captcha, IP, 帳號, referer, cookie, … 等等 • 雖然有大神熱心開源網路爬蟲程式,但通常只會在短時間內有效! (就像我們目前遇到的狀況!) • 爬蟲界名言: 開發一時爽,維護火葬場 • 因此也衍生出許多專門幫公司爬資料的產業/工作 8 有開源專案很便利沒錯,但自身還是 但自己還是得具備資料工程的能力來應對突發狀況!
  9. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 什麼是網路爬蟲?

    9 電腦/手機 瀏覽器 目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁
  10. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 什麼是網路爬蟲?

    10 電腦/手機 瀏覽器 目標網站 2 3 1. 跟目標網站說需要什麼資料 1 2. 目標網站回傳請求的資料(程式碼) 3. 透過瀏覽器將程式碼轉為漂亮的網頁 網路爬蟲就是將 1 和 2 的工作從人工操作 改由透過程式來自動收集資料,減少人力成本!
  11. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 風險管理 11 企業倒閉會導致公司放款的損失, 透過網路爬蟲能自動收集企業的(負面)新聞 在第一時間控制風險,避免損失擴大! 大同染整公司宣佈於 10/29 倒閉 實際上早已於 9/10 就陸續傳出負面
  12. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 投資 12 投資人會透過股票的交易量/金額走勢來計算技術指標 找出有利可圖的投資標的。透過網路爬蟲能自動、大 規模的收集上市櫃股票資訊,提升獲利的機會
  13. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的應用場景

    – 網路評論 13 公司 APP 中功能繁雜,在進行版本更新時 難免會出現異常狀況,影響客戶正常使用 透過網路爬蟲程式可以即時收集客戶反饋 的問題,並提供給資訊部門進行程式優化/除錯 希望增加新功能 無法登入APP 反饋APP 不好用
  14. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲的進行方式

    14 1 輸入要去的網站的網址,如聯合新聞的網站 2 取得聯合新聞網的網站資料 平常查資料是跟瀏覽器說需要哪個網址的資料 在 Python 中也是同樣的邏輯,先跟 Python 說要 去哪個網站,後面再設法剖析取得的資料
  15. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    • 案例1: 聯合新聞網新聞 • 練習目標: 設定要爬取資料的目標 • 練習目標: 利用開發者工具定位資料 • 練習目標: 透過 Python 發送請求和剖析資料 • 案例2: 股票爆料同樂會 • 練習目標: 觀察網站架構 • 練習目標: 透過開發者工具檢索資料 • 練習目標: 透過 Python 請求多則資料 • 案例3: Google Play • 練習目標: 了解 Google Play 網站的網站架構 • 練習目標: 複雜網站的反爬蟲機制與應對方式 • 練習目標: 透過 Python 爬取 Google Play 的留言資料 15
  16. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – 聯合新聞網 • 先到 聯合新聞網 的 即時新聞區 打開任一則新聞 16
  17. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 盤點要收集的新聞資料

    17 https://udn.com/news/story/10930/8395090 ?from=udn-ch1_breaknews-1-cate1-news 1 • 問號後面的資料是 query string ,是公司用來收 集客戶資料的參數,拿掉不會影響到瀏覽網頁 • 這段參數其實記錄了使用者是從 要聞 區的新聞而 進入這則新聞 1 2 我們感興趣的內容,包含了 a. 類型 b. 標題 c. 時間 d. 內容 e. Hashtag 2a 2b 2c 2d 2e
  18. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 定位需要的資料

    19 滑鼠在原始碼上移動時, 左邊的新聞頁面會自動出現文字框 標示出目前原始碼對應的位置 新聞標題的元素名稱: <h1 class="article-content__title"> 嘗試找出下列元素的元素名稱 • 新聞時間: <time class="article-content__time"> • 新聞類型: <nav class="article-content__breadcrumb"> • 新聞內容: <section class="article-content__editor "> • Hashtag: <section class="keywords">
  19. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 開啟今天活動的教材連結

    • Google 搜尋 tlyu0419 的 github,找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 21 1 2 3 4
  20. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – 股票爆料同樂會 23 Google 搜尋 股票爆料同學會,並進入網站
  21. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 觀察網站架構

    24 打開開發者工具並切換到網路的頁籤 不斷往下滾動左邊的網頁來加載更多新貼文 觀察看看右邊的開發者工具頁面中發生了什麼事情?
  22. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 要怎麼找到需要的網路封包?

    25 2 3 1 2 1 3 漂亮的網站其實是由許多網路封包 組合而成 • 有些負責讀取網站的icon • 有些負責讀取貼文的內容 • 有些負責讀取大頭貼 • … 爬蟲工程師的任務就是要從上百/千 個網路封包中找到需要的資料 但是要如何找到呢? 從貼文中的訊息進行反向檢索, 利用貼文中出現的關鍵詞回去找哪 些封包有出現這些關鍵詞 最好檢索英文&有獨特性的字詞會比 較容易找到資料 於左邊的開發者工具中按 Ctrl + F 然後在左側數據要查詢的關鍵詞就 能找到有出現關鍵詞的網路封包
  23. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解網路封包的使用方式

    26 2 3 1 4 5 2 3 1 4 5 點擊檢索到的網路封包 右側的回應中會出現檢索到 的關鍵詞與區塊 中間也會反白出對應的網路 封包,繼續點擊該網路封包 這時候會看到該網路封包的 網址與查詢參數。中間遮住 的網路封包關鍵詞是什麼? 關鍵詞: _____________ 將封包中的關鍵詞放入篩選 器進行檢索,觀察有多少個 類似的網路封包? 查詢參數 間的差異在哪裡?
  24. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 網路爬蟲練習案例

    – Google Play • 請大家先到 Google 搜尋 google Play e點通,並進入頁面 28
  25. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找到

    Google Play 的 APP 評論區 29 1 2 1 2 點擊 “評分與評論” 右方的箭號 出現評論的互動視窗,往下滑動可以加載更多貼文
  26. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 檢索

    Google Play 評論資料的網路封包 30 1 3 1 2 對中間的互動視窗點右鍵 2 點擊 檢查 3 點擊 網路 4 使用前面學會檢索網路封包的技巧 嘗試找出取得評論資料的API URL 名稱: _________________
  27. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API 31 查詢參數太複雜時, 可以切換至 承載(payload) 檢視轉換過的資料 請比較一下這幾個請求中,在查詢字串參數和表單資料 有哪些地方會有不同? 查詢字串: __________ 表單資料: __________ 1 1 2 2
  28. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API • 進一步比較,其實差異是在哪裡 • 後面的請求,其實是來自前面的回應 • 差不多就是一個巡迴 32 2 1 經過比較後,主要改變的地方在於右方標註的兩處 1 的變化有規律,每個請求都會在最前面的位數加1 2 的變化看不太出來變化的規律,但是查詢這段文字 會發現其實來自於前次請求(3)中回應的內容 3
  29. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 拆解

    Google Play 的 API 33 Python Google Play API 預先建立 API 需要的查詢與請求參數 2 1 1 透過 Python 夾帶 查詢與請求參數 跟 Google Play 的 API 請求資料 2 3 查詢與請求參數 3 4 4 Google Play 的 API 回傳APP 評論 以及神秘的Payload 字串 更新查詢與請求參數 接著展開下一輪的資料請求
  30. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play APP 評論爬蟲實作 • 開啟 Github 中的 Colab 連結 進行實作 34
  31. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 複雜網站的應對方式

    • 有時候網站會設定許多&複雜的反爬蟲機制來阻擋爬蟲, 基於 技術能力 / 時間 / 金錢 等等因素沒辦法順利爬取資料時… • 可以考慮的應對方式 • 繼續透過 Request 硬幹 • 有時間還是可以嘗試這個方法,會有很多學習與收穫 • Selenium • 透過Python 開啟一個瀏覽器&操作(滾視窗、點擊連結) • 接著透過 Python 讀取網頁的原始碼進行剖析 • 缺點是 Selenium 的驅動器需要頻繁隨著瀏覽器的版本進行更新 • PyautoGUI • Python 的按鍵精靈,直接操作電腦的滑鼠/鍵盤 • 完成加載資料後,將網頁原始碼做保存 • 透過 Python 讀取&剖析網頁原始碼 35
  32. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲 – 讀取更多資料 • Demo • 透過 PyAutoGUI 來反覆送出 滾動滑鼠的指令,達成爬蟲的目的 36
  33. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Google

    Play 爬蟲 – 保存網頁資料 37 2 1 1 透過 PyAutoGUI 加載完資料後,點擊右鍵 另存新檔 2 將網頁存為檔案,存檔類型選擇 網頁,完整(*.html)
  34. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 透過

    Python 定位與剖析資料 38 留言的元素名稱: <div class="RHo1pe"> 嘗試找出下列元素的元素名稱 • 客戶名稱: <div class="X5PpBb"> • 留言評分: <'div class="iXRFPc"> • 留言時間: <span class="bp9Aid"> • 留言內容: <div class="h3YV2d">
  35. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 初步整理&分析APP評論資料

    • 將剖析的資料存為 Pandas DataFrame 就可以進行分析囉! 40
  36. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 富邦證券-e點通

    分數變化 41 分數從谷底翻升 APP 的分數又再次探底… 分數跌到谷底 分數突然衝破天際 分數的變化固然很有趣,但也過度簡化 了資訊,看不到分數變化背後的故事 分數遇到亂流, 每個月都在大幅變動 很快的分數又回跌
  37. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 42
  38. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 回顧長官的指示

    43 最近公司(富邦證券)的市佔率有下降的趨 勢,請數據部門幫忙分析可能的原因,並 根據分析發現提供公司一些經營建議
  39. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 開啟今天活動的教材連結

    • Google 搜尋 tlyu0419 的 github,找到今日活動的 repositories • https://github.com/tlyu0419/dyu_text_mining 44 1 2 3 4
  40. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 初步了解評論資料

    • 請至 Github 下載 app 的評論資料 • 觀察 score 和 text 的欄位,嘗試找出 5 個客戶經常稱讚/抱怨 APP 的地方 45
  41. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本資料視覺化

    – 文字雲 • 想法 • 先計算語料庫中各個詞的 重要性, 再依照詞的 重要性 來設定 大小 • 優點 • 簡單、直覺 • 限制 • 吃重斷詞的結果 • 詞的重要性不容易評估 • 不容易獲得商業洞察 46 Ref: wordcloud · PyPI CUBE APP 的客戶評論 畫文字雲很容易, 但難點在於如何畫出具有商業價值的文字雲
  42. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文字雲實作

    • Python 實作 • 中文字體設定 • 中文斷詞 • 計算詞頻 • 繪製文字雲 • 優化文字雲 47
  43. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 繪製不同滿意度的文字雲

    • 透過滿意度分數繪製不同的文字雲,讓分析圖更有意義 48 5分的文字雲 1分的文字雲
  44. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文字雲的限制

    • 按照滿意度分數來繪製不同的文字雲確實可以讓分析圖比較有意義, 但是… • 滿意度分數的顆粒度可能還是不夠細緻 • 或者有些資料本身就沒有標註結果 • 如果要回答客戶有多少種問題,以及不同問題的數量,就需要進行文本分群 49 1分的文字雲 抱怨的議題1,數量: ?? 抱怨的議題2,數量: ?? 抱怨的議題3,數量: ?? 抱怨的議題n,數量: ??
  45. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 大型語言模型

    + 文本分群 50 • 想法 • 透過大型語言模型協助我們將文本投影 至文本的向量空間,讓語義相近的句子 距離靠近,無關的句子的距離遙遠 • 接著再進行分群分析,找出文本的分群 • 優點 • 幾乎不用對文本進行預處理,可以直接 進行文本向量化 • 透過分群分析方法來對客戶的評論做自 動分群
  46. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本分群實作

    • Python 實作 • 文本轉向量 • 文本分群 • 找合適的分群組數 • 檢視文本分群的效果(excel) 51
  47. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 文本分群+視覺化

    53 平均分數: 2.63分 數量: 2672(15.8%) 平均分數: 1.74分 數量: 1572(9.3%) 平均分數: 3.12分 數量: 1540(9.1%) 平均分數: 4.60分 數量: 1994(11.8%) 平均分數: 2.14分 數量: 1499(8.9%) 平均分數: 2.61分 數量: 2621(15.5%) 平均分數: 1.90分 數量: 2102(12.4%) 平均分數: 4.51分 數量: 1079(6.4%) 平均分數: 4.49分 數量: 956(5.7%) 平均分數: 1.61分 數量: 861(5.1%)
  48. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找各分群中的代表文本

    55 0 1 4 2 3 很爛,一直閃退 閃退一直進不去 APP一直閃退 閃退閃退閃退 改版後一直閃退 5 當掉很多次 0.857 0.872 0.887 0.855 0.866 0.797 群中心 群中心法 計算每個點距離群中心的距離,以最接近中心 的文本作為代表文本 最大相似度法 計算群內每個點彼此間的相關係數,取平均分數最高 的樣本作為代表文本
  49. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 斷詞器與結果比較

    56 Ref: google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation. 晚上線上客服不好,自己兩分鐘就能解決的問 題還要花十分鐘跟八+九客服鬼打牆 跨行轉帳免費次數無預警取消,沒注意看被扣 了多筆手續費 晚上 / 線上 / 客服 / 不好 / , / 自己 / 兩分鐘 / 就 / 能 / 解決 / 的 / 問題 / 還要 / 花 / 十分 / 鐘跟八 / + / 九 / 客服 / 鬼 / 打牆 晚上 / 線上客服 / 不好 / , / 自己 / 兩分鐘 / 就能 / 解決 / 的問題 / 還要 / 花 / 十分鐘 / 跟 / 八 / + / 九 / 客服 / 鬼打牆 跨行 / 轉帳 / 免費次數 / 無 / 預警 / 取消 / , / 沒 / 注 意 / 看 / 被扣 / 了 / 多筆 / 手續費 跨行轉帳 / 免費 / 次數 / 無預警 / 取消 / , / 沒 / 注意 / 看 / 被扣 / 了 / 多筆 / 手續費 jieba sentencepiece 其實還是可以建立自定義詞典來優化 jieba 的斷詞結果 但就是會需要投(不少)時間處理正確性與顆粒度的議題
  50. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 找分群中的代表關鍵詞

    57 Ref: MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics. Bertopic 提供了端到端的 topic modeling 解決方案, 但真正創新之處是提出 class-based 的 tf-idf 的方法 來找分群的代表詞(而且效果不錯) Classic TF-IDF class-based TF-IDF t: term, d: document, c: class A: 各類文本的平均詞數
  51. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 Outline

    • 議題擬定 • 資料蒐集 • 文本探勘 • 總結&QA 58
  52. 游騰林 TENG-LIN YU | Mail: [email protected] NCCU - 資料視覺化工作坊 總結

    • 不要害怕去擔任指出方向的角色 • 由於業務部門缺乏資料科學的知識與 技術,較難從宏觀的角度去檢視是否 有其他更重要的問題需要解決 • 當然數據部門也得有更大的企圖心去 幫企業解決問題,工作起來也會比較有 成就感 • 要有把手用髒的勇氣和決心 • 發現問題只是解決問題的第一步,更 重要的是你想怎麼解題 • 業務單位有自己的 KPI 要被,多站在 業務單位的角度去思考會讓專案比較 容易落地 59