Upgrade to Pro — share decks privately, control downloads, hide ads and more …

運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例

 運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例

(報告檔案)運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例

Yi-Zhen, Chen

July 13, 2021
Tweet

More Decks by Yi-Zhen, Chen

Other Decks in Research

Transcript

  1. 南區大專校院校務研究推動策略聯盟研討會 | 2020 6 研究問題與目的 (1) 探討利用關鍵字分析使用圖書檢索的使用者行為 (2) 探討圖書館讀者與市面圖書消費者之間的習性差異或相關性 (3)

    分析關鍵字與讀者的借閱需求與市面上熱門書籍之間的關係 (4) 了解讀者的借閱行為與搜索關鍵字之間的影響程度 緒論 圖書館 使用者 市面 消費者
  2. 南區大專校院校務研究推動策略聯盟研討會 | 2020 7 研究 方法 圖書館讀者 檢索紀錄 圖書館讀者 借閱紀錄

    市面書籍網站 月暢銷榜書籍 市面暢銷書籍對應關鍵字 VS 圖書館熱門關鍵字 其總計與成長量之間分布關係 相關性分析 描述性統計 熱門借閱書籍對應關鍵字 VS 圖書館熱門關鍵字 其總計與成長量之間分布關係 以台灣博客來網站為例 以中原大學張靜愚 紀念圖書館為例 熱門暢銷類別 市面書籍銷售分布 熱門借閱類別 館藏書籍借閱分布 系所、讀者借閱分布 熱門搜索關鍵字
  3. 南區大專校院校務研究推動策略聯盟研討會 | 2020 8 資料來源 研究方法與設計 1. 中原大學圖書館使用者的檢索紀錄 資料時間為 2019年11-12月

    年 月 日 時 分 秒 使用者IP 館內外使用者 檢索內容 檢索類別 2019 11 1 9 16 0 140.135.4X.X 1 Andrea Blum 2 2019 11 1 9 17 10 220.134.XX.XXX 0 大數據專案經理的實戰心法 1 2019 11 1 9 18 11 220.134.XX.XXX 0 storytelling with data 2 2019 11 1 9 24 39 39.11.1X4.XX 0 哲學心理學 1 前處理: 1. 資料取自圖書館OPAC系統的log檔案,篩選出進行檢索行為的紀錄。 2. 刪除短時間內重複進行檢索的紀錄 3. 針對時間戳記、IP、檢索內容進行URL解碼、清理與分類 館內外使用者 依據IP開頭是否為中原大學網域位址來劃分成 (1) : 館內使用者 / (0) : 館外使用者 檢索類別 (僅使用第1、2類檢索內容分析) 依據檢索內容劃分成四類 (1) 含中文關鍵字:含有需解碼的URL編碼字符內容 (2) 全英文關鍵字:檢索內容全部為英文字符的內容 (3) 條碼關鍵字:檢索內容為本館書籍條碼 (4) ISBN關鍵字:檢索內容為ISBN
  4. 南區大專校院校務研究推動策略聯盟研討會 | 2020 9 2. 中原大學圖書館的中文書籍借閱紀錄 讀者 識別碼 學院或 行政單位

    系所或 單位名稱 讀者類型 名稱 年 月 日 時 分 秒 書目號碼 書名 圖書分類 002X79…. 法學院 財法系 研究生 2019 12 04 10 16 40 b2605XX3 行政法總論 500 社會科學類 前處理:1. 依據讀者識別碼對照出讀者系所與身分。 2. 利用書目號碼進行爬蟲找出索書號,進行總論分類。 ► 利用書目號碼連結到書籍永久連結網址 爬蟲找出該書籍索書號:588 行政法 並以總論分類:500 社會科學類 作為分類 ► 讀者識別碼為加密過的雜湊亂數 使用館方提供的對照表可取得該讀者的系所單位資訊 資料來源 研究方法與設計 資料時間為 2019年11-12月
  5. 南區大專校院校務研究推動策略聯盟研討會 | 2020 10 3. 博客來網站的月暢銷榜書籍資料 (於11、12月底各取一次資料,統計上榜次數) 排名 書籍名稱 作者

    分類號 圖書分類 1 蔡康永的情商課2:因為這是你的人生 蔡康永 176 100 哲學類 2 勇敢層級:用你喜歡的方式,活出你自己 紫嚴導師 191 100 哲學類 3 財務自由的人生:跟著首席分析師楊應超學華爾街的投資技巧和 工作效率,40歲就過FIRE的優質生活 楊應超 563 500 社會科學類 4 原子習慣:細微改變帶來巨大成就的實證法則 詹姆斯‧克利爾 176 100 哲學類 5 Jay的跑步筆記:矽谷工程師激勵上萬人的科學化訓練與生活哲 學 許立杰 528 500 社會科學類 前處理:1. 於11,12月底對博客來暢銷榜網頁進行爬蟲,取得書名、作者等相關資料 2. 依據中文圖書分類法,將暢銷書籍以圖書索書號進行總論分類 (分類至十位數) 原本索書號 176 會歸類於心理學各論 最終會以十大圖書分類來歸類到 100 哲學類 資料來源 研究方法與設計 資料時間為 2019年11-12月
  6. 南區大專校院校務研究推動策略聯盟研討會 | 2020 11 4. 斷詞對照圖書分類清單來源 暢銷榜紀錄(包含作者名) 圖書分類 蔡康永的情商課2:因為這是你的人生/蔡康永 哲學類

    來源:暢銷榜紀錄、借閱紀錄為各別生成有圖書分類對照斷詞清單。 用途:使檢索紀錄產生的斷詞列表有圖書分類的對照。 資料來源 研究方法與設計 資料時間為 2019年11-12月 斷詞內容 數量 圖書分類 蔡康永 2 哲學類 情商課 1 哲學類 人生 1 哲學類 借閱紀錄書名 圖書分類 行政法總論 社會科學類 斷詞內容 數量 圖書分類 行政法 1 社會科學類 總論 1 社會科學類
  7. 南區大專校院校務研究推動策略聯盟研討會 | 2020 12  將書籍分類成十大類 以0至9數目字代表不同分類,主要分為十大類。 分類號碼最大為百位數,可有點數,由0字開始。 000 總類

    100 哲學類 200 宗教類 300 科學類 400 應用科學類 500 社會科學類 600 史地類 700 世界史地 800 語言文學類 900 藝術類 資料處理階段 – 中文圖書十大分類法 研究方法與設計
  8. 南區大專校院校務研究推動策略聯盟研討會 | 2020 13  分類號通常會紀載在書籍出版資料欄位 例:分類類號 176 心理學 將歸類在

    100號哲學類 分類號 100-199 皆為 100 哲學類書籍 資料處理階段 – 中文圖書十大分類法 研究方法與設計  圖書館通常以分類號作為索書號
  9. 南區大專校院校務研究推動策略聯盟研討會 | 2020 15 市面暢銷榜統計與成長量 總論號 11月 12月 總計 成長量

    佔暢銷榜比例 哲學類 14 16 30 2 15.31% 宗教類 2 1 3 -1 1.53% 科學類 1 0 1 -1 0.51% 應用科學類 22 17 39 -5 19.90% 社會科學類 25 21 46 -4 23.47% 世界史地 3 0 3 -3 1.53% 語言文學類 23 36 59 13 30.10% 藝術類 6 9 15 3 7.65% 合計 96 100 196 4 100% 市面書籍網站的暢銷排行榜上多為 「商學財經類」、「文學類」、「心理、倫理類」、「語言、教育類」等 心理、倫理類 語言、教育類 商學財經類 成長量 = 12月紀錄數 – 11月紀錄數
  10. 南區大專校院校務研究推動策略聯盟研討會 | 2020 16 借閱紀錄統計與成長量 總論號 11月 12月 總計 成長量

    佔借閱比例 總類 49 55 104 6 0.76% 哲學類 737 673 1410 -64 10.30% 宗教類 197 287 484 90 3.53% 科學類 787 717 1504 -70 10.98% 應用科學類 1203 1093 2296 -110 16.77% 社會科學類 1415 1359 2774 -56 20.26% 史地類 59 80 139 21 1.02% 世界史地 350 263 613 -87 4.48% 語言文學類 1769 1349 3118 -420 22.77% 藝術類 608 644 1252 36 9.14% 合計 7174 6520 13694 -654 100% 圖書館借閱多分布 在學校的專業科目類別上 例如「機械工程」、 「藝術設計」、「商學財經」、 「心理」、「法律」、 「語言學」、「教育」等等。
  11. 南區大專校院校務研究推動策略聯盟研討會 | 2020 17 系所借閱書籍分布 ►借閱數量前三大系所的熱門借閱書籍前五名分類 書籍分類 借閱數量 佔整體 科學類:數學總論

    274 10.91% 語言類:語言學總論 261 10.39% 社會科學類:財政學總論 235 9.36% 應用科學類:商學總論 197 7.84% 哲學類:心理學總論 159 6.33% No.1 校友處(包含校友與教職員) No.2 財法系(包含該系學生、教師與約聘人員) 書籍分類 借閱數量 佔整體 社會科學類:法律總論 274 10.91% 社會科學類:財政學總論 261 10.39% 社會科學類:經濟學總論 235 9.36% 社會科學類:政治學總論 197 7.84% 語言類:語言學總論 159 6.33% 書籍分類 借閱數量 佔整體 藝術類:建築藝術總論 235 33.10% 社會科學類:社會學總論 67 9.44% 應用科學類:工程學總論 65 9.15% 世界史地:亞洲史地 32 4.51% 語言類:中國各種文學 26 3.66% No.3 建築系(包含該系學生、教師與約聘人員) ◦ 校友讀者的借閱需求較無專注於專業科目上 → 與市面購買者較為相似 ◦ 系所讀者因課業而對專科書籍產生需求, 因此該系所對應書籍擁有高借閱率
  12. 南區大專校院校務研究推動策略聯盟研討會 | 2020 18 熱門檢索關鍵字 (前十名) 檢索內容 總次數 11月次數 12月次數

    成長量 館內IP搜尋量 館外IP搜尋量 設計 628 287 341 -54 66 562 建築 465 164 301 -137 41 424 心理 442 229 213 16 60 382 研究 413 225 188 37 25 388 管理 349 190 159 31 54 295 教育 338 168 170 -2 59 279 多益 313 169 144 25 23 290 人生 303 137 166 -29 43 260 台灣 275 142 133 9 16 259 世界 256 128 128 0 23 233 11月檢索量:43,962 筆 12月檢索量:45,922 筆 共計89,884筆 館內外搜尋量比例約為1:8 內容並無太明顯差異 前十名關鍵字大多數也對應到學校的系所專業用詞。
  13. 南區大專校院校務研究推動策略聯盟研討會 | 2020 19 館內外使用者搜尋時段分布 173 91 46 31 23

    19 26 35 105 211 342 318 274 316 383 441 407 321 440 380 226 237 227 168 4 24 23 39 56 52 79 150 64 49 33 28 32 11 0 50 100 150 200 250 300 350 400 450 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 *圖書館開館時間 08:00-22:00 無論館內外IP使用者 搜尋時間多分布於開館時間 館外使用者IP 館內使用者IP
  14. 南區大專校院校務研究推動策略聯盟研討會 | 2020 20 實驗結果 相關性 分析 ◦ 暢銷榜與借閱書籍 其總計與成長量之間相關係數

    ◦ 暢銷榜與熱門關鍵字 其總計與成長量之間相關係數 ◦ 借閱書籍與熱門關鍵字 其總計與成長量之間相關係數
  15. 南區大專校院校務研究推動策略聯盟研討會 | 2020 21 暢銷榜與借閱書籍其總計與成長量之間相關係數 書籍分類 排行榜 總計 借閱 總計

    排行榜 成長量 借閱紀錄 成長量 總類 0 104 0 6 哲學類 30 1410 2 -64 宗教類 3 484 -1 90 科學類 1 1504 -1 -70 應用科學類 39 2296 -5 -110 社會科學類 46 2774 -4 -56 史地類 0 139 0 21 世界史地 3 613 -3 -87 語言文學類 59 3118 13 -420 藝術類 15 1252 3 36 市面書店與圖書館購買/借閱書籍行為分布 ►借閱總計與暢銷榜總計 相關係數 0.9264(強烈正相關性) ►在兩個月成長的相關係數 0.4336(中等正相關性) 表示圖書館借閱情況 與市面書籍銷售情況有相似分布
  16. 南區大專校院校務研究推動策略聯盟研討會 | 2020 22 暢銷榜與熱門關鍵字其總計與成長量之間相關係數 熱門關鍵字與市面暢銷榜對應關鍵字分析(總量) ►檢索總量與暢銷榜總計 相關係數 0.9367(強烈正相關性) 書籍分類

    對應市面暢銷榜關鍵字 (部分) 圖書館 檢索總量 暢銷榜紀錄 總計 哲學類 生命、生活、工作、智慧、蔡康永 2004 30 宗教類 工具、我們、透視、老師 181 3 科學類 實驗、story、傳、體 78 1 應用科學類 故事、企業、發展、什麼、公司、自己 3744 39 社會科學類 設計、人生、工程、歷史、分析、國際 6892 46 世界史地 世界、地理、時、冊、箴言、世界歷史 553 3 語言文學類 研究、管理、多益、台灣、文化、英文、 應用、情緒、手冊、第一、電子、基礎 5920 59 藝術類 美國、數學、真、寫、堂、才、男人 761 15 表示圖書館的檢索內容 與市面書籍銷售所用的單詞 有相似分布
  17. 南區大專校院校務研究推動策略聯盟研討會 | 2020 23 熱門關鍵字與市面暢銷榜對應關鍵字分析(成長量) 書籍分類 對應市面暢銷榜關鍵字 (部分) 館內檢索 成長量

    暢銷榜紀錄 成長量 哲學類 生命、生活、寫給、每天、智慧、法則 76 2 宗教類 老師、我們、工具、距離、曆、鑰匙 25 -1 科學類 實驗、story、傳、體 -6 -1 應用科學類 故事、教、全書、公司、技巧、企業 80 -5 社會科學類 國際、日本、國家、爸爸、動盪、民主 542 -4 世界史地 地理、帶、冊、派、箴言、世界歷史 43 -3 語言文學類 研究、文化、管理、文法、生物、new、 多益、閱讀、情緒、二十、toeic、單字 422 13 藝術類 寫、堂、男人、年長、人物 -29 3 ►檢索總量與暢銷榜總計 在兩個月成長的相關係數 0.2616 (微弱正相關性) 暢銷榜與熱門關鍵字其總計與成長量之間相關係數 表示圖書館檢索內容 在兩個月之間的差別 與市面書籍銷售所用的單詞 有相似分布
  18. 南區大專校院校務研究推動策略聯盟研討會 | 2020 24 借閱書籍與熱門關鍵字其總計與成長量之間相關係數 熱門關鍵字與圖書館借閱紀錄對應關鍵字分析(總量) ►檢索總量與借閱紀錄總計 相關係數 0.9663(強烈正相關性) 書籍分類

    對應借閱歷史記錄關鍵字 (部分) 館內 檢索總量 借閱紀錄 總計 總類 館、博物、月刊、論語 301 104 哲學類 心理、理論、思考、治療、力量、破局 5968 1410 宗教類 設限、聖經、基督、上帝、神學、新約 1946 484 科學類 python、實務、資料、物理、程式、結構 6753 1504 應用科學類 圖解、數位、方法、商業、控制、行銷 8854 2296 社會科學類 教育、經濟、統計、行政、交易、法律 9954 2774 史地類 蒙曼、如果、亂世紅顏、高宗、唐高宗 649 139 世界史地 旅行、越南、秘密、戰爭、英國、全台 1945 613 語言文學類 論文、法、文學、測驗、、張愛玲、中文 9020 3118 藝術類 建築、空間、雜誌、design、藝術、現代 5676 1252 表示圖書館的檢索內容 與館藏借閱書籍所用的單詞 有相似分布
  19. 南區大專校院校務研究推動策略聯盟研討會 | 2020 25 熱門關鍵字與圖書館借閱紀錄對應關鍵字分析(成長量) ►檢索總計與借閱紀錄總計 在兩個月成長的相關係數 0.3815(中等正相關性) 書籍分類 對應借閱歷史記錄關鍵字

    (部分) 館內檢索 成長量 借閱紀錄 成長量 總類 論語、怪奇、museum、事物、精讀 6 27 哲學類 兒童、感情、理論、力量、破局、心理、思考 -64 -178 宗教類 世紀、基督教、設限、基督、聖經、文集 90 212 科學類 特效、化學、經典、android、實務、概論 -70 189 應用科學類 medical、醫學、邏輯、mathematics、豐田 -110 154 社會科學類 實踐、法學、政策、民事、六法、股票 -56 470 史地類 蒙曼、孟憲實、北京、太宗、唐太宗、唐玄宗 21 37 世界史地 秘密、用腳、印度、希臘、文明、飛翔 -87 -123 語言文學類 translation、法、語、托福、彙、漢語 -420 -246 藝術類 雜誌、中國、圖、色彩、造型、日治 36 -170 借閱書籍與熱門關鍵字其總計與成長量之間相關係數 表示圖書館檢索內容 在兩個月之間的差別 與館藏借閱書籍所用的單詞 有相似分布
  20. 南區大專校院校務研究推動策略聯盟研討會 | 2020 27 結論 與建議 經由描述性統計,我們可得知: 受眾廣大的書籍皆擁有高購買與借閱率 商學財經類、心理類、語言類書籍因受眾範圍大, 不受特定專業人士或學生限定閱讀,

    無論市面書店或圖書館皆擁有高購買與借閱率。 校園圖書館讀者會因系所分布產生不同書籍需求 機械工程類、藝術設計類、法律類、教育類書籍, 因學校的系所分布造成讀者對專科書籍產生需求, 而在圖書館借閱中擁有高借閱率。
  21. 南區大專校院校務研究推動策略聯盟研討會 | 2020 29 結論 與建議 以下為觀察結果與未來建議: 分析使用者的檢索內容, 可確實反應出使用者的借閱行為以及對於書籍的需求 值得圖書館採購人員依作為採購需求的輔助依據。

    對圖書館進行資料探勘分析行為,其結果具未來發展性。 本研究針對圖書館較少進行應用的檢索資料進行初步探勘, 其結果對於想了解圖書使用者需求與行為的單位是相當有價值的, 期盼日後研究可針對更豐富完整的資料,延伸更多分析與應用。
  22. 南區大專校院校務研究推動策略聯盟研討會 | 2020 30 Thank you for listening ! 感謝聆聽

    如有疑問 可參考以下聯絡資訊 陳怡蓁 中原大學資訊管理學系碩士班 [email protected]