Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例
Search
Yi-Zhen, Chen
July 13, 2021
Research
0
110
運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例
(報告檔案)運用文字探勘分析於圖書資訊檢索使用者行為與習慣-以中原大學張靜愚紀念圖書館為例
Yi-Zhen, Chen
July 13, 2021
Tweet
Share
More Decks by Yi-Zhen, Chen
See All by Yi-Zhen, Chen
(學習護照)AI基礎課程
yizhen1223
2
150
(學習護照)樹莓派基礎教學
yizhen1223
0
100
(TA實作課程)MNIST_MLPCNNRNN
yizhen1223
0
210
Other Decks in Research
See All in Research
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
5
660
marukotenant01/tenant-20240826
marketing2024
0
510
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
510
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
s_mizuki_nlp
1
350
機械学習による言語パフォーマンスの評価
langstat
6
720
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
260
ニューラルネットワークの損失地形
joisino
PRO
35
16k
外積やロドリゲスの回転公式を利用した点群の回転
kentaitakura
1
650
クラウドソーシングによる学習データ作成と品質管理(セキュリティキャンプ2024全国大会D2講義資料)
takumi1001
0
290
精度を無視しない推薦多様化の評価指標
kuri8ive
1
240
さんかくのテスト.pdf
sankaku0724
0
340
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
330
Featured
See All Featured
Fireside Chat
paigeccino
34
3k
BBQ
matthewcrist
85
9.3k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Music & Morning Musume
bryan
46
6.2k
GraphQLとの向き合い方2022年版
quramy
43
13k
Making Projects Easy
brettharned
115
5.9k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Docker and Python
trallard
40
3.1k
Transcript
Session A 校務研究實踐於大學治理之議題 運用文字探勘分析於 圖書資訊檢索使用者行為與習慣 — 以中原大學張靜愚紀念圖書館為例 吳肇銘 金志聿 陳怡蓁
(報告者) 作者 南區大專校院校務研究推動策略聯盟研討會 | 2020
南區大專校院校務研究推動策略聯盟研討會 | 2020 2 圖書館與書店使用對象 校園圖書館使用者 多為學生、校友、教職員、辦證讀者 市面書店消費者 來自各行各業,年齡層分佈更廣
南區大專校院校務研究推動策略聯盟研討會 | 2020 3 借閱或購買的動機 個人興趣? 時事話題? 活動促銷? 專業需求?
南區大專校院校務研究推動策略聯盟研討會 | 2020 4 讀者在館內查什麼? 直接搜尋書籍名稱? 時事關鍵字? 論文、雜誌? 書籍關鍵字?
南區大專校院校務研究推動策略聯盟研討會 | 2020 5 資料探勘於圖書館 線上目錄OPAC系統 含有豐富數據可供分析 加以運用與剖析 提供更好的決策內容 使用者使用搜尋引擎
檢索館藏也會留下紀錄
南區大專校院校務研究推動策略聯盟研討會 | 2020 6 研究問題與目的 (1) 探討利用關鍵字分析使用圖書檢索的使用者行為 (2) 探討圖書館讀者與市面圖書消費者之間的習性差異或相關性 (3)
分析關鍵字與讀者的借閱需求與市面上熱門書籍之間的關係 (4) 了解讀者的借閱行為與搜索關鍵字之間的影響程度 緒論 圖書館 使用者 市面 消費者
南區大專校院校務研究推動策略聯盟研討會 | 2020 7 研究 方法 圖書館讀者 檢索紀錄 圖書館讀者 借閱紀錄
市面書籍網站 月暢銷榜書籍 市面暢銷書籍對應關鍵字 VS 圖書館熱門關鍵字 其總計與成長量之間分布關係 相關性分析 描述性統計 熱門借閱書籍對應關鍵字 VS 圖書館熱門關鍵字 其總計與成長量之間分布關係 以台灣博客來網站為例 以中原大學張靜愚 紀念圖書館為例 熱門暢銷類別 市面書籍銷售分布 熱門借閱類別 館藏書籍借閱分布 系所、讀者借閱分布 熱門搜索關鍵字
南區大專校院校務研究推動策略聯盟研討會 | 2020 8 資料來源 研究方法與設計 1. 中原大學圖書館使用者的檢索紀錄 資料時間為 2019年11-12月
年 月 日 時 分 秒 使用者IP 館內外使用者 檢索內容 檢索類別 2019 11 1 9 16 0 140.135.4X.X 1 Andrea Blum 2 2019 11 1 9 17 10 220.134.XX.XXX 0 大數據專案經理的實戰心法 1 2019 11 1 9 18 11 220.134.XX.XXX 0 storytelling with data 2 2019 11 1 9 24 39 39.11.1X4.XX 0 哲學心理學 1 前處理: 1. 資料取自圖書館OPAC系統的log檔案,篩選出進行檢索行為的紀錄。 2. 刪除短時間內重複進行檢索的紀錄 3. 針對時間戳記、IP、檢索內容進行URL解碼、清理與分類 館內外使用者 依據IP開頭是否為中原大學網域位址來劃分成 (1) : 館內使用者 / (0) : 館外使用者 檢索類別 (僅使用第1、2類檢索內容分析) 依據檢索內容劃分成四類 (1) 含中文關鍵字:含有需解碼的URL編碼字符內容 (2) 全英文關鍵字:檢索內容全部為英文字符的內容 (3) 條碼關鍵字:檢索內容為本館書籍條碼 (4) ISBN關鍵字:檢索內容為ISBN
南區大專校院校務研究推動策略聯盟研討會 | 2020 9 2. 中原大學圖書館的中文書籍借閱紀錄 讀者 識別碼 學院或 行政單位
系所或 單位名稱 讀者類型 名稱 年 月 日 時 分 秒 書目號碼 書名 圖書分類 002X79…. 法學院 財法系 研究生 2019 12 04 10 16 40 b2605XX3 行政法總論 500 社會科學類 前處理:1. 依據讀者識別碼對照出讀者系所與身分。 2. 利用書目號碼進行爬蟲找出索書號,進行總論分類。 ► 利用書目號碼連結到書籍永久連結網址 爬蟲找出該書籍索書號:588 行政法 並以總論分類:500 社會科學類 作為分類 ► 讀者識別碼為加密過的雜湊亂數 使用館方提供的對照表可取得該讀者的系所單位資訊 資料來源 研究方法與設計 資料時間為 2019年11-12月
南區大專校院校務研究推動策略聯盟研討會 | 2020 10 3. 博客來網站的月暢銷榜書籍資料 (於11、12月底各取一次資料,統計上榜次數) 排名 書籍名稱 作者
分類號 圖書分類 1 蔡康永的情商課2:因為這是你的人生 蔡康永 176 100 哲學類 2 勇敢層級:用你喜歡的方式,活出你自己 紫嚴導師 191 100 哲學類 3 財務自由的人生:跟著首席分析師楊應超學華爾街的投資技巧和 工作效率,40歲就過FIRE的優質生活 楊應超 563 500 社會科學類 4 原子習慣:細微改變帶來巨大成就的實證法則 詹姆斯‧克利爾 176 100 哲學類 5 Jay的跑步筆記:矽谷工程師激勵上萬人的科學化訓練與生活哲 學 許立杰 528 500 社會科學類 前處理:1. 於11,12月底對博客來暢銷榜網頁進行爬蟲,取得書名、作者等相關資料 2. 依據中文圖書分類法,將暢銷書籍以圖書索書號進行總論分類 (分類至十位數) 原本索書號 176 會歸類於心理學各論 最終會以十大圖書分類來歸類到 100 哲學類 資料來源 研究方法與設計 資料時間為 2019年11-12月
南區大專校院校務研究推動策略聯盟研討會 | 2020 11 4. 斷詞對照圖書分類清單來源 暢銷榜紀錄(包含作者名) 圖書分類 蔡康永的情商課2:因為這是你的人生/蔡康永 哲學類
來源:暢銷榜紀錄、借閱紀錄為各別生成有圖書分類對照斷詞清單。 用途:使檢索紀錄產生的斷詞列表有圖書分類的對照。 資料來源 研究方法與設計 資料時間為 2019年11-12月 斷詞內容 數量 圖書分類 蔡康永 2 哲學類 情商課 1 哲學類 人生 1 哲學類 借閱紀錄書名 圖書分類 行政法總論 社會科學類 斷詞內容 數量 圖書分類 行政法 1 社會科學類 總論 1 社會科學類
南區大專校院校務研究推動策略聯盟研討會 | 2020 12 將書籍分類成十大類 以0至9數目字代表不同分類,主要分為十大類。 分類號碼最大為百位數,可有點數,由0字開始。 000 總類
100 哲學類 200 宗教類 300 科學類 400 應用科學類 500 社會科學類 600 史地類 700 世界史地 800 語言文學類 900 藝術類 資料處理階段 – 中文圖書十大分類法 研究方法與設計
南區大專校院校務研究推動策略聯盟研討會 | 2020 13 分類號通常會紀載在書籍出版資料欄位 例:分類類號 176 心理學 將歸類在
100號哲學類 分類號 100-199 皆為 100 哲學類書籍 資料處理階段 – 中文圖書十大分類法 研究方法與設計 圖書館通常以分類號作為索書號
南區大專校院校務研究推動策略聯盟研討會 | 2020 14 實驗結果 描述性 統計 ◦市面暢銷榜統計與成長量 ◦借閱紀錄統計與成長量 ◦系所借閱書籍分布
◦熱門檢索關鍵字 ◦館內外使用者搜尋時段分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 15 市面暢銷榜統計與成長量 總論號 11月 12月 總計 成長量
佔暢銷榜比例 哲學類 14 16 30 2 15.31% 宗教類 2 1 3 -1 1.53% 科學類 1 0 1 -1 0.51% 應用科學類 22 17 39 -5 19.90% 社會科學類 25 21 46 -4 23.47% 世界史地 3 0 3 -3 1.53% 語言文學類 23 36 59 13 30.10% 藝術類 6 9 15 3 7.65% 合計 96 100 196 4 100% 市面書籍網站的暢銷排行榜上多為 「商學財經類」、「文學類」、「心理、倫理類」、「語言、教育類」等 心理、倫理類 語言、教育類 商學財經類 成長量 = 12月紀錄數 – 11月紀錄數
南區大專校院校務研究推動策略聯盟研討會 | 2020 16 借閱紀錄統計與成長量 總論號 11月 12月 總計 成長量
佔借閱比例 總類 49 55 104 6 0.76% 哲學類 737 673 1410 -64 10.30% 宗教類 197 287 484 90 3.53% 科學類 787 717 1504 -70 10.98% 應用科學類 1203 1093 2296 -110 16.77% 社會科學類 1415 1359 2774 -56 20.26% 史地類 59 80 139 21 1.02% 世界史地 350 263 613 -87 4.48% 語言文學類 1769 1349 3118 -420 22.77% 藝術類 608 644 1252 36 9.14% 合計 7174 6520 13694 -654 100% 圖書館借閱多分布 在學校的專業科目類別上 例如「機械工程」、 「藝術設計」、「商學財經」、 「心理」、「法律」、 「語言學」、「教育」等等。
南區大專校院校務研究推動策略聯盟研討會 | 2020 17 系所借閱書籍分布 ►借閱數量前三大系所的熱門借閱書籍前五名分類 書籍分類 借閱數量 佔整體 科學類:數學總論
274 10.91% 語言類:語言學總論 261 10.39% 社會科學類:財政學總論 235 9.36% 應用科學類:商學總論 197 7.84% 哲學類:心理學總論 159 6.33% No.1 校友處(包含校友與教職員) No.2 財法系(包含該系學生、教師與約聘人員) 書籍分類 借閱數量 佔整體 社會科學類:法律總論 274 10.91% 社會科學類:財政學總論 261 10.39% 社會科學類:經濟學總論 235 9.36% 社會科學類:政治學總論 197 7.84% 語言類:語言學總論 159 6.33% 書籍分類 借閱數量 佔整體 藝術類:建築藝術總論 235 33.10% 社會科學類:社會學總論 67 9.44% 應用科學類:工程學總論 65 9.15% 世界史地:亞洲史地 32 4.51% 語言類:中國各種文學 26 3.66% No.3 建築系(包含該系學生、教師與約聘人員) ◦ 校友讀者的借閱需求較無專注於專業科目上 → 與市面購買者較為相似 ◦ 系所讀者因課業而對專科書籍產生需求, 因此該系所對應書籍擁有高借閱率
南區大專校院校務研究推動策略聯盟研討會 | 2020 18 熱門檢索關鍵字 (前十名) 檢索內容 總次數 11月次數 12月次數
成長量 館內IP搜尋量 館外IP搜尋量 設計 628 287 341 -54 66 562 建築 465 164 301 -137 41 424 心理 442 229 213 16 60 382 研究 413 225 188 37 25 388 管理 349 190 159 31 54 295 教育 338 168 170 -2 59 279 多益 313 169 144 25 23 290 人生 303 137 166 -29 43 260 台灣 275 142 133 9 16 259 世界 256 128 128 0 23 233 11月檢索量:43,962 筆 12月檢索量:45,922 筆 共計89,884筆 館內外搜尋量比例約為1:8 內容並無太明顯差異 前十名關鍵字大多數也對應到學校的系所專業用詞。
南區大專校院校務研究推動策略聯盟研討會 | 2020 19 館內外使用者搜尋時段分布 173 91 46 31 23
19 26 35 105 211 342 318 274 316 383 441 407 321 440 380 226 237 227 168 4 24 23 39 56 52 79 150 64 49 33 28 32 11 0 50 100 150 200 250 300 350 400 450 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 *圖書館開館時間 08:00-22:00 無論館內外IP使用者 搜尋時間多分布於開館時間 館外使用者IP 館內使用者IP
南區大專校院校務研究推動策略聯盟研討會 | 2020 20 實驗結果 相關性 分析 ◦ 暢銷榜與借閱書籍 其總計與成長量之間相關係數
◦ 暢銷榜與熱門關鍵字 其總計與成長量之間相關係數 ◦ 借閱書籍與熱門關鍵字 其總計與成長量之間相關係數
南區大專校院校務研究推動策略聯盟研討會 | 2020 21 暢銷榜與借閱書籍其總計與成長量之間相關係數 書籍分類 排行榜 總計 借閱 總計
排行榜 成長量 借閱紀錄 成長量 總類 0 104 0 6 哲學類 30 1410 2 -64 宗教類 3 484 -1 90 科學類 1 1504 -1 -70 應用科學類 39 2296 -5 -110 社會科學類 46 2774 -4 -56 史地類 0 139 0 21 世界史地 3 613 -3 -87 語言文學類 59 3118 13 -420 藝術類 15 1252 3 36 市面書店與圖書館購買/借閱書籍行為分布 ►借閱總計與暢銷榜總計 相關係數 0.9264(強烈正相關性) ►在兩個月成長的相關係數 0.4336(中等正相關性) 表示圖書館借閱情況 與市面書籍銷售情況有相似分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 22 暢銷榜與熱門關鍵字其總計與成長量之間相關係數 熱門關鍵字與市面暢銷榜對應關鍵字分析(總量) ►檢索總量與暢銷榜總計 相關係數 0.9367(強烈正相關性) 書籍分類
對應市面暢銷榜關鍵字 (部分) 圖書館 檢索總量 暢銷榜紀錄 總計 哲學類 生命、生活、工作、智慧、蔡康永 2004 30 宗教類 工具、我們、透視、老師 181 3 科學類 實驗、story、傳、體 78 1 應用科學類 故事、企業、發展、什麼、公司、自己 3744 39 社會科學類 設計、人生、工程、歷史、分析、國際 6892 46 世界史地 世界、地理、時、冊、箴言、世界歷史 553 3 語言文學類 研究、管理、多益、台灣、文化、英文、 應用、情緒、手冊、第一、電子、基礎 5920 59 藝術類 美國、數學、真、寫、堂、才、男人 761 15 表示圖書館的檢索內容 與市面書籍銷售所用的單詞 有相似分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 23 熱門關鍵字與市面暢銷榜對應關鍵字分析(成長量) 書籍分類 對應市面暢銷榜關鍵字 (部分) 館內檢索 成長量
暢銷榜紀錄 成長量 哲學類 生命、生活、寫給、每天、智慧、法則 76 2 宗教類 老師、我們、工具、距離、曆、鑰匙 25 -1 科學類 實驗、story、傳、體 -6 -1 應用科學類 故事、教、全書、公司、技巧、企業 80 -5 社會科學類 國際、日本、國家、爸爸、動盪、民主 542 -4 世界史地 地理、帶、冊、派、箴言、世界歷史 43 -3 語言文學類 研究、文化、管理、文法、生物、new、 多益、閱讀、情緒、二十、toeic、單字 422 13 藝術類 寫、堂、男人、年長、人物 -29 3 ►檢索總量與暢銷榜總計 在兩個月成長的相關係數 0.2616 (微弱正相關性) 暢銷榜與熱門關鍵字其總計與成長量之間相關係數 表示圖書館檢索內容 在兩個月之間的差別 與市面書籍銷售所用的單詞 有相似分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 24 借閱書籍與熱門關鍵字其總計與成長量之間相關係數 熱門關鍵字與圖書館借閱紀錄對應關鍵字分析(總量) ►檢索總量與借閱紀錄總計 相關係數 0.9663(強烈正相關性) 書籍分類
對應借閱歷史記錄關鍵字 (部分) 館內 檢索總量 借閱紀錄 總計 總類 館、博物、月刊、論語 301 104 哲學類 心理、理論、思考、治療、力量、破局 5968 1410 宗教類 設限、聖經、基督、上帝、神學、新約 1946 484 科學類 python、實務、資料、物理、程式、結構 6753 1504 應用科學類 圖解、數位、方法、商業、控制、行銷 8854 2296 社會科學類 教育、經濟、統計、行政、交易、法律 9954 2774 史地類 蒙曼、如果、亂世紅顏、高宗、唐高宗 649 139 世界史地 旅行、越南、秘密、戰爭、英國、全台 1945 613 語言文學類 論文、法、文學、測驗、、張愛玲、中文 9020 3118 藝術類 建築、空間、雜誌、design、藝術、現代 5676 1252 表示圖書館的檢索內容 與館藏借閱書籍所用的單詞 有相似分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 25 熱門關鍵字與圖書館借閱紀錄對應關鍵字分析(成長量) ►檢索總計與借閱紀錄總計 在兩個月成長的相關係數 0.3815(中等正相關性) 書籍分類 對應借閱歷史記錄關鍵字
(部分) 館內檢索 成長量 借閱紀錄 成長量 總類 論語、怪奇、museum、事物、精讀 6 27 哲學類 兒童、感情、理論、力量、破局、心理、思考 -64 -178 宗教類 世紀、基督教、設限、基督、聖經、文集 90 212 科學類 特效、化學、經典、android、實務、概論 -70 189 應用科學類 medical、醫學、邏輯、mathematics、豐田 -110 154 社會科學類 實踐、法學、政策、民事、六法、股票 -56 470 史地類 蒙曼、孟憲實、北京、太宗、唐太宗、唐玄宗 21 37 世界史地 秘密、用腳、印度、希臘、文明、飛翔 -87 -123 語言文學類 translation、法、語、托福、彙、漢語 -420 -246 藝術類 雜誌、中國、圖、色彩、造型、日治 36 -170 借閱書籍與熱門關鍵字其總計與成長量之間相關係數 表示圖書館檢索內容 在兩個月之間的差別 與館藏借閱書籍所用的單詞 有相似分布
南區大專校院校務研究推動策略聯盟研討會 | 2020 26 結論與建議
南區大專校院校務研究推動策略聯盟研討會 | 2020 27 結論 與建議 經由描述性統計,我們可得知: 受眾廣大的書籍皆擁有高購買與借閱率 商學財經類、心理類、語言類書籍因受眾範圍大, 不受特定專業人士或學生限定閱讀,
無論市面書店或圖書館皆擁有高購買與借閱率。 校園圖書館讀者會因系所分布產生不同書籍需求 機械工程類、藝術設計類、法律類、教育類書籍, 因學校的系所分布造成讀者對專科書籍產生需求, 而在圖書館借閱中擁有高借閱率。
南區大專校院校務研究推動策略聯盟研討會 | 2020 28 結論 與建議 經由相關性分析,我們可得知: 市面書籍銷售與圖書館借閱有著相似分布 各類書籍的借閱與購買比例兩者有著相似情況 讀者的檢索內容除了針對館內書籍關鍵字,
也反映出當下市場的熱門書籍關鍵字。 關鍵字檢索對於圖書館與市面書籍的對應詞彙表, 其總筆數與成長量分布之間皆存在正相關性。
南區大專校院校務研究推動策略聯盟研討會 | 2020 29 結論 與建議 以下為觀察結果與未來建議: 分析使用者的檢索內容, 可確實反應出使用者的借閱行為以及對於書籍的需求 值得圖書館採購人員依作為採購需求的輔助依據。
對圖書館進行資料探勘分析行為,其結果具未來發展性。 本研究針對圖書館較少進行應用的檢索資料進行初步探勘, 其結果對於想了解圖書使用者需求與行為的單位是相當有價值的, 期盼日後研究可針對更豐富完整的資料,延伸更多分析與應用。
南區大專校院校務研究推動策略聯盟研討會 | 2020 30 Thank you for listening ! 感謝聆聽
如有疑問 可參考以下聯絡資訊 陳怡蓁 中原大學資訊管理學系碩士班
[email protected]