English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 4334/7631
造訪人次 : 3183222      線上人數 : 692
RC Version 3.2 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 進階搜尋

請使用永久網址來引用或連結此文件: http://ir.hust.edu.tw/dspace/handle/310993100/8014

題名: 網路爬蟲搜集巨量資料-以書單為例
作者: 王偉剛
李宣志
鐘人傑
陸仁傑
黃智穎
貢獻者: 資訊管理系
關鍵詞: 圖書諮詢委員
網路爬蟲
Python程式語言
日期: 2023-05
上傳時間: 2023-05-10T03:15:07Z
摘要: 每年教育部整體發展獎勵補助經費中,有一部份的經費學校會編列用來購買各系中外文圖書。因此每年圖書館都會請各系圖書諮詢委員依據「系經費」,開列「系專業書籍清單」供圖書館作為採購圖書的參考,為了開列各自系所適合的書單,圖書諮詢委員通常必需到各個書局出版社的網站上,搜索與本身系所同類的書籍,再從網頁間來來回回的複製資料,往往花費圖書諮詢委員大量的時間。
因此本專題利用Python程式語言適合製作網路爬蟲的特性,幫圖書諮詢委員解決費時費力的下載中外文圖書資料的問題。只要將東華書局的書籍分類網址儲存在檔案裡,再執行我們的python爬蟲程式,輸入要儲存結果的CSV檔名,爬蟲程式就會開始一頁一頁的把每一網頁裡的書本明細資料耙取出來,並以中文圖書欄位與英文圖書欄位的聯集,產生符合書單格式的資訊,讓圖書諮詢委員可以節省大部分的搜尋與下載時間。
顯示於類別:[資訊管理系] 專題製作

文件中的檔案:

檔案 大小格式瀏覽次數
網路爬蟲搜集巨量資料-以書單為例0331.pdf4639KbAdobe PDF477檢視/開啟

在HUSTIR中所有的資料項目都受到原著作權保護.

 


DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 回饋