研究生: |
李威毅 |
---|---|
論文名稱: |
書目探勘資料之清理研究-以問卷資料為例 A Study of Data Cleaning in Bibliomining ─The Case Study of Questionnaire |
指導教授: | 謝建成 |
學位類別: |
碩士 Master |
系所名稱: |
圖書資訊學研究所 Graduate Institute of Library and Information Studies |
論文出版年: | 2012 |
畢業學年度: | 100 |
語文別: | 中文 |
論文頁數: | 61 |
中文關鍵詞: | 資料清理 、書目探勘 |
英文關鍵詞: | Data Cleaning, Bibliomining |
論文種類: | 學術論文 |
相關次數: | 點閱:156 下載:8 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
資料清理是書目探勘中的第一步驟,同時也影響書目探勘的結果,但資料本身常具有雜訊的存在,如此可能導致探勘過程中耗費大量時間在解決去除雜訊的問題;同時雜訊過多也會影響書目探勘的結果。在過去研究之中書目探勘的資料清理大多討論內部性資料為主,少有以外部性資料作為資料來源,而圖書館事業中大量的外部性資料可與圖書館自動化系統各個模組資料做結合提供圖書館管理者更加了解圖書館讀者的使用行為。
本研究利用外部性資料作為資料來源,利用去除雜訊、資料整合、資料轉換、資料刪減、實行概念階層等步驟進行資料清理,並透過書目探勘中的迴歸分析與群集分析評估資料清理前後的探勘結果。結果顯示,進行資料清理後迴歸分析的R2與群集分析的解釋變數機率值皆能較執行資料清理前提昇
研究結果顯示本研究中所使用之資料清理方式與步驟有助於提昇書目探勘的準確度。此外,去除雜訊的步驟能有效提昇書目探勘的結果,其後並加以實行各項分群,如:雙變項分群、多變項分群等,皆能提昇書目探勘的結果。
Data cleaning is the inception of bibliomining, whose results also depend heavily on it. Yet, in the light of the noises encoded in the data in question, the traditional implementation of bibliomining has to sacrifice efficacy for the elimination of these undesired noises.
In past papers most researchers on data cleaning for bibliomining focused on the processing of internal data, only few took external data as their source materials. However, vast external data available in the field of library science can be synthesized with library integrated system, providing librarians a better understanding of the usage behaviors of library users.
In the methodology of our research, we first take external data as our source materials and apply them to different stages of data cleaning, i.g. data integration, data transformation, data reduction and concept hierarchy. Afterwards, we process both the untouched and the processed data with regression and clustering, on whose results we take extensive inspection with an aim to evince our concepts and methodology of data cleaning do facilitate the accuracy in bibliomining.
Our results indicate that we are capable of extracting a much prospering result of variable probability in both R2 analysis of recession and clustering if data cleaning is adopted in bibliomining. In addition to noise elimination, we found the possibility to further increase the efficacy of bibliomining through dual-variable clustering, multi-variable clustering, to name just a few.
卜小蝶(2001)。以圖書借閱記錄探勘加強圖書資源利用之探討。中國圖書館學會會報,66,59-72。
卜小蝶(2002)。使用者導向之圖書分類關聯分析研究。圖書資訊學刊,17,81-94。
王毓菁(2002)。圖書館閱覽者群組潛在特性探勘資訊系統。華梵大學工業管理系碩士論文。未出版,台北。
余明哲(2002)。圖書館個人化館藏推薦系統。國立交通大學資訊科學系碩士論文。未出版,新竹。
吳安琪(2001)。利用資料探勘的技術及統計的方法增強圖書館的經營與服務。國立交通大學資訊科學研究所碩士論文。未出版,新竹。
呂家賢(2005)。運用資料探勘技術於大學圖書館圖書資源推廣利用之研究。銘傳大學管理研究所碩士在職專班碩士論文。未出版,桃園。
林湧順(2005)。以資料探勘技術探討高中生使用圖書館之行為模式--以國立台灣師範大學附屬高級中學為例。國立臺灣師範大學社會教育學系碩士論文。未出版,台北。
柯皓仁、楊雅雯、吳安琪、戴玉旻(2002)。個人化及群體化圖書館資訊服務初探。國家圖書館館刊,91(1),161-195。
曹健華(2002)。應用資料探勘技術於數位圖書館之個人化服務及管理。南華大學資訊管理學研究所碩士。未出版,嘉義。
陳建傑(2009)。基於借閱目的之資料清理機制研究—以興趣目的為例。國立台灣師範大學圖書資訊學研究所碩士論文。未出版,台北。
陳建銘(2001)。類神經網路於Web Mining 之應用。國立台北科技大學商業自動化與管理研究所碩士學位論文。未出版,台北。
曾勇森(2002)。利用資料探勘技術增進圖書館之服務效益。南台科技大學資訊管理系碩士論文。未出版,台南。
曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯(2005)資料探勘。台北,旗標。
黃俊榮(2005)。利用分群化技術發掘圖書館書籍借閱之推薦服務。南台科技大學資訊管理系碩士。未出版,台南。
楊詠喬(2010)。應用資料探勘技術於圖書館藏推薦之研究。醒吾技術學院資訊科技研究所。未出版,台北。
鄧世昌(2009)。以多層次關聯規則探勘技術探索圖書館使用者借閱行為模式。樹德科技大學資訊管理研究所碩士論文。未出版,高雄。
賴雨廷(2002)。利用資料探勘技術應用於圖書館新書推薦之研究。國立中山大學資訊管理學系研究所碩士論文。未出版,高雄。
戴玉旻(2001)。圖書館借閱記錄探勘系統。國立交通大學資訊科學研究所碩士論文。未出版,新竹。
謝建成、魏儀禎(2003)。資料倉儲於圖書館管理應用之研究—以分析館藏圖書探討圖書採購決策。教育資料與圖書館學,40: 3,345-356。
謝賓帆(2008)。利用興趣加權分類技術發掘書籍借閱之適性化推薦。南台科技大學資訊管理系碩士論文。未出版,台南。
羅子文、柯皓仁(2007)。Web 2.0概念的圖書館個人化推薦系統。台北市立圖書館館訊,24(4),1-30。
Banerjee, K.(1998). Is data mining right for your library? Computers in Libraries, 18(10), 28-31.
Brauer, B. (2000). Data Quality: Spinning Straw into Gold. Retrieved Mar, 20, 2010, from http://www2.sas.com/proceedings/sugi26/p117-26.pdf
Famili, A., Shen, W.M., Weber, R.,& Simoudis, E.(1997). Data preprocessing and intelligent data analysis. Intelligent Data Analysis, 1 (1),1–28.
Han J.& Kamber, M. (2000). Data Mining: Concepts and Techniques. San Francisco, CA: Morgan Kaufmann.
Jermyn, P., Dixon, M., Read, B. J.(1999). Preparing clean views of data for data mining. Retrieved Jan, 10, 2010, from http://www.ercim.eu/publication/ws-proceedings/12th-EDRG/EDRG12_JeDiRe.pdf
Laudon, K. C.(1986). Data quality and due process in large interorganizational record systems. Communications of the ACM, 29(1), 4-11.
Nicholson, S.(2003). The Bibliomining Process: Data Warehousing and Data Mining for Library Decision Making. Information Technology & Libraries, 22(4), 146-151.
Wu. C.H (2003). Data mining applied to material acquisition budget allocation for libraries: design and development, Expert Systems with Applications, 25(3), 401-411.