题名

資料庫中資料加值程序之研究:以農業資料庫為例

并列篇名

The Study of Value-Added Process in Database: The Case of Agriculture Database

DOI

10.6338/JDA.200604_1(2).0007

作者

江志民(Chih-Ming Chiang)

关键词

資料採礦 ; 資料加值 ; 資料短缺 ; 函數映射 ; 加值預測模式 ; Data Mining ; Data-Added ; Value-Added ; Data Insufficiency ; Functional Mapping ; Predictive Model for Data-Added

期刊名称

Journal of Data Analysis

卷期/出版年月

1卷2期(2006 / 04 / 01)

页次

135 - 156

内容语文

繁體中文

中文摘要

在進行資料採礦時,受限於資料庫系統初建時規劃上的限制與不足,常會遇到資料庫中資料短缺的窘境。因此「如何為現有的資料庫增加各領域、各議題與各類型資料?」,這個問題一直是以資料庫為研究標的的研究人員所欲關心的課題。當資料短缺的現象發生時,此時唯有向外尋求其他具有此資料的輔助資料,護理系研究人員才能進行後續分析研究。然而,所得到的資料往往是其他單位所提供的非關聯性資料庫,使得這些資料並無法直接加入資料庫之中,亦無法進行精細的統計分析。故本研究針對此類原始資料之加值問題,提出資料庫函數映射DISBME程序之構想,嘗試將兩個無法直接串聯的資料庫,進行輔助資料的函數映射。且實際以行政院主計處的「西元2000年農牧戶普查資料庫」,與行政院農委會之「西元2001年農家戶口抽樣調查資料庫」做為實例研究的探討對象,以說明整個加值的步驟。研究結果顯示,上述資料加值程序所進行實例研究的結果讓人滿意,加值的結果滿精確的,並沒有造成太多的誤差。說明了這些輔助訊息透過本研究提出的方法,大致都能讓資料庫獲得與輔助資料相仿的資訊,成功地為資料庫增加不同類型與議題的資料,解決資料短缺問題,提升資料庫的價值。

英文摘要

According to the limitation and insufficiency of planning for constructing the database system at the beginning, the problem, lack of data (variables), arises when executing data mining. How to add every kind of data (variables) to database?” , therefore, is the important issue to the researchers. It is possible to continue the work of data mining if acquiring another useful and appropriate auxiliary information, such as other database from other unit. However, the auxiliary information cannot be used and inserted in database immediately because of their structure.The purpose of this study is to deal with this kind of problem. So we propose a process to try to combine 2 similar databases cannot be merged directly for functional mapping from the other database, named ”DISBME”. Then the practices of real database will be conducted. The 2 databases are ”2000 agriculture and husbandry census” and ”2001 agriculture and husbandry sampling survey”.The results show the result is satisfied and don't cause much bias. We add the useful variables in the main database successfully. It means, through above process, the main database can achieve reliable data from each kind and issue of auxiliary information. It also resolves the problem of insufficiency of data and increases the value of the database.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R., (2000). CRISP-DM1.0 Step-by-step data mining guide. CRISP-DM Consortium. Available at www.crisp-dm.org
  2. 行政院主計處(2002)。中華民國八十九年台閩地區農林漁牧業普查初步綜合報告(光碟版),行政院主計處。
  3. Agresti, A.(1990).Categorical data analysis.New York:John Wiley & Sons..
  4. Berry, M. J. A.,Linoff, G. S.(1997).Data Mining Techniques: for Marketing, Sales, and Customer Support.New York:John Wiley & Sons Inc..
  5. Berry, Michael J. A.,Linoff, G. S.(2000).Mastering data mining : the art and science of customer relationship management.New York:Wiley Computer Pub..
  6. Freeman, J. A.,Skapura, D. M.(1992).Neural networks: algorithms, applications and programming techniques.Reading, Massachusetts, USA:Addison-Wesley Publishing Company.
  7. Friedman, J.(1991).Multivariate adaptive regression splines (with discussion).Annals of Statistics,19,1-141.
  8. Glymour, C.,Madigan, D.,Pregibon, D.,Smyth, P.(1996).Statistical themes and lessons for data minin.Data Mining and Knowledge Discovery,1,25-42.
  9. Glymour, C.,Madigan, D.,Pregibon, D.,Smyth, P.(1996).Statistical inference and data mining.Data Mining and Knowledge Discovery,39(11),35-41.
  10. Han, J.,Kamber, M.(2001).Data Mining: Concepts and Techniques.CA:Morgan Kaufmann Publisher.
  11. Hastie, T.,Tibshirani, R.,Friedman, J.(2001).The elements of statistical learning : data mining, inference, and prediction.N.Y.:Springer-Verlag.
  12. MacQueen, J. B.(1967).Some methods for classification and analysis of multivariate observations.Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability
  13. Ott, R. L.(1993).An introduction to statistical methods and data analysis.Belmont, Calif.:Duxbury Press.
  14. Pyle, D.(1999).Data preparation for data mining.San Francisco:Morgan Kaufmann Publishers.
  15. Scheaffer, R. L.,Mendenhall, W.,Ott, R. L.(1996).Elementary Survey Sampling.Wadsworth Publishing Company.
  16. Tenopir, C.(1990).Value-Added Searching.Library Journal,115(6),79.
  17. Vellido, A.,Lisboa, P. J. G.,Vaughan, J.(1999).Neural Networks in Business: A Survey of Applications.Expert Systems with Applications,17(1),51-70.
  18. Westphal, C.,Blaxton, T.(1998).Data mining solutions: methods and tools for solving real-world problem.
  19. Witten, I. H.,Frank, E.(1999).Data Mining: practical machine learning tools and techniques with Java implementations.CA:Morgan Kaufmann Publishers.
  20. 行政院農業委員會編(2002)。中華民國九十年臺灣地區農家戶口抽樣調查報告。行政院農業委員會。
  21. 吳旭智、賴淑貞(2001)。資料採礦理論與實務~顧客關係管理的技巧與科學。台北:維科圖書有限公司。
  22. 李春雄(2001)。資料庫與個案系統分析—校務行政電腦化系統實作。台北:文魁資訊。
  23. 李珮榕(2003)。碩士論文(碩士論文)。台北,政治大學統計學研究所。
  24. 沈明來(1998)。實用多變數分析。台北:九州圖書文物有限公司。
  25. 沈明來(1997)。實用無母數統計學與計數資料分析。台北:九州圖書文物有限公司。
  26. 易丹輝(2001)。統計預測~方法與應用。北京:中國統計出版社。
  27. 林建言(2004).台北,政治大學統計學研究所.
  28. 林惠玲、陳正倉(2002)。應用統計學。台北:雙葉書廊。
  29. 韋端、鄭宇庭、鄧家駒、匡宏波、謝邦昌(2003)。DATA MINING概述~以Clementine7.0爲例。台北:中華資料採礦協會。
  30. 翁順哲(2002)。碩士論文(碩士論文)。長榮大學經營管理研究所。
  31. 耿直、鄔宏潘、謝邦昌、趙雅婷、蘇志雄(2003)。生物醫學統計學~理論與資料分析應用。台北:鼎茂圖書出版股份有限公司。
  32. 張淳淳(1999).A Study of Value-AddedBusiness Databases.圖書與資訊學刊,29
  33. 彭昭英(1998)。SAS與統計分析。台北:儒林圖書有限公司。
  34. 曾守正、周韻寰(2003)。資料庫系統之理論與實務。台北:華泰書局。
  35. 葉怡成(1997)。應用類神經網路。台北:儒林圖書有限公司。
  36. 葉怡成(1994)。類神經網路模式應用與實作。台北:儒林圖書有限公司。
  37. 趙民德(2002)。砂中選礦(Data Mining)的一些我見我思。中國統計學報,12
  38. 鄭光甫、韋端(1995)。抽樣方法~理論與實務。台北:三民書局。
  39. 諶家蘭(2002)。資料庫管理系統:理論與實務。台北:智勝文化事業有限公司。
  40. 謝邦昌(2001)。資料採礦入門及應用~從統計技術看資料採礦。台北:資商訊息顧問股份有限公司。