题名

應用資料採礦及雲端技術建立抽樣方法系統

并列篇名

The Sampling System of Data Mining in Cloud Computing

DOI

10.6338/JDA.201110_6(5).0002

作者

陳盛宇(Sheng-Yu Chen);江志民(Chih-Ming Chiang);蘇志雄(Chih-Hsiung Su)

关键词

雲端運算 ; 抽樣 ; 資料採礦 ; Cloud Computing ; Sampling ; Data Mining

期刊名称

Journal of Data Analysis

卷期/出版年月

6卷5期(2011 / 10 / 01)

页次

11 - 30

内容语文

繁體中文

中文摘要

隨著科技發展,資訊收集方式的改變造成海量資料的時代來臨。人們面臨的不在是資料不足的問題,而是對於大量資料該如何分析。以往使用者只能提升硬體設備的等級,以應付分析資料時的所需付出的時間成本。但伴隨著雲端科技的發展,也提供了一種解決之道,使得人們不再需要為了提高分析的效率,而去追逐硬體、軟體設備的更新。而且雲端運算也提供用多少付多少的概念,大大的降低使用者所需付出的成本,也提高了方便性。而在市場調查方面,最常使用的便是抽樣方法。也由於資料的巨大化,抽樣方法也發展出幾種不同的方式。針對大量資料以及不平衡資料的資料採礦式的抽樣方法例如:超抽樣…,以及用於傳統平衡資料的統計抽樣方法。有鑑於此,本研究將抽樣方法和雲端運算加以結合,發展出針對大量資料、不平衡資料以及平衡資料所使用的抽樣系統,希望可以降低使用者在抽樣時所需要付出的成本,以及提高便利性。

英文摘要

Because of technological advances, changes in data collection methods, resulting in a huge information technology. Cloud technology provided the solution. Market research, the most commonly used method is random sampling. Datamining has developed a proprietary method of sampling.In this study, sampling methods to be combined with the cloud technology, developed for the large amounts of data, unbalanced data. Allows users to use the sampling system.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. Chawla, N.V.,Bowyer, K.W.,Hall, L.O.,Kegelmeyer, W.P.(2002).SMOTE, Synthetic Minority Over-Sampling Technique.Journal of Artificial Intelligence Research,16,321-357.
  2. Chyi, Y. M.(2003).Kaohsiung,Department of Information Management, Nation Sun Yat-Sen University.
  3. Cochran, W. G.(1977).Sampling Techniques.Wiley.
  4. Cochran, W. G.(1961).Comparison of methods for determining stratum boundaries.Bull. Inter. Stat. Inst.,38(2),345-358.
  5. Cochran, W. G.(1963).Sampling Techniques.New York:John Wiley & Sons.
  6. Dalenius, T.(1952).The problem of optimum stratification in a special type of design.SkandinaviskAktuarietidskrift,35,61-70.
  7. Dalenius, T.(1953).Multivariate sampling problem.SkandinaviskAktuarietidskrift,36,92-122.
  8. Dalenius, T.(1950).The problem of optimum stratification-I.SkandinaviskAktuarietidskrift,33,303-213.
  9. Dalenius, T.(1957).Sampling in Sweden.Stockholm:Almqvist&Wicksell.
  10. Dalenius, T.,Gurney, M.(1951).The problem of optimum stratification- II.SkandinaviskAktuarietidskrift,34,133-148.
  11. Dalenius, T.,Hodges, J. L.(1957).The choice of stratification points.SkandinaviskAktuarietidskrift,40,198-203.
  12. Dalenius, T.,Hodges, J. L.(1959).Minimum variance stratification.J. Amer. Stat. Assn,54,88-101.
  13. Hart, P. E.(1968).The condensed nearest neighbour rule.IEEE Transactions on Information Theory,14(3),515-516.
  14. Holte, R. C.,Acker, L. E.,Porter, B. W.(2007).Concept learning and the problem of small disjuncts.Proceedings of the 11th International Joint Conference on Artificial Intelligence,Austin:
  15. Lahiri, D. B.(1954).On the question of bias of systematic sampling.Proceedings of World Population Conference
  16. Lahiri, D. B.,Poti, J.,Banerjee, S.(1954).Studies on population sampling- an experimental approach, 1 and 2, mimeographed.Calcutta:Indian Statistical Institute.
  17. Sethi, V. K.(1963).A note on optimum stratification of populations for estimating the population means.Aust. J. Stat.,5,20-33.
  18. Sun, Y.M.,Kamel, M. S.,Wong, A. K. C.(2007).Cost-sensitive boosting for classification of imbalance data.Pattern Recognition,40(12),3358-3378.
  19. Yen, S.J.,Lee, Y.S.(2008).Cluster-based under-sampling approaches for imbalanced data distributions.Expert Systems with Applications
  20. Zhang, J.,Mani, I.(2003).KNN Approach to Unbalanced Data Distributions: A Case Study Involving Information Extraction.Proceedings of 20th ICML Workshop on Learning from Imbalanced Datasets
  21. 張琦、吳斌、王柏(2005)。非平衡數據訓練方法概述。計算機科學研討會,北京:
  22. 雲端運算使用案例討論小組(2010)。雲端運算使用案例白皮書
  23. 繆志敏(2008)。基於單分類器的資料非平衡問題研究。南京:中國人民解放軍理工大學指揮自動化學院。
  24. 謝邦昌(2009)。統計學─觀念及應用(讓數字會說話的科學與藝術)。台北:華立圖書。
  25. 謝邦昌(2010)。雲端運算在資料採礦和商業智慧上的應用實現。2010兩岸應用統計學術研討會,台北:
  26. 謝邦昌、鄭宇庭、蘇志雄(2011)。SQL Server 2008 R2 資料採礦與商業智慧。台北:碁峰資訊。
  27. 譚琳(2008)。非平衡數據挖掘簡介。計算機科學與技術研討會,南京:
被引用次数
  1. 楊雅茹、江志民、王培得、丁台怡(2012)。資料採礦雲端運算平台建置與應用之研究。數據分析,7(1),1-18。