题名

應用機率密度函數及重疊係數評估資料一致性之研究

并列篇名

Evaluating Data Consistency with Probability Density Function and Overlap Coefficient

DOI

10.6338/JDA.201204_7(2).0007

作者

黃量謙(Liang-Chien Huang);林定香(Ting-Hsiang Lin)

关键词

資料一致性 ; 機率密度函數 ; 重疊係數 ; 連結變數 ; Data consistency ; Probability density function ; Overlap coefficient ; Linking variable

期刊名称

Journal of Data Analysis

卷期/出版年月

7卷2期(2012 / 04 / 01)

页次

125 - 143

内容语文

繁體中文

中文摘要

在許多實務應用上,經常會接觸到針對相同調查母體抽樣所得的兩個獨立資料庫。在沒有互相連結變數的情況下,就無法像關聯式資料庫利用連結變數,將所有資料串聯起來。因此,在比對變數間一致性時,就無法透過一對一的方式進行資料的對應。故本研究提出由觀察資料機率密度函數形態的角度,依據資料變數的屬性,分別從單一維度及多維度來尋找其適當機率分配函數,利用所估計的機率分配函數作為兩獨立資料間比對的基礎,計算出兩筆資料間的重疊係數,進而判定彼此資料間的一致、吻合程度,使得在變數使用上更具可靠性。根據本研究範例,對於產業創新與工商普查資料的實務上應用分析,建議利用不隨時間變動的屬質變數進行一致性比對,相對於屬量變數可得到較佳的比對結果。

英文摘要

In many practical applications, we have two databases that sampling from the same population. Without linking variables, one will not be able to merge data to check data consistency. In this study, we take a perspective from probability density function. According to the attributes of the variables, we find the appropriate one-dimension and multi-dimension probability distribution function for two datasets. Then, we use the estimated probability distribution function to obtain the overlap coefficient. Finally, we evaluate the extent of data consistency and reliability between two data. From the empirical analysis of industrial innovation survey and the industry, commerce and service census data as an example, we suggest that using the non-time-varying discrete variables to carry on data mapping will yield better results than using continuous variables.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. 建立商業母體資料檔之研究 (2005),行政院主計處專題分析,取自取自行政院主計處網 http://www.dgbas.gov.tw/ct.asp?xItem=28620&ctNode=3266
  2. 劉訓蓉、陳豔秋、呂淑君 (2004),「普查及抽樣調查與公務檔案資料聯結運用及資料庫建立方法」,行政院主計處專題分析,取自行政院主計處網頁 : http://www.dgbas.gov.tw/ct.asp?xItem=28620&ctNode=3266
  3. Gao, C.,Fan, W.,Geerts, F.,Jia, X.,Ma, S.(2007).Improving Data Quality: Consistency and Accuracy.Proccedings of the VLDB 2007
  4. Gordon, A.,Ying, G.,Leo, T.W.(2009).Distributional Overlap: Simple, Multivariate, Parametric and Non-Parametric Tests for Alienation.Econometric Reviews,29,247-275.
  5. Hassani, H.,Haeri Mehrizi, A.(2006).Data Mining and Official Data.Proceeding of the 8th Iranian International Statistics Conference
  6. Hipp, J.,Gntzer, U.,Grimmer, U.(2001).Data quality mining-making a virtue of necessity.Proceeding of the 6th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery
  7. Mark, E. S.,Max, D.(1996).,Federal Reserve Bank of Cleveland.
  8. Obaid, A.,Hani, M. S.,Mohammad, F. A.(2005).Inference on overlap coefficients under the Weibull distribution : equal shape parameter.ESAIM: Probability and Statistics,9,206-219.
  9. Parzen, E.(1962).On estimation of a probability density function and mode.Annals of Mathematical Statistics,33(3),1065-1076.
  10. Saeed, F.,Ahmad, B. D.(2010).Data Quality Measurement using Data Mining.International Journal of Computer Theory and Engineering,2(1),115-118.
  11. Weitzman, M. S.(1970).Measures of Overlap of Income Distributions of White and Negro Families in the United States.U.S. Bureau of the Census.
  12. 王咨富(2008)。碩士論文(碩士論文)。國立臺灣科技大學資訊管理學系。
  13. 王華、金勇進(2010)。統計數據質量評估:誤差效應分析與用戶滿意度測評。中國統計出版社。
  14. 周奕彰(2009)。碩士論文(碩士論文)。國立陽明大學公共衛生研究所。
  15. 林家偀(2006)。碩士論文(碩士論文)。國立臺灣大學農藝學研究所。
  16. 傅正陽(2010)。碩士論文(碩士論文)。國立清華大學資訊工程學系。