题名

由資料採礦技術探討微陣列資料篩選乳癌相關基因

并列篇名

Using Data Mining Technique to Rediscover Breast Cancer Candidate Genes from Microarray Data

DOI

10.6338/JDA.200906_4(3).0009

作者

侯藹玲(Ai-Ling Hour);沈柏志(Po-Chih Shen)

关键词

微陣列 ; 乳癌 ; 資料採礦 ; 集群分析 ; 判別分析 ; Microarray ; Breast Cancer ; Data Mining ; Cluster Analysis ; Discriminant Analysis

期刊名称

Journal of Data Analysis

卷期/出版年月

4卷3期(2009 / 06 / 01)

页次

159 - 178

内容语文

繁體中文

中文摘要

根據行政院衛生署2007年的統計資料顯示,在2007年國人十大死因排行,惡性腫瘤(癌症)連續26年蟬聯首位,在各種癌症之中值得注意的是女性乳癌,其發生率有逐年高升的趨勢,在2005年女性乳癌發生率高達58.83(每十萬人口),位居於第一位,對於婦女同胞的健康構成極大的威脅。目前在生物或醫學研究上,常常使用一些對乳癌有影響的已知基因或激素來進行辨別是否可能罹患乳癌,例如像p53、BRCA1、BRCA2、ER、HER-2…等等,但是,在這成千上萬種的基因裡,應該還是存在著一些可以用來進行辨別有沒有可能罹患乳癌的基因。本研究採用Affymetrix GeneChip Human Genome U133 Plus 2.0 Array這組晶片所做出來的microarray資料為材料來進行研究,所使用的資料集為NCBI裡面的GSE2109、GSE3744、GSE7307三個資料集。本研究使用了集群分析來篩選出在乳癌病患及正常個體之間表現有差異的基因,並建立判別模型來判別一個新個體資料是否可能為乳癌病患,最後再結合GO基因功能分類資料庫,將篩選出的基因進行基因功能分類,提供生物及醫學研究上之參考。

英文摘要

According to the report of leading causes of death from the Department of Health of the Executive Yuan incidence in 2007, the malignant neoplasm are the most of number of death from 1982 to 2007. Breast cancer is worth watching out in the cancer, the incidence rate of breast cancer have been greatly increasing over the past decades, it approached 58.83 per 100,000 per year, it became the threaten of female health. Researchers in medicine or biology used some known genes or hormone that affected breast cancer to identify who had breast cancer or not, like p53, BRCA1, BRCA2, ER, and HER-2, but it might have lots of genes that could make a distinction between cancer patients and normal people.We used the Affymetrix GeneChip Human Genome U133 Plus 2.0 Array, our data sets downloaded from NCBI, they were GSE2109, GSE3744, and GSE7307. We collected the genes that had significant difference in expression with cluster analysis and created a discriminant function with discriminant analysis. Finally, we found out the gene ontology terms that the genes we collected, provided some useful index for researchers in medicine or biology in the future.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. The R Project for Statistical Computing http://www.r-project.org/
  2. 行政院衛生署http://www.doh.gov.tw/CHT2006/index_populace.aspx
  3. SPSS http://www.sinter.com.tw/spss/
  4. Gene Ontology http://www.geneontology.org/index.shtml
  5. Bioconductor http://www.bioconductor.org/
  6. Bolstad, B. M.,Irizarry, R. A.,Astrand, M.,Speed, T. P..A comparison of normalization methods for high density oligonucleotide array data based on variance and bias.Bioinformatics,19(2),185-193.
  7. Cheang, M. C. U.,Rijn, M. v. d.,Nielsen. T. O..Gene Expression Profiling of Breast Cancer.Annu. Rev. Pathol. Mech. Dis.,3,67-97.
  8. Desany, B,Zhang, Z..Bioinformatics and cancer target discovery.Drug Discovery Today,9,795-802.
  9. Gentleman, R.,Carey, V.,Huber, W.,Irizarry, R.(2005).Bioinformatics and Computational Biology Solutions Using R and Bioconductor.New York:Springer.
  10. Kerr, G.,Ruskin, H. J.,Crane, M.,Doolan, P..Techniques for clustering gene expression data.Computers in Biology and Medicine,38,283-293.
  11. Vardhanabhuti S.,Blakemore, S. J.,Clark, S. M.,Ghosh, S.,Stephens, R. J.,Rajagopalan, D..A Comparison of Statistical Tests for Detecting Differential Expression Using Affymetrix Oligonucleotide Microarrays.OMICS,10(4),555-566.
  12. 成佳憲、張獻崑(2008)。希望之路~面對乳癌。臺北市:中華民國癌症希望協會。
  13. 呂金河譯、Sharma, Subhash(2005)。多變量分析。臺中市:滄海書局。
  14. 孫嘯、謝建明、周慶(2006)。R語言及Bioconductor在基因組分析中的應用。北京:科學出版社。
  15. 陳順宇(2005)。多變量分析。臺北市:華泰書局。
  16. 傅怡萍(2002)。國立臺灣大學流行病學研究所。
  17. 謝邦昌、鄭宇庭、蘇志雄(2009)。Data Mining概述以Clementine 12.0爲例。臺北縣新莊市:中華資料採礦協會。
  18. 魏明鋒(2004)。中國醫藥大學醫學研究所。
  19. 羅彥俐(2005)。國防醫學院生命科學研究所。
被引用次数
  1. 高彥鈞(2015)。資料採礦技術應用於全民健保資料庫分析勃起功能障礙病患心房顫動相關因素之研究。Journal Of Data Analysis,10(3),23-50。