题名

探討環境教育論文的文件自動分類技術-以2013-2018年環境教育研討會摘要為例

并列篇名

Exploring Automatic Document Classification of Environmental Education Research Papers Using Text Mining Manners: An Analysis on Abstracts from the International Conference on Environmental Education between 2013-2018

DOI

10.6555/JEER.17.1.085

作者

張益誠(I-Cheng Chang);張育傑(Yu-Jie Chang);余泰毅(Tai-Yi Yu)

关键词

二階段集群分析 ; 文字探勘 ; 文字雲 ; 共詞分析 ; 關聯規則分析 ; two-step cluster analysis ; text mining ; word cloud ; co-word analysis ; association rules

期刊名称

環境教育研究

卷期/出版年月

17卷1期(2021 / 06 / 01)

页次

85 - 128

内容语文

繁體中文

中文摘要

本研究收集中華民國環境教育學會歷年舉辦的環境教育研討會論文摘要,透過文件自動分類技術,探討環境教育領域文章的詞彙特色與分類的一致性,運用的技術涵括自然語言處理、二階段集群分析、文字雲、共詞分析與關聯規則分析。本文將研討會論文摘要導入中研院中文詞知識庫之自然語言處理演算法,進行斷詞處理,期間採用環境教育專家意見進行輔助斷詞文字處理,將語料庫製成量化的TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-反向文件頻率)結構化樣式。應用二階段集群分析技術對於TF-IDF權重矩陣進行文章自動分類,同時運用文字雲、共詞分析與關聯規則分析,展現類別文章的詞彙特色以及勾稽分類文章的一致性。透過2013-2018年的561篇研討會論文摘要結果發現,斷詞後的原始關鍵詞彙共計4980個,前500大(10%)詞彙可以解釋74.1%的累積詞頻,TF-IDF權重對於篩選環境教育專業詞彙的篩選,可以符合關鍵少數原則。分析階層式集群分析法的總殘差下降幅度,決定K-means集群數目為六類,與歷史文獻比對環境教育的主題,各集群文件的主題分類為:(1)環境政策法規;(2)永續發展;(3)環境倫理、能源資源永續利用;(4)災害防救、能源資源永續利用;(5)氣候變遷;(6)環境倫理。本研究運用文字雲列出各類別高TF-IDF權重的詞彙、文章數量及其比例;採用勾稽方式評估環境教育主題分類的一致性,列出各類別最小距離的前三名文章題目、關鍵詞以及距離,發現各類別的文章主題的確符合一致性。此外,依據分類結果進行Web圖的繪製,篩選重要關鍵詞彙以及其關聯規則,進而建議不同環境教育主題類別的重要關鍵詞彙。對於環境教育領域的自然語言斷詞處理程序以及自動文件分類勾稽而言,必須仰賴領域專家協助,方可提供正確與一致的斷詞與分類結果。

英文摘要

This research collects abstracts from the International Conference on Environmental Education Academia and Practices held by the Chinese Society for Environmental Education (CSEE) between 2013-2018. Through the automatic topic classification techniques, it explores the vocabulary characteristics of classified articles in the field of environmental education and the consistency of classification. Techniques applied include natural language processing, two-step cluster analysis, word cloud, co-word analysis and association rules analysis. In this study, the research abstracts from the conference papers have been imported into the natural language processing algorithm of the CKIP Chinese Lexical Knowledge Base of Academia Sinica for word segmentation. The opinions of environmental education experts have been applied for auxiliary word segmentation, and corpora of abstracts from conference papers have been made into quantitative Term Frequency-Inverse Document Frequency (TF-IDF) weights. Afterwards, two-step cluster analysis technology has been performed to automatically classify articles clusters; the techniques of word cloud, co-word analysis and association rule analysis have been used to show the vocabulary characteristics of distinct clustered articles and the consistency of the classified articles. Based on the results of 561 abstracts of conference papers from 2013 to 2018, the number of original keywords after word segmentation is 4,980. The top 500 (10%) words account for the 74.1% of the cumulative word frequency. The selection of professional vocabularies can match the Pareto principle. The two-step cluster analysis classifies the number of K-means clusters into six categories, namely (1) environmental policy and regulation; (2) sustainable development; (3) environmental ethics and sustainable use of energy and resources; (4) disaster prevention and response, sustainable use of energy and resources; (5) climate change; (6) environmental ethics. This study applies the word cloud to enlist the dominant words with high TF-IDF weights, word frequency and proportions for distinct clusters; utilizes the cross-check method to assess the consistency of topic classification and enlists the top three article titles and keywords with the smallest distance in each category. In addition, the web map is drawn in accordance with classification results, and dominant keywords and their association rules are screened, and then dominant keywords of different themes have been suggested. For natural language word segmentation process and automatic document classification in topic modeling, the assistance of domain experts for environmental education plays a crucial role in providing correctness and consistence in aforementioned academic tasks.

主题分类 工程學 > 市政與環境工程
社會科學 > 教育學
参考文献
  1. Worawut, D.,Wirot, Y.(2015)。以兩階段集群分析方法之比較:以泰國普吉島遊客資訊管理為例。島嶼觀光研究,8(4),32-48。
    連結:
  2. 丁怡婷, Y. T.,劉志光, C. K.(2010)。文字探勘技術應用於中醫診斷腦中風之研究。數據分析,5(4),41-64。
    連結:
  3. 尹其言, C. Y.,楊建民, J. M.(2010)。應用文件分群與文字探勘技術於機器學習領域趨勢分析以 SSCI 資料庫為例。長榮大學學報,14(2),1-16。
    連結:
  4. 方瑀紳, Y. S.,李隆盛, L. S.(2014)。1994-2013 年國內外科技教育學位論文研究取向之比較。科技管理學刊,19(3),33-61。
    連結:
  5. 吳家豪, J. H.,馬麗菁, L. C.(2017)。線上健康類新聞之分析與預測─巨量資料架構。企業管理學報,113,1-29。
    連結:
  6. 吳慧珉, H. M.,楊小億, H. Y.,施淑娟, S. C.,許天維, T. W.(2019)。一對一畢氏定理對話式智慧家教系統之建置與成效評估。數位學習科技期刊,11(3),1-28。
    連結:
  7. 李宜玫, Y. M.(2012)。數學低成就學習動機之類型與區別分析:中小學弱勢學生與一般學生之比較。教育科學研究期刊,57(4),39-71。
    連結:
  8. 林佳慶, C. C.,謝雨蓁, Y. J.(2019)。以集群分析方法探討臺灣大學生進行開放式網路資源探究之個人化數位內容策展模式。數位學習科技期刊,11(2),37-55。
    連結:
  9. 林宜歆, Y. H.,林嶔, C.,葉釋仁, S. J.,蘇遂龍, S. L.(2018)。利用文字探勘建立醫學主題詞與基因名稱之關聯性。台灣公共衛生雜誌,37(1),12-23。
    連結:
  10. 林柏宇, P. Y.,謝邦昌, B. C.,廖佩珊, P. S.(2016)。基於 Python 之文字探勘平臺。數據分析,11(6),35-61。
    連結:
  11. 林效荷, H. H.,江志民, C. M.,夏學理, H. L(2009)。複合式休閒運動市場區隔之研究。數據分析,4(5),165-195。
    連結:
  12. 林頌堅, S. C.(2017)。以開放資料的教師學術專長彙整表為基礎之學科標準分類分析。教育資料與圖書館學,54(1),69-95。
    連結:
  13. 邵軒磊, H. L.(2019)。當代西方民主研究論述分析:知識系譜與文字探勘。哲學與文化,46(2),33-56。
    連結:
  14. 邱登裕, D. Y.,潘雅真, Y. C.(2006)。結合資訊檢索與分群演算法建構知識地圖。資訊管理學報,13(S),137-160。
    連結:
  15. 翁政雄, C. H.(2011)。從購買意願資料中挖掘高度相關性的關聯規則。資訊管理學報,18(4),119-138。
    連結:
  16. 郝沛毅, P. Y.,歐仁彬, J. B.,黃天受, T. S.,林振穎, Z. Y.,吳建生, J. S.(2018)。透過新聞文章預測股價漲跌趨勢─結合情緒分析、主題模型與模糊支持向量機。資訊管理學報,25(4),363-395。
    連結:
  17. 高翠霞, T. S.,張子超, T. C.(2016)。環境教育的發展脈絡與融入十二年國教的方法。課程與教學,19(2),27-51。
    連結:
  18. 張心馨, H. H.(2006)。消費者對 Internet 智慧代理人的科技特性、任務特性及任務─科技配適度之實質接受度。資訊管理學報,13(1),271-308。
    連結:
  19. 曹修源, H. Y.,鄒昭聰, C. T.,林慶昌, C. C.,吳采軒, T. H.(2019)。創新的社群文字探勘方法分析 2018台北市市長候選人形象定位。電子商務研究,17(4),277-293。
    連結:
  20. 曹開明, K. M.,黃鈴媚, L. M.,劉大華, T. H.(2017)。數位語藝批評與文本探勘工具—以反核臉書粉絲團形塑幻想主題為例。資訊社會研究,32,9-49。
    連結:
  21. 陳譽晏, Y. Y.(2015)。運用 R Shiny 建立文字探勘平台之語意分析及輿情分析。數據分析,10(6),51-78。
    連結:
  22. 曾元顯, Y. H.,林瑜一, Y. I(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),129-166。
    連結:
  23. 舒玉, Y.,陳鈺潔, Y. J.,黃天麒, T. C.(2019)。護理教育未來式─以虛擬實境誘發動機之整合學習模式。護理雜誌,66(2),22-28。
    連結:
  24. 楊錦生, C. S.,謝佩芸, P. Y.,施曉萍, H. P.(2017)。社群媒體中顧客知識之挖掘:意見探勘技術開發。臺大管理論叢,27(2S),1-28。
    連結:
  25. 趙妤瑄, Y. H.,王豐緒, F. H.(2017)。情緒詞權重計算與分類演算法對於情緒分析結果之影響─以臉書粉絲團議題分析為例。電子商務研究,15(2),147-166。
    連結:
  26. 蔡介元, C. Y.,張百棧, P. C.,王錫中, S. J.(2003)。運用關聯法則技術與類神經網路於產品開發設計之研究。工業工程學刊,20(2),101-112。
    連結:
  27. 蔡逸芬, Y. F.,陳品華, P. W.(2015)。國小高年級學童課外閱讀自我決定動機之研究。教育心理學報,46(3),425-448。
    連結:
  28. 謝元晟, Y. C.,程美華, M. H.,張光昭, K. C.(2016)。運用 R 建立文字探勘平台應用於電視收視率預測。數據分析,11(3),109-134。
    連結:
  29. 謝吉隆, J. L.,楊苾淳, B. C.(2018)。從「應變自然」到「社會應變」:以文字探勘方法檢視國內風災新聞的報導。教育資料與圖書館學,55(3),285-318。
    連結:
  30. 羅鳳珠, F. J.(2011)。以語言知識庫為基礎的智慧型作詩填詞輔助系統。教學科技與媒體,95,36-52。
    連結:
  31. Chen, H.,Chiang, R. H.,Storey, V. C.(2012).Business intelligence and analytics: From big data to big impact.MIS Quarterly,36(4),1165-1188.
  32. Chen, K. J.,Liu, S. H.(1992).Word identification for Mandarin Chinese sentences.Proceedings of the 14th conference on Computational linguistics
  33. Chen, S. Y.,Liu, S. Y.(2020).Developing students’ action competence for a sustainable future: a review of educational research.Sustainability,12(4),1374.
  34. Chen, Y. L.,Liu, Y. H.,Ho, W. L.(2013).A text mining approach to assist the general public in the retrieval of legal documents.Journal of the Association for Information Science and Technology,64(2),280-290.
  35. Chen, Y. L.,Weng, C. H.(2008).Mining association rules from imprecise ordinal data.Fuzzy Sets and Systems,159(4),460-474.
  36. Corrales-Garay, D.,Ortiz-de-Urbina-Criado, M.,Mora-Valentín, E. M.(2019).Knowledge areas, themes and future research on open data: A co-word analysis.Government Information Quarterly,36(1),77-87.
  37. Dijcks, J.(2013).Oracle: Big data for the enterprise.Redwood Shores, CA:Oracle Corporation.
  38. Ding, Y.,Chowdhury, G. G.,Foo, S.(2001).Bibliometric cartography of information retrieval research by using co-word analysis.Information Processing & Management,37(6),817-842.
  39. Entwistle, N.,Tait, H.,McCune, V.(2000).Patterns of response to an approaches to studying inventory across contrasting groups and contexts.European Journal of Psychology of Education,15(1),33-48.
  40. Gao, Y.,Xu, Y.,Li, Y.(2015).Pattern-based topics for document modelling in information filtering.IEEE Transactions on Knowledge and Data Engineering,27(6),1629-1642.
  41. Garcia, S.,Derrac, J.,Cano, J.,Herrera, F.(2012).Prototype selection for nearest neighbor classification: Taxonomy and empirical study.IEEE Transactions on Pattern Analysis and Machine Intelligence,34(3),417-435.
  42. Girmay, G.,Bhaskari, D. L.(2018).Big data analytics and security: a big choice and challenge for the generation.Smart computing and informatics,Springer:
  43. Gunter, B.,Koteyko, N.,Atanasova, D.(2014).Sentiment analysis: A market-relevant and reliable measure of public feeling?.International Journal of Market Research,56(2),231-247.
  44. Guo, D.,Chen, H.,Long, R.,Lu, H.,Long, Q.(2017).A co-word analysis of organizational constraints for maintaining sustainability.Sustainability,9(10),1928.
  45. He, W.,Zha, S.,Li, L.(2013).Social media competitive analysis and text mining: A case study in the pizza industry.International Journal of Information Management,33(3),464-472.
  46. Joachims, T.(1998).Text categorization with support vector machines: Learning with many relevant features.Machine Learning: ECML,98,137-142.
  47. Kaisler, S.,Armour, F.,Espinosa, J. A.,Money, W.(2013).Big data: Issues and challenges moving forward.Proceedings of the 2013 46th Hawaii International Conference on System Sciences
  48. Keim, D.,Qu, H.,Ma, K. L.(2013).Big-data visualization.IEEE Computer Graphics and Applications,33(4),20-21.
  49. Khasseh, A. A.,Soheili, F.,Moghaddam, H. S.,Chelak, A. M.(2017).Intellectual structure of knowledge in iMetrics: A co-word analysis.Information Processing & Management,53(3),705-720.
  50. Kwon, O.,Sim, J. M.(2013).Effects of data set features on the performances of classification algorithms.Expert Systems with Applications,40(5),1847-1857.
  51. Lai, C. H.,Liu, D. R.(2009).Integrating knowledge flow mining and collaborative filtering to support document recommendation.Journal of Systems and Software,82(12),2023-2037.
  52. Lavie, T.,Sela, M.,Oppenheim, I.,Inbar, O.,Meyer, J.(2010).User attitudes towards news content personalization.International Journal of Human-Computer Studies,68(8),483-495.
  53. Liao, S. H.,Wen, C. H.(2007).Artificial neural networks classification and clustering of methodologies and applications: literature analysis from 1995 to 2005.Expert Systems with Applications,32(1),1-11.
  54. Miner, G.,Elder IV, J.,Fast, A.,Hill, T.,Nisbet, R.,Delen, D.(2012).Practical text mining and statistical analysis for non-structured text data applications.Waltham, MA:Academic Press.
  55. Shen, L.,Xiong, B.,Hu, J.(2017).Research status, hotspots and trends for information behavior in China using bibliometric and co-word analysis.Journal of Documentation,73(4),618-633.
  56. Wang, S. I.,Manning, C. D.(2012).Baselines and bigrams: Simple, good sentiment and topic classification.Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics
  57. Wang, W.,Chen, X.,Zou, Y.,Wang, H.,Dai, Z.(2010).A focused crawler based on Naive Bayes classifier.2010 Third International Symposium on Intelligent Information Technology and Security Informatics
  58. Wu, H. C.,Luk, R. W. P.,Wong, K. F.,Kwok, K. L.(2008).Interpreting TF-IDFterm weights as making relevance decisions.ACM Transactions on Information Systems,26(3),1-37.
  59. Zhang, W.,Yoshida, T.,Tang, X.(2011).A comparative study of TF*IDF, LSI and multi-words for text classification.Expert Systems with Applications,38(3),2758-2765.
  60. 王惠嘉, H. C.,黃天祥, T. H.,劉姿蘭, T. L.(2013)。探討文字探勘方法對電子病歷進行 ICD-9-CM自動編碼之研究。醫療資訊雜誌,22(1),35-50。
  61. 汪憶湘, Y. H.(2019)。應用文字探勘技術探討學生之戒菸經驗。健康生活與成功老化學刊,11(1),1-13。
  62. 辛懷梓, H. T.,張自立, T. L.,王國華, K. H.(2011)。內容分析 10 年間環境教育的研究方法與趨勢。東海大學教育評論,6,24-46。
  63. 周智勳, C. H.,丁泓丞, H. C.(2013)。基於關聯度指標之網路文件語意分析與文句摘要。資訊科技與應用期刊,7(3),89-94。
  64. 林俊成, J. C.,王培蓉, P. J.,詹為巽, W. H.(2018)。運用共詞與社會網絡分析探討 2008-2017 年臺灣林學研究期刊重點主題與結構。中華林學季刊,51(3),217-229。
  65. 馬桂新, G. X.(2007).環境教育學.北京=Beijing:科學出版社=Science Press.
  66. 許曉霈, H. P.,李子奇, T. C.,張瑞瑤, J. Y.,於淑娟, S. C.,黃久美, C. M.(2018)。應用文字探勘探索痛經婦女之疾病經驗。健康生活與成功老化學刊,10(1),39-53。
  67. 黃俊英, J. Y.(2000).多變量分析.臺北=Taipei:華泰書局=Hwa Tai Publishing.
  68. 黃嘉郁, C. Y(1999)。台灣地區環境教育學位論文研究主題之分析。中師數理學報,2(2),69-92。
  69. 楊冠政, G. Z.(1997).環境教育.臺北市=Taipei:明文書局=Ming Wen.
  70. 盧姝如, S. J.,朱慶雄, C. H.,盧昉暄, F. H.(2013)。數位化桌上遊戲創新學習模式之開發設計─以國小中年級生海洋教育為例。國民教育,53(4),45-55。