题名

基於Python之文字探勘平臺

并列篇名

Text mining platform with python

DOI

10.6338/JDA.201612_11(6).0003

作者

林柏宇(Po-Yu Lin);謝邦昌(Ben-Chang Shia);廖佩珊(Pei-San Liao)

关键词

文字探勘 ; 大數據 ; 情感分析 ; 資料採礦 ; Text Mining ; Big Data ; Semantic analysis ; Data Mining

期刊名称

Journal of Data Analysis

卷期/出版年月

11卷6期(2016 / 12 / 01)

页次

35 - 61

内容语文

繁體中文

中文摘要

隨著資訊科技的發展及手持裝置與社群網站越來越趨於活絡,各種電子新聞、社群網站的貼文與評論的資料量快速成長且結構複雜。一般而言,資料可簡單的分成結構化資料與非結構化資料,結構化的資料已有許多有效的方法可以運用,像是資料採礦技術,但如文字、聲音、影像等非結構化資料的分析方法,相較之下較為少數,運用本研究的文字探勘平台,挖掘出有效的資訊,將可以快速的從資料中探討其重要意義。本研究希望透過網路上的開源碼整合出一套平台,利用Python 做為後台運算,結合HTML 撰寫網頁程式,把文字探勘的平台架在Django 上。再將夏季旅展的新聞資料匯入平台,做文字探勘相關的分析,如詞雲分析、關聯分析、集群分析、情感分析等,討論夏季旅展資料的意義與脈絡。

英文摘要

With the development of information technology, handheld devices and social networking sites become more and more active, a variety of electronic news and community website postings and comments rapidly growing amount of data and complex structure. In general, the data can be simply divided into structured data and unstructured data, structured data there are many effective methods can be applied, such as data mining technology. But such as text, sound, video and other unstructured data analysis method, compared to relatively few, in this study the use of text mining platform, found out an effective information, will be able to quickly explore its significance from the data. We hope that through this study, an open source web platform for the integration of a set, use Python as a background operation, combined with HTML pages written program, the text mining platform on the shelf in Django. Then TTE news data import platform, do text mining-related analysis, such as word cloud analysis, correlation analysis, cluster analysis, sentiment analysis, etc., to discuss the meaning and context of information TTE.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. 張文瑜(2005)。傳播學的建構─談問卷資料為什麼和如何被視覺化。中國廣告期刊,2005(10),55-70。
    連結:
  2. 陳譽晏(2015)。碩士論文(碩士論文)。輔仁大學統計資訊學系應用統計碩士班。
    連結:
  3. Django http://www.openfoundry.org/tw/tech-column/1330-django
  4. PyCharm-JetBrains https://www.jetbrains.com/pycharm/
  5. (1996).advances in Knowledge Discovery and data Mining.
  6. Python 程式語言教學誌 http://pydoing.blogspot.tw/2012/10/python-tutorial.html
  7. 資料視覺化網站http://blog.infographics.tw/2015/06/three-keys-to-visualization/
  8. Python 第一次用就上手http://wiki.python.org.tw/Python/%E7%AC%AC%E4%B8%80%E6%AC%A1%E7%94%A8%E5%B0%B1%E4%B8%8A%E6%89%8B
  9. Python https://www.python.org/
  10. Django Book 2.0.
  11. Django Girls 指南 https://djangogirlstaipei.gitbooks.io/django-girls-taipei-tutorial/content/index.html
  12. Bird, Steven,Klein, Ewan,Loper, Edward(2009).Natural Language Processing with Python.O'Reilly Media.
  13. Messaris, P.(1994).Visual literacy: Images, mind and reality.Boulder, Colorado:Westview Press.
  14. Sullivan, A.(2001).Cultural capital and educational attainment.Sociology,35(04),893-912.
  15. Thelwall, M.,Wilkinson, D.,Uppal, S.(2010).Data mining emotion in social network communication: Gender differences in MySpace.Journal of the American Society for Information Science and Technology,61(1),190-199.
  16. Tsytsarau, M.,Palpanas, T.(2012).Survey on mining subjective data on the web.Data Mining and Knowledge Discovery,24(3),478-514.
  17. Van Rossum, G.,Drake, F. L., Jr(1995).Python reference manual.Amsterdam:Centrum voor Wiskunde en Informatica.
  18. 吳宜隆(2010)。碩士論文(碩士論文)。虎尾科技大學資訊管理研究所。
  19. 巫啟台(2002)。碩士論文(碩士論文)。國立成功大學資訊工程學系所。
  20. 林名彥(2015)。龍華科技大學資訊管理系。
  21. 陳芸芸(2004)。視覺文化導論。台北:韋伯文化。
  22. 陳柏江(2014)。碩士論文(碩士論文)。國立臺北護理健康大學資訊管理研究所。
  23. 楊尊宇(2015)。碩士論文(碩士論文)。國立清華大學資訊系統與應用研究所。
  24. 劉育華(2014)。碩士論文(碩士論文)。明新科技大學資訊管理系碩士班。
  25. 鄭凱文(2014)。碩士論文(碩士論文)。國立政治大學會計研究所。
  26. 諶家蘭(2006)。淺介資料探勘與XBRL。會計研究月刊,245,56-63。
  27. 謝邦昌、鄭宇庭、李御璽、郭良芬(2011)。商業資料採礦 使用Excel 2010。新北市:中華資料採礦協會。
  28. 謝邦昌、蘇志雄、鄭宇庭(2011)。SQL Server 2008 R2資料採礦與商業智慧。臺北市:碁峰資訊股份有限公司。
被引用次数
  1. 張益誠,張育傑,余泰毅(2021)。探討環境教育論文的文件自動分類技術-以2013-2018年環境教育研討會摘要為例。環境教育研究,17(1),85-128。
  2. (2024)。應用校務研究淺談教學實踐的文本與內容分析。商管科技季刊,25(3),377-394。