题名

運用R Shiny建立文字探勘平台之語意分析及輿情分析

并列篇名

Semantic analysis and Public opinion analysis under the R Shiny Text Mining Platform

DOI

10.6338/JDA.201512_10(6).0003

作者

陳譽晏(Yu-Yan Chen)

关键词

文字探勘 ; 大數據 ; 語意分析 ; 輿情分析 ; 資料採礦 ; Text Mining ; Big Data ; Semantic analysis ; Public opinion analysis ; Data Mining

期刊名称

Journal of Data Analysis

卷期/出版年月

10卷6期(2015 / 12 / 01)

页次

51 - 78

内容语文

繁體中文

中文摘要

隨著資訊時代的快速進步,伴隨而來的就是資料量的大量產生,我們稱之為大數據時代。在大量的資料中,存在著數字型態的結構化資料和文字、聲音、影像的非結構化資料。而處理結構化資料的方法已經有千百種;在處理非結構化資料方面,相對於數字型態的結構化資料,較為有限且棘手,分析的方法也佔少數。為了處理龐大的文字資料,利用本研究的文字探勘平台,將可以快速的從資料中探討其重要意義。本研究先利用Ubuntu進行平台的架設,再利用R Shiny建構文字探勘平台。接著將台積電的新聞資料,予以匯入文字探勘平台中,並跑出一連串之分析,如詞雲分析、集群分析、脈絡分析、關聯分析、情感分析和動態圖表等,從文字探勘的分析方法中,探討匯入的文本資料之意義。

英文摘要

With the rapid advances in the information age, accompanied by the amount of data generated, we call the Big Data Era. In a lot of information, there is the number patterns of structured data, and the text, the sound, the images of unstructured data. The processing methods of structured data have been in countless. But in dealing with unstructured data is more limited and difficult. The methods of analysis is also a minority. In order to handle huge text data, we can use the Text Mining Platform of this study. You will be able to quickly explore the significance from the text data. In this study, I not only use the Ubuntu system to set up the platform, but also I use R Shiny to construction the Text Mining Platform. Then I import the public information material of TSMC in the Text Mining Platform, and it will run a series of analyzes. Such as, word cloud analysis, cluster analysis, LDA analysis, association analysis, sentiment analysis and motion charts.

主题分类 基礎與應用科學 > 資訊科學
基礎與應用科學 > 統計
社會科學 > 管理學
参考文献
  1. SMARTVISION。What is the CRISP-DM methodology?:http://www.sv-europe.com/crisp-dm-methodology/
  2. 極 豆技術博客。R 相關項目調研( shiny, R Studio ):http://www.geedoo.info/r-related-research-projects-shiny-rstudio.html。
  3. R Studio。Download Shiny Server:http://www.rstudio.com/products/shiny/download-server/
  4. (2010).Discovery Science.Springer Berlin Heidelberg.
  5. 程式人雜誌。R 講題分享– 利用 R 和 Shiny 製作網頁應用:http://programmermagazine.github.io/201309/htm/article6.html
  6. 謝宗震(2013 年2 月)。Shiny 介紹與教學:用R 語言跑網頁app。2014 年7 月,:http://tw_use_r.bitbucket.org/shiny-Introduction-of-Shiny.html
  7. R Studio。Running with a Proxy:https://support.rstudio.com/hc/en-us/articles/200552326-Running-with-a-Proxy
  8. 中文百科在線。網路輿情分析:http://www.zwbk.org/MyLemmaShow.aspx?zh=zh-tw&lid=283513#
  9. GitHub。shiny-server:https://github.com/rstudio/shiny-server
  10. GitHub。Ubuntu step by step install instructions:https://github.com/rstudio/shiny-server/wiki/Ubuntu-step-by-step-install-instructions
  11. R Studio。Shiny Server:http://www.rstudio.com/products/shiny/shiny-server/
  12. 國家教育研究院。語意分析法:http://terms.naer.edu.tw/detail/1313419/
  13. Hearst, M. A.,Divoli , A.,Guturu, H.,Ksikes, A.,Nakov, P.,Wooldridge, M. A.,Ye, J.(2007).BioText Search Engine: beyond abstract search.Bioinformatics,23(16),2196-2197.
  14. Holland, J. D.(1962).The Reverend Thomas Bayes , FRS (1702 -61).Journal of the Royal Statistical Society. Series A (General ),1962,451-461.
  15. Pak, A.,Paroubek, P.(2010).Twitter as a Corpus for Sent iment Analysis and Opinion Mining.LREC
  16. Snider, J. G.(Ed.),Osgood, C. E.(Ed.)(1969).Semantic differential technique: A sourcebook.Chicago:Aldine Publishing Company.
  17. Sullivan, A.(2001).Cultural capital and educational attainment.Sociology,35(04),893-912.
  18. Thelwall, M.,Wilkinson, D.,Uppal, S.(2010).Data mining emotion in social network communication: Gender differences in MySpace.Journal of the American Society for Information Science and Technology,61(1),190-199.
  19. Torgo, L.(2010).Data mining with R: learning with case studies.Chapman & Hall/CRC.
  20. Tsytsarau, M.,Palpanas, T.(2012).Survey on mining subjective data on the web.Data Mining and Knowledge Discovery,24(3),478-514.
  21. Van Rossum, G.,Drake, F. L., Jr.(1995).Python reference manual.Amsterdam:Centrum voor Wiskunde en Informatica.
  22. 柯威廷(2010)。碩士論文(碩士論文)。輔仁大學資訊管理學系碩士班。
  23. 涂謹瀅(2014)。碩士論文(碩士論文)。國立中央大學資訊管理學系。
  24. 張良杰(2013)。碩士論文(碩士論文)。國立政治大學資訊管理研究所。
  25. 陳振東、張文彥、洪偉展(2011)。模糊語意運算於雲端服務供應商評估模式與系統建置之研究。第十七屆資訊管理暨實務研討會
  26. 黃純敏、詹雅筑(2013)。透過新聞域加權提升潛在語意分析分群之品質。第九屆知識社群國際研討會
  27. 鄒函升(2013)。碩士論文(碩士論文)。國立政治大學資訊管理研究所。
  28. 謝邦昌、蘇志雄、鄭宇庭(2011)。SQL Server 2008 R2 資料採礦與商業智慧。台北市:碁峰資訊股份有限公司。
  29. 謝邦昌、蘇志雄、鄭宇庭、葉邵緯(2005)。資料採礦與商業智慧─SQL Server 2005。台北市:鼎茂圖書出版股份有限公司。
  30. 鍾瑞益(2013)。碩士論文(碩士論文)。世新大學資訊管理學研究所(含碩專班)。
  31. 羅道夫(2012)。碩士論文(碩士論文)。國立清華大學資訊系統與應用研究所。
被引用次数
  1. 羅子修(2017)。應用文字探勘技術於消費者產品使用狀況之研究-以手機遊戲線上評論為例。中原大學企業管理學系學位論文。2017。1-39。 
  2. 邱書豪(2016)。文化類的輿情分析-以新北市博物館產業為例。臺灣大學國家發展研究所學位論文。2016。1-74。