题名

以基因演算法進行中文斷詞研究以社群網站推文中部旅遊分析為例

并列篇名

A Study of Chinese Semantic Analysis from The Social Media Website for The Traveling Information at Central of Taiwan

作者

卓裕榮(Chuo, Yu-Jung);陳宜謙(Yi-Cian Chen)

关键词

基因演算法 ; 社群網站 ; 中文語詞斷詞 ; 旅遊 ; genetic algorithm ; social network media ; Chinese segmentation ; traveling

期刊名称

嶺東學報

卷期/出版年月

44期(2019 / 06 / 01)

页次

1 - 37

内容语文

繁體中文

中文摘要

本論文是利用基因演算法及社群網站中的旅遊版推文資料進行中文自動語詞斷詞及語意分析之研究,並探討研究分析的結果。中文的語意分析相對於英文來說是較困難的。因為在中文文法結構上與英文有很大的差別,英文文章中單詞都是分開的,中文語句則可能是由好幾個單字或單詞連結而成,所以斷詞系統對於中文文本分析是不容易的。通常斷詞分析需要依靠大量的詞庫,才能夠產生精確之斷詞,而大量的詞庫建構所需要花費的成本是不可想像的,這對於個人做分析是非常不容易達成的。因此,本研究利用基因演算法進行中文語句自動斷詞,然後透過學習所產生的詞彙結果,選擇最好的詞彙組合,將詞彙存入詞庫,建立新詞庫。本論文並運用詞頻-逆文件頻率(TF-IDF)方法擷取出每篇文章的關鍵字詞,並透過分析電子佈告欄系統(Bulletin Board System, BBS)中旅遊版文章資料來進行中文斷詞的研究並藉由其斷詞的結果進行中部旅遊景點的分析。研究結果顯示透過此一語意分析技術可以由論壇的討論短文中確切的做出斷詞,並且由所斷出的詞彙得出中部地區的前十大旅遊景點,並且透過內文的關鍵詞分析可以歸納出該景點的屬性,並且了解該景點的旅客成員特徵。此一結果將可以有助於該景點的後續維護與發展,以維繫該景點的旅遊觀光產業永續發展。

英文摘要

In this study we are trying to do the Chinese semantic analysis by using the data from the social network media based on the genetic algorithm method. It is more difficult for Chinese semantic analysis than English, since the different is in the grammar structure. In English, a single word just could describe the situation and the Chinese might combine several words to say the same thing. Generally, it could be easy and precisely in word segmentation by a dictionary with lots of glossary. It would be too expensive to develop a massive dictionary for the people. The cost of constructing a massive dictionary is unthinkable, which is very unfavorable for personal analysis. Therefore, this study developed system to create dictionary database automaticity by using the genetic algorithm method for the Chinese word segmentation. This study collects the data for more than 400 posts from the extracts the articles by board of Tai-traveling in the social network media PTT. Meanwhile, we also use the TF-IDF (Term Frequency-Inverse Document Frequency) method to get the key words of each post. The result shows a high precision in Chinese word segmentation and gets a traveling rank for the local area, Taichung, in Taiwan.

主题分类 人文學 > 人文學綜合
人文學 > 歷史學
基礎與應用科學 > 資訊科學
社會科學 > 社會科學綜合
参考文献
  1. 林千翔,張嘉惠,陳貞伶(2010)。結合長詞優先與序列標記之中文斷詞研究。運算語言學國際期刊&中文語言處理
    連結:
  2. 陳稼興,謝佳倫,許芳誠(2000)。以遺傳演算法為基礎的中文斷詞研究。資訊管理研究期刊
    連結:
  3. 批踢踢實業坊 BBS
  4. Chen, K. L.,Liu, S. H.(1992).Word Identification for Mandarin Chinese Sentences.Proceeding of COLING-92, 14th Int. Conf. On Computational Linguistics
  5. Deerwester, S.,Dumais, S. T.,Furnas, G. W.,Landauer, T. K.,Harshman, R.(1990).Indexing by latent semantic analysis.Journal of the American Society for Information Sciences,41(6),391-407.
  6. Hofmann, T.(1999).Probabilistic latent semantic indexing.Proceedings of the Twenty-second Annual International ACM Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval (SIGIR 1999),Berkeley, CA, USA:
  7. Liang N. Y.(1990).The Knowledge of Chinese Word Segmentation.Journal of Chinese Information Processing,4,42-49.
  8. Nic, J. Y.,Briscobois, M.(1996).On Chinese Text Retrieval.Proceeding of International ACM Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval (SIGIR)
  9. Salton, G.,McGill, M. J.(1983).Introduction to Modern Information Retrieval.New York:McGraw-Hill Co..
  10. Yang, Shaosong,Xu, Guoyan,Wang, Zhijian,Zhou, Fachao(2015).The Parallel Improved Apriori Algorithm Research Based on Spark.Ninth International Conference on Frontier of Computer Science and Technology
  11. 方心伶(2008)。新竹市,國立清華大學統計研究所。
  12. 王彥叡(2014)。新北市,國立台北大學資訊管理研究所。
  13. 沈育信(2015)。新北市,淡江大學資訊管理學系碩士在職專班。
  14. 許菱祥(2006).中文文法.台北:大中國圖書公司.
  15. 陳永德(1997)。台北市,國立台灣大學心理研究所。
  16. 陳克健,陳正佳,林隆基(1986)。中央研究院資訊所技術報告中央研究院資訊所技術報告,中央研究院資訊。
  17. 陳鍾誠,許聞廉(1998)。結合統計與規則的多層次中文斷詞系統。第十一屆計算語言學研討會論文集
被引用次数
  1. (2019)。大學生網路社群平臺巨量資料探勘之應用。教育與心理研究,42(3),79-109。