题名

應用自動文字探勘於臺灣中文饒舌音樂歌詞之研究

并列篇名

A Study on Text Mining of Chinese Rap Music in Taiwan

DOI

10.6853/DADH.202110_(8).0001

作者

韓怡臻(Yi-Chen Han);柯皓仁(Hao-Ren Ke)

关键词

饒舌 ; 文字探勘 ; 詞頻分析 ; 分群 ; 分類 ; rap ; text mining ; word frequency analysis ; clustering ; classification

期刊名称

數位典藏與數位人文

卷期/出版年月

8期(2021 / 10 / 01)

页次

1 - 41

内容语文

繁體中文

中文摘要

邁入千禧年後,饒舌歌曲已逐漸進入主流音樂市場,深受年輕族群的歡迎。饒舌歌手經常透過自行創作的歌詞來抒發心情或表達對社會的批判,瞭解饒舌音樂的歌詞內容也能瞭解當代文化和社會風氣。本研究目的旨在透過文字探勘,去探索臺灣中文饒舌音樂歌詞中可能存在之主題類型。本研究首先進行詞頻分析,從整體、年代兩大面向觀察各關鍵詞的出現頻率以瞭解歌詞文本的基本內涵與詞頻分布,隨後進行了k-means分群演算法(k-means clustering)及鄰近傳播分群法之分群實驗,並利用分群結果與人工標記之結果進行支援向量機與K-近鄰演算法之分類實驗。本研究發現臺灣中文饒舌音樂歌詞近二十年來以音樂、愛情、派對的主題最為常見。分群成效方面,鄰近傳播分群法相較於k-means分群演算法會得到略好些的分群成效。分類成效方面,使用K-近鄰演算法相較於支援向量機會得到略好些的分類成效,而且透過分群結果輔助分類標記能訓練出比純人工標記還要好的音樂類歌詞二元分類模型。音樂類主題的歌詞確實存在於臺灣中文饒舌音樂歌詞中,而其他主題類型的歌詞因為有資料不平衡之問題存在,能否自成一類仍有待觀察。建議未來研究可以增加歌詞文本的收錄範圍、嘗試不同的維度縮減方式、從不同面向進行詞頻分析、偕同專家或閱聽者進行標記、使用不同的分群與分類方法。

英文摘要

After entering the millennium, rap songs have gradually entered the mainstream music market and are very popular among young people. Rappers often express their emotions or express criticism of society through their own lyrics. Understanding the content of rap music lyrics can also understand contemporary culture and social atmosphere. The purpose of this study is to explore possible thematic types in Chinese rap music lyrics in Taiwan through text mining. This study first conducted word frequency analysis, calculated the total number of occurrences of keywords in the lyrics text, and observed the frequency of each keyword to understand the basic connotation and word frequency distribution of the lyrics texts. Then, this study used k-means and affinity propagation clustering to conduct unsupervised clustering experiments. Finally, this study used the results of the clustering experiment and manual labeling with the support vector machine and the k-nearest neighbor algorithm to conduct a supervised binary classification experiment. The findings of the study show that the themes of music, love, and party are the most common themes of Chinese rap music lyrics in Taiwan in the past two decades. In terms of clustering effectiveness, the affinity propagation clustering performed slightly better than k-means. In terms of classification performance, the k-nearest neighbor algorithm outperformed the support vector machine slightly, and the labeling through the clustering results could train a binary classification model for music lyrics that is better than pure manual labeling. The lyrics with the theme of music do exist in Chinese rap music lyrics in Taiwan, and it remains to be seen whether other themes exist due to the problem of data imbalance. It is suggested that future research can increase the coverage of lyrics text, try different dimension reduction methods, analyze word frequency from different aspects, label types of lyrics by experts or listeners, and use different clustering and classification methods.

主题分类 人文學 > 人文學綜合
基礎與應用科學 > 資訊科學
参考文献
  1. Bennett, A.(2000).Popular music and youth culture: Music, identity and place.London, UK:Macmillan.
  2. Chen, S.-Y.,Tseng, T.-T.,Ke, H.-R.,Sun, C.-T.(2011).Social trend tracking by time series based social tagging clustering.Expert Systems with Applications,38,12807-12817.
  3. Chervonenkis, A. Y.(2013).Early history of support vector machines.Empirical inference: Festschrift in honor of Vladimir N. Vapnik,Berlin, Germany:
  4. Cover, T.,Hart, P.(1967).Nearest neighbor pattern classification.IEEE Transactions on Information Theory,13,21-27.
  5. Dueck, D.,Frey, B. J.(2007).Non-metric affinity propagation for unsupervised image categorization.2007 IEEE 11th International Conference on Computer Vision
  6. Furuya, M.,Huang, H.-H.,Kawagoe, K.(2014).Music classification method based on lyrics for music therapy.Proceedings of the 18th International Database Engineering & Applications Symposium,New York, NY:
  7. George, N.(1999).Hip hop America.London, UK:Penguin Books.
  8. Herd, D.(2005).Changes in the prevalence of alcohol use in rap song lyrics, 1979–97.Addiction,Addiction, 100,1258-1269.
  9. Herd, D.(2014).Changes in the prevalence of alcohol in rap music lyrics 1979–2009.Substance Use & Misuse,49,333-342.
  10. Herd, D.(2008).Changes in drug use prevalence in rap music songs, 1979–1997.Addiction Research & Theory,16,167-180.
  11. Huang, T.(2018 年 3 月 16 日)。機器學習—支撐向量機(support vector machine, SVM) 詳細推導 ﹝ 部落格文章 ﹞。 取自 https://chih-shenghuang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E6%94%AF%E6%92%90%E5%90%91%E9%87%8F%E6%A9%9F-support-vector-machine-svm-%E8%A9%B3%E7%B4%B0%E6%8E%A8%E5%B0%8E-c320098a3d2e
  12. Liu, Y.(2019 年 6 月 19 日)。Clustering method 5 ﹝部落格文章﹞。取自https://medium.com/ai-academy-taiwan/clustering-method-5-88c109369fa8
  13. MacQueen, J.(1967).Some methods for classification and analysis of multivariate observations.Proceedings of the fifth Berkeley symposium on mathematical statistics and probability,Berkeley, CA:
  14. PyInvest(2020 年 4 月 19 日)。[ 機器學習首部曲 ]K-近鄰演算法 KNN ﹝部落格文章﹞。取自 https://pyecontech.com/2020/04/19/%e6%a9%9f%e5%99%a8%e5%ad%b8%e7%bf%92%e9%a6%96%e9%83%a8%e6%9b%b2k-%e8%bf%91%e9%84%b0%e6%bc%94%e7%ae%97%e6%b3%95-knn/
  15. Schweig, M. L.(2013).Cambridge, Massachusetts,Harvard University Cambridge.
  16. Subculture. (n.d.). In Lexico.com. Retrieved from https://en.oxforddictionaries.com/definition/us/subculture
  17. TangShusen(2018 年 10 月 27 日)。看了這篇文章你還不懂 SVM 你就來打我﹝部落格文章﹞。取自 https://tangshusen.me/2018/10/27/SVM/
  18. Thorndike, R. L.(1953).Who belongs in the family?.Psychometrika,18,267-276.
  19. World Peace(2017)。獨家專訪/代表參劈的學院派饒舌巨擘—老莫ILL MO。取自 https://www.cool-style.com.tw/wd2/archives/268664
  20. 王思涵(2018).嘻哈囝:臺灣饒舌故事.臺北:避風港文化.
  21. 余至浩(2019)。千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具,正式採用 GPL 3.0 釋出。取自 https://www.ithome.com.tw/news/132838
  22. 宋天龍(2015 年 5 月 19 日)。聚類算法 Affinity Propagation(AP)﹝部落格文章﹞。取自 https://www.dataivy.cn/blog/%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95affinity-propagation_ap/
  23. 李靜,林鴻飛,李瑞敏(2012)。基於情感向量空間模型的歌曲情感標籤預測模型。中文信息學報,26(6),45-50+58。
  24. 李靜怡(2005)。臺南,國立成功大學藝術研究所。
  25. 林怡萱(2011)。新北,輔仁大學語言學研究所。
  26. 林羿薰(2017)。高雄,樹德科技大學人類性學研究所。
  27. 林浩立(2005)。流行化、地方化與想像:臺灣嘻哈文化的形成。人類與文化,37,7-28。
  28. 林程中(2019)。臺北,國立臺灣師範大學環境教育研究所。
  29. 邱詩惠(2017)。高雄,樹德科技大學人類性學研究所。
  30. 洪雅萍(2013)。臺中,國立中興大學臺灣文學與跨國文化研究所。
  31. 洪嘉鴻(2008)。嘉義,南華大學傳播管理研究所。
  32. 張世倫(2006)。拷秋勤的本土嘻哈。臺灣光華雜誌,2006(11)
  33. 張李誌(2015)。臺南,國立成功大學臺灣文學系。
  34. 張俊紅(2018)。Sklearn 參數詳解—SVM。取自 https://zhuanlan.zhihu.com/p/39780508
  35. 莊景和(2006)。臺北,國立臺灣師範大學大眾傳播研究所。
  36. 陳若涵(2006)。新竹,國立清華大學資訊系統與應用研究所。
  37. 陳培真(1997)。臺北,國立臺灣師範大學英語學系。
  38. 辜嘉麗(2018)。新北,淡江大學中國文學系。
  39. 廖偉帆(2016)。臺北,實踐大學資訊科技與管理學系碩士班。
  40. 蔡雪莉(2016)。花蓮,慈濟大學傳播學系碩士班。
  41. 蕭蘋,蘇振昇(2002)。揭開風花雪月的迷霧:解讀臺灣流行音樂中的愛情世界 (1989–1998)。新聞學研究,70,167-195。
  42. 謝邦昌(2017).Text Mining 文本探.臺北:元華文創.
  43. 鍾康盈(2018)。高雄,樹德科技大學人類性學研究所。
  44. 鍾華璇(2018)。彰化,國立彰化師範大學國文學系。
  45. 韓笑(2013)。說唱音樂風格的演唱與特點。音樂生活,2013(11),87-88。
  46. 韓森(2019).來韓老師這裡學饒舌:有了這一本,讓你饒舌不走冤枉路!.臺北:時報文化.