题名

數位人文與傳統文獻的相互作用:《呂氏春秋.十二紀》聚類分析與篇章結構新探

并列篇名

The Interplay of Digital Humanities and Traditional Documentology: A Clustering Analysis and Structural Exploration of the Twelve Chronicles in the Lüshi Chunqiu

作者

李貴生(Kwai-Sang Lee)

关键词

《呂氏春秋》 ; 〈十二紀〉 ; 相似度 ; 聚類分析 ; 數位人文 ; Lüshi Chunqiu ; Twelve Chronicles ; similarity ; clustering analysis ; digital humanities

期刊名称

清華中文學報

卷期/出版年月

27期(2022 / 06 / 01)

页次

179 - 234

内容语文

繁體中文

中文摘要

聚類分析(clustering analysis)能夠通過非監督式機器學習算法(unsupervised machine learning algorithms)揭示文本的隱藏結構,已被廣泛地應用在不同類型的文本探勘(data mining)中。鑑於現時先秦兩漢文獻的研究主要停留在資料庫的單向檢索層次,對人工智能的各種工具還未有足夠的重視,本文嘗試運用聚類分析法重新考察《呂氏春秋.十二紀》的主題和結構這個聚訟紛紜的老問題,藉此展示數位人文與上古文獻之間的相互作用(interplay)和對話的可能性。文章首先回顧近數百年來有關〈十二紀〉內容主題和結構編排的不同意見,繼而介紹聚類分析的原理,以及本文選用的數位工具和參數設定,並把四紀的聚類結果與過去的研究加以比對,說明此一方法的效度。接著文章會聚焦在異質性文本的元素,分析其獨特的連接功能,揭示〈十二紀〉的結構模式。本文的成果顯示文本探勘確能為古代文獻研究開拓嶄新視野,不但有助發現新問題,亦能夠解決舊有問題,尚有不少空間值得繼續開發。

英文摘要

Clustering analysis, a method of revealing the hidden structure of texts through unsupervised machine learning algorithms, has been widely used in different types of data mining. In view of the fact that the study of pre-Qin and Han texts has largely remained at the level of one-way searches of databases and paid little attention to the various tools of artificial intelligence, this article attempts to use clustering analysis to reexamine the themes and structure of the "Twelve Chronicles" in the Lüshi Chunqiu, which are long-standing and controversial issues; it further seeks to demonstrate the possibility of interplay and dialogue between the digital humanities and ancient texts. We first revisit different views concerning the main themes and structural organizations of the "Twelve Chronicles" over the past few hundred years, and then introduce the concept of cluster analysis as well as the digital tools and parameters used in this article. To illustrate the validity of this approach, a comparison between the clustering results of four of the "Chronicles" and past studies is carried out. We next focus on the heterogeneous elements of the texts and analyze their unique connecting functions so as to demonstrate the structural patterns of the "Twelve Chronicles." The results of this study show that text mining can indeed open up new horizons for the study of ancient Chinese texts. Text mining not only helps to identify new problems, but also makes it possible to solve old ones. Given this, we conclude that there is still much room for further development.

主题分类 人文學 > 語言學
人文學 > 中國文學
参考文献
  1. 李貴生(2020)。《呂氏春秋》貴生思想的意涵與詮釋效度:兼論〈十二紀〉的「焊接」結構。臺大中文學報,71,1-52。
    連結:
  2. 邱詩雯(2018)。《史詞》作者數位化研究初探——以三十世家虛字字頻為例。數位典藏與數位人文,2,49-69。
    連結:
  3. 胡佳佳,孟琢(2019)。話題建模在中國古代典籍分析中的應用。數位典藏與數位人文,4,27-48。
    連結:
  4. 陳東輝(2008)。古文獻學研究若干領域的回顧與展望。漢學研究通訊,3,5-15。
    連結:
  5. 劉苑如,羅珮瑄,邱琬淳,陳雅琳(2019)。魏晉南北朝筆記小說疾病文本的細讀與遠讀。清華中文學報,22,49-115。
    連結:
  6. 中央研究院上古漢語標記語料庫,http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/akiwi/kiwi.sh?ukey。http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/akiwi/kiwi.sh?ukey=-644530170&qtype=0
  7. Orange, https://orange.biolab.si/download/#windows,瀏覽日期:2020 年8 月 20 日。
  8. 中國歷代人物傳記資料庫,https://projects.iq.harvard.edu/ chinesecbdb,瀏覽日期:2020 年 7 月 14 日。https://projects.iq.harvard.edu/chinesecbdb
  9. 中國哲學書電子化計劃,https://ctext.org/,瀏覽日期:2020 年 8 月 19日。https://ctext.org/
  10. 中國基本古籍庫,http://er07.com/home/pro_3.html,瀏覽日期:2020 年7 月 12 日。http://er07.com/home/pro_3.html
  11. 結巴中文分詞,https://github.com/fxsjy/jieba,瀏覽日期:2020 年 8 月19 日。
  12. 結巴中文斷詞臺灣繁體版本,https://github.com/APCLab/jieba-tw,瀏覽日期:2020 年 8 月 19 日。
  13. 通用型古籍數位人文研究平台,http://ming.ncl.edu.tw/,瀏覽日期:2020 年 7 月 14 日。
  14. 漢籍全文資料庫計畫,http://hanchi.ihp.sinica.edu.tw/ihp/hanji.htm,瀏覽日期:2020 年 7 月 12 日。http://hanchi.ihp.sinica.edu.tw/ihp/hanji.htm
  15. Nvivo, https://help-nv.qsrinternational.com/12/win/v12.1.90-d3ea61/Content/vizualizations/how-cluster-analysis-generated.htm,瀏覽日期:2020年 8 月 20 日。
  16. 漢達古文獻資料庫,http://www.chant.org.ezproxy.eduhk.hk/Lexicon/SpSearch.aspx,瀏覽日期:2020 年 8 月 19 日。http://www.chant.org.ezproxy.eduhk.hk/Lexicon/SpSearch.aspx
  17. 愛如生典海數字平臺,http://er07.com/ home/pro_3.html,瀏覽日期:2020 年 7 月 12 日。http://er07.com/home/pro_3.html
  18. 雙語詞彙、學術名詞暨辭書資訊網,http://terms.naer.edu.tw/detail/1679014/,瀏覽日期:2020 年 7 月 12 日。
  19. GitHub, https://github.com,瀏覽日期:2020 年 8 月 18 日。
  20. Orange3 Text Mining, https://orange3-text.readthedocs.io/en/latest/widgets/bagofwords-widget.html,瀏覽日期:2020 年 8 月 20 日。
  21. 中央研究院數位人文研究平台,http://dh.ascdc.sinica.edu.tw/member/index.html,瀏覽日期:2020 年 7 月 28 日。http://dh.ascdc.sinica.edu.tw/member/index.html
  22. 蔣經國國際學術交流基金會,http://www.cckf.org/zh/sino,瀏覽日期2020 年 7 月 12 日。
  23. (秦)呂不韋,陳奇猷(2002).呂氏春秋新校釋.上海:上海古籍出版社.
  24. (清)永瑢(1987).四庫全書總目.北京:中華書局.
  25. (清)汪中,蔣秋華(編審),林慶彰(編審),王清信(點校),葉存芳(點校)(2000).汪中集.臺北:中央研究院中國文哲硏究所.
  26. (清)孫詒讓,孫啟治(點校)(1985).墨子閒詁.北京:中華書局.
  27. (漢)司馬遷,(南朝宋)裴駰(集解),(唐)司馬貞(索隱),(唐)張守節(正義)(1963).史記.北京:中華書局.
  28. (漢)高誘(注),(清)畢沅(校)(1955).呂氏春秋新校正.臺北:世界書局.
  29. (漢)鄭玄(注),(唐)孔穎達(疏)(2000).禮記正義.北京:北京大學出版社.
  30. (魏)王弼(注),(唐)孔穎達(疏)(2000).周易正義.北京:北京大學出版社.
  31. 《續修四庫全書》編纂委員會(編)(2002).續修四庫全書.上海:上海古籍出版社.
  32. Badia, Antonio(2014).Data, Information, Knowledge: An Information Science Analysis.Journal of the Association for Information Science and Technology,65(6),1279-1287.
  33. Bird, Steven,Klein, Ewan,Loper, Edward(2009).Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.Sebastopol:O'Reilly Media.
  34. Eisen, Michael and De Hoon, Michiel. Cluster 3.0 Manual , http://bonsai.hgc.jp/~mdehoon/ software/cluster/cluster3.pdf,瀏覽日期:2020 年 8 月 20 日。
  35. Hardeniya, Nitin(2015).NLTK Essentials: Build Cool NLP and Machine Learning Applications Using NLTK and Other Python Libraries.Birmingham:Packt Publishing.
  36. Huang, Anna(2008).Similarity Measures for Text Document Clustering.Conference Department of Computer Science,Hamilton:
  37. Kantardzic, Mehmed(2020).Data Mining: Concepts, Models, Methods, and Algorithms.Hoboken:John Wiley & Sons, Inc..
  38. Kastore, Bhupendra,Sachdeva, Shouvik(2014).Document Clustering: Similarity Measures.Indian Institute of Technology,Kanpur:
  39. Lane, Richard J.(2016).The Big Humanities: Digital Humanities/Digital Laboratories.London:Routledge Ltd.
  40. Mikolov, Tomas,Chen, Kai,Corrado, Gregory S.,Dean, Jeffrey(2013).Efficient Estimation of Word Representations in Vector Space.International Conference on Learning Representations,Scottsdale:
  41. Murtagh, Fionn,Legendre, Pierre(2014).Ward’s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward’s Criterion?.Journal of Classification,31,274-295.
  42. Nichols, Ryan,Slingerland, Edward,Nielbo, Kristoffer,Bergeton, Uffe,Logan, Carson,Kleinman, Scott(2018).Modeling the Contested Relationship between Analects, Mencius, and Xunzi: Preliminary Evidence from a Machine-learning Approach.The Journal of Asian Studies,77(1),19-57.
  43. Nisbet, Robert,Elder, John,Miner, Gary(2009).Handbook of Statistical Analysis and Data Mining Applications.London:Academic Press.
  44. Qaiser, Shahzad,Ali, Ramsha(2018).Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents.International Journal of Computer Applications,181(1),25-29.
  45. Sarkar, Dipanjan(2019).Text Analytics with Python: A Practitioner's Guide to Natural Language Processing.New York:Apress.
  46. Singh, Pranjal,Sharma, Mohit(2013).Text Document Clustering and Similarity Measures.Indian Institute of Technology,Kanpur:
  47. Steinbach, Michael,Karypis, George,Kumar, Vipin(2000).A Comparison of Document Clustering Techniques.KDD Workshop on Text Mining,Minneapolis:
  48. Tuckfield, Bradford,Malik, Alok(2019).Applied Unsupervised Learning with R: Uncover Hidden Relationships and Patterns with K-means Clustering, Hierarchical Clustering, and PCA.Birmingham:Packt Publishing.
  49. Verene, Donald P.(2002).Vico’s Method of Studies in Our Time.New Vico Studies,20,13-18.
  50. Wang, Li-dong,Alexander, Cheryl A.(2016).Machine Learning in Big Data.International Journal of Mathematical, Engineering and Management Sciences,1(2),52-61.
  51. Welbers, Kasper,Van Atteveldt, Wouter,Benoit, Kenneth(2017).Text Analysis in R.Communication Methods and Measures,11(4),245-265.
  52. Xu, Rui,Wunsch, Donald C.(2009).Clustering.New Jersey:IEEE Press.
  53. Zinin, Sergey(2017).Analysis of Character-frequency Lists of Chinese Classics and its Application to Content Analysis and Genre Attribution.Scholarly Reports of the Department of China of the Institute of Oriental Studies. Vol. XLVII,Moscow:
  54. 王汎森(2014)。數位人文之可能性及限制── 一個歷史學者的觀察。數位人文研究與技藝,臺北:
  55. 王利器(2002).呂氏春秋注疏.成都:巴蜀書社.
  56. 何晗,《自然語言處理入門》,https://github.com/NLP-LOVE/Introduction-NLP,瀏覽日期:2020 年 8 月 18 日。
  57. 余嘉錫(1980).四庫提要辨證.北京:中華書局.
  58. 李貴生(2016).疏證與析證:清末民初中國文學研究的範式轉移.北京:中國社會科學出版社.
  59. 官琴,鄧三鴻,王昊(2017)。中文文本聚類常用停用詞表對比研究。數據分析與知識發現,2017(3),72-80。
  60. 胡適,季羨林(編)(2003).胡適全集.合肥:安徽教育出版社.
  61. 徐復觀(1976).兩漢思想史.臺北:學生書局.
  62. 殷國光(2008).《呂氏春秋》詞類研究.北京:商務印書館.
  63. 祝平次(2019)。前言。清華中文學報,22,5-8。
  64. 郜建華,樓宇烈(2017)。《呂氏春秋》中的「精氣說」。華僑大學學報(哲學社會科學版),2017(3),40-53。
  65. 張雙棣(2008).《呂氏春秋》詞匯研究.北京:商務印書館.
  66. 張雙棣,殷國光,陳濤(1993).呂氏春秋詞典.濟南:山東教育出版社.
  67. 許維遹(2009).呂氏春秋集釋.北京:中華書局.
  68. 楊寛,〈月令考〉,《齊魯學報》1941 年第 2 期,1941 年 7 月,頁 1-36。
  69. 管宗昌(2016).《呂氏春秋》文學研究.北京:中國社會科學出版社.
  70. 劉世閔(2018)。NVivo 11 Plus 的社交網絡分析在個案研究之運用:以七次國編版國語教科書的負面人物為例。臺灣教育評論月刊,1,317-335。
  71. 劉世閔,吳璟(2002)。NVivo:新世紀的質性研究電腦輔助軟體。慈濟大學人文社會科學學刊,1,135-152。
  72. 錢穆,鄭秀蓮(編)(1994).錢賓四先生全集.臺北:聯經出版事業公司.
  73. 謝邦昌(編)(2017).文本探勘.臺北:元華文創公司.
  74. 譚國根(編),梁慕靈(編),黃自鴻(編)(2018).數碼時代的中國人文學科研究.臺北:秀威資訊.