题名

臺灣客語語料庫建置與客語詞彙使用初探

并列篇名

The Construction of Taiwan Hakka Corpus and Preliminary Analysis of Hakka Lexical Usage

DOI

10.6853/DADH.202110_(8).0003

作者

葉秋杏(Chiou-shing Yeh);賴惠玲(Huei-ling Lai);劉吉軒(Jyi-Shane Liu)

关键词

臺灣客語語料庫 ; 語料庫建構 ; 瀕危語言 ; 高頻詞 ; 齊夫定律 ; Taiwan Hakka Corpus ; corpus construction ; endangered language ; high-frequency words ; Zipf's law

期刊名称

數位典藏與數位人文

卷期/出版年月

8期(2021 / 10 / 01)

页次

75 - 131

内容语文

繁體中文

中文摘要

本文旨在介紹建置中的「臺灣客語語料庫」,其重要性在於其為臺灣第一個書面語料與口語語料兼具的帶標記客語語料庫,以系統化方式收錄臺灣客語六腔語料。為克服於建構過程面臨到之眾多挑戰,本語料庫制訂符合客語真實語言表現之相關規範,解決客語用字及難字輸入問題,介面一律中文化,並獨立開發專屬客語的檢索與斷詞系統。後以高頻詞為引,藉由探索臺灣客語語料庫、中央研究院現代漢語平衡語料庫(臺灣華語)、美國當代英語語料庫(美式英語)前300名高頻詞的詞頻排序結果,檢視此三自然語言是否皆符合齊夫定律,接續則更進一步著重探究臺灣客語與臺灣華語的前十大高頻詞比較,展示語料庫研究具量化數據統計與質性文本分析集於一體之應用實證特性。

英文摘要

This paper aims to address the procedural implications of Taiwan Hakka Corpus under construction. With both written and spoken varieties of Taiwan Hakka language collected in a systematic manner, Taiwan Hakka Corpus is the first part-of-speech-tagged corpus in Taiwan. While confronting various challenges, Taiwan Hakka Corpus manifests its distinctive insignias by formulating standards based on the authentic language performance of Hakka, as well as by tackling the issues of the inputs of Hakka (rare-used) characters. In addition, concordance and segmentation system is developed exclusively for Taiwan Hakka language, with its interface in all Chinese, facilitating users to access the corpus. The distribution of top 300 words in three corpora is subsequently compared and contrasted, examining whether Zipf's law for word frequencies is observed in the three languages (Taiwan Hakka in Taiwan Hakka Corpus; Taiwan Mandarin in Academia Sinica Balanced Corpus of Modern Chinese [Sinica Corpus]; American English in Corpus of Contemporary American English [COCA]). The result exemplifies an empirical quantitative and qualitative experiment made possible for Taiwan Hakka language, thanks to the construction of this corpus.

主题分类 人文學 > 人文學綜合
基礎與應用科學 > 資訊科學
参考文献
  1. Chui, K.,Lai, H.-l.(2008).The NCCU corpus of spoken Chinese: Mandarin, Hakka, and Southern Min.Taiwan Journal of Linguistics,6(2),119-144.
    連結:
  2. Sung, L.-M.,Su, L. I.-w.,Hsieh, F.,Lin, Z.(2008).Developing an online corpus of Formosan languages.Taiwan Journal of Linguistics,6(2),79-117.
    連結:
  3. Tseng, S.-C.(2013).Lexical coverage in Taiwan Mandarin conversation.International Journal of Computational Linguistics and Chinese Language Processing,18(1),1-18.
    連結:
  4. 白璧玲,吳承翰,蔡融易,蔡宗翰,范毅軍(2019)。數位人文與時空資訊整合分析—個人歷史文本分析工具及其應用於明代倭寇研究之案例。數位典藏與數位人文,4,1-25。
    連結:
  5. 邱詩雯(2018)。《史記》作者數位化研究初探—以三十世家虛字字頻為例。數位典藏與數位人文,2,49-69。
    連結:
  6. 劉吉軒(2018)。計算思維與數位人文研究意涵。數位典藏與數位人文,1,51-77。
    連結:
  7. Chen, K.-J.,Huang, C.-R.,Chang, L.-P.,Hsu, H.-L.(1996).Sinica corpus: Design methodology for balanced corpora.Proceedings of the 11th Pacific Asia Conference on Language, Information and Computation,Seoul, Korea:
  8. Chui, K.(2017).Chui, K. (2017). CABank Mandarin Taiwan Corpus [Data set]. doi:10.21415/T5DT2T.
  9. Davies, M. (2008). Corpus of contemporary American English (COCA): 560 million words, 1990-present. Retrieved from https://www.english-corpora.org/coca/
  10. Du Bois, J. W.,Schuetze-Coburn, S.,Cumming, S.,Paolino, D.(1993).Outline of discourse transcription.Talking data: Transcription and coding in discourse research,Hillsdale, NJ:
  11. Green, I., & Nordlinger, R. (n.d.). The Daly languages (Australia). Retrieved from http://dalylanguages.org
  12. Huang, C.-R.,Hsieh, S.-K.,Chen, K.-J.(2017).Mandarin Chinese words and parts of speech: A corpus-based study.London, UK:Routledge.
  13. Johansson, S.,Leech, G. N.,Goodluck, H.(1978).Manual of information to accompany the Lancaster-Oslo/Bergen Corpus of British English, for use with digital computers.Oslo, Norway:University of Oslo.
  14. Kučera, H.,Francis, W. N.(1967).Computational analysis of present-day American English.Providence, RL:Brown University Press.
  15. Lai, H.-l.(2017).Lai, H.-l. (2017). CABank Hakka Taiwan Corpus [Data set]. doi:.
  16. MacWhinney, B.(2019).Understanding spoken language through TalkBank.Behavior Research Methods,51,1919-1927.
  17. MacWhinney, B. (2002). TalkBank. Retrieved from https://www.talkbank.org/
  18. Mayer, M.(1980).Frog, where are you?.New York, NY:Dial Books.
  19. Moseley, C.(Ed.)(2010).Atlas of the world’s languages in danger.Paris, France:UNESCO.
  20. National Chengchi University. (n.d.). The National Chengchi University corpus of spoken Taiwan Mandarin. Retrieved from https://spokentaiwanmandarin.nccu.edu.tw
  21. Oxford Text Archive. (2007). British National Corpus. Retrieved from http://www.natcorp.ox.ac.uk/
  22. Pareto, V. (1896). Cours d’économie politique. Lausanne, Switzerland: Rouge.
  23. Simpson, R. C., Briggs, S. L., Ovens, J., & Swales, J. M. (2002). The Michigan corpus of academic spoken English. Retrieved from https://quod.lib.umich.edu/cgi/c/corpus/corpus
  24. Sybesma, R.(Ed.)(2017).Encyclopedia of Chinese Language and Linguistics.Boston, MA:Brill.
  25. Tsay, J. S.(2014).Tsay, J. S. (2014). PhonBank Taiwanese Tsay Corpus [Data set]. doi:.
  26. University of Texas Libraries & University of Texas at Austin’s College of Liberal Arts. (n.d.). Archive of the indigenous languages of Latin America. Retrieved from https://ailla.utexas.org/
  27. Xia, F.(2000).,未出版
  28. Yeh, C. S.(2017).Taipei, Taiwan,National Chengchi University.
  29. Zipf, G. K. (1949). Human behavior and the principle of least effort. Cambridge, MA: Addison-Wesley.
  30. 中央研究院。中央研究院(n.d.)。中央研究院現代漢語平衡語料庫(4.0 版)。取自http://asbc.iis.sinica.edu.tw/。http://asbc.iis.sinica.edu.tw/
  31. 中央研究院詞庫小組(1998)。中央研究院平衡語料庫的內容與說明(修訂版)。取自 http://rocling.iis.sinica.edu.tw/CKIP/tr/9804_2013.pdf
  32. 古國順,羅肇錦,何石松,呂嵩雁,徐貴榮,涂春景,劉醇鑫(2005).臺灣客語概論.臺北:五南圖書出版.
  33. 行政院客家委員會編(2006)。95 年度臺灣客家民眾客語使用狀況調查。取自 https://www.hakka.gov.tw/file/Attach/1990/1/891015293071.pdf
  34. 李子瑄,曹逢甫(2009).漢語語言學.臺北:正中書局.
  35. 李佩瑛,邱智銘,郭或岑,曾淑娟,黃菊芳,詹景勛,中文詞彙網路小組(2010).語料庫建置入門數位化工作流程指南.臺北:數位典藏拓展臺灣數位典藏計畫.
  36. 李振清(編)(2017).臺灣翻譯發展與人才培育策略研究.臺北:國家教育研究院.
  37. 客家委員會編(2017)。105 年度全國客家人口暨語言基礎資料調查研究。取自 https://www.hakka.gov.tw/File/Attach/37585/File_73865.pdf
  38. 高照明(2018)。,臺北:教育部。
  39. 國立臺灣大學語言學研究所(2012)。國立臺灣大學語言學研究所(2012)。臺大臺灣南島語多媒體語料庫。取自 http://corpus.linguistics.ntu.edu.tw/index_zh.php。http://corpus.linguistics.ntu.edu.tw/index_zh.php
  40. 國家教育研究院。國家教育研究院(n.d.)。國教院語料庫索引典系統(含國教院華語中介語索引典系統)。取自 https://coct.naer.edu.tw/cqpweb/。https://coct.naer.edu.tw/cqpweb/
  41. 教育部(2019a)。合音字表。取自 https://hakkadict.moe.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=M6uVHf/appendix?id=MSA00000070 M6uVHf/appendix?id
  42. 教育部(2012).客家語拼音方案使用手冊.臺北:作者.
  43. 教育部(2019b)。臺灣客家語常用詞辭典。取自 https://hakkadict.moe.edu.tw
  44. 許添明,林慶隆,柯華葳,張俊盛,陳浩然,高照明,張莉萍(2019)。,未出版
  45. 曾淑娟、劉怡芬(2002)。現代漢語口語對話語料庫標註系統說明。取自http://godel.iis.sinica.edu.tw/CKIP/tr/0201_2013.pdf
  46. 湯廷池(1992).漢語詞法句法三集.臺北:臺灣學生書局.
  47. 黃豐隆(2015)。中文與客語文句斷詞處理之研究。取自 https://www.hakka.gov.tw/file/Attach/1990/1/642713433971.pdf
  48. 董秀芳(2002).詞彙化:漢語雙音詞的衍生和發展.成都:四川民族出版社.
  49. 蔡素娟,麥傑(2013)。蔡素娟、麥傑(2013)。臺灣閩南語口語語料庫。取自 http://lngproc.ccu.edu.tw/SouthernMinCorpus/。http://lngproc.ccu.edu.tw/SouthernMinCorpus/
  50. 賴文英(2015).臺灣客語語法導論.臺北:國立臺灣大學出版中心.