题名

一個數位人文內容研究的文本擷詞工具

并列篇名

A Text-Term Extractor for the Study of Digital Humanities

DOI

10.6853/DADH.202204_(9).0003

作者

杜協昌(Hsieh-Chang Tu)

关键词

數位人文 ; 詞彙擷取 ; 詞夾子方法 ; 擷詞工具2020 ; digital humanities ; term extraction ; clipper ; term extractor 2020

期刊名称

數位典藏與數位人文

卷期/出版年月

9期(2022 / 04 / 01)

页次

37 - 63

内容语文

繁體中文

中文摘要

人文研究經常需從研究的文本中,盡可能找出有意義詞彙。詞彙擷取方法是指能夠從數位化文本中,擷取出有意義詞彙的演算法。詞夾子方法是一種半自動的詞彙擷取演算法,它在詞彙擷取的過程中,除了利用電腦進行大量的字串比對,也需要人力介入以提升擷詞成效。本文討論擷詞工具2020。我們先回顧詞夾子方法的原理,說明2015年所開發的詞夾工具在實務操作上的侷限,然後討論新版工具解決這些問題的方式。我們以《熱蘭遮城日誌》第三冊為文本,進行「村社名、人名、船名、日期字串、身分職稱、貨物名稱」等六種類型詞彙的擷詞實驗。這項實驗證實擷詞工具2020可在實務上幫助研究者有效擷取詞彙。最後,我們簡單討論擷詞成果的可能應用,以及未來的改進方向。

英文摘要

Humanists often rely on texts in their research. They may want to extract as many terms of specific type as possible from the texts. Term extraction methods are computational algorithms to extract meaningful terms from a large corpus of digitized texts. Term-clips method is a semi-automatic term extraction approach that requires human-computer interaction to extract terms from texts. In this paper, we discuss a new term-extraction tool, called term extractor 2020, based on improvements from the clipper tool developed in 2015. We recall the idea of term-clips method, describe the problems of the old tool in real cases, and discuss how these problems were solved with term extractor 2020. We run an experiment to extract six classes of terms (village names, person names, ship names, date string, person titles, and freight items) from the text 熱蘭遮城日誌 (a Chinese translation version of "De Dagregisters van het Kasteel Zeelandia") vol. 3. The experiment shows that term extractor 2020 can help researchers extract terms (especially terms in Chinese) in an effective and efficient way.

主题分类 人文學 > 人文學綜合
基礎與應用科學 > 資訊科學
参考文献
  1. 杜協昌(2018)。DocuSky:個人文字資料庫的建構與分析平臺。數位典藏與數位人文,2,71-90。
    連結:
  2. 江樹生(譯註)(2000).熱蘭遮城日誌.臺南:臺南市政府.
  3. 江樹生(譯註)(2003)。江樹生譯註(2003)。熱蘭遮城日誌。臺灣日記知識庫。取自 https://taco.ith.sinica.edu.tw/tdk/ 熱蘭遮城日誌。https://taco.ith.sinica.edu.tw/tdk/熱蘭遮城日誌
  4. 杜協昌(2016)。半自動詞彙擷取:簡化的詞夾子方法以及其 JavaScript元件的開發與應用。數位人文:在過去、現在和未來之間,臺北:
  5. 國立臺灣大學數位人文研究中心(2010)。蘇州碼轉換器。取自 http://doi.org/10.6681/NTURCDH.DB_THDL/SERVICE/Suzhoucode
  6. 張尚斌(2006)。臺北,國立臺灣大學資訊工程學研究所。
  7. 謝育平(2011)。同位詞夾子:主題式分類詞庫萃取演算法。數位人文研究的新視野:基礎與想像,臺北:
  8. 羅鳳珠、元智大學資訊管理系(1996)。紅樓夢網路教學研究資料中心。取自 http://cls.lib.ntu.edu.tw/HLM/home.htm