题名

中文OCR 文件檢索測試集之製作與應用

并列篇名

Construction and Application of an Chinese OCR Test Collection for Information Retriveal

DOI

10.6120/JoEMLS.200303_40(3).0007.RS.CM

作者

蔡孟竹(Mung-Chu Tsai);曾元顯(Yuen-Hsien Tseng)

关键词

光學文字辨譏 ; 資訊檢索 ; 則試集 ; 成效評估 ; 中文檢索 ; OCR ; Information retrieval ; Test collection ; Effectiveness evaluation ; Chinese document retrieval

期刊名称

教育資料與圖書館學

卷期/出版年月

40卷3期(2003 / 03 / 01)

页次

325 - 344

内容语文

繁體中文

中文摘要

本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影豫轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計.驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。

英文摘要

This article describes the process of constructing a Chinese OCR test collection and the application of this collection in an retrieval experiment. We have overcome the difficulty of obtaining past information need for retrospective data and created 30 query topics that simulate real user needs. To obtain real OCR documents instead of simulated ones, we have converted 8439 full-text images into 8439 OCR text files. An evaluation of the OCR documents reveals an average of 70% of recognition accuracy. To obtain the relevant documents for each query, we invited 3 judges to examine each of 8439 images and give relevance score to each document for each topic. According to Kendall's statistical coefficient, highly consistent judgments are obtained in 20 query topics. Finally in our experiment with 12 search strategies, our results show that the retrieval effectiveness of OCR documents decrease to 70% when the recognition accuracy is about 70%.

主题分类 人文學 > 圖書資訊學
参考文献
  1. 陳光華(2001)。國立臺灣大學圖書資訊學系四十週年系慶學術研討會:知識經濟時代圖書資訊學之展望論文集
    連結:
  2. NTCIR Workshop.
  3. Cleverdon, Cyril W.(1991).Proceedings of the Fourteenth Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval.
  4. Kanungo, Tapas,Bulbul, Osama,Marton, Gregory A.(1998).Proceedings of the 27th Applied Imagery Pattern Recognition Workshop on Advances in Computer Assisted Recognition.
  5. Keen Michael(1998).Cyril W. Cleverdon.The Journal of Documentation,54(3),269.
  6. Palmer, Christopher R.,Clarke, Charles L. A.,McCormack, Gavan(1998).Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’98).
  7. Resnik, Philip,Kanungo, Tapas(1999).Proceedings of SPIE Conference on Document Recognition and Retrieval VI.
  8. Salton, Gerard(1992).The State of Retrieval System Evaluation.Information Processing and Management,28(4),443.
  9. Voorhees, Ellen M.(2000).Variations in Relevance Judgments and the Measurement of Retrieval Effectiveness.Information Processing and Management,36(5),697-698.
  10. Voorhees、 Ellen M.,Harman, Donna, D.(2000).Overview of the Sixth Text Retrieval Conference (TREC-6).Information Processing and Management,36(1),8.
  11. Zobel, Justin.(1998).Proceedings of the 21st Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval.
  12. 江玉婷(1999)。中文資訊檢索測試集設計與製作之研究
  13. 張勝溢(1993)。SPSS/PC進階篇
  14. 陳光華、江玉婷(2000)。中文資訊檢索測試集之設計與製作。資訊傳播與圖書館學,6(3),61-80。
  15. 陳光華, Kuang-Hua,江玉婷, Yu-ting(1999).TREC現況及其對資訊檢索研究之影響.圖書與資訊學刊,29,43-44.
  16. 曾元顯, Yuen-Hsien(1998).An Approach to Retrieval of OCR Degraded Text.圖書館學刊,13,153-168.
  17. 曾元顯(2001)。二十一世紀資訊科學與技術國際學術研討會
  18. 曾元顯(1998)。模糊搜尋、相關詞提示與相關詞回饋在OPAC系統中的成效評估。中國圖書館學會會報,61,103-125。
  19. 曾元顯, Yuen-Hsien,Oard, Douglas W.(2001).Proceedings of the Fourth Symposium on Document Image Understanding Technology.
  20. 黃國光(2000)。SPSS與統計原理剖析
  21. 顏月珠(1986)。實用無母數統計方法
被引用次数
  1. 曾元顯(2014)。自動化資訊組織與主題分析近二十年來的研究與發展。教育資料與圖書館學,51(特刊),3-26。
  2. 簡睦容,陳振昇,林靖文,佘永吉(2021)。3D列印握筆器個別化設計發展對一位大專院校脊髓性肌肉萎縮症學生書寫功能表現之研究。特殊教育季刊,161,13-32。
  3. (2004)。網路著作權之刑事訴究問題。中國圖書館學會會報,72,13-22。
  4. (2004)。應用於資訊檢索的中文OCR錯誤詞彙自動更正。中國圖書館學會會報,72,23-31。