题名

Analyses on the Used Vocabulary in the Corpus of Taiwanese Learner of Japanese (CTLJ): Comparisons between CTLJ and Self-Constructed Natural Corpus

并列篇名

「台灣日語學習者語料庫」(CTLJ)之使用語彙分析-與自然語料庫之比較為本

DOI

10.3966/181147172014060011003

作者

黃淑妙(Su-Miao Huang)

关键词

語料庫 ; 詞素 ; 出現頻率 ; 易錯語彙 ; Corpus ; morphemes ; frequency of occurrence ; prone-to-error vocabulary

期刊名称

語文與國際研究

卷期/出版年月

11期(2014 / 06 / 01)

页次

71 - 95

内容语文

日文

中文摘要

本論文針對台灣日語學習者語料庫(CTLJ)之原文部分,先以詞素解析器MeCab將其中之語彙加以分割,針對解析錯誤,前後歷時三年並經兩次校正後,再進行使用語彙分析。為了凸顯學習者語彙之特徵,分析時透過與筆者自行建構之自然語料庫進行比較。經分析結果得知:CTLJ原文部分之詞素總數超過39萬詞,其中個別詞素約1萬3千詞,名詞最多,連7千4百餘詞(佔57.2%);其次為動詞,逾3千1百餘詞(佔24.2%)。此外,藉由比較CTLJ與筆者自行建構之自然語料庫,可以掌握學習者使用語彙之實際狀況與易錯語彙之使用情形,提供學習者強化學習之參考。

英文摘要

This paper presents an in-depth analysis of the use of vocabulary covered by the Corpus of Taiwanese Learner of Japanese. Our method consists, firstly, in applying the Japanese morphological analyzer, MeCab, to segment vocabularies of the original writings in Japanese in CTLJ, and then proceeding with morpheme-level analysis of errors in grammar and usage, which process has been repeated twice in the recent three years. In order to highlight the words characteristic of the Taiwanese Learners' Japanese, comparisons are made between CTLJ and a corpus of current Japanese, which have been constructed by the author. The result indicates that the number of morpheme tokens used in the original students' essays in Japanese in CTLJ is more than 390 thousand, or around 13 thousand morpheme types. The number of nouns amounts to 7,400, which accounts for 57.2% of morpheme types. The number of verbs is 3,100 (24.2%). In addition, comparisons between CTLJ and the above-mentioned natural corpus help the instructors to grasp the actual situations of how the learners use and reveal what sort of items are particularly prone to errors, thereby enabling them to provide apt and systematic instructions to the learners.

主题分类 人文學 > 語言學
人文學 > 外國文學
参考文献
  1. 陳淑娟(2006)。作文における語彙習得についての—考察—使用語数と語類の変化を中心に。東呉日語教育学報,29,29-63。
    連結:
  2. 陳毓敏(2004)。台湾人日本語学習者の漢語の意味認知における難易度の階層性の検証。台灣日本語文學報,19,291-315。
    連結:
  3. 黃淑妙、山本卓司、関口要(2009)。『台湾人日本語学習者コーパス』(CTLJ)試行版の公開。台灣日本語文學報,25,269-292。
    連結:
  4. (2003)。第二言語習得研究への招待。????。
  5. Krashen, S. D.(1982).Principles and practice in second language acquisition.Oxford:Pergamon.
  6. Scovel, T.(1988).A time to speak: a psycholinguistic inquiry into the critical period for human speech.New York:Newbury House Publishers.
  7. 一二三朋子(1996)。年少者の語彙習得過程と言語使用状況に関する考察—在日べトナム人子弟の場合—。日本語教育,90,13-24。
  8. 大石晴美(2011)。脳科学から見た第一言語習得と第二言語習得。日本語学,30(7),50-59。
  9. 大関浩美(2011)。第一言語習得研究と第二言語習得研究の動向。日本語学,30(7),16-27。
  10. 山內博之(2003)。OPIデータの形態素解析—判断基準の客観化.簡易化に向けて—。実践女子大学文学部紀要,45,1-10。
  11. 山內博之(2007)。語彙習得研究の方法—茶筅とNグラム統計—。第二言語としての日本語の習得研究,7,141-161。
  12. 中島平三監訳、瀬田幸人監訳(2009)。オックスフォード言語学辞典。東京:朝倉書店。
  13. 日本語教育学会編(2005)。新版日本語教育事典。東京:大修館書店。
  14. 玉岡賀津雄、木山幸子、宮岡弥生(2011)。新聞と小說のコーパスにおけるオノマトペと動詞の共起パタン。言語研究,139,57-84。
  15. 安龍洙(1999)。日本語学習者の漢語の意味の習得における母語の影響について—韓国人学習者と中国人学習者を比較して—。第二言語としての日本語の習得研究,3,5-18。
  16. 谷口すみ子、赤堀侃司、任都栗新、夏村和枝(1994)。日本語学習者の語彙習得—語彙のネットワークの形成過程—。日本語教育,84,78-91。
  17. 谷內美智子(2002)。第二言語としての語彙習得研究の概観—学習形態.方略の観点から。言語文化と日本語教育,5月特集?,155-169。
  18. 松本恭子(1999)。ある中国人児童の来日一年間の語彙習得—発話資料のケーススタディ:形態素レベルの分析—。日本語教育,102,68-77。
  19. 松本恭子(1999)。ある中国人児童の来日2年目の語彙習得—『取り出し授業』での発話と作文の縦断調查(形態素レベルの分析)—。第二言語としての日本語の習得研究,3,36-55。
  20. 近藤みゆき(2001)。n-gram統計による語形の抽出と複合語—平安時代語の分析から—。日本語学,20(9),79-89。
  21. 近藤泰弘、近藤みゆき(2001)。N-gramの手法による言語テキストの分析方法—現代語対話表現の自動抽出に及ぶ—。漢字文献 情報処理研究,2,50-55。
  22. 森山新(2002)。語彙習得と認知言語学。言語文化と日本語教育,5月特集?,152-154。
  23. 黃淑妙(2009)。日本語習得の達成度分析—「台湾人日本語学習者コーパス」(CTLJ)の構築と構築と分析を中心に—。台北:致良出版社。
  24. 黃淑妙(2011)。『台湾人日本語学習者コーパス』(CTLJ)における使用形態素についての考察。『International Conference on Japanese Language Education (JCJLE) 2011』予稿集2
  25. 塚脇幸代(2012)。〞名詞らしさ〞と品詞の概念。言語処理学会第18回年次大会発表論文集
  26. 新村出編(2009)。『広辞苑』第六版。東京:岩波書店。
  27. 鄭錦全(2004)。從計量理解語言認知。語言文學與資訊
  28. 国立国語研究所(1984)。語彙の研究と教育(上)。東京:大?省印刷局。