


Evaluating the Variability in Standard Setting Using Many Faceted Rasch Model


謝名娟(Ming-Chuan Hsieh)


多層面Rasch ; 標準設定 ; Yes/No Angoff ; many facet Rasch ; standard setting ; Yes/No Angoff




44卷4期(2013 / 06 / 01)


793 - 811




執行標準設定時,研究者常需檢視標準設定成員之間的變異性。研究者希望標準設定成員在設定切斷分數時,彼此之間對於決斷分數的判斷能夠達到一致性,也就是成員之間的變異性越小越好。此外,在舉行標準設定時,成員之間為了要能夠達到共識,必須經過好幾輪的討論。因此,如何提供有用的訊息回饋,供標準設定成員參考,以節省成員的討論時間,也是研究的重點。在本文中,將多層面Rasch分析應用於標準設定上,並使用Yes/No Angoff的方法來進行操作,研究發現透過多層面Rasch之分析,除了能檢視標準設定成員之間的變異性,也可提供有用的訊息供標準設定成員參考。除此之外,對於標準設定成員自身內的衝突決定亦能提供有效率的檢視。


When conducting the standard setting, the variability of judgments between standard setting panelists is always an issue needed to be addressed. The researcher has to examine whether the variability between panelists is under the accepted range. In addition, standard setting is a time-consuming process. It usually takes several rounds to discuss the judgments. How to provide the useful feedback for panelists to review their judgments is crucial. In this study, the many facet Rasch model was applied on the Yes/No Angoff standard setting procedure. The result shows that the many facet Rasch model has advantages on examining the variability between panelists. It also provides useful feedback to review the internal conflict decisions within each panelist.

主题分类 社會科學 > 心理學
社會科學 > 教育學
  1. 吳宜芳、鄒慧英、林娟如(2010)。標準設定效度驗證之探究:以大型數學學習成就評量為例。測驗學刊,57(1),1-27。
  2. 吳毓瑩、陳彥名、張郁雯、陳淑惠、何東憲、林俊吉(2009)。以常態混組模型討論書籤標準設定法對英語聽讀基本能力標準設定有效性之幅合證據。教育心理學報,41(1),69-90。
  3. 郭伯臣、楊思偉、白曉珊、張鈺卿(2008)。BIB 與NEAT 設計在不同年度測驗連結效果之比較。測驗統計年刊,16(2),125-154。
  4. 謝進昌、謝名娟、林世華、林陳涌、陳清溪、謝佩蓉(2011)。大型資料庫國小四年級自然科學習成就評量標準設定結果之效度評估。教育科學研究期刊,56(1),1-32。
  5. 謝進昌(2005)。國立政治大學教育學系教育與心理輔導組=National Chengchi University。
  6. 臺灣學生學習成就評量資料庫網站(2012):臺灣學生學習成就評量資料庫建置計畫。取自TASA網站:http://tasa.naer.edu.tw/1about-1.asp?id=2.,2012 年5 月22 日。[Taiwan Assessment of Student Achievement (2012). About TASA. Retrieved May 22, 2012, from http://tasa.naer.edu.tw/1about-1.asp?id=2]
  7. Linacre, J. M. (2007). Facets Rasch measurement computer program [Computer software]. Chicago, IL: Winsteps.
  8. Yates, F. (1936). A new method of arranging variety trials involving a large number of varieties. Journal of Agricultural Science, 26, 424-455
  9. Linacre, J. M. (2012). A User's Guide to FACETS. Retrieved July, 1, 2012, from http://www.winsteps.com
  10. Berk, R. A.(1996).Standard setting: The next generation (where few psychometricians have gone before! ).Applied Measurement in Education,9(3),215-235.
  11. Cizek, G. J.(Ed.)(2001).Standard-setting: Concepts, methods, and perspectives.Mahwah, NJ:Lawrence Erlbaum Associates.
  12. Cizek, G. J.,Bunch, M. B.(2007).Standard setting: A guide to establishing and evaluating performance standards on tests.Thousand Oaks, California, CA:Sage Publication Ltd.
  13. Council of Chief State School Officers(2001).State student assessment programs annual survey.Washington, DC:Author.
  14. de Ayala, R. J.(2009).The theory and practice of item response theory.New York, NY:Guilford.
  15. Impara, J. C.,Plake, B. S.(1997).Standard setting: An alternative approach.Journal of Educational Measurement,34(4),353-366.
  16. Kozaki, Y.(2010).An alternative decision making procedure for performance assessments: Using the multifaceted Rasch model to generate cut estimates.Language Assessment Quarterly,7,75-95.
  17. Linacre, J. M.(1989).Many-facet Rasch measurement.Chicago, IL:MESA Press.
  18. Linacre, J. M.(2006).Winsteps: Rasch model statistical software.Chicago, IL:MESA.
  19. Linacre, J. M.(1999).Investigating rating scale category utility.Journal of Outcome Measurement,3,103-122.
  20. Näsström, G.,Nyström, P.(2008).A comparison of two different methods for setting performance standards for a test with constructed-response items.Practical Assessment Research and Evaluation,13(9)
  21. Smith, E.V., Jr.(Ed.),Stone, G. E.(Ed.)(2009).Criterion referenced testing: Practice analysis to score reporting using Rasch measurement models.Maple Grove, MN:JAM Press.
  22. Stone, G. E.,Beltyukova, S.,Fox, C. M.(2008).Objective standard setting for judge-mediated examinations.International Journal of Testing,8,180-196.
  23. Tennant, A.,Pallant, J.(2006).Unidimensionality matters! (A tale of two Smiths? ).Rasch Measurement Transactions,20(1),1048-1051.
  24. Thorndike, R. L.(Ed.)(1971).Educational Measurement.Washington, DC:American Council on Education.
  25. 余民寧(2009)。試題反應理論及其應用。台北=Taipei:心理=psychological publishing。
  26. 吳裕益(1986)。國立政治大學=National Chengchi University。
  27. 林惠芬(1993)。通過分數設定方法在護理人員檢覈筆試測驗之研究。測驗年刊,40,253-262。
  28. 郭伯臣、王暄博(2008)。大型測驗中同時進行垂直與水平等化效果之探討。教育研究與發展期刊,4(4),87-120。
  29. 陳彥名(2006)。國立台北教育大學教育心理與諮商學系=national taipei university of education。
  30. 曾建銘、陳清溪(2009)。2007 年臺灣學生學習成就評量結果之分析。教育研究與發展期刊,5(4),1-38。
  31. 鄭明長、余民寧(1994)。各種通過分數設定方法之比較。測驗年刊,41,19-40。
  1. 謝進昌(2021)。以「補充性表現水平描述輔助自陳式測量構念」之延伸Angoff標準設定研究。教育心理學報,53(2),307-334。
  2. 謝名娟(2017)。誰是好的演講者?以多層面Rasch 來分析校長三分鐘即席演講的能力。教育心理學報,48(4),551-566。
  3. 謝名娟(2020)。從多層面Rasch模式來檢視不同的評分者等化連結設計對參數估計的影響。教育心理學報,52(2),415-436。