德克萨斯州阅读测试成绩平稳背后的秘密

根据最新的研究,德克萨斯州儿童在年度阅读测试中的表现从2012年到2021年基本持平,尽管该州在K-12教育上花费了数十亿美元。

这项研究揭示了测试成绩平稳的原因,部分原因在于测试的设计。

深入分析测试设计文档之后,发现负责测试的机构每年会调整测试的难度。

这样的结果导致在十年间,大致相同比例的学生未能通过考试,尽管他们相对于去年表现得更好。

在2008年至2014年期间,我在德克萨斯州担任双语教师,我的许多学生来自墨西哥和中美洲,正在学习英语。

看到他们的进步让我很高兴,但无论他们学到了多少,许多学生仍未能通过年度阅读、写作和数学考试。

我心里有一种感觉,这些考试是不公平的,但我无法解释为什么。

这促使我继续攻读教育学博士学位,以更好地理解大规模教育评估。

十年后,2024年,我完成了对德克萨斯州考试的详细研究,该测试目前被称为德克萨斯州学业准备状况评估(STAAR)。

研究中发现一个意想不到的趋势:每道测试题的正确率在几年中保持异常稳定。

原本应预期的年度波动在此处却显得人为平稳。

STAAR的技术文件显示,该测试类似于常模参考测试,即评估学生相对于同龄人的表现,而不是是否达到州设定的固定标准。

换句话说,常模参考测试无法告知学生是否达到了关键的固定标准或年级水平标准。

此外,常模参考测试的设计使得总会有一定比例的学生未能通过,因为成功是通过在“钟形曲线”上的相对位置来衡量的。

因此,STAAR的开发者采用了诸如省略简单问题和调整分数等做法,以抵消由于教学改善而带来的分数提升。

从这一时间段来看,STAAR测试并不是为展示进步而设计的。

由于测试设计旨在保持分数平稳,因此很难确定在学生人均支出大幅增加后,未能获得预期学习提高的原因是额外资金未能改善教学和学习,还是测试掩盖了这些改善。

这一发现的重要性在于,自2002年联邦教育政策《不让一个孩子掉队》实施以来,学生测试表现一直是美国公共教育的主要驱动力。

德克萨斯州的教育问责制度自1980年起实施,人们普遍认为德克萨斯州的学业准备状况测试的难度会随着每个新版本的发布而增加,而这些版本往往每五到十年才更新一次。

然而,德克萨斯公众可能并不知道的是,这些测试每年都在调整,最终影响到评判学生“通过”或“失败”的标准。

测试的设计不仅影响学生,也影响学校和社区。

高风险测试的分数决定了学校资源的配置、州对学校区的接管及教师教育项目的认可情况。

地方学校在高风险测试中的表现甚至会影响房产价值。

被种族、贫困或语言边缘化的学生历史上在标准化测试中表现较差,而STAAR的设计使这一问题愈加严重。

未来我计划调查其他州或联邦政府是否使用类似设计的测试来评估学生。

我对德克萨斯州测试的深入研究主要集中在STAAR 2022年重新开发之前的版本。

最新版本已经改变了测试格式和题型,但似乎在评分方式上没有太大变化。

如果不对STAAR测试背后的评分计算进行实质性修订,德克萨斯州的表现平稳现象可能将继续。

德克萨斯州教育署对此请求未做出回应。

图片源于:https://theconversation.com/texas-annual-reading-test-adjusted-its-difficulty-every-year-masking-whether-students-are-improving-244159