图片源于:https://www.dallasnews.com/news/education/2025/01/16/how-valid-and-reliable-is-this-dallas-isd-raises-questions-about-staar-test-scoring/
在达拉斯,德克萨斯州使用计算机为州标准化测试评分的做法受到审查,因为学校官员了解到数千名学生的分数过低。
达拉斯独立学区(DISD)主管斯蒂芬妮·埃利萨尔德(Stephanie Elizalde)表示,该学区已要求州教育机构审查一部分STAAR(德克萨斯州评估学业准备度)回答,以确认学生是否获得正确的分数。
在DISD提交的4600多个答案中,约43%在重新评分后显示出分数的提升。
在初始评分过程中,计算机分析大多数学生的论文并分配分数。
而在重新评分时由人来进行审核。
埃利萨尔德说:“我确实对自动评分表示关切——而且这些担忧不再只是感觉了。”
DISD重新评分测试的数据“产生了更多问题,这些问题亟需答案。”
德克萨斯州的全州考试结果被用于评判学校的学业表现,并可能对学生和教师带来后果。
德克萨斯州教育署(TEA)发言人杰克·科伯斯基(Jake Kobersky)表示,州官员对自动评分系统“有很高的信心”。
他强调,DISD的论文中,经过重新评分后得分提高的部分仅占该学区2024年书面提交总数的3%。
科伯斯基表示:“多项选择题的评分错误是实际错误,而在书面回答的问题上,回应的分数可能恰好处于边缘。”
“如果你重新评分10次,可能10次中有3次得2分,而7次得3分。重新评分过程的目的是允许这种灵活性。”
他补充说,全州提交重新评分的书面回答不到1%。
尽管如此,重新评分STAAR测试可能很昂贵。教育机构对每次上诉收费50美元。
然而,学区官员只有在分数保持不变时才需支付费用。
如果达拉斯独立学区官员提交所有学生的书面回应进行重新评分,可能会面临数百万美元的费用——在学区已经面临预算短缺的情况下。
尽管如此,DISD董事会主席乔·卡雷翁(Joe Carreón)表示,董事会希望能够向社区提供准确的数据。
他说:“我们依赖于州政府准确评估其州测评。”
“教育署的自动评分中的这些差异表明,州政府必须改进评分方法,以提高分数代表实际学生学习的信心。”
当州政府在2023年12月悄然推出计算机评分STAAR论文问题时,许多学区领导对此表示怀疑。
目前,约四分之三的书面回应现在是通过“自动评分引擎”而非人类进行分析。
德克萨斯州学业准备度评估(STAAR)上的学生分数直接影响各个校园和学区在州学业问责制度下的评级。
对于高中生而言,及格考试也是毕业的资格之一。
“我们认为,在上线之前,应该花更多时间对自动评分进行校准,”德克萨斯学校联盟的主管HD·钱伯斯(HD Chambers)说,德克萨斯学校联盟代表着该州一些最大的学区。
州官员表示,自动评分引擎与推动ChatGPT等程序的生成性人工智能不同。
他们将其描述为一种能力较窄的工具。
计算机通过分析成千上万的先前由人评分的学生回应,来确定如何评估书面答案。
TEA领导表示,自动评分提高了效率并为州节省了资金。
一些校长在技术实施后初期感到怀疑,因为他们注意到高中生的低分有明显上升。
在一次考试期间,约80%的英语II期末考试的书面回应得到了零分。
州官员表示,他们相信自动评分不会导致零分的增加。
计算机评分的使用恰逢新的STAAR测试的推出,并伴随新的评分标准。
埃利萨尔德表示,学区在决定提交哪些论文进行重新评分时,避免选择得分位于最高或最低区间的回答。
DISD官员要求州对4632份落在评分中间的测试进行审核。
埃利萨尔德说,她认为将约23.2万美元投入这一项目是非常重要的。
DISD最后会支付较少的费用,因为2018份学生的回应显示出分数提升。
“这个价值是值得追求的,”她在给董事会的消息中写道。
“我们的学生应该在没有偏见的情况下接受评估。”
超过700份DISD的分数提高到可以将学生提升到另一个表现水平。例如,他们获得的分数从“达到”年级水平提升到“超出”年级水平,埃利萨尔德说。
重新评分的答案也让许多学生从不及格变为及格。
她说:“这是正确的做法,因为它给了我们这方面的信息。”
“如果任何其他样本中,有43%获得不同的分数,大家会开始质疑:等一下,这个评分的有效性和可靠性如何?”
DISD重新评分的论文中,尚不清楚哪些是最初由计算机分析的,哪些是由人评分的。
据德克萨斯州教育署称,改善分数的三分之一的提高幅度为1或2分。
学生在STAAR论文中最多可以获得10分。
科伯斯基表示:“理想情况下,学校系统只会请求重新评分对那些有潜在调整可能性的回应。”
“随着学校系统在识别哪些回应应被重新评分上变得越来越擅长,我们希望看到更大比例的请求被返回时分数有变化。”
学区领导对自动评分的怀疑,已经激发了一场围绕州学业问责体系的诉讼,其中德克萨斯州教育署为每个学校和学区提供A到F的评级。
这些评级大部分基于STAAR分数。
诉讼称:“在2023-24学年,专员通过用人工智能评分取代人工评分,彻底改变了新的STAAR测试的实施方式。”
“这一变化是在没有确保这一根本变化不会影响新的STAAR测试的有效性和可靠性的情况下进行的。”
最新的A-F评级发布目前在法院中被搁置。
埃利萨尔德表示,她可能永远无法得知这些重新评分的回应会如何影响学区的整体学业表现。
她说:“我在教室中看到的情况,与我们实际结果之间并不一致。”
DMN教育实验室深化了对影响北德克萨斯州未来的紧迫教育问题的报道和讨论。
DMN教育实验室是一个社区资助的新闻项目,得到了多个基金会和组织的支持,包括波比和洛泰·莱尔、德克萨斯州社区基金会、达拉斯基金会、达拉斯区域商会、德迪·罗斯、加雷特和塞西莉亚·布恩、梅多斯基金会、穆雷尔基金会、罗恩和菲利斯·斯坦哈特、解决方案新闻网络、南方 Methodist 大学、悉尼·史密斯·希克斯和德克萨斯大学达拉斯分校的支持。达拉斯晨报保留教育实验室新闻报道的所有编辑控制权。