首页 关于2061计划 研发领域 出版物 会议与研讨
  关于AAAS | 连线2061 | 联系方式
 
 
使评估与内容标准保持一致:运用“2061计划”分析程序评价中学数学评估试题

乔治.E.德波尔,美国科学促进协会“2061计划”
保罗.阿彻,宾州库兹敦大学

美国教育研究协会年会
加拿大,蒙特利尔 2005.4.12 

  本研究旨在调查分析程序在改进数学评估任务和既定的州一级的内容标准一致程度方面的有效性。

  本研究使用“2061计划”开发的程序来分析东北部某州公开的100多道试题,主要考查3个内容:

  • 内容一致性:学习目标中规定的知识对于圆满回答问题是否必需,通过其他方法是否可以正确回答问题?学习目标中规定的知识对于圆满回答问题是否充足,是否需要其他的知识或者技能?
  • 有效性:(在海报中称为“题目效果”)题目中是否存在某些与既定的内容标准中知识无关的因素,但是可能影响学生对问题的正确回答?这些因素包括可理解性、任务情景的适合度、以及“可猜测性”。目的是减少假阴性和假阳性答案选项。
  • 选项的合理性:是否所有的选项都合理,并与需要测试的内容有关?例如,干扰项能否反映学生理解的误区,以及学生中普遍存在的观点?分析家们出具了书面报告,描述了每道题目和既定的内容标准的一致性,并提出修改意见,在分析标准的基础上对题目进行修改。应特别指出的是,这里的修改并非根据学生在考试中的反馈信息对原始题目进行修改。

  修改后的题目和原始题目同时提供给学生,要求学生写出做题的过程,或者解释如何得出答案,并说明题目中有无理解困难之处。每个年级进行两种类型的测试。每种类型的测试中,原始题目和修改后的题目各占一半。试卷在班上随机分发。收集分析数据来调查题目的修改对于提高学生的回答和解释的匹配程度的影响。本研究说明了分析程序在提高评估任务和内容标准一致程度方面的有效性。下表列出了对259名11年级学生实地测试后收集的6道题目的数据汇总。其中两道题目的完整分析见本文末尾。

 

16道原始题目和修改题目的结果对比

 

提供解释

人数(%)

假阴性/阳性

错误(%)

对措辞

不理解(%)

整体

不理解 (%)

难度

(%
正确率)

题目

原始

修改

原始

修改

原始

修改

原始

修改

原始

修改

1

81.5

77.1

18.6

1.9

9.3

0.9

9.3

12.0

88.2

85.0

2

70.0

73.9

17.3

21.6

14.3

8.0

22.4

19.3

52.1

60.5

3

74.8

80.6

13.5

0.0

0.0

0.0

39.3

17.0

26.9

41.0

4

71.2

64.7

3.0

9.1

13.1

29.9

25.2

59.7

57.6

28.6

5

72.7

85.0

10.2

8.8

2.3

2.7

22.7

27.4

48.8

48.8

6

73.4

73.8

7.8

2.2

3.9

5.5

12.7

17.8

66.9

58.2

平均值

73.9

75.9

11.7

7.3

7.2

7.8

21.9

25.5

56.8

53.7

  结论

  • 如有可能,本程序将利用学生的反馈数据对题目进行修改。分析程序的目的是为了减少不能确切反映学生的知识和能力的回答。有些因素会使学生即使没有掌握规定知识仍然能给出正确答案,也可能导致学生虽然掌握了规定知识但未能正确答题。这些因素只有在对学生的回答进行分析调查后才能清楚。
  • 75%的学生按照要求解释了他们的答案,或者写出了做题的过程。这些有助于调查他们在多项选择考试中选择的答案与做题过程或解释中表现出的理解程度是否一致。
  • 当问及学生评估任务中是否有理解困难之处时,回答分为三类:1)能明确指出哪些特定的数学内容他们不理解;2)能明确指出题目中部分措辞或者题目结构的某方面造成他们的理解困难;3)虽然指出不理解题目,但没有说明具体哪方面阻碍理解。大部分学生回答是因为对内容不理解,虽然只有一小部分学生详细说明了题目的措辞问题,但其意义重大,有助于题目的修改完善。

  题目1分析

  考查的内容标准:运算方法(如,相反数、倒数、绝对值、幂运算、根和对数)

  原始题目1

  下列哪个值最大?
  a. 103
  b. (5 + 5) X 10
  c. 108 / 102 (正确答案)
  d. 103 X 102 

  分析家确定内容标准中的“幂运算”对正确答题是必需知识。学生必须使用幂运算来判断哪组带有指数的数值更大。分析家也认为内容标准并不充足(本身不足以)使学生对此问题给出正确答案,因为学生还应当知道如何“比较数字的数量和数值。”虽然“比较数量”是5年级的内容标准,分析家仍然认为值得指出需要这项技能,而不能姑且假设学生都已经掌握了这个知识点。他们认为学生可能猜出这道题的答案,因为正确答案既是最大值也含有最大指数。学生即使未理解内容标准中的知识也可能选出正确答案,因为其中包含了最大指数。

  学生对原始题目1的回答
  在试点研究中回收了3所学校109份答案。下表列出了提供答题过程或者提供解释的学生数和百分比,及此题目学生答案的分布情况。

2: 学生对原题1的回答

 

A

B

*C

D

没有选择

总计

解释

1

0

86

8

2

97

无解释

0

0

19

3

0

22

总计

1

0

105

11

2

119

百分比

.8

0.0

88.2

9.2

1.7

100.0


  分析给出答题过程的学生的答案:调查原题1的假阴性和假阳性错误
.
  共97名学生给出答题过程或提供答案解释,其中86名学生选择了正确答案,11名学生未能正确回答。

  选项A:只有一名学生选择了A。这名学生正确计算了每个选项的值,得出1,000,000是最大值,但是圈错了选项。这是假阴性错误,不属于由题目的结构导致的错误。

  选项B:没有学生选择此项。

  选项C(正确答案):86名选择正确答案的学生中,有7名学生在计算过程中出现了明显的错误。5名学生在计算C选项(正确答案)的数值时出现了错误,2名学生在计算干扰项的数值时出现了错误。一名学生虽然选择正确,但简单地认为108是40,102是20,它们的商就是60。一名学生则认为10/10就是1,于是写下“8-2=7”。还有2名学生没能正确计算C项的表达式,但是仍然选择了C因为它当中包含了最大的数值。最后一名学生选C因为“它一定是最大的值…”这7名学生虽然选择了正确答案,但是他们的计算过程反映出他们并没有掌握既定内容标准中的知识,属于假阳性错误。然而,学生的计算过程及对答案的解释并不能证明他们是因为题目的结构而选择了正确答案。我们无法判断猜测策略是否也发挥了作用,即是否有学生因为C项中含有最大的指数而选择了此答案。

  选项D:8名学生选择了D,他们正确地计算了A、B、C中的表达式,但未能正确计算D中的式子。大部分学生把表述中的103 x 102 当作 (103 x 10)2,这样得出的就是最大值。这8名学生说是由于D选项中的表达的形式干扰了他们的理解,因为103 x (10)2对于大部分学生来说是不规范的表达。这8名学生能够正确计算其他的选项,所以我们认为他们的错误属于假阴性错误,通过修改题目可以避免。

  零选择:2名学生没有选择任何答案,他们能正确计算所有表达式,但是未进行选择。他们的错误属于假阴性错误,非题目结构所造成的。

  原始题目1的假阴性和假阳性错误总结
  共有18名学生的回答未能准确反映出他们是否掌握了既定内容标准中的知识(11例假阴性错误和7例假阳性错误)。我们将11例假阴性错误中的8例归咎于D选项中指数的不规范形式,这表明了学生需要用学习目标规定以外的知识,这也可以看作是充足性问题。虽然最初的分析者并没有意识到这一点,但在未来的修改中是应当提出的。至于其他3名学生,虽然答题过程表明他们知道如何计算出正确答案,他们的假阴性错误主要是由于圈错了答案或者根本没有进行选择。
 
  正如分析家所预测,7例假阳性错误可能是由于学生使用了猜测。在每个具体例子中,学生表现出并不知道如何计算含有指数的表达式,但仍然能够选出正确的答案。也许他们选择答案是因为其中含有最大的指数。然而,在学生的答题过程或解释中找不到直接的证据证实这种可能。事实上,只有一名学生说他/她选择C是因为“其中含有最大的数字”,即使是这个解释也没有直接提到指数的大小。

  修改后的题目1

  下面哪一项值为10,000?
  a. 104 - 100
  b. 102 + 102
  c. 108 / 102
  d. 104 X 100 (正确答案)
   
  修改后题目1的结果
  在试点研究中回收了三所学校的140份答案。下表列出了提供答题过程或者提供解释的学生数和百分比,及此题目学生答案的分布情况。

 
 

3: 修改后题目1的回答

 

A

B

C

*D

没有选择

总计

解释

8

5

1

91

3

108

无解释

2

0

2

28

0

32

总计

10

5

3

119

3

140

百分比

7.1

3.6

2.1

85.0

2.1

100.0


  分析给出答题过程的学生的答案:调查修改题1的假阴性和假阳性错误

  共108名学生给出答题过程或提供答案解释,其中91名学生选择了正确答案,17名学生未能正确回答。

  选项A:8名学生选择A,其中6名学生计算100=0,2名学生正确地计算104为10,000但是没有指出100的值,这表示他们也认为100=0。

  选项B:5名学生选择了B,他们将102+102等同于(100)(100),计算出10,000。

  选项C:只有一名学生选择了C。虽然对每个表达式计算正确,但是答案选择错误。这属于假阴性错误,非题目结构造成的。

  选项D:91名学生选择了正确答案D,他们给出的原因各不相同。但是无足够证据表明学生没有掌握内容标准中的知识,因此他们的回答均可视为有效的答案。

  零选择:在3名没有选择答案的学生中,2名学生将100简化为10,认为没有选项数值是10,000。另外一名学生能正确计算每个选项,但是没有进行选择。这名学生的错误可算作假阴性错误,但不是可以通过修改题目避免的。

  修改后题目1假阴性和假阳性错误的总结:
  2名学生的答案未能准确反映出他们是否掌握既定内容标准中的知识(2名假阴性错误但无假阳性错误)。这2名学生虽然计算正确,错误原因在于圈错了答案,或是根本没有选择。

  原始题目1和修改后的题目1比较

  题目的修改是否能提高学生选择的有效性?
 修改后的题目和原始题目相比较,假阴性和假阳性的错误减少了。这应归结为删除了原题选项D中指数的不规范表达,也可能是由于删去了正确选项C中含有的最大指数-这有可能使学生猜出答案。
 
 

4:原题1和修改题1的假阴性和假阳性错误

 

总数

假阳性

假阴性

总计

无效比例

原始

97

7

11

18

18.6

修改

108

0

2

2

1.9


  修改后的题目是否降低了学生的理解难度?题目中造成学生理解困难之处可分为三类:1)对内容本身不理解;2)题目的措辞或者结构干扰理解;3)没有具体说明哪方面阻碍理解。表5总结了原题和修改后题目造成学生理解困难的数据。

 

5: 比较:原题和修改题1理解困难的程度

 

总数

内容

措辞和题目结构

未具体说明

百分比

原题

97

0

9

0

9.3

修改

108

11

1

1

12.0


  9名学生认为原题中某些地方造成理解困难。这9名学生都指出选项D容易造成误解,因为他们不知道如何简化给出的表达式(措辞或者题目结构),一般都是写作102而不是(10)2。对于修改后的题目中,13名学生指出某些地方不易理解。其中9名学生说他们不理解100(内容),1名学生不理解“代表”这个术语(措辞),2名学生则称不知如何处理上标符号(内容),1名学生声称“整道题目”都不理解(没有具体说明哪方面)。

  题目难度:在所有参加考试的学生中,包括提供答案解释及没有做出解释的学生,88.2%的学生能正确回答原始题目,85%的学生正确回答修改后的题目。题目的修改对难度的影响极小。

  题目2分析

  考查的内容标准:运用比例和比率解决关于距离、速度和相似三角形等的数学问题。

  原始题目2

  吉姆需要一些粉色颜料绘制手工玩具。这种粉色是由白色颜料和红色颜料按照1:3的比例混合而成。那么制作12液量盎司的粉色颜料需要多少液量盎司的红色颜料?
  a. 4 液量盎司
  b. 6 液量盎司
  c. 8液量盎司
  d. 9液量盎司(正确答案) 

  分析者确定内容目标中规定的知识和技能对于圆满完成这项任务是必需而且充足的。虽然题目和运用比例和比率解决“距离、速度和相似三角形”的内容无关,但是分析家认为内容标准中规定任务情景可以是说明性的,诸如此评估任务中的情景是在内容标准的范围内的。但分析者明确指出了原始题目的表述欠清晰。尤其是题目的第一句话没有包含足够有效的信息,问题是用被动语态陈述的,而且第三句中没有再提及吉姆。
.
  根据分析家的意见,最终决定这道题目只需要在有效性上进行修改。因此题目修改后,在第一句增加了问题情景的信息,但是被动语态没有改为主动语态,也没有在第二、三句中提到吉姆。同时,这道题目也从考查学生比较部分和整体的能力变成只考查部分和部分比较的能力,虽然这不是修改的本意。

  学生对原始题目2的回答
  在试点研究中回收了三所学校共140份答案。下表列出了提供答题过程或者提供解释的学生数和百分比,及此题目学生答案的分布情况。
 

6: 学生对原题2的回答

 

A

B

C

*D

没有选择

总计

解释

36

1

0

59

2

98

无解释

16

1

3

14

8

42

总计

52

2

3

73

10

140

百分比

37.1

1.4

2.1

52.1

7.1

100.0


  分析给出答题过程的学生的答案:调查原题2的假阴性和假阳性错误

  共98名学生给出答题过程或提供答案解释,其中59名学生选择了正确答案,39名学生未能正确回答。

  选项A:共有36名学生选择了A,其中22名学生通过12除以3等于4得出答案。其余14名学生正确使用等值分数,但是将红色和白色颜料的顺序弄反了。这些学生能理解比率就是两个相同事物之间的比例关系,但是他们仍然理解有问题,因为题干中只说“白色和红色颜料的比例是1比3”,没有清楚说明是白色颜料比例为1,红色颜料比例为3,还是白色占3红色占1。学生必须推断出颜色比例的顺序和它们题目中出现的顺序应当是一致的。有些学生明确指出这点容易造成误解,其他学生可能也弄反了顺序,但自己却浑然不知。基于此,我们认为学生有可能掌握了既定内容标准的知识,未能给出正确答案是因为他们不确定比例的顺序。这14个错误回答被认为是假阴性错误,是由于任务的某方面造成的,在修改中可以纠正。

  选项B:只有一名学生选择B。这名学生开始计算出1/3即2/6,但是到此没有继续往下计算,就选择了6。

  选项C:没有学生选择C。

  选项D(正确答案):共59名学生选择了D。其中51名学生完全掌握用来解决问题的比例和比率的知识。计算过程显示出他们理解1比3指的是两部分之间的关系(白色和红色颜料),他们需要把1和3相加得出整体(即粉色颜料);接着他们得找出相等的比值,即3:9,两部分相加等于12。学生们用不同的方法得出答案,不管用哪种方法,毫无疑问他们能够理解内容标准中的知识。

  其余8名学生使用了某些策略却表明他们实际上并没有掌握规定的知识,或者他们没有能提供足够的信息来说明他们是否掌握内容标准的知识。例如,有5名学生称自己使用了“逻辑”,或者“就是在脑中算了算”。3名学生虽然选出了正确答案,但是称自己不理解什么是比例。其中1名学生将12减3得到了答案D。而另外2名学生将9和3相加,然后选择了D。根据他们描述的情况,虽然他们给出了正确答案,但是他们似乎并未掌握既定的内容标准中的知识。这3名学生通过计算12与3之间的差等于9得出答案,称自己不理解比例的知识,被认为是假阳性错误。5名声称在大脑中计算或者使用逻辑的学生没有提供足够的信息,他们的回答也视为假阳性错误。

  零选择:2名学生没有选择,他们的计算过程表明他们未能掌握测试的知识。

  原始题目2假阴性和假阳性错误的总结 原始题目中有14例假阴性错误是由于任务的措辞不准确导致的,尤其是没有准确说明颜料的比例顺序。3例假阳性错误是由于题干中出现了12和3,而正确选项中出现了9。这些学生通过计算12与3之间的差得到了正确答案。修改题干中的数字可以防止学生通过加法或减法解决问题。(如,可以说粉色颜料是通过白色和红色颜料按1比4混合,问如果制作15液量盎司的粉色颜料需要多少盎司的红色颜料。15和4出现在题干中,而正确的答案应该是12。)

  修改后题目2

  吉姆在给一手工制作的玩具上色,她需要混合颜料调出粉色颜料。这种颜色是由白色颜料和红色颜料按照2比5的比例混合。多少盎司的红色颜料被需要和100盎司的白色颜料混合才能配出合适的粉色?
  a. A. 500 盎司
  b. B. 250 盎司(正确答案)
  c. C. 40 盎司
  d. D. 20 盎司

  修改后题目2结果
  在试点研究中回收了三所学校共119份答案。下表列出了提供答题过程或者提供解释的学生数和百分比,及此题目学生答案的分布情况。
 

7: 修改后题目2的回答

 

A

B

C

*D

没有选择

总计

解释

2

60

19

1

6

88

无解释

3

12

8

4

4

31

总计

5

72

27

5

10

119

百分比

4.2

60.5

22.7

4.2

8.4

100.0


  分析给出答题过程的学生的答案:调查修改题2的假阴性和假阳性错误

  共88名学生给出答题过程或提供答案解释,其中60名学生选择了正确答案,28名学生未能正确回答。

  选项A:2名学生选择了A。一名学生通过100乘以5得出了500。另外一名学生用250乘以2。这两名学生的计算表明他们都没有能够掌握内容标准中的知识。

  选项B(正确答案):60名学生选择了B。其中58名学生能正确使用比例知识解决问题。另外一名学生使用排除法表明对比例知识的掌握,指出C选项(20盎司红色颜料)和D选项(40盎司红色颜料)数量根本不够,而如果有500盎司红色颜料则需要200盎司白色颜料与之混合。还有一名学生按照,“4比10, 6比15, 8比20…”的模式写下了一系列的比例。最后的比例是92比250而不是100比250。但是这个错误并不足以说明学生没有掌握内容标准中的知识,因此被认为是假阳性错误。但也不能通过修改题目对此产生影响。

  选项C:共有19名学生选择C。其中16名学生知道解决比例问题的正确方法,但正如上述原题他们颠倒了颜料的顺序,因而没有得出正确答案。其余3名学生提供了错误的解释。16名将颜料顺序颠倒的学生,即使没有选择正确答案,也认为他们能够掌握解决问题所需的知识,因为他们的错误视为假阴性错误。

  选项D:只有1名学生选择了D。该生用100除以5,表明他并没有掌握解决问题需要的知识。

  没有选择或选择超过一个:2名学生选了两个答案。其中一名学生很显然不确定比例中颜料的顺序,他列出了两种比例,分别计算得出了选项B和C中的数值,因此选了两个答案。选项中包括了C,因此被认为是假阴性错误。另外一名学生选择A和C,该生写下了一组分数,然后称不知道如何计算比值。还有一名学生没能写出等式。此外,有2名学生计算正确但是没有选择任何答案。虽然这些均属于假阴性错误,但不是由于题目结构导致的,无法纠正。

  修改后题目2的假阴性和假阳性错误总结    修改后的题目中有17例假阴性错误,主要归咎于任务措辞不准确,尤其是没有清楚说明比例中颜料的顺序。还有2例假阴性错误是由于学生没有选择。无假阳性错误。

  比较原题和修改题2

  题目的修改是否能提高判断学生知识掌握程度的有效性?原题和修改后的题中假阴性错误和假阳性错误的比例几乎相当。这主要是由于问题中颜料的比例顺序描述不清楚。虽然在修改中没有提出这点,但很明显如果提出了这点,无效的答案将会显著减少。修改后的题目中排除了原题中的3例假阳性错误。修改后的题目中的2例假阴性错误是由于学生没有选择,虽然计算过程表明他们能够理解测试的内容。 

8:原题2和修改题2的假阴性和假阳性错误

 

总数

假阳性

假阴性

总计

无效比例

原始

98

3

14

17

17.3

修改

88

0

19

19

21.6

   
  修改后的题目对于学生是否更易理解?题目中造成学生理解困难之处可分为三类:1)对考查内容本身不理解;2)题目的措辞或者结构干扰理解;3)没有具体说明哪方面阻碍理解。表9总结了原题和修改后题目造成学生理解困难的数据。

 

9: 比较原题和修改题2理解困难的程度

 

总数

内容

措辞和题目结构

未具体说明

百分比

原题

98

8

14

0

22.4

修改

88

0

7

10

19.3


  22名认为原题中某些地方造成理解困难,8名学生提到了内容问题,其中7名学生表示他们不知道如何解决比例问题(内容),1名学生不知道如何将12拆分(内容)。14名学生指出措辞或题目结构的具体问题,如不知道颜料比例顺序,究竟是红色比白色还是白色比红色(措辞)。根据17名学生对于修改后的题目的回答,可将干扰理解之处分为两类。7名学生称他们不知道比例中颜料的顺序(措辞)而造成误解。其余10名学生则称不知道如何解决比例问题(没有具体说明)但是没有说明原因。

  题目难度:在所有参加考试的学生中,包括提供答案解释及没有做出解释的学生,52.1%的学生能正确回答原始题目,60.5%的学生正确回答修改后的题目。修改后的题目正确率提高可能是由于修改后的题目需要的解题步骤相对减少,因为删去了先从两部分计算整体的步骤。两个任务中给出的比例都是部分对部分的比较(红色比白色),但是原题中学生还需先将红色和白色部分相加得出整体。修改后的题目中,学生只需要判断出相等的部分对部分的比值。
________________________________________
本研究报告得到了国家科学基金会的资助(国家科学基金会 资助编号9819018)。本文中任何观点、研究发现、结论或评论仅代表作者看法,不代表NSF观点。

中国科学技术协会 版权所有 1998-2009 Tel:010-68571875 京ICP备05038051号


中国科学技术协会办公厅 主办 地址:北京市海淀区复兴路3号 邮编:100863


中国科协信息中心 技术支持 地址:北京市海淀区学院南路86号 邮编:100081