评分排序优化模型
评分排序优化模型
摘要
一年一度的全国大学生数学建模竞赛,是一项规模宏大的课外科技活动之一。所给问题要求建立一个评分排序优化模型,正是针对建模竞赛中重要环节——答卷评分排序环节而提出的,具有很重要的实际应用意义。答卷的评分排序只有做到科学、合理、公正,才能评选出优秀的作品。根据这些特点,我们对所给问题运用统计数学中的统计学原理建立模型,由简单到复杂,由片面
到均衡兼顾,逐步优化。建模前期,我们对所给数据进行了筛选,部分答卷为零分或只有两个数据,也许违反了竞赛规则和评阅规则,将作为废卷处理,剔除这一小部分答卷的数据。首先,我们建立了常用的简单模型I——均值评比模型,其数学表达式为
x
Pi
j1
9
ji
3
,得到最初的名次,前五名的答卷编号分别为。。。。。然后,考虑到模型I
忽略了不同评委对同一份答卷的差异,及评委的自身知识水平的限制和主观成份的波动误差影响,结果存在很大的误差。在对均值评比模型改进的基础上建立了模型II——标
xjixj
0x0sj1j,由于该模型成立的前提条件是服准分模型。其数学表达式为Pi
3
9
从正态分布,故借助SPSS对数据进行了单样本K-S正态检验和描述性统计分析,可得每位评委的评分服从正态分布及相关统计数据,使用MATLAB软件编程计算出所有评分的标准分,再利用模型I求出均值,进行名次排序,前五名的答卷编号分别为。。。。。其次,对数据进行单因素方差分析,可得各评委的评分偏好存在较大的差异,给每位评委加权,建立了模型III——加权评分模型,其数学表达式为
x0xji,当x0xj时xj
P1000i xji100100,否则
100j
利用MATLAB软件编程求解出所有加权后的评分,依旧用模型I求出均值,进行名次排
序,得到新的名次,前五名的答卷编号分别为。。。。。。
最后,对三个模型进行评价,并对其结果进行对比分析。
关键词:均值、正态检验、描述性统计、标准化、单因素分析、加权
目 录
一、 问题重述………………………………… …………………3 二、 问题分析………………………………………… …………3 三、 模型的假设…………………………………………………4 四、 符号的定义……………………………… …………………5 五、 模型的建立与求解………………………………… ………6
第一部分 准备工作…………………………………… 第二部分 建立评分排序优化模型…………………… (一) (二) (三)
模型I——均值评比模型………………………8 模型Ⅱ——标准分模型……………………… 模型Ⅲ——加权评分模型……………………
六、 结果分析…………………………………………………… 七、 模型的评价与推广…………………………………………10 八、 参考文献……………………………………………………11 九、 附录…………………………………………………………
评分排序优化模型
一、问题重述
全国大学生数学建模竞赛是全国高校规模最大的课外科技活动之一,评卷是其中一个至关重要的环节。评卷以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。对同一问题,给参赛者提供了较大的创新空间,运用不同的数学知识和方法,建立数学模型。同时也给评卷工作带来一定的难度。尽管评卷者大都为建模方面的专家,但由于各自研究方向的局限、对某些理论理解程度的不同,常常会在评阅中带有主观的成份,造成对同一答卷评判会略有差异。如何根据每个专家的评分,公正合理地评选出优秀的作品,是一个值得研究的问题。
评卷工作的评委由该赛区竞赛组委会聘请(指定),通常为该赛区高校教师。为保证评卷工作的准确、公平、合理,对评委除了专业能力的要求外,制定了如下评卷规则:(1)评委不能是该校本年度数学建模比赛的指导教师。(2)评阅每题的评委人数根据答卷的多少按比例分配,但不能少于三人。(3)评阅采取回避制,评委不能评阅本校的参赛论文。(4)保证每份答卷有三人评阅。
赛区在评阅前,对所有的论文进行编号,论文中没有任何可能显示答题人身份的标志,并根据上述的评卷规则,把论文分派给每位评委。
表1为某赛区B题各评委的按照事先的评分标准评出的成绩。根据这些资料,利用数学建模的方法,给答卷一个科学、合理、公正的排序,以便评出优秀的作品。
二、问题分析
主要是表达对题目的理解,特别是对附件的数据进行必要分析、描述(一般 都有数据附件),这是需要提到分析数据的方法、理由。
评分排序优化问题研究有非常重要的意义。全国大学生数学建模竞赛是一种大型的重大赛事,评分的科学、合理、公正更是尤为重要,只有做到科学、合理、公正,才能真正体现这种大型竞赛的价值。而评委自身的知识领域局限和主观成分对评分造成的偏差无可避免,建立一种评分排序优化模型,以消除或减少评委的系统误差带来的对参赛队成绩影响,很有实际运用意义。
评分排序优化问题属于数理统计中优化综合评比的数学问题,对于解决此类问题要用数理统计的相关原理进行分析,建立模型。
附件所给数据是195份答卷所有评分的原始数据,总共有9位评委参与评卷,根据评卷规则,每份答卷由三位评委评阅并给原始评分。可能由于作弊抄袭等原因,有14份答卷全为零分,考虑这小部分答卷的数据对总体数据分析影响不大,因此视为废卷,剔除这部分数据。我们用单样本K-S正态检验、描述性统计分析和单因素方差分析等方法进行数据分析。首先,我们建立一个简单的直接取平均分的数学模型I,然后考虑评委自身限制和主观因素影响,将所有评委的评分转化到统一价值尺度中,建立一个标准分模型II,根据每位评委评分偏好的不一致性,为减少这种不一致性带来的误差,将建立加权评分模型III,根据每个模型求出每份答卷的最终成绩,进行排序,并将结果进行比较分析.
三、模型假设
1. 假设每份答卷都有绝对分数,能够反映其真实水平,且每份答卷分数服从正态分布; 2.假设每位评委所评分数服从正态分布;
3.假设每名评委独立评卷,互不影响;
4.假设每名评委的评分偏差服从以他的尺度偏差为期望的正态分布。 5. 假设答卷的分数制度为百分制。
四、符号定义
Nj:第j位评委的评阅卷数
xji:第j位评委对第i份答卷的评分,规定当第j位评委不对第i份答卷评分时,xji=0
xj:第j位评委评分的均值
sj:第j位评委评分的标准差
Pi:第i份答卷的综合评分
Zji:第j位评委对第i份答卷的评分标准化后的评分
x0:所有答卷评分的均值
0:所有答卷评分的的标准差
五、模型的建立与求解
第一部分:准备工作 (一)数据的处理
1、答卷编号B004、B015、B019、B034、B060、B064、B067、B076、B091、B094、B144、B148、B157、B185数据全部缺失,或由于抄袭等原因所有评分都给了零分,故将其 视为废卷,不予考虑。
2、答卷编号B158数据残缺,只有两个评委的评分,不符合保证每份答卷有三人评阅的评卷规则,或某位评委发现该份答卷违反了竞赛规则,评为零分,将其视为废卷,不予考虑。
3、剔除废卷后的数据有如下特点:①每份答卷按照竞赛评卷规则评阅人数都为3人;②九位评委都参与了评阅,但每份答卷对应的评委无明显的一致性,也就是说相同的三位评委一起评阅多份答卷的概率不大,数据较分散。
(二)单样本K-S正态检验:用SPSS软件检验每位评委的评分服从正态分布。
(三)描述性统计分析:用SPSS软件描述性统计分析,将每位评委所对应的特征值进行
列表。
(四)单因素方差分析:用MATLAB的anova1命令分析比较9位评委的评分偏好及评分离
散程度。
(五)预测的准备工作:根据数据特点,对总体和个体的特点进行比较,以表格或图示
方式显示。
第二部分:建立评分排序优化模型
(一)模型I——均值评比模型
x
1.模型I的数学表达式:Pi
j1
9
ji
3
该模型是一般的常规比赛中最常用的成绩评判方法,对多组成绩采用直接平均的方法即得最终成绩。 2. 模型I的求解
利用办公软件Excel对数据进行求和取平均、排序,即得所有答卷在模型I下的排名。 3.模型I的评价
模型I 是最简单快捷的成绩评定办法,但存在很大的缺陷,就是忽略了评委的主观成分对评分的影响,造成很大的误差,成绩均值并未能真正反映其真实水平。因此,需要综合考虑评委自身知识水平的限制及主观成分的影响,下面将对所有评分进行标准化处理,我们建立了模型II.
(二)模型Ⅱ——标准分模型
由于每一个评委给出的分数体现不同试卷在他心中的排名的差异,那么把分数整体平移是不会改变这种差异的。根据文献[3]的思想,就可以得到模型Ⅱ,即将每位评卷老师的均值平移到同一个基点,这个基点我们选取所以老师所给出的分数的均值。而每位老师方差的不同导致每位老师所给出的每一分对总分的贡献不同,因此我们把所有老师的离散(即方差)调到同一水平,这个水平我们就选取所有老师方差的均值,于是模型Ⅱ就更能体现评卷的公平性
1.建立模型Ⅱ前的准备:每位评委评分分布的正态性检验
由上表可得,每位评委的显著性水平(P值)都大于0.05,因此每位评委的评分服从正态分布。
2.模型Ⅱ的数学表达式如下:
Zji
xjixj
sj
1
(xj
Nj
x
i1
180
ji
,sj
由于标准化后的数会出现负数和小数点,使用起来不方便,因此再对标准化后的Z 分数进行T分数变换:
TjiZji0x0
T
取均值: Pi
j1
9
ji
3
模型Ⅱ的总数学表达式为
9xxjij
0x0sj1jPi
3
3.模型Ⅱ的求解 (1)借助SPSS软件对数据进行描述
可得性统计分析,
每位评委的评阅
卷数、评分的最小
值和最大值、均值、标准差,直接使用操作命令,既简单又快捷,省去用其他软件编程的麻烦。执行后结果如下:
(2)利用MATLAB软件编程求解
求总体评分均值x0、标准差0:导入数据→剔除废卷数据→所有评分化为一向量→使用mean、std命令。
运行结果为 x045.6500,09.7656
(三)模型Ⅲ——加权评分模型 1.建立模型Ⅲ前的准备
通过单因素方差分析比较9位评委的评分偏好
在MATLAB中的调用格式:P=anova1(X) X为数据矩阵 具体程序见附录 运行结果:P=0
ANOVA Table
Source SS df MS F Prob>F -------------------------------------------------------------------------------------------------------- Groups 11379.8 8 1422.48 18.87 0
Error 40023 531 75.37 Total 51402.8 539
结果分析可得,对同一份答卷,不同评委的评分差异影响显著。
图形分析:该图显示了这9位评委的评分分散情况,和最值、均值的粗略位置,评分分散程度最大的是评委5,最小的是评委6,对于评分偏好,评委4和评委9的评分偏低,评委5的评分偏高,其他评委在评分居中线上上下波动,虽有差异,但不是相差很大。
2.模型Ⅲ的数学表达式为
0xji,当x0xj时xj
Pi100x0
xji100100,否则 100xj
3.模型Ⅲ的求解
六、结果分析
下表为模型Ⅰ、模型Ⅱ、模型Ⅲ的前十位排名的结果比较分析:
通过以上表格的观察,我们知道在三种模型中B044号始终为第一名,模型Ⅰ中的第二名B171在模型Ⅱ中为第六名,其他的名次也相应的发生了一些变化,但变化波动不大。主要是模型Ⅱ中采用了把均值和离散调到同一基点,使得结果更科学。模型Ⅲ中的一二名相对于模型Ⅰ没有变化,其他的名次则发生了小小的变动。根据模型Ⅱ中的单因素分析,我们知道第四和第九号评委打分总体上比较低,于是经过分数的标准化以后,经第四和第九号评委的分的平均分会比原来的高,B035号就是很好的例子,而对于B006号主要是由于调整了各评委的喜好于同一基点,于是也发生了相应的名次变化。
七、模型评价与推广
本文在分析分数排名的过程中,共确立了三种试卷评判模型,模型Ⅰ具有操作简单的特点,在一般的评分中可是用;而在大型的比赛中,如果每位评委都对参赛者进行打分,则用模型Ⅲ比较科学,这样可以避免不同评委的偏好差异的弊端;
对本文中的模型给出比较客观的评价,必须实事求是,有根据, 以便评卷人参考。
推广和优化,需要挖空心思,想出合理的、甚至可以合理改变 题目给出的条件的、不一定可行但是具有一定想象空间的准理想 的方法、模型。(大胆、合理、心细。反复推敲,这段500 字半页 左右的文字,可能决定生死存亡。)
八、参考文献
[1] 作者名1,作者名2.文章名字.杂志名字,年,卷(期):起始页码-结束页码 [2] 作者名1,作者名2.书名.出版地:出版社,年,起始页码-结束页码
[3] 作者名1,作者名2.文章名字. 年,卷(期):起始页码-结束页码,网页地 址。
[4] 李传鹏,什么是中国标准书号,
http://www.ywtd.com.cn/mypage/page2.asp?pgid=51440&pid=46275 , 2006-9-18。
[5] 徐玖平、胡知能、李军,运筹学(II类),北京:科学出版社,2004。 [6] Ishizuka Y, AiyoshiE. Double penalty method for bilevel optimization problems. Annals of Operations Research, 24: 73- 88,1992。 注意:5篇以上!
[1] 史晓峰,《基于多目标优化的竞赛评卷系统设计研究》.哈尔滨工业大学,2009年6月 [2]汪晓银,周保平《数学建模与数学实验》,北京:科学出版社,2010.2
九、附件
(正文中不许出现程序,如果要附程序只能以附件形式给出)
根据前面的假设和计算,我们知道除了第6和第9号评委的评分服从近似正态分布而其他评委的打分都服从正态分布,但这还不足以将各评委评分汇总作为各参赛队的最后成绩。因为每位评委所为的分数的标准是不一样的,即系统内部的均值和方差不一样,不具等值单位。因此必须将这所有的成绩化成具有等值单位的标准分数,然后去均值作为试卷排序参评的最终成绩。
使用matlab软件计算,我们得到了如下表的分数排序:
在试卷评阅中,先利用最简单的试卷评分方法,及直接求平均值的方法,进行第一次分数的排名。但由于评委评卷的特点,九个评委中每个评阅三份试卷,且尽量避免了老师评到自己学的的试卷,体现了一定的公平性。因此可以用模型一求第一次分数排名。
但是由于不同老师的评卷的喜好,因此给的平均分也不一样,于是按照试卷分配给评委的特点,如果要体现公平性,必须把考虑下面两个问题:第一,尽量去除评卷老师对试卷偏爱所带来的成绩的差异和干扰;第二,尽量把评委评卷的平均水平化为一致,以求平均分从而得到公平的排名。
。