_数据分析观念_的内涵及教学建议]
“数据分析观念”的内涵及教学建议
——数学教育热点问题系列访谈之五
史宁中1,张丹2,赵迪1
(1. 东北师范大学,吉林长春130024;2. 北京教育学院,北京100011)
摘要:统计是数据分析的科学和艺术,统计课程的核心是发展学生的数据分析观念。准确把握数据分析观念的内涵是进行统计课程设计、教科书编写和教学实施的必要前提和重要基础。义务教育阶段统计教学的关键是使学生想到用数据,愿意“亲近”数据,能从数据中提取信息。
关键词:数据分析观念;教学建议
中图分类号:G633. 6 文献标识码:A 文章编号:1000-0186(2008)06-0040-05
我国在基础教育阶段将统计作为重要的学习内容。随着对统计教学的不断探索和实践,人们逐渐认识到对于统计学习而言,重要的不是画统计图、求平均数等技能的学习,而是发展学生的数据分析观念。那么,数据分析观念到底体现在哪些方面呢?如何设计课程和实施教学,才能更好地发展学生的数据分析观念呢?本文访谈了东北师范大学校长史宁中教授。
一、 发展学生的数据分析观念
问:您在多个场合不断强调,无论哪一部分的学习,都应该抓住这部分的核心内容,那么统计的核心内容是什么呢?
史教授:首先必须明确的是,我们希望在课程中给出一些关键词。关键词是某部分学习的核心内容。核心内容不是指具体的知识点,甚至不是指具体的知识本身,而是概括很多知识的共性所反映出来的思想和思维方法,这个就叫做核心词,或者叫做核心内容。统计的核心词就是数据分析,统计是处理数据的一门科学和艺术。
问:既然统计的核心词是数据分析,那么到底什么是数据呢?数据与数有什么关系? 史教授:我们在义务教育阶段处理的数据主要是用数来表达的,当然这些数都是有实际背景的。脱离实际问题的单纯的数的研究是数与代数的内容,不是统计的内容。但是,这些年随着信息的迅速增长,我们需要扩大对数据的认识。事实上,现在的数据不仅仅是数,也包括图和语句。比如,人们在网上经常用Google 进行检索,Google 是用统计的方法来进行语句检索的,此时统计处理的就是语句。
问:能不能这样理解,只要蕴藏着一定的信息,无论是什么表现形式,都是数据,统计就是帮助人们从这些数据中提取出大量的信息?
史教授:是这样的。人们在实际生活和各行业中面临的数据越来越多,必须树立用数据的意识,掌握一些分析数据的方法和模型。所以,数据分析观念是非常重要的。数据分析观念主要体现在三个方面:第一,了解在现实生活中有许多问题应当先做调查研究,收集数据,通过分析作出判断,体会数据中是蕴含着信息的;第二,了解对于同样的数据可以用多种分析的方法,需要根据问题的背景选择合适的方法;第三,通过数据分析体验随机性。
二、 数据随机性的内涵和教学
(一) 数据随机性的内涵
问:对于很多人而言,对第三点“通过数据分析体验随机性”都比较陌生。首先遇到的一个困难是,数据随机性的涵义是什么?
史教授:简单而言,数据的随机性主要有两层涵义:一方面,对于同样的事情,每次收集到
的数据可能会是不同的;另一方面,只要有足够的数据就可能从中发现规律。举一个例子,袋中装有若干个红球和白球,一方面,每次摸出的球的颜色可能是不一样的,事先无法确定,另一方面,有放回地重复摸多次(摸完后将球放回袋中,摇晃均匀后再摸) ,从摸到球的颜色的数据中就能发现一些规律,比如红球多还是白球多、红球和白球的比例等。
问:那么,构成数据随机性的原因主要有哪些呢?
史教授:一般来说,产生随机有两方面的原因。
一方面,是运用部分来推断总体。我们知道这是统计的一个基本思想。这里首先假设每一次实验取得的数据是来源于一个总体的。这是很重要的一个假设,比如上面提到的摸球例子,第一,需要假设摸的是同一个袋子里的球,而且是有放回地摸,第二,摸之前需要晃一晃,摇晃均匀了。为什么要强调这些呢,就是要保证每一次处理的事情都一样,数据是来源于一个总体的。有了这个假设后再去做重复实验,每一次摸之前,你不可能知道这次摸的是什么结果,但是摸的次数多了,就能估计出来摸到各种结果的可能性是多大,由此推断总体的情况。比如,在上面的例子中,可以推断袋子中什么颜色的球多,各种颜色球的比例,如果知道了袋中球的总数,还可以推断出各种球的数量。但是,由于是用部分来推断总体,就不能保证推断一定是准确无误的,结论可能出错。好的统计方法的主要标志就是出错的可能性较小。
另一方面,是重复测量中的误差。对一些数据,特别是连续型数据总是有测量误差的,而产生误差的原因是多方面的。比如,多次测量同一人的身高,由于测量工具、观察者的角度、测量时间等各种各样的原因,每次测量的结果可能都是不一样的。但是如果出现随机误差的平均是零,也就是有时候比真实结果大一点,有时候比真实结果小一点,平均下来只要是零,就能研究了,至于如何进行研究这里就不细谈了。
(二) 数据随机性的教学
问:说到这里,我感觉您非常强调运用统计(数据分析) 来帮助学生体会随机。不少教师有这样一个困惑,概率也是研究随机现象的,在概率中也组织学生做了很多摸球、掷硬币等游戏,那么为什么又提出数据的随机性呢?
史教授:我听了一些课,教师们经常这样处理:比如对于掷一枚均匀的硬币,先得到出现正面或反面的概率是1/2,然后让学生通过反复掷硬币去验证这个结果(1/2)。这里有两个问题。第一,一个硬币,先假定它出现正面和反面的可能性是1/2,这是数学(或者称为概率) 。这个1/2是通过概率的定义得到的,不是依靠掷硬币验证出来的。实际上,学生做了很多次实验也得不到1/2,反而更加糊涂了。第二,运用定义的方式教学随机,不能很好地培养学生的随机观念。
需要指出的是,我们赞成做实验,赞成运用统计的思想来做实验。统计就是通过数据来获取一些信息,来帮助人们作出一些判断。同样是掷硬币的问题,在统计上就会这样设计实验:先让学生多次掷硬币,计算出现正面的比例(频率) ,然后用频率来估计一下出现正面的可能性是多大。如果这个可能性接近1/2的话,就推断这个硬币大概是均匀的,这是统计的思想。
对于先给出定义,教师往往比较习惯,而对于“逆过来”通过数据来进行推断,教师往往比较陌生。为了帮助大家理解,再阐述一下上面摸球的例子。一个袋子里有5个球,4个白球、1个红球,如果让学生通过摸来验证出现白球的可能性是4/5、出现红球的可能性是1/5,这不是统计。统计是这样的,告诉学生袋子里有很多球,有白颜色的和红颜色的,让学生去摸,摸到一定程度的时候,学生发现摸出白球的次数比红球的次数多,由此推断袋子里白球可能比红球多。进一步的话,能推断出白球和红球的比例大概是多少。再告诉球的总数的时候,能够估计出来几个白球和几个红球。这才是统计的过程。
我并不是反对前一种教法本身,而是说如果这么教,蕴涵的随机思想并不强,学生也不感兴趣,都知道了概率为什么还要做实验。而后来的这种教法,学生体会到每一次摸的结果事先都不知道,但是摸多了能够帮助我们做一些判断。这样一来,学生既体会了随机,又感受到数据中蕴涵着信息,我想这种类似于“猜谜”的活动学生会很有兴趣。
问:实际上,您并不是简单地赞成或反对做实验,而要看做实验的目的。不要通过实验去验证概率是多少,而要通过实验从数据中获取信息,对总体做一些推断。说到做推断,教师们还有一个困惑:因为数据是随机的,用部分的数据进行估计有时可能会估计得准一些,有时会偏差很大,那么这种推断是不是有点“瞎猜”的味道?能不能保证这种估计是合理的?
史教授:这里绝不是“瞎猜”。还是上面摸球的例子(袋子里有5个球、4个白球、1个红球) ,我们知道如果真是随机摸球的话,那么出现白球的概率是4/5。而实验中,要使摸球的频率刚好是4/5 (8/10)的可能性并不大。但是如果取一个范围,比如在7/10和9/10之间,此时频率落在这个范围内,用它去进行估计是可以接受的。如果要使摸出白球的频率落在这个范围之间的可能性达到80%的话,通过计算只要做27次左右的实验;如果要有95%的可能性落在这个范围内的话,摸球的次数要增加,大概是60次。所以,实际上有相当多的科学依据在后边支撑着我们做类似摸球的试验。虽然不能保证估计得完全一致,但能保证在一定实验次数下,估计值与实际情况相差不大的可能性是很大的。
问:听了您的解释挺有启发的。是不是虽然不能达到100%的精确,但无论实际情况需要多高的精确度,都可以计算出需要做多少次实验来保证达到这个精确度?
史教授:是这样的。因此,我们可以提供一些数据,如果想达到95%的可能性,你至少要摸多少次球。再比如社会上通过打电话做民意调查,不可能给所有拥有电话的人都打,如果调查允许在一定的误差范围内,通过计算可以提供至少需要打电话的数量。当然计算中需要概率的知识,从这些例子中我们也能看到统计与概率的联系。
问:通过上面的两种教法和您的分析,我们可以感觉到概率是定义出来的,它的推理方式主要是演绎,而统计是用数据来进行推断,它的推理方式主要是归纳。两种思维方式不一样,是吗?
史教授:是这样的。统计体现了与传统数学不一样的思路,而这种思路是培养学生归纳能力的最好方法之一。在义务教育阶段,也有一些素材可以让学生经历归纳的过程,比如归纳一些公式和规律,但这些公式和规律往往都是准备好了的,很难找到让学生真正通过归纳自己得到结论的素材,但是通过统计可以让学生做一些。所以说,运用统计中部分推断整体是培养学生归纳能力的很好内容。
问:您对归纳能力非常重视,能说说为什么吗?
史教授:归纳能力和演绎能力都很重要。演绎是由一般到特殊,用于证明结论的正确性,这在数学中是很重要的。而归纳是由特殊到一般,或者说是由一个范围内的结论推断更大范围内的结论,这往往导致创新。我想,要让我们的学生学得灵活一些,需要有一些创新。培养学生灵活、创新,不仅仅是把数学中的例子生活化就够了,还要培养学生去尝试发现,这是更重要的。统计是从个别的现象去了解整体,还可以鼓励学生去发现结论,这就是一种归纳。当然,利用数据分析来体现随机性,这样做的可行性以及如何去做,都需要经过教学实验,经过广大教师的实践和研究。无论如何,要使学生“喜欢”数据而不是害怕它。
三、使学生产生对数据的亲切感
问:正如您所说的,要让学生愿意亲近数据,就必须使他们体会到数据中是蕴涵着信息的,就像摸球的例子一样。除了这种游戏,您还能再举出一些这样的例子吗?
史教授:除了游戏以外,生活中有大量需要通过分析数据获取信息的例子。比如,要设计校服,就需要调查学生的身高。当把调查出来的数据汇总后,我们就需要分析数据提取信息。一提到分析数据,教师马上就让学生计算平均数,其实平均数不是唯一的也不是万能的。这里,有这么几个信息是很重要的,比如学生可能首先关注这些数据中最大的是多少、最小的是多少,有了这两个数就把数据的范围定了下来。接着,学生就可能会对数据按段进行分组,统计出在各个身高段的人数,发现在哪个身高段的人数最多(众数) ,中等水平学生的身高是多少(中位数) ,当然也可以计算平均身高。还可以把自己的身高与班级的身高进行比较,看看自己处在什么位置上。所以这里有很多信息可以获得,不一定一开始就忙于去计算。开始提取的信息可以是不基于计算的信息,只是基于关系(最多、最少等) 的信息,这个是非常必要的。再举一个例子,人们往往通过调查每天卖出最多的菜是什
么,然后以这个菜价格的变化来判断蔬菜价格是否有所变化。
问:我想如果学生这种活动从事多了,不断地获取信息,就会逐渐“亲近”数据,也会对统计感兴趣。因此,我们的教学是不是应该首先让学生不惧怕数据,喜欢数据,然后再合理地运用和分析数据。
史教授:我想,学生对这件事情不感兴趣是不行的,所以我们教学很重要的是培养孩子们对于数据的感情,使他们知道通过数据能够帮助人们做事,通过数据判断比瞎猜好,而这个数据自己也能够得到。
问:刚才提到了平均数、中位数、众数,它们都是刻画一组数据集中情况的统计量,是教师非常困惑的问题。这三个量之间到底有什么区别?什么时候该用什么统计量?
史教授:我们现在处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布。这时候,均值(平均数) 、中位数和众数是一样的。只有在数据分布偏态(不对称) 的情况下,才会出现均值、中位数和众数的区别。所以说,如果是正态的话,用哪个统计量都行。如果偏态的情况特别严重的话,可以用中位数。
问:有的书上写道:平均数容易受极端数据的影响(数据偏到一面去了) ,是不是就是这个意思呢?在有极端数据的时候是不是一定要用中位数?
史教授:平均数是容易受极端数据影响的,但是这种情况下不一定非要用中位数。其实,用中位数的情况并不多。那么,出现极端数据怎么办呢?一般认为这个数据不是来源于这个总体,统计上有一个方法,就是把这个数据去掉。比如大家熟悉的跳水比赛评分,为什么要去掉一个最高分、一个最低分呢,就因为这两个分不是来源于这个总体,不能代表裁判正常的鉴赏力。所以去掉以后再求剩下数据的平均数。
问:看来,平均数还是经常使用的刻画数据集中情况的统计量。我想它为什么常用的原因是,与中位数和众数相比,平均数能更多地利用所有数据的信息,另外它也好算。除此之外,在数学上还有什么其他原因吗?
x+y史教授:假设我们得到了2个数据x 、y ,令a= , 利用中学的知识就可以证明:a 是与x 、y 2
这2个数据差的平方和达到最小的实数,即对任意的实数b 有(x – a)2+(y – a)2≦(x – b )+(y
2– b )。这个例子给出了在进行数据分析时经常使用平均数的理由:使误差平方和达到最小,也就是说利用平均数代表数据,可以使二次损失最小。而利用中位数代表数据,是使一次损失(误差绝对值的和) 最小。而我们都知道,二次函数有着很好的数学性质,而绝对值函数的性质不好,所以比较难研究。所以人们都选择用平均数来进行研究,在义务教育阶段更加注重平均数的教学也是有道理的。但是现在平均数教学也存在着问题,比如有人做过调查,学生虽然学习了平均数,会进行计算,但是当遇到真正的数据需要分析时,却很少想到用平均数。所以说,又回到前面的话题,也是我们谈话的中心,义务教育阶段统计教学关键是发展他们的数据分析观念,使他们想到用数据,愿意用数据,能从数据中提取一些信息。
四、统计是关于数据的科学和艺术
问:数据分析观念中还有一条是:了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法,也就是统计的这些方法没有简单意义上的对和错,只有“好”和“不好”。您能具体说明一下吗?
史教授:很多事情都是这样的。比如统计图表,对于一组数据,你往往可以用任意的统计图表来表示。但是你会发现,为了要表达一种信息、解决一个问题,用某些图表会比较合适,也就是说比较“好”。比如:一想表达某部分数据在整个数据中所占比例的情况,用扇形图比较好; 想比较各种数据之间的数量关系,用条形图或直方图比较好;如果数据是随着时间而变化的话,想了解数据的变化情况,那么用折线图比较好。所以,同样的数据,根据你希望研究的问题不同,应该选择用不同的方法。 2
问:最近听了一堂小学数学课,教师想讲平均数。他给了学生两组数据,一组数据是7个人每人拍球的数量,另一组数据是8个人每人拍球的数量。然后提出问题:你觉得哪个小组拍得好。他的本意是希望学生意识到,因为每组拍球的总数、每组的人数都不一样,应该比较两组的平均数。但是学生却想出了很多方法,比如有的学生认为应比较每组中拍球最多的人所拍的数量,哪个多哪组就好。您认为这个学生的方法和平均数的方法哪个好呢?“好”的标准是什么呢?
史教授:你说得对。要判断哪个组拍得好,首先得定义什么叫“好”。“好”的标准跟研究的目的有关。如果是提倡全民运动的话,当然大家平均下来都拍得多比较好;如果目的是选拔拔尖学生的话,当然有人排得最多的组就好。所要研究的问题、要达到的目标不同,选择的方法也不同。科学是指在同样的前提下每个人得到的结论都是一样的;艺术则不是,随着个人鉴赏力的不同,得到的结论也不一样。统计学有其科学的一方面,但是也有艺术的一方面,就是说每个人的目的不一样、每个人的鉴赏力不一样,他就可以选择不同的方法、得到不同的结论。所以,我认为把统计学定义为科学和艺术是比较合适的。因此,为了培养学生的“鉴赏力”,就要帮助学生积累经验。经验与知识不一样,知识有可能教了就会,但经验是需要日积月累的。
问:最后,您能对广大教师从事统计教学提出一些建议吗?
史教授:统计内容在中国中小学课程中出现的时间并不长,甚至在大学里统计课程也还不完善。因此,我们的教师对很多内容的理解不很深刻,这是很正常的,不要惧怕。在这个前提下,首先,教师可以逐步读一些书,读一些统计应用的书。无论是自己读书学习,还是在教学中,都要抓住一个核心——数据分析,即如何对数据进行分析,以对我们所要研究的问题进行了解。其次,应该看到,统计与日常生活有着密切的联系,所以有时候我们的教师不理解,我们的学生却可能理解,因为它跟学生的生活很接近。所以教师在教学过程中不要担心,很多事情,学生借助经验、通过思考是能够理解的。第三,就是教学相长。在教学的过程中,通过观察学生的理解状况,来思考如何使教学效果更好,即反思自己的教学。做到这三点,统计教学其实并不难。关键是无论学生还是教师,首先都要产生对数据的亲切感。
(责任编辑:李冰)
The Connotation of the Concept of Data Analysis and Its Teaching Suggestions
——The Serial Interviews on the Focus of Mathematics Education(Ⅴ)
SHI Ning-zhong1, ZHANG Dan2,ZHAO Di1
(1.Northeast Normal University, Changchun Jilin 130024, China; 2.Beijing Institute of Education, Beijing 100011, China)
Abstract: Statistics is the science and art of data analysis,and the main purpose of the course itself is to develop students’ concept of it. The accurate comprehension of that concept is the premise and the important basis of course designing, textbook compiling and the conducting of classroom teaching. The most urgent task in the period of compulsory education is to
enable students to make proper use of data analysis, to be friendly to it and obtain information from it.
Key words: the concept of data analysis; teaching suggestions