统计整理的意义和程序
在统计过程中起着承上启下的作用。统计数据整理包括定期统计报表数据的整理、专题统计数据的整理和历史统计数据的整理。统计数据整理的原则是
2.统计数据整理的原则是目的性、联系性和简明性;整理的内容主要包括审核、分组、汇总、数据显示、分门别类积累资料。
3.统计数据分组是分与合的辨证统一,其类型中最重要的是按分组标志的性质和分组标志的多少分。
习题布置:
见《统计学原理习题集》第三章第17至23页,朱胜主编,中国统计出版社
第二单元统计数据分组与频数分布
教学目的要求:
掌握统计数据分组的原则、方法和作用了解统计数据分组的类型熟悉频数分布的概念、种类
熟悉变量数列的编制方法,注意组距数列中的一些基础知识教学重点:
数据分组的原则、方法变量数列的编制教学难点:
频数累计与组据数列的编制授课时数:2学时
一、统计数据分组的原则和方法
(一)统计数据分组的原则
统计分组,必须遵循以下两个原则:
1.穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容
纳总体所有的单位。例如,从业人员按文化程度分组,分为小学毕业、中学毕业(含中专)和大学毕业三组,那么,那些文盲或识字不多的以及大学以上的学历者则无组可归。如果将分组适当调整为文盲及识字不多、小学程度、中学程度、大学及大学以上,这样分组,就可以包括全部从业人员的各种不同层次的文化程度,符合了分组的穷尽原则。
2.互斥原则:就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,
而不能同时或可能归属于几个组。例如,某商场把服装分为男装、女装、童装三类,这不符合互斥原则,因为童装也有男、女装之分。若先把服装分为成年与儿童两类,然后每类再分
为男女两组,这就符合互斥原则了。
(二)分组标志的选择
分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组标志,必须遵循以下几条原则:
1.要符合统计研究的目的和要求
统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将工业部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。
2.必须选择最重要的标志作为分组依据
社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。
例如,根据统计调查资料,研究人民生活水平变动情况时,可供选择的分组标志有:家庭人口数、每户就业人数、每一就业者负担人数、家庭总收入、平均每人月生活费收入等。而其中最能反映人民生活水平变动的标志是平均每人月生活费收入,故应选择这一标志作为分组标志。
3.要考虑到社会经济现象所处的具体历史条件
客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。
[例如,同是划分企业规模,在劳动密集型的行业或地区,可采用职工人数作为分组标志;而在技术密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。]
(三)分组界限的划分(分组标志确定后,分组界限便成为数据分组的重要问题)1.按属性分组时,确定各组的界限有两种情况:
(1)组限是自然形成的或比较明显的;例如,人口按性别、文化程度、党派分组等。(2)由于存在属性之间的过渡形式,使分组界限难以确定。这种比较复杂的属性分组,国家有关部门都制定有标准的分类目录,分组时可以依据分类目录来确定组限。例如,人口按职业分组,企业按行业分组,产品按经济用途分组等。
2.按变量分组时,应注意以下两点:
(1)分组时各组数量界限的确定必须能反映事物质的差别。例如,学生学习成绩分组,不能把55分和65分合为一组,因为这样的分组未区分及格与不及格的质的差别。
(2)其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限和组数。
①单项式分组与组距式分组
1)单项式分组。就是用一个变量值(标志值)作为一组,形成单项式变量数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。
如,育龄妇女按其生育子女存活数分组,可分为0个、1个、2个、3个、4个、5个等6组。
2)组距式分组。就是将变量依次划分为几段区间,一段区间表现为“从。。到。。”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。
例如,反映居民居住水平情况按人均居住面积分组分为。4平方米以下,4-6平方米,6-8平方米,8平方米以上等4组。再如了解某班学生成绩情况,按成绩进行组距式分组。
②间断组距式分组和连续组距式分组
在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。
间断组距式分组。是指凡是组限不相连的分组。例如,儿童按年龄分组分为未满1岁,1-2岁,3-4岁,5-9岁,10-14岁。
连续组距式分组。凡是组限相连(或称相重叠的)分组,即以同一数值作为相邻两组的共同界限的分组。例如,工人按工时定额完成程度分组分为90-100%,100-110%,110-120%等组。
如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在一定范围内的表现即可以是整数,也可以是小数,如产值、身高、体重等连续型变量,只能采用连续组距式分组。在进行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。[例如学生成绩分组,把70分的学生归入70-80分组内,把80分的学生归入80-90分组内。]根据这一
原则,离散型变量的分组,各组的上限也可以写为下一组的下限,这样处理既简明又便于计算。连续型变量的分组也可以仅列出左端的数值,即以各组的下限来表示。[如上例学生成绩分组也可表示为50-,60-,70-,。。]
③等距分组与异距分组
按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。1)等距分组
等距分组。就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如,工人的年龄、工龄、工资的分组;零件尺寸的误差、加工时间的分组;农产品单位面积产量、单位产品成本的分组等等。等距分组有很多好处,它便于绘制统计图,也便于进行各类运算。
2)异距分组
分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性质不同的应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根据现象的本质特征和统计研究的目的任务来确定分组的等距与否。在下列情况下,就必须考虑采用异距分组:
第一,标志值分布很不均匀的场合。例如,学生成绩如果密集于某一范围,如60-80分或70-90分之间,其它部分则分布十分稀少,在这种场合若仍以10分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一密集的分数段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较短的组距,在分布比较稀少的其余部分使用较长的组距,形成各组的组距不相等的异距分组。
第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,此时,进行人口疾病研究的年龄分组,应采用异距式分组,即1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组,21岁以上按10年或20年分组等等。
第三,标志值按一定比例发展变化的场合。例如,百货商场营业额差别是很大的,比如营业额从5万元至5千万元,可采取公比为10的不等距分组5-50万元、50-500万元、500-5000万元。若用等距分组,即使组距为100万元,也得分为50组,显然是不合适的。
对于异距分组方法的运用,没有固定模式可供依循,全凭统计人员在实践中不断探索,关键在于对所研究现象的内在联系必须十分熟悉,才能很好运用异距分组来揭示事物的本质。
二、统计分组的应用
(一)划分社会现象的不同类型。
社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济现象的质的差异。例如,国民经济按产业分组;农业分成农、林、牧、渔业各组;社会商品零售额按商品用途分组;企业按所有制分组等等。这些分组也叫类型分组。
如下表是我国城镇居民家庭收入消费性支出按商品类别分组的统计表,它将全部消费品分为八大类,尽管它们同属于消费品,但在效用上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团的商品性消费中不同类别的商品所占的地位和作用,也为进一步研究我国消费品零售额的水平与结构提供了便利条件。
我国城镇居民家庭人均消费支出及构成
按商品类别分组食品类衣着类家庭设备用品及服务类文化娱乐用品类交通通讯类医疗保健类居住类杂项商品类合计
(二)揭示社会现象的内部结构。
从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助人们掌握事物的特征,认识事物的性质。
我国出口产品构成表(%)
年份农副产品农副产品加工品工矿产品合计零售额(元)构成(%)
第三章统计数据的整理和显示
一、教学目的和要求
①明确统计整理的概念、意义和内容;
②掌握统计分组的概念、原则、方法和作用,了解分组的类型;③熟悉频数分布的概念、种类;
④熟悉变量数列的编制方法,注意组距数列中的一些基础知识;⑤熟悉统计表的构成和制表、填表规则。
二、教学时数:6学时三、教学重点
统计数据分组的类型原则和方法、变量数列特别是组据数列的编制方法、统计表设计的原则和方法。
四、教学难点
变量数列的编制。
五、教学方法
基本知识通过案例结合excel软件演示授课。
六、教学内容
第一单元统计数据整理概述和统计分组
教学目的要求:
理解数据整理的概念、种类理解数据整理的主要原则和内容掌握数据预处理的方法
理解理解数据分组的涵义和类型教学重点:
数据整理的原则内容统计数据分组的类型教学难点:
数据的预处理、对数据分组概念的辩证理解授课时数:2学时
第一节统计数据整理概述
一、统计整理及其类型
(一)统计整理。就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。对已整理过的资料(包括历史资料)进行再加工也属于统计整理。
(二)统计整理的意义
1、通过统计调查可以取得第一手资料,但这种资料只能反映总体各单位的具体情况,是分散、零碎、表面的。要说明总体情况,揭示出总体的内在特征,还需要对这些资料进行加工整理,使之系统化,以便通过综合指标对总体作出概括性的说明。
2、统计整理是整个统计工作和研究过程的中间环节,起着承前启后的作用。统计整理是统计调查的继续,又是统计分析的基础。统计调查所搜集到的资料,只有通过科学的审核、分类、汇总等整理工作,才能使统计在认识社会的过程中,实现由个别到全体、由特殊到一般、由现象到本质、由感性到理性的转化,才能从整体上反映出事物的数量特征。否则统计调查所得的资料再丰富、再完备,其作用也发挥不出来,统计调查就将徒劳无益,统计分析也将无法进行。
3、统计整理还是积累历史资料的必要手段。统计研究中经常要用动态分析,这就需要有长期累积的历史资料,而根据积累资料的要求,对已有的统计资料进行筛选,以及按历史的口径对现有的统计资料重新调整、分类和汇总等,都必须通过统计整理工作来完成。
(三)统计整理的类型1.定期统计报表数据的整理2.专题性统计数据的整理3.历史统计数据的整理二、统计整理的原则和内容
(一)数据整理的原则1.目的性原则2.联系性原则3.简明性原则
(二)数据整理的内容
统计整理的全过程包括对统计资料的审核、分组、汇总和编制统计图表四个环节,需要按照一定的步骤进行:
(1)对搜集到的资料进行全面审核,以确保统计资料符合统计研究目的的要求,资料准确无误。
(2)根据研究目和统计分析的需要,选择整理的标志,并进行划类分组。统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。
(3)在分组的基础上,将各项资料进行汇总,得出反映各组和总体数量特征的各种指标。
(4)统计资料的显示。即通过编制统计表和绘制统计图,将整理出的资料简捷明了、系统有序地显示出来。
(5)对统计数据分门别类地系统积累。
三、数据的预处理
(一)数据的审核:对调查资料进行审核是统计整理的第一步,包括以下内容:
1.审核资料的完整性和及时性
审核资料的完整性,就是看调查单位或填报单位是否齐全;规定的项目是否都有答案,应报资料的份数是否符合规定。
审核资料的及时性,是看填报单位是否按时报送了有关资料。对不报、漏报或迟报的现象都要及时查清。
2.审核资料的正确性:
审核资料的正确性,是检查所填报的资料是否准确可靠。常用的审核方法有两种:(1)逻辑检查
首先,从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合逻辑的地方。比如,一张调查表中,年龄是9岁,职业是教师,其中必有一个是错误的。又如,若在某劳动密集型行业的报表中,企业规模为大型,而职工人数则是100人,这其中也必有一错。
其次,是检查各项目之间有无相互矛盾的地方。例如,企业的净产值大于同期总产值就是明显的逻辑错误。(2)计算检查
即检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方法来检查各指标间的数字是否相互衔接。
3.历史资料的审核
在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。对不能满足现在要求、缺漏或有疑问的资料,要进行有科学根据的推算、弥补和订正。
(二)资料审核后的订正
通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应分别不同情况作如下处理:
(1)对于可以肯定的一般错误,应及时代为更正,并通知原报单位。(2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。
(3)如果所发现的差错在其他单位也可能发生时,应将错误情况通报所有单位,以免发生类似错误。
(4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于违法行为,则应依法严肃处理。
四、统计分组的含义
1.概念。根据社会经济现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组或类型,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。
2.统计分组的深层次理解
从分组的性质来看,分组兼有“分和合”双重含义。
(1)对于现象总体而言,是“分”,即把总体分为性质相异的若干部分;而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。
(2)对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其它标志表现不相同也只能结合在一组。
由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同时掩盖了其他差异,忽略了其他矛盾。不同的分组方法,可能得出不同的结论。缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质作全面地、深刻地分析,确定所研究现象类型的属性及其内部差别,而后才能选择反映事物本质的正确的分组标志。
五、统计分组的类型
(一)按分组的作用或目的不同,分为类型分组、结构分组和分析分组。
1.类型分组。是将复杂的现象总体,划分为若干个不同性质的部分。
2.结构分组。是在对总体分组的基础上计算出各组对总体的比重,以此来研究总体各部分的结构。类型分组和结构分组往往紧密联系在一起。
3.分析分组:是为研究现象之间依存关系而进行的统计分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商品消费需求的因素有:该商品的价格、消费者收入、相关商品的价格、消费者偏好以及消费者对该商品的预期等。原
因标志不同,结果标志也会不同;同一原因标志由于分组的不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法来研究它们之间的联系。
(二)按分组标志的多少,可分为简单分组、复合分组和并列分组。
1.简单分组。就是对总体只按一个标志进行分组。例如国民生产总值按产业分为第一、第二、第三产业三组;货运量按运输方式分为铁路运输、公路运输、水陆运输、航空运输与管道运输等五组。
2.复合分组。就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进一步分组。
复合分组的优点是,从对同一现象的层层分组和分组标志的联系中,更深入全面地研究总体各个方面的内部结构。但是,采用复合分组时,组数会随着分组标志的增加而成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦琐哲学,不利于分析问题。因此,不能滥用复合分组,尤其不宜采用过多的标志进行复合分组,也不宜对较小总体进行复合分组。
3、分组体系。就是同时用两个或两个以上的标志,分别从不同的角度,进行不重叠的多种分组。也就是说,很多简单分组从不同角度说明同一个总体,就构成一个并列的分组体系。例如,职工先按性别分成两组,另按年龄分成若干组;进口总额先按贸易对象分成若干组,另按商品用途分成若干组。
分组体系的特点是两种或多种分组相互独立而不重叠,既可从不同的方面反映事物的多种结构,又不致使分组过于烦琐,故被广泛采用。
(三)按分组标志的性质,分为属性分组和变量分组。
1.属性分组。是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组;人口按性别、民族分组;大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。
2.变量分组。是按数量标志进行的分组。如企业按生产能力、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等。这种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。
属性分组和变量分组是一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。
单元小结:
1.统计数据整理主要是将搜集的原始数据加工成反映总体特征的综合数据的工作过程,
1950196019701980198519901995200057.531.036.718.717.513.07.35.233.242.337.729.526.929.226.225.19.326.725.651.855.657.866.569.7100100100100100100100100如该表,就从我国出口商品构成的变化,反映出我国经济发展水平和经济结构的变化。
(三)分析社会现象之间的依存关系。
社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农产量之间、家庭的工资收入与生活费支出之间、工人技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其需求量之间等等,都在一定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组分析出影响因素与结果因素之间的变动规律。
三、组距、组数、组限与组中值
在具体进行分组时,首先应对标志值的分布情况进行仔细审查,找出变量的最大值和最小值;其次,在分布比较集中的标志值处确定组距的中心位置;再次,根据预定的组距的大小定出上下限。一般地,第一组的下限必须略小于实际变量值的最小值,最后一组的上限必须略大于实际变量值的最大值,并尽可能使各单位的标志值在组内分布比较均匀。
(一)组距
在组距式分组中,组距是各组上下限之间的距离,即各组最大标志值和最小标志值之差。
1.由于有等距分组与异距分组之分,在后文中将要出现的频数密度的概念,必须具体计算确定每一个组的组距大小。在许多版本的教科书中,笼统地使用如下公式来计算组距的大小,即:组距=上限-下限
①事实上,这一公式只适用于计算连续组距式分组的组距大小,例如成绩分组中,60-70分,70-80分,其组距为10分(=70-60或80-70)。②如果将这一公式套用于间断组距式,将会产生谬误。例如,商店规模按职工人数分组,分为1-5人,6-10人,11-15人等等。套用上述公式,得出5-1(或10-6,或15-11)=4,即组距为4人的结论,显然是错误的。
2.对于间断式分组的组距大小的计算,必须采用如下公式:组距=上组下限-本组下限
(二)组数
全距是总体中最大的标志值与最小的标志值之差。
组数的多少直接取决于两个因素,一个是总体的全距,另一个是组距。在等距分组的条件下,组数等于全距除以组距。
在组距既定的条件下,全距大则组数多,全距小则组数少;在全距既定的条件下,组距大则组数少,组距小则组数多。全距是客观存在的事实,不以人的意志为转移,所以,确定组数的关键是确定组距。如对学生成绩情况的统计分组中,组数过少,例如学生成绩分为2组,不能很好地达到分组的基本要求;组数过多,例如成绩分为101组,即分组过细,也无法起到化繁为简的作用,难以显示出总体分布的规律。
决定组数的多少,并无规则可言,必须凭借经验和所研究问题的性质作出判断。这里,向大家介绍一种确定组数和组距的经验公式,这一公式是美国学者斯特杰斯(sturges)创立使用的,称为斯特杰斯经验公式,即:i。n。1。
3.322lgn则有:
rn。r1。
3.322lgn,
公式中,n为组数,n为总体单位数,i为组距,r为全距,即最大变量值xmax与最小变量值xmin之差。根据这一公式,可以得出如下(见下表)的组数参考标准。
此处内容需要权限查看
会员免费查看2.统计表是纵横交叉的线条绘制的表格表达统计数据的一种形式。从形式上看,包总标题、横行标题、纵栏标题和数字资料;从内容看,包括主词和宾词两部分。统计表根据主词是否分组及分组程度分为简单表、分组表和复合表。
3.统计表的设计应符合科学、美观、实用、简练和醒目的原则。作业布置:
见《统计学原理习题集》第三章第17至26页,朱胜主编,中国统计出版社。