统计学原理复习重点概述

发布时间:2022-06-17 10:25:17   来源:党团工作    点击:   
字号:

 统计学原理复习重点概述 本课程主要包括三部分知识。第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)和动态数据描述法,即第六章时间数列分析和第八章统计指数。第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。

 第一章

  绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。

 统计的三层含义及相互关系 统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。

 (一)统计工作( (统计的基本含义) ) 即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。

 (二)统计资料 是统计工作的成果,包括各种统计报表、统计图形及文字资料等。

 (三)统计学 是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。

 (四)三者关系 统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。

 统计实践活动的产生与发展 三个主要的统计学派 1 1 、政治算术学派 代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。

 威廉·配第的代表著《政治算术》对当时的英、荷、法等国的“

 国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。

 可以说,威廉·配第是统计学的创始人。

 2 2 、记述学派(国势学派〕

 代表人物:德国的康令(1606-1681)

 阿亨瓦尔(1719-1772; 1764 年首创统计学一词)

 他们在大学中开设“

 国势学”课程,采用记述性材料,讲述国家“

 显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。

 3 3 、数理统计学派 代表人物:比利时的凯特勒(1796-1874) 他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。

 凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。

 代表著作:社会物理学 有的教材分类 古典统计学时期(17 世纪中后期~18 世纪中后期)

  . 1. 政治算术学派:代表人物 威廉 · 配第( (政治经济学之父) ),首次运用数量对

 比分析法,又称“ 有名无实”的统计学。

  . 2. 记述学派/ / 国势学派:“统计学是研究一国或多国的显著事项之学”,以文字描述为主,又称“ 有实无名”的统计学。

  . 3. 图表学派:用统计图和统计表表现和保存统计资料。

 近代统计学时期(18 世纪末~19 世纪末)

  . 1. 数理统计学派:创始人 阿道夫 · 凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为“ 近代统计学之父”。

 . 2. 社会统计学派:代表人物 恩格尔,采用 大量 观察法研究。

 社会经济现象总体。

 现代统计学时期(20 世纪初至今)

  . 1. 主要成果:在随机抽样基础上建立了推断统计学。

  . 2. 数理统计学的发展特点与趋势

 (1)数学方法的广泛应用。

 (2)边缘统计学的形成。

 (3)借助计算机手段,统计学的应用日益广泛和深入。

 统计学的分类 从统计方法的构成角度分:

 1 1 、描述统计学 (descriptive statistics)

  研究 如何取得、整理和表现数据资料,进而通过综合、概括与分析 反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。

 2 2 、推断统计学 (inferential statistics)

 研究 如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检

 验、方差分析及相关和回归分析等。

 描述统计学和推断统计学的关系 描述统计学是统计学的 基础和统计研究工作的 前提, 推断统计学则是现代统计学的 核心和统计工作的 关键。

 从统计方法的研究和应用角度分:

 1 1 、理论统计学( theoretical statistics )

  利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计 2 2 、 应用统计学 (applied statistics)* 研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。

 统计学与其他学科的关系 (一)统计学与数学的关系 1 1 、 区别

  (1)

 研究对象不同:数学研究抽象的量,

  统计研究具体的量。

  (2)

 研究方法不同:数学是演绎,统计是归纳和演绎的结合。

 . 2. 、 联系

  数学为统计研究提供数学公式、模型和分析方法。

 (二、)统计学与其他学科的关系 统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完成。

 统计的研究对象、特点、作用 统计的研究对象

 、特点:

 社会经济统计,也可称为 经济统计, 其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。

 社会经济统计的特点:

 1 1 、数量性:

 统计研究对象是客观事物的数量方面。

 2 2 、总体性:

 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。

  3 3 、具体性:

 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。

 4 4 、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。

 统计的职能:

 信息职能、咨询职能、监督职能。

 统计研究的基本环节统计设计收集数据整理与分析资料积累开发应用统计学理论与相关实质性学科理论描述统计推断统计统计调查、实验 统计学中几个基本概念 统计总体和总体单位 总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。

  例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。

 特点:

 同质性

 是确定总体的前提和基础。它是根据统计的研究目的而定的。

 研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。

  大量性

  统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件

 差异性

  构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。

 总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。

 总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。

 根据总体所包含的单位数量, 总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。

 样本

 由总体的部分单位组成的集合称为样本(又称子样)。

 当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。

 样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。

 标志和变量 总体各单位普遍具有的属性或特征称为标志。

 标志分类:

  品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。

 数量标志:数量方面的特征,用数值来表现。

 不变标志:

 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。

 一个总体至少要有一个不变标志,才能够使各单 位结合成一个总体。

 变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。

 标志性别年龄民族宗教信仰政治倾向身高体重男汉族佛教无党派43岁 岁182cm75 公斤标志值品质标志文字表述数量标志数据表述 总体单位标志不变标志决定总体的同质性变异标志决定总体的差异性品质标志数量标志(变量)标志和变量不变标志(标志表现无差别)变异标志(标志表现有差别)

 统计指标 统计指标是反映统计总体数量特征的概念和数值。如 2002 年我国国内生产总值 104790.6 亿元。

 – 统计指标由两项基本要素构成,即指标的概念(名称)和指标的取值。

 – 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴

 和计算口径加以具体化。

 – 指标的数值反映所研究现象在具体时间、地点、条件下的规模和水平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。

 特性:

 数量性 、 具体性 、 综合性 指标与标志的关系 – 标志反映总体单位的属性和特征,而指标则反映总体的数量特征。标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。

 – 总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。

 统计指标总量指标(单一计量单位)总量指标(单一计量单位)数量指标数量指标按 表现形式分类按 内容特征分类按时间特征分类时期指标(一段时期累计总量及据此计算的相对、平均指标)时点指标(瞬间的总量及据此计算的相对、平均指标)按 计量单位分类劳动指标(工、台时等)价值指标(元、美元等)相对指标(无计量单位)相对指标(无计量单位)平均指标(双重计量单位)平均指标(双重计量单位)质量指标质量指标统计指标的基本分类实物指标(吨、台等)

 存在确定的数量关系:产量× × 价格=产值存在某种共同性:

 产销比率、盈利水平、劳动效率、偿债能力统计指标体系具有某种内在联系的一系列统计指标所构成的整体 统计数据 (一)变量与变量值 说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。

 例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。

 为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。

 连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意

 实数值。

 例如,气象上的温度、湿度,零件的尺寸等。

 离散型变量是指变量的其取值是整数值,可以一一列举。

 例如,企业数,职工人数等。

 确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。

 随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。

 社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。

 (二)数据的计量尺度 统计数据是总体单位标志或统计指标的具体数量表现。

 根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

 ( ( 三) ) 数据的类型 横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。

 时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。

 例如,2005 年全国各省市自治区的国内生产总值就属于横截面数据。而“十五”期间我国历年的国内生产总值就属于时间序列数据。

 ( ( 四) ) 数据的表现形式 绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以“吨公里”为货物周转量的计量单位,以“千瓦时”为用电量的计量单位。

 相对数。相对数由 2 个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。

 平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。

 第二章统计数据的收集与整理 。本章介绍 统计数据的搜集 及整理。重点在于 统计调查方式 和统计数据整理(分组)。

 统计调查方式 :

 1 1 、普查:

  为某一特定目的而专门组织的一次性全面调查

  如:人口普查、工业普查等 ●特点:

 (1 1 )通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间; (2 2 )一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;

  (3 3 )准确性一般较高,较规范;

  (4 4 )适用的对象较窄,只能调查一些最基本、最一般 的现象。

 2 2 、抽样调查 :

 从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。

  ●特点:

  (1 1 )经济性强:工作量小、可节省人、财、物力

  (2 2 )时效性高:可迅速、及时地获得所需要的信息

  (3 3 )适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查;

  (4 4 )准确性高:用工量小,从而工作可做得更细,误差往往很小。

 3 3 、统计报表 。

 按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。

  ●特点:

  统一的表式、统一的指 标、统一的报送时间、统一的报送程序。

  ●类型:

  (1 1 )按报送调查范围分:

  全面报表:调查对象中的每一个单位都填报

  非全面报表:只要求调查对象中的一部分单位填报

  (2 2 )按报送时间间隔分

 日报、月报、季报、年报

  (3 3 )按报送地域(机构)范围分:

  国家报表、地方报表、部门报表 4 4 、重点调查 从调查对象的全部单位中选择少数重点单位进行调查(适用于 “ 同类 ” 中的 “ 大户 ” )。

 5 5 、典型调查

  从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。

 (不一定针对 “ 大户 ” )

  ▼注意:

  重点调查、典型调查与抽样调查的 不同 处在于:

  1 1 、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;

  2 2 、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。

 数据的搜集方法 1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;

  2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;

  3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;

  4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;

  5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。

  统计数据的整理( summarizing data) 是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。

 统计数据的整理通常包括:

  数据的预处理

  分类或分组

 汇总 数据分组与频数分布

 统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。

  ◎统计分组标志:分组时所依据的特征或标准,有 品质标志和 数量标志。

 ◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。

 概念:频数/ / 次数分布;相对频数;百分数频数 ◎

 频数分布或 次数分布( Frequency distribution) :全部数据按其分组标志在各组内的分布状况。

  分布在各组内的数据个数称为 频数或 次数。

 A

 frequency distribution is a tabular summary of a set of data showing the frequency (or number)

 of items in each of several nonoverlapping classes.

  ◎相对频数( Relative frequency)/ 频率/ / 比重:各组频数与全部频数之和的比重。

 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)

  ◎百分数频数 (Percentage frequency) :is the relative frequency multiplied by 100.

 数值数据的分组与频数分布 分组计频基本步骤:

  确定组数 ®¾ 确定组距 ®¾ (按组)整理成分布频数表 第一步,确 定组数 (Number of classes) 。组数的确定一般视数据本身的特点及数据的多少而定 经验上以 5~20 之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。

  实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数 K:

 第二步,确定组距 (Width of classes) :组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:

  组距= = (最大值

 - -

 最小值)/ / 组数 第三步,确定各组组限 (Class limits) 并据此整 理频数分布表。

 210 10log log 1NK  

  1 1 、分组所遵循的主要原则是 “ 不重不漏 ”(each data value belongs to one class and only one class) 。因此,

  最低组限 (The lower class limit) £ 数据的最小值,

  最大组限 (The upper class limit) ³ 数据的最大值;

  另外,数据在每组中的归属习惯上采用 “ 上组限不在内 ” 。

 2 2 、对离散型数据,可采用相邻两组组限间断的办法解决 “ 不重 ” 的问题(如6~10 , 11~15 , 16~20 0 等);

  3 3 、 对连续型数据,往往采用相邻两组组限重叠,根据 “ 上限不在内原则 ” 解决“ 不重 ” 问题(如 [5,10) , [10,15) , [15,20) 等)。

 注意:

 1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“XX 以下”及“XX 以上”这样的开口组; 2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。

 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际; 3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。

 统计分组的概念、 原则、则和方法统计表 (补充讲义 4 14 页 页 d word 文档)。

 分配数列/次数分布数列

 由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。

 次数分布

  主要有钟形分布、U 形分布和 J 形分布。

 统计表和统计图

 统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。

 第三章 、数据分布特征 的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。

 统计学中 刻划数据分布特征的最主要的代表有二:数据分布的 集中趋势与数据分布的 离散程度。

 集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。

 均值( Mean)

 )

 均值就是一组数据的平均值(average value), 用来测度中心位置(central location)。

 1 1 、 算术平均数

  简单算术平均数 加权算术平均 加权算术平均往往适用于对分组后的数据求均值,这时 Xi 为各组变量代表值(往往取 组中值),Fi 为各组变量值出现的频数。

 算术均值具有如下性质:

 (1)各变量值与其均值的离差和为零:

 (2)各变量值与其均值的离差平方和最小:

 (3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。

 (4)对于任意两个变量 x 和 y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。

 均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的 “ 平均水平 ” 时失去意义,这时往往用 “ 剔除极端值 ” 的 方法加以修正。

 2、 几何平均数 (1) 几何平均数是 N N 个变量值乘积的 N N 次方根 (2 2 )

 加权几何平均数 几何平均数的对数是各变量值对数的算术平均 。

 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :

 我国国内生产总值 2001、 年、 2002、 年、 2003 年的环比发展速度分别是 107.5%,108.3%,109.3%,则各年的平均发展速度是

 % 4 . 108 084 . 1 093 . 1 083 . 1 075 . 13     G

 某人有一笔款项存入银行 0 10 年,前 2 2 年的年利率为 6% ,第 3 3 至 至 5 5 年的年利率是 5% ,后 后 5 5 年的年利率 3% ,如果按复利计算,这笔款项 的平均年利率为多少? % . . .. . . . G2 4 042 0 1 042 1042 1 03 1 05 1 06 110 5 3 2      总体单位总量总体标志总量算术平均数 

  这笔款项的平均年利率为 4.2%。

 ①应用条件

  a.变量值是相对数据,如比率或发展速度。

 b.变量值的连乘积等于总比率或总发展速度。

 ②特点

  a.如果数列中有一个标志值等于零或负值,则无法计算。

  b.受极端值影响较小,故较稳健。

 (3 3 )

 调和平均数,是各数据倒数的(简单)算术平均数的倒数:

 价格=金额/购买量 例4 4,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。鸡蛋种类 价格(元/KG)

 销售额(元)A

 7.6

 15200B

 8.0

  8000C

 8.2

  41008 . 741002 . 8180000 . 81152006 . 714100 8000 152001     MXMX H鸡蛋的平均价格等于销售总额除以销售量:

 由相对数和平均数计算平均数 根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数, 在缺少被平均标志 x 的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。

 利润计划完成程度 x

 (%)

 企业数 (个)

 计划利润额 (万元)

 80~90 2 500 90~100 5 1600 100~110 3 800 合计 10

 % .fxfx 03 96800 1600 500800 105 1600 95 500 85     

 在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例 4.6 中,

 当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。

 中位数 (Median) 中位数是一组数据按大小排序后,处于中间位置上的变量值。

  1、 对于 未分组数据:

 (1)如果数据个数为奇数,则中位数恰为处于中间位置的数:

 (2)如果数据个数为偶数,则为中间位置两个数的平均数

  (2) 单项数列的中位数 计算各组的 累计频数( 向上累计或 向下累计);根据中位数位置确定中位数。

  对于 分组后的数据

 下限公式:

 上限公式:

 式中:m 为中位数所在的组,d 为该组组距,

  L、U 分别为该组的下限值与上限值,

  fm 为该组的频数,

  Sm-1 为该组以下各组的频数总和,

  Sm+1 为该组以上各组的频数总和, 显然

  众数 (Mode) 众数是一组数据中出现次数最多的变量值。

 在分组数据中,众数可按下式计算:

 下限公式:

   21 N eX M  12 221N N eX X MdfSfL Mmme 1212niif中位数的位置=dfSfU Mmme 12   f S f Sm m m 1 1df f f ff fL Mm m m mm mo    ) ( ) (1 11

 上限公式:

  式中:

 fm 为某数值出现次数(频数)最多的组(第 m 组)的频数,

 fm-1 与 fm+1 分别为第 m-1 组与 m+1 组的频数,

 L、U 分别为第 m 组的下限与上限值,d 为该组组距。

 1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数 无众数;如果有多个数据出现的次数(频率)较多,则认为 有多个众数。

  在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。

  2、对描述品质数据的分布特征的“位置”测度只能用众数。

 中位数、众数与算术平均数的关系

  1 、如果数据具有单一众数,且分布是对称的,则众数M o 、中位数M e 与均值 相等,即 ; X M Me o o eM M X  o eM M X  X) (31X M X MO e  四、中位数、众数与算术平均数的关系3、 、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:当分布右偏时(说明存在极端大的值)2、 、对于非对称分布,当分布左偏时(说明存在极端小的值)

 • 众数、中位数和均值都是对数据集中趋势的测 度,

  1 1 、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。

  2 2 、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。

  3 3 、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。

  4 4 、对接近正态的分布数据,常用 均值描述数据的集中趋势;对偏态分布,常用 众数或中位数描述数据的集中趋势。

 df f f ff fU Mm m m mm mo    ) ( ) (1 11

 5 5 、均值只适用于定距或定比尺度的数据;定序尺度数据可用 中位数或 众数进行描述,而对定类尺度数据,只能用 众数进行描述。

 分布离散程度的测度 对数据分布特征的另一个测度指标是 数据分布离散程度。

 它反映各数据远离其中心值的程度,因此,也称 离中趋势。

  集中趋势反映的是各变量值向其中心值聚集的程度,

 离中趋势反映各变量值之间的差异状况。

 注意:

  集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的 离散水平。

 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。

 极 差 (Range) 极差是最简单的测度离中趋势(分散程度)的指标,也称 全距,是 一组数据最大值与最小值之差:

  Range=Largest Value - Smallest Value

  对于组距分组数据,极差可近似地表示为:

 R=最高组上限 -

 最低组下限

 ▲ 注意:

  1 1 、极差易受极端值的影响;

 2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。

 方差 (Variance )

 方差是各变量值与其均值离差(deviation about the mean) 平方的平均数。

 总体方差 (Population Variance)

  总体方差用 2 s2 表示

  其中:Fi 为第 i 组数据的频数 Xi 为第 i 个数(未分组)或第 i 组组中值(分组)

 样本方差 (Sample Variance) 样本方差用 S2 表示

  其中:fi 为第 i 组数据的频数 xi 为第 i 个数(未分组)或第 i 组组中值(分组)

 )

 标准差:方差的平方根(正)。

 1 1 、由于 方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为 64(学生)2,其 具体意义不明确。因此 方差只有在比较不同组数据的离散程度时才有数量大小上的意义。

 2 2 、标准差是对方差的开方运算,因此, 其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。

 ( 标准差就是指数据 “ 离散程度的测度值 ” 距 “ 均值 ” 的距离)。

 离散系数 (Coefficient of Variation) 离散系数:一组数据标准差与其均值的比,也称为 标准差系数,是测度数据离散程度的相对指标:

 离散系数 :

 一组数据标准差与其均值的比,也称为 标准差系数,是测度数据离散程度的相对指标:例:五个班级规模的例中,若视为 总体,离散系数为:7.15/44=0.16,若视为 样本,则离散系数为:8/44=0.182。四、离散系数(Coefficient of Variation) 1 1 、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用 离差或 标准差来比较它们的 离散程度; 2 2 、由于 离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。

 分布偏态与峰度的测度 偏态 (Skewness)和 峰度 (Kurtosis)是对数据分布特征的进一步描述。

  平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为 对称分布,否则为 偏态分布。

 偏态及其测度

  测定偏态的方法主要有两种:

  (1) 算术平均数与众数比较法,

  (2) 动差法。

 算术平均数与众数比较法

 完全对称分布:算术平均数、中位数、众数 重合

 非对称分布:三者相互 分离,

 算术平均数 < 中位数 < 众数 可用 算术平均数与众数之间的距离作为测度 偏态的一个尺度:

 偏态 = 算术平均数 - 众数 这是 偏态的绝对数,它以原有数据的单位为单位。

 同样地, 偏态绝对数不能用来比较不同数据组、不同计量单位数据的偏态程度,为了使不同数据组的偏态数值能相互比较,需计算 偏态的相对数:opM XSK 在计算偏态系数时,如果众数不易计算,可用中位数代替) ( 3epM XSK在上述班级规模例子中,均值为44,众数为46,标准差为7.15,因此,偏态的相对值为279 . 015 . 746 44 pSK

 动差又称 矩,可用来说明数据频数分布的特征。一般地,取数据中的a a 点为 中心点,所有数据与a a之差的k k 次方的平均数:Na Xk ) (称为数据X 关于a a 的k k 阶动差(k k 阶矩 )

 。当 X a 时,数据以算术平均数为中心,上式称为心 中心k阶 阶动差 (矩)。统计学中常 以中心3阶动差(矩)来测度分布的偏态。(二)动差法当a=0时,即数据以原点为中心,上式称为 原点k 阶动差( 矩) 偏态是对分布偏斜方向及程度的测度,通过 偏斜系数 进行测度KiiKii iFF X X13133) ( 3 =0时,为 对称分布; 3 >0时,为 正偏(右偏)分布; 3 <0时,为 负偏(左偏)分布。在上述 班级规模的例子中,以中心3阶动差(矩)计算的偏态系数值为:式中, 3 表示偏态系数, 3 是标准差的三次方。因此,该指标是相对指标。

 峰度及其测度 峰度是频数分布的另一重要特点。

  其测度的是:

 某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。

  峰度就是频数分布曲线顶端的尖峭程度。

 峰度的测度,往往以中心 4 4 阶动差为基础进行;

 将4阶动差的数值,除以标准差的4次方,化为相对数,就是峰度的测度值,即 峰度系数:KiiKii iFF X X4144) (经验上, 峰度系数为3 时,恰为正态分布,因此,当 峰度系数<3时 时,为 平顶分布曲线;当 峰度系数>3时,为 尖顶分布曲线;当 峰度系数接近于1.8时,则频数分布曲线 趋向于一条水平线;当 峰度系数小于1.8时,为U 型曲线。

 第四章抽样估计 。本章主要介绍了抽样估计的基本概念及抽样估计。

 点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法 、样本容量的确定方法 。

 一般所讲的抽样调查,即指狭义的抽样调查( ( 随机抽样) ) :按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推 断分析。

 抽样估计的特点  按随机原则抽取样本单位  目的是推断总体的数量特征  抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制

 (四)抽样估计的一般步骤设计抽样方案抽取样本单位收集样本数据计算样本统计量推断总体参数 抽样推断中的基本概念 全及总体和样本 1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。

  总体容量:总体中的单位数,用 N 表示。

 2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。

 样本容量:样本中的单位数,用 n 表示。

 大样本和小样本:

 n ≥30 时称大样本, n <30 称小样本。

 **应用:在班级 40 名学生中随机选取 15 人进行健康状况调查,说明其中的总体、样本及容量。

 概率抽样与非概率抽样

 1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。

  2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。

 **应用举例:重点调查、典型调查应为非概率抽样。

 重复抽样和不重复抽样

 1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。

 2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。

  (三)

 重复( ( 置) ) 抽样与不重复( ( 置) ) 抽样• 重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2– 考虑顺序时:样本个数– 不考虑顺序时:样本个数• 不重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2考虑顺序时:样本个数不考虑顺序时:样本个数n)!n! - (N! NC nNn)! - (N! NP nN25 5 2  nN-( - )!( - )! !nN nN nCN n111 总体参数 和 样本统计量

  1.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知的、待估计的确定值。

  2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。

 设总体中 个总体单位某项标志的标志值分别为 ,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则设总体中 个总体单位某项标志的标志值分别为 ,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则NNX X X , ,2 10N1N⒈ ⒈ 总体平均数(又叫总体均值):   miimii iNiiff XXNXX11 1或指被 估计的总体指标,又被称为 全及指标总体参数

       mii imiiNiif X XfX XN12112 1 1  或⒉ ⒉ 总体单位标志值的标准差:⒊ ⒊ 总体单位标志值的方差:      mii imiiNiif X XfX XN12121221 1  或 PNNQNNP     1 ,0 1⒋ ⒋ 总体成数:⒌ ⒌ 总体是非标志的标准差:  PQ P PP   1 ⒍ ⒍ 总体是非标志的方差:  PQ P PP   12  有最大值 时, 当PQ P  5 . 0  

 设样本中 个样本单位某项标志的标志值分别为 ,其中具有和不具有某为 种属性的样本单位数目分别为 和 和 个,则设样本中 个样本单位某项标志的标志值分别为 ,其中具有和不具有某为 种属性的样本单位数目分别为 和 和 个,则nnx x x , ,2 10n1n⒈ ⒈ 样本平均数(又叫样本均值):   miimii iniiff xxnxx11 1或指 根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为 估计量或统计量样本指标 ⒉ ⒉ 样本单位标志值的标准差:⒊ ⒊ 样本单位标志值的方差:    mii imiiniif x xfs x xns121121111或    mii imiiniif x xfs x xns12121221111或为自由度为 的无偏估计2为 的无偏估计

 pnnqnnp     1 ,0 1⒋ ⒋ 样本成数:⒌ ⒌ 样本单位是非标志的标准差:  pqnnp pnns p111  ⒍ ⒍ 样本单位是非标志的方差:  pqnnp pnns p1112 为 的无偏估计2P为 的无偏估计P

 三、抽样推断的理论依据(一)大数定理11lim1   niinXnp1 lim    pnmpn当试验次数n 充分大时,可以用频率代替概率。大数定理的意义:

 个别现象受偶然因素影响而表现出差异性,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义 。当样本容量n 充分大时,可以用样本平均数估计总体平均数。

 (二)中心极限定理• 中心极限定理的意义:在一定条件下,大量相互独立的随机变量之和的概率分布是以正太分布为极限的。其主要内容是:如果总体分布未知,且存在有限的均值和方差,则当样本容量足够大时, 抽样平均数近似服从正态分布。nN X2, ~ 平均数的抽样分布 全部可能样本平均数的均值等于总体均值,即: 从非正态总体中抽取的样本平均数当n n n n足够大时其分布接近正态分布。 从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。 样本均值的标准差为总体标准差的 。n1) ( ) ( X x X x E  ) , ( ~2n X N x 

 比率的抽样分布 5 ) 1 ( , 5) 1 , ( ~  p n npn P P P N p 全部可能样本比率的均值等于总体比率,即: 从非正态总体中抽取的样本比率,当n n n n足够大时其分布接近正态分布。 从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。 样本比率的标准差为总体标准差的 。) ( ) ( P p P p E  n1 抽样误差的概念及其影响程度

 节 第三节 抽样平均误差一、抽样误差的概念及其影响程度在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。                 登 记 误 差系 统 性 误 差统 计 误 差代 表 性 误 差 实 际 误 差随 机 误 差抽 样 平 均 误 差 抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法 避免的。

 抽样误差1. 抽样误差2. 与抽样误差有关的三个概念( (1 )抽样实际误差:指某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。( (2 )抽样平均误差:是指所有可能的样本指标与总体指标之间的平均差异程度,即 样本估计值的标准差。( (3 )抽样极限/ 允许误差:又称 置信区间,是指一定概率下 抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作Δ。抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。

 抽样平均误差抽样平均误差指每 一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差  Mii xX xM12 1:

 式中:

 ; 为样本平均数的抽样平均误差; 为; 可能的样本数目; 第 为第 个可能样本的平均; 数; 为总体平均数xiXixM1) (2nx xS注意:不要混淆抽样标准差与样本标准差!

 四、影响抽样误差大小的因素• 抽样平均误差受以下几方面的因素影响:• • 总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;• • 样本单位数的多少:

 越大,抽样误差越小;• • 抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;• • 抽样组织方式:简单随机抽样的误差最大。

 简单随机抽样的抽样平均误差 简单随机抽样的抽样平均误差• 抽样平均数的平均误差样 重置抽样 :样 不重置抽样 :• 抽样成数的平均误差样 重置抽样 :样 不重置抽样 :1) () ( Nn Nnnxx1) 1 () 1 () () (Nn NnP PnP Ppp

 ( ( 一) ) 点估计x X pP是 由 样 本 指 标 直 接 代 替 全 及 指 标 , 不 考 虑任 何 抽 样 误 差 因 素 。

 即用 用 直 接 代表 表 , 用直 接 代表 表 。就100x 1002 p 98%X 1002 P 98%  

 在 全 部 产 品 中 , 抽 取 件 进 行 仔 细 检 查 , 得到 平 均 重 量 克 , 合 格 率 , 我 们 直 接 推断 全 部 产 品 的 平 均 重 量 克 , 合 格 率 。例

 只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足下列三个准则 :无偏性一致性有效性就会得到合理的估计

 ( ( 二) ) 区间估计是 根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。

 根据中心极限定理,得知当n n 足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率 F(t) 的保证下:抽样极限误差 △ =t μ ,(t t 为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。

 当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);例抽样误差范围的实际意义是要求被估计的全及指标 或P P 落在抽样指标一定范围内,即落在Xxx     或pp     的范围内。

 抽样极限误差抽样极限误差指在 一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作 允许误差、误差范围、误差置信限 等由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。

 抽样极限误差的计算公式(大样本条件下)x xz   样本平均数的极限误差:⒈样本成数的极限误差:⒉p pz   Z Z Z Z 为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。

 Z Z 与相应的概率保证程度存在一一对应关系, 用 常用Z Z 值及相应的概率保证程度为:z z值 值 概率保证程度1.00

  0.6827 1.65

  0.9000 1.96

  0.95002.00

  0.95452.58

  0.99003.00

  0.9973  1抽样极限误差的计算公式(大样本条件下)

 • 总体均值区间估计程序n>=30?知否?nz x 2用s代替nsz x2 总体是否接近正太分布?知否?nz x 2用s代替nst x2 增大样本容量至n>=30yes Noyes NoyesyesNoNo 不重复抽样不重复抽样区间上下限重复抽样重复抽样t(n- - 1)大样本时近似服从N(0,1)总体方差未知N(0,1)总体方差已知XX 所服从的分布Xn  /S n /1N nN n 1S N nN n, 12nSX tn, 12 1nS N nX tN nnz X212 Nn Nnz X总体均值区间估计总结1 :已知为正态总体

 总体均值区间估计总结2 2 :不是正态总体或分布未知总体方差未知,且是大样本总体方差已知,且是大样本XXN~ (0,1)近似服从XXN~ (0,1)近似服从XnN ...