兰大《统计学原理》课程考试考前辅导资料
兰大《统计学原理》课程考试考前辅导资料第一部分考试复习所用教材
书名:《统计学》
作者:吴妤
出版社:兰州大学出版社
出版日期:2012年11月
ISBN:978-7-311-04002-4
第二部分考试相关概念、知识点归纳
总体和总体单位
总体亦称为统计总体,是根据统计研究的任务和目的的要求,由客观存在的、在同一性质基础上结合起来的许多基本单位组成的整体。
组成总体的基本单位称为总体单位。总体单位是统计数据资料的承担者。在明确统计总体的情况下,总体单位不需要再进一步的细分。
与统计总体相比,总体单位具有相对性,是相对于统计研究总体而言的独立基本单位,随着研究目的的不同,总体和总体单位可以相互转化。
统计总体要具备的特征
(1)客观性。统计总体是客观存在的,看得见、摸得着,有一定的实物性。
(2)同质性。组成统计 总体的基本单位至少有一个共同的性质,这也是总体存在的前提条件。
(3)大量性。大量性是指组成统计总体的基本单位数是大量的、较多的。
(4)变异性。变异性是指组成统计总体的基本单位在个体性质上是有差异的,是不完全相同的。总体基本单位的变异性是进行统计研究的必要条件和客观需求。
标志
标志是总体单位所具有的属性和特征的名称。任何总体单位都具有一些不同的属性和特征.所有这些属性和特征,统称为总体单位的标志。
标志按其表现形式,可分为品质标志和数量标志。
品质标志是说明总体单位品质方面特征的,一般不能用数值表示,只能用文字描述。如产品的颜色、名称、生产厂家;职工的性别、职称、学历;金融机构的名称、经营范围、注册地址、所有制性质等,这些都是品质标志。
数量标志说明总体单位量方面的特征,大都能用数值表示,如产品的质量、价格、尺寸大小;职工的年龄、工龄、月工资收入;金融机构的资产规模、注册资本金、客户量、分支机构数、营业网点数等,这些都是数量标志。
标志按其在总体单位上的表现,可分为不变标志和可变标志。
不变标志是指在同一个总体的所有总体单位上的表现都相同的标志,如某高校在校大学生的学籍;某班级每位同学的专业;某地区户籍人口的户籍;某企业的职工工作单位等。不变标志是组成总体的基本条件,没有不变标志,就不称其为总体。可变标志是指在同一个总体的各单位上的表现不全相同的标志,如某高校在校大学生的姓名、籍贯、年龄、专业、爱好等;某企业生产的产品的型号、外观颜色、规格、销售地区等;某金融机构的业务范围、注册成立的时间、注册地址等,这些都是可变标志。可变标志表明总体单位的差异性或变异性,是进行统计研究的根本目的。
任何一个统计总体至少应有一个标志在所有总体单位上的表现都是相同的,该标志就是不变标志,它是总体存在的必要前提。不变标志一般都是品质标志,可变标志可以是品质标志也可以是数量标志。
变量
统计中的变量是指数量标志或品质标志在总体单位上的不同表现,如某企业集团内各个企业的产量、产值、职工人数、利润额,某学校在校学生的性别、籍贯、年龄、身高、考试成绩,亚洲地区各国的国内生产总值、进出口贸易额、人口数、利率水平、汇率水平等。
变量的取值叫变量值,也称标志值,即可变标志的具体数值。
变量反映了总体单位的基本特征,是统计研究资料收集的对象,统计研究收集的原始资料大都是总体单位的各种标志值。
统计指标
统计指标是反映统计总体综合特征的数据资料。统计指标有指标名称和指标数值两个基本的构成要素,指标名称反映了指标的内涵,说明指标的经济范畴,是总体质的规定性;指标数值说明总体数量方面的综合特征,反映了总体的规模、水平、速度和相互联系程度。指标既反映了总体的性质,也反映了总体的数量,对总体的认识具有定性认识和定量认识的双重作用。
指标按其所反映的总体内容的不同,可以分为数量指标和质量指标。
数量指标是反映总体的规模、总量和水平的各种总量指标,一般用绝对数表示。
质量指标是反映总体的强度、密度、经济效益和工作质量等的各种相对指标和平均指标,一般用相对数或平均数表示。一般来说,质量指标都是由两个数量指标或一个数量指标与另一个质量指标相除所得到的。
指标按其计量单位不同,可以分为实物指标和价值指标。
实物指标是以实物单位计量的统计指标。
价值指标是以货币单位计量的统计指标。
实物指标反映事物的使用价值量,不同物品的使用价值量不同。因此,不同种类的实物指标无法进行比较和综合汇总。价值指标反映事物的劳动价值量,劳动价值量以劳动时间衡量,便于综合汇总和比较。实物指标乘上相应物品的单位价格即可转化为价值指标。实物指标反映客观事物真实的实物量,价值指标容易受到物品价格的影响,在用价值指标衡量事物的价值量时,通常可以消除物品价格的影响,以某个时期的不变价格来反映事物价值量的大小。
指标按反映的时间特点的不同,可以分为时期指标和时点指标。
时期指标反映客观事物在一段时间内发展变化的数量特征,指标值通常与时间长短有密切的关系。
时点指标反映总体在某一时点上的数量表现。
值得指出的是,标志和指标既有联系又有区别。所谓联系是指所有的统计指标都是由总体单位的相关标志计算而来,标志是计算指标的基础,没有具体的标志值就没有统计指标。所谓区别是指标志反映的是总体单位的属性和特征,并不全部表现为数字,而指标说明的是总体的数量综合特征,一定表现为数字。标志和指标的联系还表现在标志与指标具有相对性,在不同的研究目的下,标志和指标可以相互转化。
指标体系
一个统计指标只能说明统计总体某一个方面的数量特征,而社会经济现象的数量表现是多方面的,并且在数量上也是有联系的。为了更全面、深刻地认识和掌握事物总体的数量特征和数量关系,必须用一套相互联系的指标。
若干个相互联系的指标组成的一个整体称为统计指标体系。指标体系中的指标都是有联系的,其中的某一个指标可以用其他部分或全部指标计算或表示出来,以发挥指标体系的整体性功能,这是统计指标体系最根本的特点,没有任何关系的指标的堆积,不能称为指标体系。指标体系使我们对复杂事物的认识更加全面、综合和深刻。
流量与存量
流量是指事物在一定时期内发展变化的总量,是按一定时期计算出来的数量,如国内生产总值(GDP)、固定资产投资总额、储蓄存款增加额等。因此,流量都是时期指标。
存量是指事物在一定时点上积累或结存的总量,是按一定时点计算出来的。如储蓄存款余额、年末人口数、月末材料库存数、上市公司数、外汇储备额等,存量都是时点指标。
统计数据
所谓统计数据(Data),是指按一定标准对客观现象进行计量或测度的结果,它是进行统计研究的基础。
根据现象本身的特点,数据的量化尺度主要有定类、定序、定距和定比四种。
定类尺度是根据现象本身的自然类别特征,依据品质标志对其进行分类或分组计量。定类尺度是最粗略、计量层次最低的计量尺度。各类别之间是平等的或平行的关系,不存在优劣大小之分。在对客观现象进行定类尺度的计量时,一定要遵循事物本身的属性,分类必须符合穷尽和互斥原则,不重不漏,也就是每一个个体都能够并且只能够划归到某一个类别中。在对定类尺度的数据进行统计分析时,我们只能计算出每一类别中的个体个数,即频数;或计算出每一类别的个体个数占全部总数的比重,即频率。各类别的频数之和等于总体单位总数,频率之和等于(100%)。通过频数或频率来反映总体的分布特征。
定序尺度是对事物本身具有的等级或顺序差别的测度,这种计量尺度既能区分事物之间不同的类别,又能对不同的类别进行优劣排序。定序尺度比定类尺度提供的信息量多,它不仅能区分出事物的类别,还能比较出各类别之间的优劣,并对类别进行排序。与定类尺度一样,为了便于日常管理或计算机处理.通常将某一类别用某种特定的数字、符号或字符表示,而这些数字、符号或字符之间不具有任何数学运算关系,只具有逻辑上的顺序关系。
定类尺度和定序尺度只能区分事物之间的不同类别,没有真正测度出每一类别的数值大小,计量的结果只是表现为不同的类别,并不直接表现为数字。定距尺度比定类尺度和定序尺度更进了一步,在计量上更加精确,它不仅能对事物进行分类、排序,还能测度出每一类别的具体数值,并能说明各类别之间的差距程度。定距尺度计量的结果表现为具体的数值,并可以计算类别之间的差值,对定类尺度和定序尺度的统计分析方法,同样适合于定距尺度。值得注意的是,在定距尺度中,测度值“0”是有意义的,不表示没有的意思。对定距尺度而言,它仅能进行数学中的加减运算,不能进行乘除运算。
定比尺度与定距尺度同属一个层次,其计量的结果也表现为确切的数值,它除了具有前面三种计量尺度的所有特性外.还具有一个独特的特性,那就是可以计算两个测度值之间的比值,进行乘法或除法运算。在定比尺度中,测度值“0”表示没有,如工资收入为0时,表示没有收入;粮食亩产量为0时,表示没有粮食产出。这是定比尺度和定距尺度最大的区别。定比尺度的测度值可以进行任何一种数学运算,是最高级别的计量尺度,一般的数据多为定距尺度和定比尺度计量的结果。因此,定比尺度和定距尺度计量的数据是我们重点研究的统计数据。
根据统计数据的四种计量尺度,可以将统计数据分为四种类型:
(1)定类数据(categorical data)对客观事物进行分类计量的结果,仅表现为不同的类别,观察结果称为分类型数据。
(2)定序数据(rank data)对客观事物进行分类排序计量的结果,不仅表现为不同的类别,还可以对不同的类别进行优劣排序,观察结果称为顺序型数据。
(3)定距数据(metric data)对客观事物进行定距计量的结果,表现为具体的数值,可进行加减运算,观察结果称为数值型数据。
(4)定比数据(metric data)对客观事物进行定比计量的结果,表现为具体的数值,可进行加减乘除运算,观察结果称为数值型数据。
定类数据和定序数据主要说明事物的品质特征,是根据品质标志对客观现象进行分类计量的结果,称为品质数据或定性数据;定距数据和定比数据主要说明事物的数量特征,称为数量数据或定量数据。社会经济统计学重点研究数量数据。
统计调查
统计调查是统计工作过程中的一个重要阶段。它是按照统计任务的要求和研究对象的特点,运用科学的调查方法,有组织地向社会实际收集各项原始资料的过程。统计调查是获得统计数据的最直接的方法,是统计数据的直接来源,对于保证统计研究工作的顺利完成意义重大。
统计调查获得的原始数据,必须满足准确性、完整性、及时性和真实性的基本要求,力求原始数据的快、精、准、真。所谓准确性,是指统计调查收集的统计资料必须符合实际情况,准确可靠。当今,公开发布真实准确的统计数据已经成为检查社会开放度的重要标志,防止统计数据的差错,提高其可靠性,必须从统计调查开始。所谓完整性,是指所有应该调查的总体单位和应该调查的标志都必须调查到,不能有遗漏,使收集到的数据资料能够全面充分反映客观事物的本质,保证统计汇总的基本数据是全面的、充分的。所谓及时性,是指统计调查要在规定的时间内准时完成调查登记,调查资料要及时汇总发布,及时完成各项调查资料的上报任务,实现统计的时效性,以满足各级党政领导的需要。因为过时的资料,反映不了实际情况,起不了应有的监督作用.统计资料的及时性是一个关系到统计工作全局性的问题。所谓真实性,是指统计数据是客观真实的,没有虚假或人为的修改伪造。市场经济体制下.统计信息的及时发布可以提高信息的使用价值。在统计调查中,准确性要求和及时性要求是相互结合、相互依存的。及时性只有在准确性的前提下才有意义,而准确性也不能损害及时性的要求。
统计调查是收集统计数据资料的一种重要手段,统计调查收集到的数据资料主要是原始资料,也叫第一手资料,是直接获得的统计数据。
统计调查的种类
按调查的组织形式分类。所谓统计调查的组织形式,是指采取什么样的方式组织调查工作,以取得统计资料。我国统计调查的组织形式分为统计报表制度和专项调查。
统计报表制度是按照一定的报表格式、报送程序、报送周期、报送内容,自下而上地逐级上报基层单位生产经营情况,以收集统计数据的调查方式,是全面收集反映国民经济和社会发展基本情况数据信息的一种常用的调查方式。
专项调查是一种常用的统计调查组织方式,它是为了某一特定目的,专门组织的一种收集特定资料的统计调查。其调查形式主要有问卷调查、电话调查、媒介调查、走访调查、抽样调查、座谈调查、手机短信调查、网络调查等。
专项调查的开展以当时的社会经济情况而定,具有机动性、灵活性和时效性的特点。根据专项调查的特点和应用范围,专项调查有普查、重点调查、典型调查和抽样调查四种。
按调查对象包括的范围分类。统计调查按调查对象所包括范围的不同,可分为全面调查和非全面调查。
全面调查是对构成调查对象总体的每一个单位都进行调查。全面调查也称为普查。
全面调查要调查总体中的每一个基本单位,因此全面调查能够掌握比较系统、完整的统计资料,可以了解总体的全貌。但是,全面调查需要花费较多的人力、物力、财力和时间,当总体规模较大时,操作比较困难。由于要调查到全部的总体单位,对调查执行人员的素质要求也较高,否则,容易出错,调查获得的数据资料未必符合研究目的的要求。
非全面调查是对被研究对象中的一部分单位进行调查。例如.对在校大学生,按照某种组织方式,选取一部分同学,调查他们的眼睛近视情况、调查他们的家庭经济情况;对某企业开发上市的新产品,选取一部分进行质量检查;对研发成功的新药品选取部分患者进行试验;2015年我国进行的1%人口抽样调查等,都属于非全面调查。非全面调查的实际应用非常广泛。对有些产品的质量检查,带有破坏性,如电子产品的质量检测、食品质量检查等,不可能进行全面调查,只能采用非全面调查。事实上,日常生活中处处存在非全面调查,如超市购买食品时的“先尝后买”,购买衣物时“先试穿后购买”,医生诊断病情的病理样本等。
重点调查、典型调查、抽样调查及非全面统计报表等都属于非全面调查。非全面调查涉及的调查单位少,可以用较少的时间、人力、财力和物力,调查较多的内容,并能推算和说明总体情况,收到事半功倍之效,为人们所常用。
按登记事物的连续性分类。统计调查按记录事物的连续性不同,分为经常性调查和一次性调查。这种调查方式的分类,是由事物本身发展变化的特点决定的。
经常性调查是指随着调查对象的变化,连续不断地进行调查登记,以了解事物在一定时期内产生、发展的全部过程。例如,产品产量指标就是某一时期内对产量进行连续登记观察的结果。经常性调查收集的都是某一时期指标的数据资料,刻画事物在一定时期内产生、发展变化的流量,这是由事物本身的特性所决定的。
一次性调查,是指每隔一段较长的时间才对事物的变化进行一次调查,用以了解事物在一定时点上的状态。例如,要了解某地区的人口数及其构成,可以间隔较长的一段时间进行一次普查。
按收集资料的方法分类。统计调查按收集资料方法的不同,主要分为直接观察法和询问调查法。
统计调查方案设计
明确调查的目的。
确定调查对象、调查单位和填报单位。
确定调查项目。
确定调查时间和调查期限。
制订调查的组织实施计划。
专项调查
专项调查是收集常用的统计资料的组织方式之一,根据组织方式不同,专项调查有普查、重点调查、典型调查和抽样调查四种。
普查是专门组织的一次性的全面调查.主要是调查社会经济现象在某一时期或某一时点的状况。普查的目的是收集那些不必要或不可能采用统计报表取得总体资料的社会经济现象,如经济普查、污染源普查、人口普查、第三产业普查等。
普查具有以下特点。第一,普查是专项调查。第二,普查是一次性调查。第三,普查是全面调查。第四,普查的应用范围比较窄,只能调查某些特定的现象。
由于普查是一次性的全面调查,需要动用很多人力、物力,对调查的内容要求有较高的准确性和时效性,因而普查工作必须统一领导、统一要求和统一行动,并严格遵守以下几个基本原则。第一,确定统一的普查时点。第二,规定明确的普查期限。第三,规定统一的普查项目。第四,正确选择普查时期。
重点调查是专门组织的一种非全面调查方式,主要适用于那些反映主要情况或基本趋势的调查,是在全部调查单位中,选出少数重点调查单位,对重点调查单位进行全面调查,以收集现象总体的数据资料。这些重点单位虽然只是全部单位中的一小部分,但它们的标志总量在总体标志总量中却占据了绝大部分,因而.对这些重点单位进行调查就能反映总体现象的基本情况。
重点调查的优点是调查单位少,只要花费较少的人力、物力和时间就可以调查较多的项目和指标,获得效果较好的反映总体基本情况的数据资料。一般说来,当调查目的只是为了了解事物的发展趋势、变动水平或比例等数量方面的特征,而少数单位又具备所需条件时,便可采用重点调查。值得注意的是,由于重点单位数在全部单位中只占很小的比例,通常不能根据重点调查的结果在概率意义上推算总体的相应结果。
重点调查的关键问题在于重点单位的选取。重点单位必须满足两个基本条件:第一,重点单位数占全部总体单位数的比重较小;第二,重点单位的某一个数量标志值的总和占全部单位数量标志值的总和较大。重点单位的多少,依调查任务而定。通常情况下,选出的重点单位应尽可能大。
重点调查的优点有两方面,一是要调查的单位数较少,可以节省调查时间和调查成本;二是能大大降低调查的登记性误差。缺点是重点单位的选取不具有客观性,不能根据重点单位的数量特征推断总体的数量特征。
典型调查是专门组织的非全面调查方式,是在调查对象中有意识地选出若干个在性质上最有代表性的典型调查单位,进行深入细致的研究,以收集总体信息特征的一种统计调查方法。进行典型调查的主要目的不在于取得社会经济现象的总体数值,而在于了解与有关数字相关的具体情况。
典型调查的首要问题是选取有代表性的典型调查单位。只有选取正确的典型调查单位,才能提高典型调查的质量。所谓典型调查单位,是指在性质上最有代表性的单位。一般来说,调查单位之间差异性不大时,只要选出少数几个典型单位就可以了。
典型调查的目的在于通过典型调查单位来说明事物的一般情况或事物发展的一般规律性。当调查单位之间的差异性很大时,我们必须将调查对象进行分类,在每一类别中选出几个典型单位,全部类别的典型单位组成典型单位的整体。这种选取典型单位的方法称为“划类选典法”。
典型调查的作用主要有:第一,可以用来研究社会经济现象中出现的新事物、新情况、新问题;第二,能对具体问题进行深入细致的分析。
典型调查的主要特点是:被调查的范围较小,调查单位少,代表性好,调查方法灵活多样;能够用较少的人力、物力,在短时间内对某一问题进行深入细致的调查研究,提高调查的时效性。然而,典型调查中典型调查单位的选取不符合随机性原则,因此,典型调查的结果未必能获得众人的认同和首肯。而且,典型调查还容易受人为因素的干扰.可能会导致调查的结论有一定的倾向性,因此,典型调查的结果一般情况下不易用于推算全面数字。
抽样调查也是专门组织的一种非全面调查方式。它是按照随机性的原则在全部调查单位中抽取一部分调查单位组成样本,对样本进行观察,并根据所获得的样本数据来推算总体的数量特征。
抽样调查按随机性原则选取样本单位,同重点调查和典型调查相比,样本单位的选取排除了个人主观意图的影响,样本代表性好。在一定的抽样组织方式下,抽样调查的结果可以用于推断总体的数量。抽样调查是非全面调查,既节省人力、物力和财力,又能提高资料的时效性,还能取得比较正确的全面统计资料,应用范围非常广泛。
抽样调查有以下三个突出特点:第一,按随机性原则抽选样本单位;第二,总体中每一个单位或每一个样本都有一定的概率被抽中;第三,可以用一定的概率保证将误差控制在规定的范围之内。
数据资料整理的基本步骤
(1)对收集到的原始数据资料进行审核和检查,也就是对收集到的数据资料进行预处理。通过审核和检查,以保证作为数据资料整理基础的原始资料的真实性、准确性、完整性和及时性。
(2)对原始资料进行分类或分组。统计调查收集到的原始资料是零星分散的、大量的,毫无规律可言。为了对资料进行分析,必须根据统计研究的目的和任务的需要,按一定的标准,将原始资料进行分类或分组。对原始数据资料的分组,遵循“组内同质性,组间差异性”的原则,也就是使性质相同的总体单位分在同一组,把性质不同的总体单位区别开来;同时还要保持“穷尽和互斥”,“不重不漏”,即收集到的所有数据都能分在而且只能分在某一组中。对原始资料进行分类或分组,只能是定性的归类,主要是采用某些品质标志对资料总体进行分组。
(3)对分组资料进行综合汇总,计算各种指标,以反映总体的综合数量特征。通过分组可以计算出数据资料分布在各组中的个数(频数)和各组频数占全部数据总数的百分比(频率),反映数据的分布特征。还可以计算各组数据中的最大值、最小值、平均值、极差等。
(4)将汇总整理的结果以图形或表格的形式进行显示,以备后续统计分析之用。统计数据是枯燥的、呆滞的,大量的统计数据容易使人眼花缭乱,产生疲劳。现代计算机科学技术的发展,大量统计分析软件技术的发明和应用,使得统计数据可以用直观形象的图形或表格的形式进行显示.便于存储,以备统计分析之用。最常用的办公自动化软件Excel提供了大量的统计图型和表格模板,还可以对表格进行形象直观的编辑制作。
(5)做好统计资料的系统积累工作,以备统计资料的开发之用,发挥统计的信息功能。现代社会,数据是大多数信息的表现形式,统计整理的结果能够反映研究现象的数量规律特征,可以作为统计信息发挥作用。
统计分组
统计分组是一种定性的分类,它是根据统计研究的目的和需要,按照某种标 准,从性质上将统计总体区分为若干个组成部分的一种统计方法。其中的每一个组成部分 就称为一组或一类。统计分组具有“分与合”的双重意义,“分”的目的是使总体内性质不同 的基本单位区分开,“合”的目的是使统计总体中性质相同的基本单位结合在一起。通过统 计分组可以保持组内同质性和组间差异性。即每个组内的个体至少具有一个相同的性质, 而组与组之间性质都不相同。统计分组后.便于进一步地运用各种统计方法,研究现象的数 量表现和数量关系,正确认识事物的数量本质和规律性。统计分组是对复杂现象进行社会 认识的第一步。
统计分组是统计研究的基本方法之一,通过统计分组,可以实现划分现象的类型、揭示 总体的内部结构和分析现象之间的依存关系。
频数分布
将总体单位按某一标志分组,再将分组的结果按一定顺序排列.并且列出每组中的总体单位个数,从而形成总体单位在各组中的分布,这种表格或数列称为统计频数分布数列或次数分布数列,也称为频数分布表。分布在各个组中的总体单位数称为每一组的次数或频数,各组的频数与总频数之比称为频率,频率反映了每组的总体单位数占全部单位数的比重,频率是一种相对频数。频数分布表是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征。编制频数分布表是统计数据整理的基本步骤。
根据分组标志的不同,频数分布表有品质型频数分布和变量型频数分布之分。1.品质型频数分布。将统计总体按品质标志分组所形成的频数分布,称为品质型频数分布。品质型频数分布可以反映总体中不同属性单位在各组中的分布情况。2.变量型频数分布。将总体按数量标志分组所形成的频数分布,称为变量型频数分布。变量型频数分布可以反映总体中各组间的数量差异和结构状况。变量型频数分布可以分为单项式频数分布和组距式频数分布。1.单项式频数分布。当变量是离散型或数据个数不多时,可以将一个变量值代表一组,按顺序排列,这样形成的频数分布称为单项式频数分布。单项式频数分布只有在数据个数不多时采用,如果数据个数很多,单项式频数分布的组数就会很多。2.组距式频数分布。当变量是连续型或数据个数很多时,为了减少组数,可以将若干个数据放在一组,按顺序排列。这样编制的频数分布称为组距式频数分布,组距式频数分布比单项式频数分布更为实用。统计调查收集来的数据资料都是大量的,常常要编制成组距式频数分布。组距式频数分布有等距式频数分布和不等距式频数分布之分。
频数分布表的编制
(一)确定变量的类型,测定全距。
(二)确定组距和组数。
(三)确定组限和组中值。
(四)计算各组的频数和频率。
(五)作出频数分布的直方图和折线图。
统计频数分布的主要类型
(一)钟形分布
钟形分布是指较大和较小的变量值出现的频数都偏小,而中等大的变量值出现的频数偏大,其分布特征是“两头小,中间大”。当我们将变量用横轴表示,频数用纵轴表示,可以把频数分布表用曲线图表示出来,因其频数分布曲线如钟形而得名钟形分布。根据变量值的分布情况,钟形分布又分为对称的钟形分布和非对称的钟形分布。
对称的钟形分布的分布特征是:中间变量值出现的频数最多,其余变量值对称地分布在中间变量值的两边。对称的钟形分布,也称为正态分布。
对称的钟形分布是钟形分布的特殊情况,一般情况下的钟形分布都是非对称的即中等变量值分布的频数最多,其余的变量值非对称地分布在两侧,根据变量值分布的具体情况,非对称的钟形分布可分为左偏分布和右偏分布两种。(1)左偏分布。如果多数变量值落在左半边区域,或者频数最多的变量值偏大,从图形上看.曲线的最高点在曲线的右边,这种钟形分布就是左偏分布。(2)右偏分布。如果多数变量值落在右半边区域,或者频数最多的变量值偏小,从图形上看,曲线的最高点在曲线的左边,这种钟形分布就是右偏分布。
(二)U形分布
U形分布是指较大和较小的变量值出现的频数都偏大,而中等大的变量值出现的频数最少,其频数分布曲线很像英文字母“U”,故形象地称为U形分布。U形分布的基本特征是“两头大,中间小”。
(三)J形分布
J形分布有正J形分布和反J形分布两种。正J形分布是指随着变量值的增大,数据的频数也随之增多,变量值与频数同方向变化,大部分变量值集中分布在右边,分布曲线形如英文字母“J”,反J形分布是指随着变量值的增大,数据的频数却随之减少,变量值与分布频数反向变化.其大部分变量值集中分布在左边,分布曲线形如反写的英文字母“J”,称为反J形分布。
总量指标
总量指标是用绝对数形式表现的反映社会经济现象在一定时间、地点、条件下的总规模或总体水平的统计指标,其表现形式是绝对数。
总量指标按其反映现象的时间状况不同,可分为时期指标和时点指标。时期指标反映社会经济现象在一定时期内发展变化的总量。
时点指标反映社会经济现象在某一时刻(时点)上的状况。
时期指标和时点指标各有不同的特点:一是时期指标的指标值是通过连续性记录而取得的,时点指标的指标值是通过一次性记录而取得的。二是时期指标具有可加性,时点指标则不具有可加性。不同时期的时期指标值相加,表示现象在更长时间内发展变动的总量,不同时点的时点指标值相加,没有任何实际意义。三是时期指标值的大小与时期长短成同向变动关系。一般而言,时期越长,指标值越大;反之则指标值越小。时点指标值的大小与时间的间隔长短无直接的关系,仅与某一时刻有关。
相对指标
社会经济现象之间都是有联系的,任何一个现象都不可能独立存在,都要依赖于其他的社会现象。对于这种有联系的社会现象,我们要从数量上进行描述和说明,就必然用到相对指标。相对指标是社会经济现象中两个有联系的统计指标值之比,抽象了不同的研究对象的差异特征,增强了研究对象之间的可比性。相对指标都表现为相对数,也称作相对数指标。
相对指标能够反映社会经济现象之间相互联系的情况,如反映现象总体在时间、空间、结构、比例以及发展状况等方面的联系程度和对比关系等。企业的财务比率指标,如资产负债率、资产周转率、总资产报酬率、销售利润率、流动比率、速度比率等都是相对指标。
相对指标可以是两个绝对数指标对比的结果,也可以是两个相对数或平均数对比的结果,通过这种对比,可以把两个现象的水平及其差异抽象化,使本来不能直接对比的社会经济现象总体找到了共同比较的基础,使人们对事物有一个清晰的认识和了解,增强人们判断和鉴别纷繁复杂事物的能力。
结构相对指标
社会经济现象的总体总可以按一定的标准化分成不同的组成部分.将其中某一部分的指标数值与总体相应的指标数值相对比求得的结果,称为结构相对指标。
结构相对指标说明了总体中各部分或各组占总体的比重或比率,能够解释现象总体的内部组成情况,各部分(组)的结构相对指标之和等于100%。不同时期的结构相对指标可以反映客观现象发展变化的规律。
强度相对指标
社会经济现象中在同一时期内有联系的两个不同类现象的发展指标值之比,称为强度相对指标。
强度相对指标表明现象相互联系的强度、密度或普遍程度。例如,某国家或某地区的人口密度、人均粮食产量、人均GDP,每百户家庭中家用电脑的拥有量等都是强度相对指标。
动态相对指标
任何社会经济现象都会随着时间的变化而发生相应的变化.我们可以用动态相对指标来描述这种动态变化。同一个社会经济现象在不同时期上发展结果的数值之比,称为动态相对指标。
动态相对指标通常以百分数表示。它反映同一现象在不同时期上的发展变化的程度,属于纵向比较,也称为发展速度。为了反映现象动态发展的情况,要选定作为比较基础的时期的指标值,即基期的数值。报告期是用来与基期相对比的时期,是人们观察研究的当期,也称为计算期。
平均指标
总量指标反映了现象总体的规模和水平,相对指标反映了有联系的现象之间的数量联系状况。但是,在同一个总体内,各单位之间在数量上是有差异的,我们怎样才能消除各单位的数量差异,以反映总体的一般数量水平,这就要用到平均指标。所谓平均指标,是把同质总体中各单位的某一数量标志值的数量差异抽象化,用一个数值来表明这一标志在一定时间、地点、条件下的一般水平的综合指标。平均指标也称为平均数,是统计分析中十分重要的综合指标之一。
众数
众数(Mode,简写为Mo)是数据资料中出现次数最多的那个标志值。
中位数
把原始数据进行排序,中点位置上的那个标志值叫作中位数(Median,简写Me),用Me表示。中位数是一种位置平均数,它将全部数据分成个数相等的两部分,一部分都比它大,另一部分都比它小。因而,中位数可以反映全部变量的一般水平。
标志变动指标
标志变动指标也叫标志变异指标或标志变动度,是测定总体单位标志值间差异程度或波动程度的统计指标。标志变动指标反映了总体单位标志值之间的离散程度。总体是由许多基本性质相同的单位组成的整体,而总体各单位在某一数量标志上是有差异的。平均指标将这种数量差异抽象化,用一个数值反映总体单位数量方面的一般水平,却无法刻画总体单位的数量差异。为了使我们对总体的认识更全面,从另一个方面说明总体的特征,需要计算标志变动指标,以说明总体各单位标志值之间的差异程度或标志值分布的差异情况,从而补充说明平均指标的不足。
标志变异指标的作用主要有:
第一,标志变异指标可以衡量平均指标的代表性。平均指标代表总体标志值的一般水平,若总体单位的差异程度大,则标志变动指标值也大,平均数的代表性小;若总体单位的差异程度小,则标志变动指标值也小,平均数的代表性大。标志变动指标值的大小与平均指标的代表性成反向变化关系。
第二,标志变异指标可以反映社会经济现象发展变化的稳定性和均衡性。社会经济现象的发展变化受到很多因素的影响,发展的结果带有一定的波动性或偶然性.通过计算相应的标志变动指标,可以反映这种波动性的大小.进而反映社会经济现象发展变化的稳定性和均衡性。标志变动指标值大,说明发展的波动性大,发展变化不稳定;标志变动指标值小,说明发展的波动性小,发展变化比较稳定和均衡。标志变动指标的这种作用还可用于反映投资的风险性和产品质量的稳定性。
常用的标志变异指标有:全距(R)、四分位差(QD)、平均差(AD)、标准差和离散系数。
全距
全距(R)是总体各单位的最大标志值与最小标志值之差,表明标志值变动的范围。
四分位差
用全距说明总体单位数量差异的程度是非常粗略的,全距的计算只用到数据中的最大值和最小值,忽略了大部分数据的有用信息。因此,我们可以克服全距的不足之处,利用更多的数据信息,客观真实地反映数据本身的特征。
四分位差(Quartile Deviation. QD)是将数据进行排序,并且四等分,去掉最大的1/4和最小的1/4数据后,剩下中间50%数据的全距。四分位差集中反映了中间50%数据的差异程度,四分位差的值越小,说明中间50%数据越集中;反之,则说明中间50%数据越分散。四分位差主要用于测度数据的离散程度,反映平均数的代表性。
平均差
全距(R)的计算只涉及标志值之中的极大值和极小值,没有考虑中间的各个标志值;四分位差的计算只用到中间50%的数据,它们都没有利用全部数据的信息。为了克服全距和四分位差的缺点,我们可以考虑利用全部标志值.计算出标志变动指标以反映标志值的差异程度,这个标志变动指标就是平均差。
平均差(AD)是分配数列中各单位标志值与其算术平均数的离差的绝对值的算术平均数,它反映总体数量标志值的差异程度,AD越大,说明分布数列中各标志值的离散程度越大,反之离散程度越小。
标准差
标准差也称为均方差,是各单位标志值与其算术平均数的离差的平方的算术平均数的平方根。标准差与平均差的意义相同,都是反映各单位标志值的平均差异程度,只不过标准差是采用离差平方的方法来消除正负离差的影响,因此,在数学处理上比平均差更为合理和优越。
离散系数
前文介绍的全距、平均差和标准差都是绝对数指标,它们都与原始数据有相同的计量单位。当标志变动指标值相同,而计量单位不同时,或原始数据的计量单位相同,而各组数据的平均值并不相同时,再或者总体规模差异较大时,我们无法用全距、平均差和标准差来判定和比较数据资料的离散程度和差异程度。对此,就要消除标志变动指标的计量单位,以相对指标来反映数据之间的离散程度,这个相对指标就是离散系数。
离散系数,也称为变异系数,是标志变动指标与其相应的平均指标值之比,反映原始数据离散的相对水平。常用的离散系数有平均差系数和标准差系数。
指数
指数(Indexnumber)也称为统计指数,是社会经济统计中常用的一种经济分析方法,能够反映社会经济现象在不同时间或空间上发展变化的状况,为制定宏观经济政策提供重要的依据。比如,居民消费价格指数(CPI)、股价综合指数、制造业采购经理指数(PMI)、生产成本指数、新订单指数、消费者信心指数、竞争力指数、幸福指数、空气质量指数(AQI)等。
指数具有以下三方面的性质。
1.相对性
指数具有相对性,指数是复杂总体中的某个变量在不同时间或空间上变化相对比的结果,说明这种变量变化的程度及其对总体总量的影响。例如,居民消费价格指数(CPI)说明居民生活消费品和服务项目的价格变动水平。国家统计局发布的统计数据表明,2015年9月份的居民消费价格指数(CPI)是101.6%,说明居民生活消费品和服务项目的价格相对于2014年9月份上涨了1.6%。如果2015年第三季度的居民消费价格指数(CPI)是96.8%,这说明居民生活消费品和服务项目的价格相对于2014年第三季度下跌了3.2%。指数的相对性还可以从指数能够描述现象在不同空间上发展状况的对比加以理解。
2.综合性
指数具有综合性,说明指数反映的是复杂总体的数量方面或质量方面在不同时间上综合变化的情况。国家统计局统计数据表明,2015年9月份的居民消费价格指数(CPI)是101.6%,说明居民生活消费品和服务项目的价格相对于2014年9月份上涨了1.6%,这个上涨幅度,是全部生活消费品和服务项目价格综合变动的结果。单独某一种生活消费品或服务项目的价格可能上涨,也可能下跌,如果上涨的物品多,下跌的物品少,并且物价上涨的幅度大于物价下跌的幅度,在不考虑各种物品在CPI中权重的情况下.综合起来,表现为物价上涨;如果物价上涨的物品和下跌的物品一样多,但是,物品价格上涨的幅度高于下跌的幅度,如果不考虑各种物品在CPI中的权重,则综合表现为物品的价格上涨。国家统计局的统计数据表明,2015年9月份,居民消费品的价格.城市上涨1.6%,农村上涨1.5%;食品价格上涨2.7%,非食品价格上涨1.0%;消费品价格上涨1.4%.服务价格上涨2.1%。综合起来,居民消费品和服务项目的价格(CPI)比2014年9月份上涨了1.6%。因此.指数反映的是复杂总体中各个单品项目价格的综合变动情况。
3.平均性
指数具有平均性,指数反映的是复杂总体的数量方面或质量方面在不同时间上变化的一般水平,表示各个个体变动的一般程度。国家统计局统计数据表明,2015年9月中国制造业采购经理指数(PMI)为49.8%,说明中国制造业经济有所收缩。PMI是通过对企业采购经理的月度调查结果统计汇总、编制而成的指数•涵盖了制造业企业采购、生产、流通等各个环节的动态变动。分项上看,2015年9月份,制造业生产比8月份上升0.6%;新订单比8月份上升0.5%;供应商配送时间比8月份上升0.2%;原材料库存比8月份下降0.8%;从业人员与8月份持平。平均看,2015年9月份,中国制造业采购经理指数为49.8%。
指数的作用
1.综合反映社会经济现象总体动态变动的方向和程度。
2.分析和测定各个因素对多因素现象总变动的影响方向和程度。
3.研究社会经济现象的长期变动趋势。
4.对社会经济现象进行综合评价和测定。
定基指数和环比指数
定基指数是把指数计算的基期固定在最初水平或某一特定时期的指数。环比指数是把指数计算的报告期的前一期作为基期的指数。
简单指数和加权指数
指数按计算形式的不同,可分为简单指数(Simple index number)和加权指数(Weighted index number)。简单指数认为计算指数的各个项目的重要性是一致的,而加权指数则认为要依据各项目的重要程度,在计算指数时有所区分,对重要性不同的项目赋予不同的权数。我们学习和应用的指数主要是加权指数。其中,加权平均数指数又分为可变构成指数、固定构成指数和结构影响指数三种。
个体指数
个体指数是指数中最简单的一种指数,它是简单现象在一定时期内发展结果的对比,用报告期的指标值与基期的指标值相除即是个体指数,个体指数是最早的指数计算形式。根据反映的内容,个体指数有个体数量指数和个体质量指数之分。
综合指数
综合指数应严格地称为加权综合指数,它是通过引入同度量因素,把复杂总体中不能相加的现象过渡到可以相加的现象,并将同度量因素固定在某一时期以突出指数化因素综合变动状况的相对数。这里的同度量因素不仅有同度量的作用.而且还具有权衡轻重的作用。
综合指数的编制要解决两个基本问题:同度量因素的引入和剔除同度量因素的变化。
引入同度量因素的目的,是解决复杂总体在研究指标上不能直接综合的问题,使其可以计算出总体的综合总量。一般地,要研究总体的数量指标的综合变动,需要引入质量指标做同度量因素;要研究总体质量指标的综合变动,需要引入数量指标做同度量因素。这是因为任何现象都有数量和质量两个方面,将这两个方面结合起来才能更好地说明复杂总体的综合变动情况。此外,选定的同度量因素要与研究指标有明确的经济联系,且有一一对应的全面实际资料。
将同度量因素固定在某个时期,便于消除同度量因素变动的影响,以测定研究对象的变动情况。引入同度量因素后,同度量因素的变动直接影响综合指数的计算结果,为了突出研究对象的变动。必须将同度量因素的变动固定下来。所谓固定同度量因素,是指计算综合指数时,要选定同一时期的同度量因素指标。
平均数指数
平均数指数是计算总指数的另一种方法。用综合指数计算总指数时需要知道各个个体在基期和报告期的全面资料,这在实际统计工作中有时很难办到。为了克服综合指数的计算受所需资料的限制,要对综合指数公式进行变形,才能计算出总指数。而这种变形通常是以个体指数为变量,总量指标为权数,采用加权平均数公式计算出总指数的,这种通过对个体指数加权平均来计算总指数的方法,称为平均数指数。平均数指数按加权计算的方法不同,有加权算术平均数指数和加权调和平均数指数两种基本形式。
平均数指数和综合指数既有联系又有区别:它们都是用来计算总指数的,综合指数是通过引进同度量因素,先计算出复杂总体的总量,然后再对不同时期的总量进行对比,以突出总体的综合变动,即先综合,后对比。平均数指数是在个体指数的基础上计算总指数,它是先计算出多个个体指数,再采用平均数的形式以突出总体的综合变动,即先对比,后综合。另外,计算综合指数需要有研究总体的全面资料,而平均数指数既适用于全面的资料,也适用于非全面的资料,应用范围更加广泛。在一定的权数条件下,综合指数和平均数指数有变形关系,可以相互转化。综合指数和平均数指数计算、反映的内容相同,计算的结果也是相等的。但是,在实际应用中,平均数指数是作为一种独立的指数形式存在的,具有广泛的应用价值。
平均指标对比指数
所谓平均指标对比指数是指由两个相关的平均指标相对比所形成的指数。平均指标对比指数同样遵循指数计算的基本原理和步骤。
一般地,社会经济现象中的平均指标多数是加权算术平均数。
指数体系的概念
社会经济现象之间都是有一定的联系的,这种联系可以从数量上加以分析和测定,指数体系为分析和测定这种数量变动关系提供了基本的方法。从广义上说,指数体系是由三个或三个以上、经济上具有一定联系的指数所构成的一个整体。从狭义上说,指数体系是指经济上具有一定的联系,并且数量上也具有一定的对等关系的三个或三个以上的指数所组成的一个整体。
抽样误差
所谓抽样误差,就是按随机性原则抽取样本时,所得抽样指标与总体指标的偏差,主要包括抽样平均数与全及平均数的偏差,抽样成数与全及成数的偏差。
一般来说,抽样误差越小,样本指标的代表性越高,抽样推断的精确性越高,反之则亦然。抽样调查的目的是用样本指标去推断估计总体指标,而推断的精确性及样本指标的代表性好坏完全依靠抽样误差。
抽样误差是由多种原因造成的,主要有主观性原因和客观性原因两大类。主观性原因是由于调查人员在组织抽样调查过程中,没有真正遵循随机性原则,或在数据记录和登记过 程中,出现错误等原因产生的误差。这一类误差,统称为登记性误差。客观性原因产生的误 差,是由抽样调查本身的特点决定的,是它与生俱来的缺点。即便调查人员严格执行抽样调 查的全过程,由样本推断总体还是会产生误差。这一类误差,统称为随机性误差。随机性误 差又称偶然的代表性误差,它是指抽样过程中遵循了随机性原则,而在记录、计算和汇总过 程中没有误差的情况下,由样本指标估计总体相应指标而产生的偏差。这种随机性误差是 抽样调查固有的误差,是必然会产生的,无法避免的,我们只能设法控制它的大小,而无法彻底根除。
抽样平均误差
抽样平均误差是指所有可能出现的抽样实际误差的平均水平,反映抽样推断的精确程度。确切地说,抽样平均误差是指所有样本指标的标准差,它具有标准差的一般意义。一般讨论抽样误差时,指的就是抽样平均误差。
抽样极限误差
抽样极限误差,也称为抽样允许误差范围,是指在一定的抽样概率可靠程度下,样本指标与总体相应指标之间的抽样误差的最大可能范围。
影响抽样平均误差的因素
(1)样本容量
样本容量越大,平均误差越小,反之亦然。这是因为样本容量越大,样本包含的总体信 息越多,样本的代表性越好,所以,由样本推断总体的实际误差就小,抽样平均误差就小。因 此.抽样平均误差与样本容量反向变化。
(2)总体方差或全及总体标志变动度
总体方差或全及总体标志变动度越大,平均误差越大,反之亦然。这是因为总体方差或 全及总体标志变动度越大,说明调查单位的数量标志值之间的差异越大,总体单位的数量标 志较离散,由样本指标推断总体指标的误差也越大,抽样平均误差也越大。因此,抽样平均 误差与总体方差或全及总体标志变动度同向变化。
(3)抽样方法
不同的抽样方法,抽样平均误差也不同,重复抽样的抽样平均误差比不重复抽样的抽样 平均误差大。这是由于,重复抽样有可能抽到相同的总体单位,样本包含的信息量减少了, 由此推断总体.就会产生较大的误差。
(4)抽样的组织方式
随机抽样的组织方式有多种,主要有:简单随机抽样、分层抽样、等距抽样、整群抽样、多 阶段抽样,不同的抽样组织方式,抽样平均误差有所不同。
必要样本容量
抽样调查既要做到省时省力,又要提高精度,保证推断的可靠性,在抽样方式确定的前提下,增加样本容量是提高精度的好方法。但是,这会多花费调查费用。减少样本容量,可节省调查费用,这又会影响抽样推断的效果。况且.调查费用与调查精度不是严格的线性关系,而是一种非线性关系,如果花费75%的费用能够达到98%的精度,就没有必要再花费25%的费用以提高2%的精度。因此.在抽样调查之前,确定合理的样本容量非常重要。所谓必要样本容量是指在一定的抽样组织方式之下,为了确保抽样推断的精度和效果•所必需的最低的样本容量。
影响必要样本容量的因素有以下几种。
(1)抽样推断的可靠度和精度(F(t))
推断的可靠度和精度越高,要求样本含有的总体信息就越多,只有增加样本容量,才能满足高精确度的要求。因此.推断的可靠度和精度越高,所需要的样本容量越多;反之,则越少。必要样本容量与抽样推断的可靠度同向变化。
(2)总体各单位标志值的差异程度(标准差)
总体单位标志值的差异程度越大,为了抵消这种差异,反映总体的一般特征,需要的样本容量就越多;反之,总体单位标志值的差异程度越小,为了抵消这种差异,需要的样本容量就越少。必要样本容量与总体单位标志值的差异程度同向变化。
(3)允许的极限误差的大小
极限误差是抽样推断时可接受的误差范围,极限误差越大,抽样推断的精度要求不高,需要的样本容量越少;极限误差越小,抽样推断的精度要求越高,需要的样本容量越大。必要样本容量与抽样推断的允许误差反向变化。
(4)抽样方法
在同样的精度和可靠度的要求下,重复抽样比不重复抽样所需要的样本容量多。因为重复抽样有可能抽到相同的个体单位,这样,样本容量相同时,重复抽样的样本含有的样本信息会减少。因此,为了满足抽样精度的要求,重复抽样必须抽取的样本容量大于非重复抽样的样本容量。
(5)抽样的组织方式
一般情况下,简单随机抽样比类型抽样和机械抽样抽取的样本单位数多;按有关标志排序的等距抽样方式比无关标志排序的等距抽样方式所抽取的样本单位少。整群抽样比单个抽样需要抽取的样本单位多。
简单随机抽样的必要样本容量
重复抽样时
非重复抽样时
统计相关关系
统计相关关系描述的是事物之间存在着的不确定的依存关系。如果用变量来代表不同的事物,那么,统计相关关系表现的就是变量之间的不确定性关系。在相关关系中,对于某一个变量的每一个数值,都有另一个变量的多个值与之相对应,并且这种对应关系只可以用一个近似的数学方程式表达出来。
统计相关关系的特点是:当其中一个变量值确定后,另一个变量的取值不唯一,其取值在一个区间内变化。换句话说,相关关系是一种复杂的相互依存关系.还有其他的现象与它们有关联,这些现象没有在相关关系中表现岀来。
相关关系的特点
(一)相关关系是客观事物之间确实存在的数量上的依存关系。
(二)相关关系的数量关系值是不确定的。
(三)相关关系中,除自变量外,因变量还受其他因素的影响。
相关关系的种类
(一)依据自变量个数的多少,相关关系可分为单相关和复相关。
(二)依据相关关系的表现形态,相关关系可分为线性相关和非线性相关。
(三)依据相关关系的变化方向,相关关系可分为正相关和负相关。
(四)依据相关关系的密切程度,相关关系可分为完全相关、不完全相关和不相关。
回归分析的概念
回归分析是相关分析的深入,是在相关分析的基础上,更加深入地研究现象之间的数量依存关系。相关分析无法告知变量中的自变量和因变量,更无法根据某个变量的变化推算另一个变量的变化。通过相关分析,我们只可以了解现象之间相关的方向和关联的密切程度。在相关分析的基础上,对具有显著相关性的变量之间的一般关系进行测定,明确自变量和因变量,确定一个相关的数学表达式,以便于进行估计或预测,在现实的经济研究中更加重要。这种统计分析法称为回归分析。
相关分析与回归分析的关系
相关分析与回归分析都是最常用的统计分析方法,它们之间既有联系,又有区别。相关分析研究的是客观现象之间是否有相互联系的关系,如果有的话,那是什么样的关系?关系的密切程度如何?在相关分析中,代表客观事物的变量之间是对等的,它们都是随机变量,我们没有必要明确哪个变量为主,哪个变量为辅,是哪个变量的变化引起其他变量的变化。另外,如果用相关系数表明相关关系的密切程度,对两个变量而言,我们只能计算出一个相关系数。而回归分析是在相关分析的基础上,对具有相关性的变量建立回归方程,以回归方程表示变量之间的关系,对回归方程进行显著性检验,并可利用回归方程进行预测和控制。需要特别指出的是,在回归分析中,我们必须根据经济理论知识和实践经验,在客观现象中明确主次关系,判断哪个变量是因,哪个变量是果,以原因变量为自变量,结果变量为因变量,建立回归方程。因果变量选取的不同,建立的回归方程也大不相同。因此.对两个变量而言,我们可以建立两个回归方程,分别从不同的角度表明现象之间的关系。
(1)相关分析是基础,回归分析是在相关分析的基础之上,探求变量之间的数学模型,并且对数学模型的有效性进行统计检验。
(2)相关分析中的变量是对等的,没有主次之分;而回归分析中,必须明确自变量和因变量,变量之间是不对等的。相关系数只有一个,而回归方程可以有多个(多元回归)。
第三部分考试模拟题(样题)
注释:以下为各类题型的样题及解析,具体分值与题量以最终考试为准。
一、单选题
1. 抽样调查与重点调查的主要区别是( )
A. 作用不同
B. 组织方式不同
C. 灵活程度不同
D. 选取调查单位的方法不同
2. 某市进行工业企业生产设备普查,要求在7月1日至7月10日全部调查完毕,则这一时间规定是( )
A. 调查时间
B. 调查期限
C. 标准时间
D. 登记期限
3. 按照个体价格指数和报告期销售额计算的价格指数是( )
A. 综合指数
B. 平均指标指数
C. 加权算术平均指数
D. 加权调和平均指数
4. 相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )
A. 前者勿需确定,后者需要确定
B. 前者需要确定,后者勿需确定
C. 两者均需确定
D. 两者都勿需确定
5. 以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标本身,这一标准称为( )
A. 无偏性
B. 一致性
C. 有效性
D. 准确性
6. 如果某商店销售额的环比增长量每年都相等,则其各年的环比增长速度是( )
A. 年年增长
B. 年年下降
C. 年年不变
D. 无法确定
7. 编制总指数的两种形式是( )
A. 数量指标指数和质量指标指数
B. 综合指数和平均数指数
C. 算术平均数指数和调和平均数指数
D. 定基指数和环比指数
8. 复合分组是
A. 用同一标志对两个或两个以上的总量层叠起来进行分组
B. 对某一总体选择 一个复杂的标志进行分组
C. 对同一总体选择两个或两个以上的标志层叠起来进行分组
D. 对同一总体选择两个或两个以上的标志并列起来进行分组
9. 1990年,我国人均粮食产量393.10公斤,人均棉花产量3.97公斤,人均国民生产总值为1558元,人均国民收入1271元它们是( )
A. 结构相对指标
B. 比较相对指标
C. 比例相对指标
D. 强度相对指标
10. 下列各项中,属于时点指标的是( )
A. 库存额
B. 总收入
C. 平均收入
D. 人均收入
11. 某连续变量,其末组为开口组,下限为500,又知其邻组的组中值为480,则其末组的组中值为( )
A. 490
B. 500
C. 510
D. 520
12. 下列属于数量标志的是( )
A. 职工的工龄
B. 职工的性别
C. 职工的政治面貌
D. 职工的籍贯
13. 下列分组中属于按品质标志分组的是( )
A. 学生按考试分数分组
B. 产品按品种分组
C. 企业按计划完成程度分组
D. 家庭按年收入分组
14. 下列指标中属于结构相对指标的是( )
A. 产值计划完成程度
B. 净产值占总产值的比重
C. 产值资金占用率
D. 百元流动资金利税率
15. 重点调查中重点单位是指( )
A. 标志总量在总体中占有很大比重的单位
B. 具有重要意义或代表性的单位
C. 那些具有反映事物属性差异的品质标志的单位
D. 能用以推算总体标志总量的单位
16. 人均收入,人口密度,平均寿命,人口净增数,这四个指标中属于质量指标的有( )
A. 1个
B. 2个
C. 3个
D. 4个
17. 某主管局将下属企业按轻、重工业分类,再按企业规模进行分组,这样的分组属于( )
A. 简单分组
B. 复合分组
C. 分析分组
D. 结构分组
18. 时间数列中所排列的指标数值( )
A. 只能是绝对数
B. 只能是相对数
C. 只能是平均数
D. 可以是绝对数,也可以是相对数或平均数
19. 某工业企业产品年生产量为10万件,期末库存量为3.8万件,它们 ( )
A. 是时期指标
B. 是时点指标
C. 前者是时期指标,后者是时点指标
D. 前者是时点指标,后者是时期指标
20. 平均发展速度是( )
A. 定基发展速度的算术平均数
B. 环比发展速度的算术平均数
C. 环比发展速度的几何平均数
D. 增长速度加上100%
参考答案:
1-5:DBDBA 6-10:BBCDA 11-15:DABBA 16-20:CBDCC
二、多选题
21. 统计调查方案的内容包括有( )
A. 确定调查目的
B. 确定调查对象、调查单位和报告单位
C. 确定调查项目和调查表
D. 确定调查方法和调查时间
E. 确定调查人员、经费等
22. 概率度是指( )
A. 置信概率
B. 以抽样平均误差为单位
C. 是样本指标与总体指标的绝对误差范围
D. 表示极限误差是平均误差的几倍
E. 是表明抽样估计可靠程度的一个参数
23. 计算相关系数时( )
A. 相关的两个变量都是随机的
B. 相关的两个变量是对等的关系
C. 相关的两个变量一个是随机的,一个是可控制的量
D. 相关系数有正负号,可判断相关的方向
E. 可以计算出自变量和因变量两个相关系数
24. 中位数是( )
A. 由标志值在数列中所处位置决定的
B. 根据标志值出现的次数决定的
C. 总体单位水平的平均值
D. 总体一般水平的代表值
E. 不受总体中极端数值的影响
25. 在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量标准之一是他与总体参数的离差越小越好。这种评价标准称为( )
A. 无偏性
B. 有效性
C. 一致性
D. 充分性
26. 普查属于( )
A. 全面调查
B. 非全面调查
C. 一次性调查
D. 经常性调查
E. 专门组织的调查
27. 下列属于质量指标指数的有( )
A. 价格指数
B. 单位成本指数
C. 销售量指数
D. 工资水平指数
E. 劳动生产率指数
28. 下列应采取加权调和平均数的是 ( )
A. 已知各级工人的月工资水平和工资总额,求月平均工资
B. 已知某工厂各车间废品率和废品量,求平均废品率
C. 已知某工厂计划完成百分比和计划产量,求平均计划完成百分比
D. 假定企业按工人劳动生产率分组,已知各组产量,求平均劳动生产率
E. 已知某厂各种产品产量及单位成本,求平均单位成本
29. 下列指标属于时点指标的有( )
A. 人口数
B. 新出生人口
C. 商品库存量
D. 国民收入
E. 职工人数
30. 统计指标设计的基本要求是( )
A. 指标名称必须有正确的涵义
B. 指标名称必须有正确的理论依据
C. 指标结构必须完整
D. 要有明确的计算口径范围
E. 要有科学的计算方法
参考答案:
21.答案:A,B,C,D,E
22.答案:B,D,E
23.答案:A,B,D
24.答案:A,D,E
25.答案:B
26.答案:A,C,E
27.答案:A,B,D,E
28.答案:A,B,D
29.答案:A,C,E
30.答案:A,B,C,D,E
三、计算题
31.
32.某投资者在三个不同时间分别以每股6元,5元和4元各购买了1.2万股的甲股票,如果不计交易成本,该投资者拥有甲股票的每股平均持仓成本是多少?
33.
34.某投资者在三个不同时间分别以每股6元,5元和4元各购买了6万元的甲股票,如果不计交易成本,该投资者拥有甲股票的每股平均持仓成本是多少?
35.某地区家计调查资料得到,每户平均年收入为8800元,方差为2500元,每户平均年消费支出为6000元,均方差为50元,收入对于支出的回归系数为0.82。要求:(写出公式和计算过程)
(1)计算收入与支出的相关系数
(2)拟合支出对于收入的回归方程
36.某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差σ=0.45厘米。要求:
(1)计算抽样平均误差和抽样允许误差;
(2)估计该厂生产的零件平均长度的可能范围(α=0.05)
37.
38. 以下为10位工人2005年11月11日的产量资料(单位:件):100 120 120 180 120 192 120 136 429 120。试据以计算其中位数、均值及众数。
39.
40.某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差σ=0.45厘米。要求:
(1)计算抽样平均误差和抽样允许误差;
(2)估计该厂生产的零件平均长度的可能范围(α=0.05)。
参考答案:
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
四、判断
41.在长期趋势分析中,如果被研究现象的各年二次差或二次增长量接近于一个常数,则该现象应拟合指数曲线。()
42.连续型变和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。()
43.在对现象进行分析的基础上,有意识地选择若干具有代表性的单位进行调查,这种调查属于重点调查。()
44.动态数列是由在不同时间上的一系列统计指标按时间先后顺序排列形成的。()
45.在综合指数中,要求其同度量因素必须固定在同一时期。()
46.统计一词包含统计工作、统计资料、统计学等三种涵义。()
47.在确定组限时,最大组的上限应低于最大变量值。()
48.调查项目的承担者是填报单位。()
49.如果各种商品价格平均上涨5%,销售量平均下降5%,则销售额指数不变。()
50.回归系数b和相关系数r都可以用来判断现象之间相关的密切程度。()
参考答案:
41-45:FTFFT 46-50:TFFFF
五、综合题
51.某企业劳动生产率逐年提高,2014年比2013年增长7%,2013年比2012年增长12%,2012年比2011年增长14%,则该企业三年来劳动生产率年均递增11%。
52.
53.请说出四种统计测量尺度中的至少三种,并说明在“人口按性别分为男女,用“1”表示男性,用“0”表示女性”这个案例中,采用了哪种测量尺度。
参考答案:
51.
52.
53.统计测量尺度可分为定类尺度、定序尺度、定距尺度、定比尺度;案例中采用的是定类尺度
六、简答题
54. 简述概率抽样的特点。
55. 品质标志和数量标志有什么区别。
56. 品质标志和数量标志有什么区别?并举例说明。
57. 编制时间数列应遵循哪些原则?
58. 简述统计标志和指标的关系?
59. 简述相关与回归分析的关系?
60. 简述移动平均法的基本原理和特点。
61. 简述评估统计量的三个标准。
62. 时期数列的定义及特点。
63. 请简述抽样估计的优良标准。
参考答案:
54.概率抽样是按照随机原则抽取样本,即总体中的每个个体都有已知的,非零的概率被抽取到样本中。特点如下:(1)样本的抽取上,遵循随机原则,即个体是否被抽中不受主观因素的影响,而是由可知的,非零的概率来确定;(2)调查的功能上,以部分推断总体,以样本的观测结果去推断总体的数量特征;(3)推断的手段上,运用概率估计方法,以样本观测结果推断总体不能做出完全精确可靠的推断,只能以一定的概率为保证做出具有一定精度的估计。
55.品质标志表明总体单位属性方面的特征,其标志表现只能用文字来表示。品质标志本身不能直接汇总为统计指标,只有对其标志表现所对应的单位进行汇总综合才能形成统计指标即总体单位总量;数量标志表明总体单位数量方面的特征,其标志表现可用数值表示,即标志值。它们从不同方面体现出总体单位在具体时间、地点条件运作的结果。数量标志值可直接汇总综合出数量指标。
56.品品质标志表明事物的品质属性,其标志表现只能用文字来表现,不能用数量表示,如性别、职务、产品名称等;数量标志表明事物的数量属性,其标志表现可以用数值表示,如年龄、身高、体重等。
57.时期长短应统一;总体范围应一致;指标的计算方法应统一;指标的内容应相同。
58.区别:(1)标志是说明总体单位属性或特征的名称,而指标是说明总体数量特征的名称。(2)标志有只能用文字说明的品质标志和可以用数值表示的数量标志两种,而指标都只能用数值表示。联系:(1)有许多统计指标的数值是由总体单位的数量标志值汇总而来的。(2)由于总体和总体单位是可变的,则说明总体的指标和反映总体单位的标志之间也存在着变化关系。
59.相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
60.移动平均法是趋势变动分析的一种较简单的常用方法。当时间数列的变动趋势为线性状态时,可采用移动平均法进行描述和分析。该方法是通过扩大原时间数列的时间间隔,并按一定的间隔长度逐期移动,分别计算一系列移动平均数,由这些平均数形成的新的时间数列对原时间数列的波动起到一定的修匀作用,削弱了原数列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。
61.评价估计量的标准有:无偏性、一致性、有效性。
62.时期数列是由时期指标构成的时间数列,时期数列具有时间量纲,反映事物在一段时间内的发展总量。时期数列具有以下特点:(1)时期数列中的各项指标数值可以累加,相加后,表示事物在更长一段时期内的。(2)时期数列中的各项数值的大小和其时期长短有直接关系。(3)时期数列中的各项数值通过连续登记、汇总得到的。
63.第一,无偏性。即要求所有可能样本指标的平均数(样本指标的数学期望)与被估计的总体参数之间没有偏差。虽然每一次的样本指标值和总体指标值之间都可能有误差,但在多次反复的估计中,所有抽样指标值的平均数应该等于所估计的总体指标值本身,即用样本指标去估计总体参数,平均说来是没有偏误的。第二,一致性。用统计量估计总体参数要求当样本单位数充分大时,抽样指标也充分地靠近总体指标。即随着样本单位数n的无限增加,统计量和未知的总体参数之差的绝对值小于任意小的数,它的概率也趋近于1,即实际上是几乎肯定的。第三,有效性。以统计量估计总体参数时,优良估计量的方差应该比其他估计量的方差小。例如用样本平均数或总体某一变量值来估计总体平均数,虽然两者都是无偏的,而且在每一次估计中,两种估计量和总体平均数都可能有离差,但样本平均数更靠近于总体平均数的周围,平均说来其离差比较小。
页:
[1]