Post date: Jul 17, 2012 6:35:59 AM
-、基本概念
统计学(Statistics):是一门研究如何测定、收集、整理、归纳数据,并且现有的数据运用概率论建立数学模型来进行推断和预测的科学。因此,统计学一般可以分为两个部分:1)描述性统计,2)推断性统计。
1)描述性统计(Description Statistics)
由统计学的定义,可以看出对现有数据的整理和归纳属于这个一范涛。通过描述性统计,可以得出总体或者样本的一些基本性质,如平均数(Average)、方差(Variance)、标准差等(Standard variance)。对于描述性统计,可以绘制一些图形来展现数据的分布情况,如箱图(Box-Whisker Plot),直方图(Histogram Plot), 条形图(Bar Plot), 饼图(Pie Plot),线图(line plot)等等(具体例子可以参考本网站的R分栏)。
1.1 平均数
体现数据的中心趋势的统计量有多种,包括常用的算术平均数(mean arithmetic),中位数(median),众数(mode)等等
求算术平均数,算术平均数对于如果数据出现异常值(outlier)敏感,如3,3,3,3,100,这5个数据计算算术平均数时会异常的大,根据现实意义决定异常值是否有意义,如果没有计算的过程中应该去掉。
求中位数,首先要对数据排序,由小到大(或者由大到小)
median = X(n/2+1) , if n is odd,
median = (X(n/2) + X(n/2+1)) / 2 , if n is even.
求众数
mode 等于在数据里面出现次数最多的那个数据,由于众数的性质,众数对数据出现异常值不敏感。
1.2 方差
体现数据的离散程度。
1.3 标准差
标准差也是对数据离散程度的一种度量。
标准差等于方差的开平方根(正根)。
2)推断性统计(Inference Statistics)
推断性统计可以分为1)在无法观察或者调查总体(总体是无限的,或者调查费时费钱等)的情况下,由样本的性质来推断总体的性质,样本->总体,统计数->参数。2)根据小概率事件原理对假设检验的结果进行估计。
3)总体:具有相同性质的所有个体组成的群体(有限或者无限总体)。
4)样本(随机):由总体中随机抽取的部分个体组成的群体。
5)参数:由总体中的全部个体计算出的总体特征值:总体平均数,方差和标准差。
6)统计数: 由样本中的全部个体计算出的样本特征值:样本平均数,方差和标准差。
二、生物统计
生物统计主要包括两个方面:试验设计和统计分析。两者的关系是统计学原理为试验设计提供合理的依据,而试验设计则是进行正确统计分析的前提。
2.1 试验设计
科学地设计处理及处理和重复区组的科学的设置(排列)方法。
主要内容:处理的确定、试验误差的控制、试验设计的原则、试验设计(的方法)。
主要作用:科学地设计处理和试验,把试验误差控制到最小的程度, 获得准确的试验结果。
2.2 统计分析
主要内容:基础统计和高级统计
2.2.1基础统计:显著性测验, 方差分析,一元线性相关回归等。
2.2.2高级统计:多因素方差分析、多元回归、通径分析、典型相关分析、聚类分析、判别分析等。
主要作用:科学地分析试验结果,排除试验误差的影响,真正发现事物的数量特征和数量变化的规律。
三、 试验误差及其控制
3.1试验误差的概念(随机误差):试验结果因受随机因素的影响而与处理真值的差异(不可以完全消除,与人为差错(系统误差)不同)。
3.2试验误差的来源:
3.2.1 试验材料本身固有的差异
3.2.2 试验操作管理技术水平不一致造成的差异
3.2.3 外界条件不一致造成的差异
3.3 试验误差控制的主要途径
3.3.1 选择纯合一致的试验材料(可区组控制);
3.3.2 试验操作管理技术水平的标准化(可区组控制);
3.3.3 控制外界环境条件的差异(可区级控制);
四、试验设计
4.1 试验设计的三原则:
4.1.1 重复 (其作用是估计和降低试验误差)
4.1.2 随机化(其作用是无偏估计试验误差,获得随机变量)
4.2.3 局部(区组控制) (其作用是最大程度地降低试验误差)
4.2 区组设置的灵活性
设置区组的原则:同一区组内尽可能相同,不同区组间可以存在差异。所以在材料的应用、操作管理、外界环境条件的控制等均可采用区组控制手段。
五、统计假设测验(差异显著性检验)
5.1 适宜的试验资料: 1)随机样本,2)统计数的抽样分布规律已知。
5.2 分析目的:由样本推断总体(判断试验结果中的差异是由试验误差引起的还是由真实差异引起的)。
5.3 分析思路: 对样本所属的总体提出假设(无效假设和备择假设),计算样本在无效假设的总体中出现的概率,若概率大就接受无效假设,若概率小就否定无效假设,接受备择假设。
5.3 分析方法(三大步)
5.3.1 提出统计假设 (对样本所属的总体提出假设(两个假设相对立))
5.3.2 在无效假设为正确的假定前提下,研究抽样分布,从而计算出样本在无效假设的总体中出现的概率。
5.3.3 根据“小概率事件的实际不可能性原理”作出应接受那种假设的推断。
注:显著水平a: 用来进行假设测验的小概率标准。 显著水平a选用的规则:统计上达显著,实际上有一定的应用价值。主要有下面两个准则1)若试验误差较大,精确度较低,应选低水平a = 0.05 , 2) 若试验误差较小,精确度较高,应选高水平a = 0.01。