描述性统计分析,就是用来概括、描述数据整体状况以及数据各特征的统计方法。对于定量数据,比如量表评分(非常不满意,不满意,非常满意等)或者身高体重的值,可以通过描述性分析,计算数据的集中性特征和波动性特征等。在数据分析的时候,一般首先要对数据进行描述性分析,再选择进一步分析的分析方法。
常见指标分类
描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标、分布形态指标。
集中趋势指标
集中趋势指标用于测量集中趋势,或者数据分布中心值的统计量,常用的集中趋势指标有平均数、中位数、众数等。
-
平均值通常用于描述样本的整体态度情况
-
众数用于描述样本的集中趋势点,代表多数的水平情况
-
中位数用于表示样本的中间态度情况
常用指标
离散趋势指标
离散趋势是反映资料的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。
极差:最简单的离散趋势,即分布中最大值和最小值之间的差。
方差与标准差:方差越大,数据的波动越大;方差越小,数据的波动就越小。标准差是使用最为广泛的一种离散趋势量,即显示一批数据的值与均值之间平均差异的离散趋势量。
25分位数是指有25%的点低于该值;类似还有中位数代表有50%的点低于该值,75分位数代表有75%的点低于该值。
IQR(四分位距):等于75分位数– 25分位数,表示数据集中情况。
变异系数(CV):变异系数大,说明数据的离散程度也大;变异系数小,说明数据的离散程度也小。当进行两个或多个变量离散程度的比较时,如果单位和(或)平均数不同时,就需采用变异系数来比较。
分布形态指标
峰度和偏度:在数据分析中,通常需要用偏度和峰度两个指标来判断数据正态性情况,峰度的绝对值越大,说明数据越陡峭,峰度的绝对值大于3,意味着数据严重不正态。同时偏度的绝对值越大,说明数据偏斜程度越高,偏度的绝对值大于3,意味着严重不正态(可通过正态图查看数据正态性情况)。
深入指标
其他说明
-
在研究变量描述性分析时,应首先将反项题进行反向处理,使用
SPSSAU数据编码
功能反向赋值。
-
描述性分析通常可用于查看数据是否有异常(最小值或最大值查看),比如出现-2,-3等异常等。
-
除了使用描述性分析外,也可使用
箱盒图
直观展示数据分布情况。
-
通常情况下,描述性分析以变量为单位进行即可,如果希望进行更深入的分析,那么需要对变量对应的各个题项进行统计平均数。如果某个变量特别重要而且仅由少数题项表示,则可以通过计算各项的频数和百分比进行深入分析说明。
-
对于问卷题项中的排序题,也可以使用描述性分析,通过计算平均值描述、分析选项的排名情况。
-
描述分析与频率分析的不同之处在于:描述分析提供的统计量适用于连续变量,频率分析既可用于分析连续变量,也可用于分析定类变量。