统计学习01:数据类型与常见统计指标

🏷️ 365bet足球游戏 📅 2025-10-13 04:30:42 👤 admin 👀 9058 ⭐ 747
统计学习01:数据类型与常见统计指标

初学生信,逐渐开始意识到统计学的重要性,例如p值、标准误等概念;回归建模、深度学习等方法都要很好的统计学基础。因此现在利用空闲时间系统得补下相关知识。

目前计划:打基础阶段先看冯国双老师的《白话统计》,之后进行深入学习(李航老师的《统计学习方法》蛮多推荐的,之后了解下)

此外遇到示例绘图等操作,主要基于R(3.61)

要点一:统计资料类型classification

统计离不开数据;根据不同的数据类型,会选择不同的分析方法。

1、定量资料 numeric

最简单,也是最常见的数据类型,即数字指标。

1.1 subclassification

连续型资料continuous:可以是任意类型的数字

最常见;例如身高体重值,价格....

离散型资料discrete:只能是整数

例如基因长度,硬币个数等

1.2 其它

由于之后重点学习的统计方法主要基于定量资料,就不多做叙述了。

2、分类资料(频数)categorical

2.1

二分类 subclassification

例如生死、正反、是否等结局的数据

无序多分类 nominal

例如职业类型、民族分布等统计

有序多分类 ordinal

例如成绩等级(A B C D)、身体评价指标(优良中差)等

2.2 统计方法

研究一组数据的分布

分类资料服从二项分布或多项分布,一般采用二分类或者多项Logistic回归

研究多组数据的比较

根据有序/无序的差异以及研究目的,有不同的思路,例如:

两组无序分类资料的比较可用卡方检验;

两组有序分类资料的比较可用秩和检验;

2.3 定量数据转换为分类资料

举一例子就好理解:将全班成绩按数值分为及格与不及格;把考试绩点分为A+,A,B等不同的等级。

转换后的资料就可以按照分类资料的统计方法进行分析;

如上面的例子,转换的关键就是设定合理的cut-off,比如及格与否的cut-off一般为60。

cut-off的设置一般要与自己的研究对象密切相关,即有实际意义,不是随便设置的。

如果实在是没有相关参考经验,也可以按照数据特征,采用特定的方法进行划分。

3、计数资料 count

3.1 特征

类似分类资料,但性质有所不同,count data有单位,一般为次数(1h内咳嗽的次数,1个gene上的reads比对次数);

而分类资料没有单位,即为频数。

3.2 相关统计方法

经常是对一组count数据进行Poisson回归或者负二项回归(Negative binomial regression);

泊松分布一般用于个体之间独立情形;负二项可用于个体间不独立的情形

某些情况下,count数据也可采用定量资料统计方法,即广义线性模型(Generalizd Linear Model, GLM),之后会学习到。

要点二:常见统计指标

主要是基于定量资料的统计指标

1、描述数据集中程度

mean均数μ(mu),适用于正态分布;

median中位数,将一组数据按大小排序后位于中间的数,适合偏态分布的描述,相比均数更稳健(robust);

mode众数:出现次数最多的数值,感觉用到的情况不多;

three numbers

2、描述数据分布情况

百分位数

在按数值大小排序的一组数据中,某个数据的相对位置(0~100%)

上面的中位数即指第50百分位数

Q3:第75百分位数,也叫上四位数;

Q1:第25百分位数,也叫下四位数;

Q3-Q1称为四分位距,如果数据呈偏态分布,建议用Q1至Q3进行描述。

箱图boxplot

直观地反映数据分布情况的作图方法

boxplot

注意有一个小细节,图注不是很清楚。median位置即为阴影矩形的那根竖线。

如上图所示,基本都能理解,关键是outliers的判断

如图左右两个须长最大为Q1/Q3+1.5(Q3-Q1),就有下面两种情况

(1)如果最大值与最小值分别小于上述公式,就把须长拉短即可;

(2)如果超过该最长值就以单独点的标记为离群点,同时展示公式对应的须长。

在正态分布中,Z值也是反映数据位置的方法,具体到时再学吧

3、描述数据变异程度★

3.1 离均差平方和

SS,sum of squares of deviations from mean;

即为一组数据中,每个数与均值差的平方的和。

在后续回归建模,方差分析等差异分解中的总变异其实就是这里的离均差平方和

SS

SS

3.2 方差

variance,σ2(sigma平方),S^2

离均差平方和相对于例数的平均数

variance

上述公式是计算总体方差的标准公式,但经统计学家证明:实际利用抽样样本估计总体参数时,样本方差的计算公式的分母为n-1,更符合总体方差的估计。

variance

n-1 其实也就涉及到自由度的概念了,在最后记录下。

3.3 标准差

方差虽然在很多统计方法中会用到,但是作为统计指标的解释意义不大(平方)

standard deviation 标准差,σ,S:即对方差求平方根

sd

sd

附1:自由度的概念 degree of fredom

定义:计算样本统计量能够自由取值的数值的个数

直观的例子:如x+y+z=100,自由度就是2。因为一旦确定两个值,第三个值就确定了

规律:每估计一个参数,就要消耗一个自由度

实际统计方法举例(注意这几个例子里的n是指所有的样本的数据数量)

(1)如上样本方差计算,因为公式已经用到均值,自由度就是n-1;

(2)单样本t检验,自由度也是n-1;

(3)两组t检验,自由度为n-2;

(4)多组(k)方差分析,自由度为n-k

附2:∑符号

∑读音为sigma,英文意思为Sum,Summation,就是和;

一般为下图写法,其中i表示下界,n表示上界;K代表计算式,表示从i开始取数,一直取到n,全部加起来。

∑符号

相关推荐 ✨

365bet足球游戏 开裆裤丝袜

开裆裤丝袜

📅 10-06 👀 339
365betvip 日本簽證

日本簽證

📅 08-03 👀 2165
365betvip 主场& 客场积分表 - World Cup (国际)
365betvip 虺蜴是什么意思

虺蜴是什么意思

📅 07-12 👀 4940
365bet足球游戏 qq空间怎么搜索某一条说说