网站 pr,p2p网站建设源码,重庆最火十大景区排名,汽水音乐怎么推广赚钱斯皮尔曼等级相关教程
一、定义与原理
斯皮尔曼等级相关系数#xff08;Spearman’s rank - correlation coefficient#xff09;#xff0c;常用 ρ \rho ρ表示#xff0c;是一种非参数统计量#xff0c;用于衡量两个变量的等级之间的关联程度。它基于变量的秩次…斯皮尔曼等级相关教程
一、定义与原理
斯皮尔曼等级相关系数Spearman’s rank - correlation coefficient常用 ρ \rho ρ表示是一种非参数统计量用于衡量两个变量的等级之间的关联程度。它基于变量的秩次排序后的位置进行计算不依赖于数据的分布形态能有效处理非线性关系和非数值型的有序数据。取值范围在 − 1 -1 −1到 1 1 1之间 ρ 1 \rho \ 1 ρ 1表示完全正相关即一个变量的等级增加时另一个变量的等级也严格增加 ρ − 1 \rho \ - 1 ρ −1表示完全负相关 ρ 0 \rho \ 0 ρ 0表示不存在等级相关关系。
二、适用场景
数据为定序数据如比赛名次、成绩等级、满意度排序等例如分析不同餐厅在美食评选中的排名和顾客推荐率排名的关系。数据分布未知或不满足正态分布当无法确定数据是否服从正态分布或者明确知道数据不服从正态分布时斯皮尔曼等级相关系数是很好的选择。变量间为非线性关系只要两个变量之间存在单调变化趋势不一定是线性都可以用它来衡量相关性比如植物生长时间和植株高度的关系可能是先慢后快再趋于平稳的非线性增长 。
三、计算步骤
斯皮尔曼等级相关系数计算
数据排序分别对两个变量的数据进行排序确定每个数据在各自变量中的等级。若存在相同数值通常取平均等级。例如有三个数据 3 3 3 3 3 3 5 5 5它们的等级分别为 1.5 1.5 1.5 ( 1 2 ) ÷ 2 (1 2)\div2 (12)÷2 1.5 1.5 1.5 3 3 3。计算等级差对于每一对数据计算它们的等级差 d i d_{i} di。计算等级差的平方得到 d i 2 d_{i}^{2} di2并对所有的 d i 2 d_{i}^{2} di2求和得到 ∑ d i 2 \sum d_{i}^{2} ∑di2。计算相关系数根据公式 ρ 1 − 6 ∑ d i 2 n 3 − n \rho \ 1-\frac{6\sum d_{i}^{2}}{n^{3}-n} ρ 1−n3−n6∑di2 n n n为样本数量计算斯皮尔曼等级相关系数。
t检验步骤
建立假设 原假设 H 0 H_0 H0总体的斯皮尔曼等级相关系数 ρ 0 \rho \ 0 ρ 0即总体中两个变量之间不存在等级相关关系。备择假设 H 1 H_1 H1总体的斯皮尔曼等级相关系数 ρ ≠ 0 \rho\neq 0 ρ0即总体中两个变量之间存在等级相关关系。 计算t统计量在斯皮尔曼等级相关的t检验中可使用公式 t r R n − 2 1 − r R 2 t\ \frac{r_{R}\sqrt{n - 2}}{\sqrt{1 - r_{R}^{2}}} t 1−rR2 rRn−2 这里 r R r_{R} rR表示计算得到的斯皮尔曼等级相关系数 n n n为样本数量。此公式与积差相关系数如Pearson相关系数检验中t统计量的计算形式相同这样做是因为在一定条件下基于等级数据计算出的相关系数的抽样分布近似于t分布。确定临界值根据给定的显著性水平 α \alpha α常用的有 0.05 0.05 0.05、 0.01 0.01 0.01等和自由度 d f n − 2 df \ n - 2 df n−2查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n−2)。做出决策 如果 ∣ t ∣ t α / 2 ( n − 2 ) \vert t\vertt_{\alpha/2}(n - 2) ∣t∣tα/2(n−2)则拒绝原假设 H 0 H_0 H0认为总体中两个变量之间存在等级相关关系。如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ∣t∣≤tα/2(n−2)则不能拒绝原假设 H 0 H_0 H0即没有足够证据表明总体中两个变量之间存在等级相关关系。
四、实例演示
斯皮尔曼等级相关系数计算实例
研究 6 6 6名学生的语文成绩排名和英语成绩排名的相关性数据如下
学生编号语文成绩排名 X X X英语成绩排名 Y Y Y d i d_{i} di等级差 d i 2 d_{i}^{2} di2等级差的平方123-112422431100434-115550066600
计算 ∑ d i 2 1 4 0 1 0 0 6 \sum d_{i}^{2}\ 1 40 10 0 \ 6 ∑di2 140100 6 n 6 n \ 6 n 6。 代入公式可得 ρ 1 − 6 × 6 6 3 − 6 1 − 36 216 − 6 1 − 36 210 ≈ 0.83 \begin{align*} \rho\ 1-\frac{6\times6}{6^{3}-6}\\ \ 1-\frac{36}{216 - 6}\\ \ 1-\frac{36}{210}\\ \approx0.83 \end{align*} ρ 1−63−66×6 1−216−636 1−21036≈0.83 结果表明这 6 6 6名学生的语文和英语成绩排名有较强的正相关关系。
t检验实例
针对上述例子假设显著性水平 α 0.05 \alpha \ 0.05 α 0.05。
已知 r R ≈ 0.83 r_{R} \approx 0.83 rR≈0.83 n 6 n \ 6 n 6计算 t t t统计量 t 0.83 6 − 2 1 − 0.8 3 2 0.83 × 2 1 − 0.6889 1.66 0.3111 ≈ 2.97 \begin{align*} t\ \frac{0.83\sqrt{6 - 2}}{\sqrt{1 - 0.83^{2}}}\\ \ \frac{0.83\times2}{\sqrt{1 - 0.6889}}\\ \ \frac{1.66}{\sqrt{0.3111}}\\ \approx2.97 \end{align*} t 1−0.832 0.836−2 1−0.6889 0.83×2 0.3111 1.66≈2.97自由度 d f n − 2 6 − 2 4 df \ n - 2 \ 6 - 2 \ 4 df n−2 6−2 4查 t t t分布表得 t 0.025 ( 4 ) 2.776 t_{0.025}(4)\ 2.776 t0.025(4) 2.776。因为 ∣ 2.97 ∣ 2.776 \vert 2.97\vert 2.776 ∣2.97∣2.776所以拒绝原假设 H 0 H_0 H0可以认为在总体中学生的语文成绩排名和英语成绩排名之间存在等级相关关系。
五、注意事项
只反映等级相关它衡量的是变量等级之间的关联并非原始数据值之间的精确关系。对单调关系敏感只能检测单调的相关关系若变量间关系复杂非单调可能无法准确反映相关性。样本数量影响样本数量过少可能导致结果不稳定一般建议样本量 n ≥ 10 n\geq 10 n≥10 。t检验前提虽然斯皮尔曼等级相关的t检验形式与积差相关类似但在使用时要注意其基于等级数据的特点以及样本数据对近似t分布条件的满足程度。当样本量较小时t检验结果的准确性可能会受到一定影响。