一、标准差(Standard Deviation)
标准差用于衡量数据分布的离散程度,表示数据点相对于均值的偏离程度。
公式:
对于一组数据 \(X = \{x_1, x_2, ..., x_n\}\),其标准差计算公式为:
\[
\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}
\]
其中,\(\mu\) 是数据的均值,即:
\[
\mu = \frac{\sum_{i=1}^{n}x_i}{n}
\]
二、协方差(Covariance)
协方差用于衡量两个变量之间的线性关系强度和方向。如果协方差为正,则表明两个变量同向变化;若为负,则表明反向变化。
公式:
设两组数据分别为 \(X = \{x_1, x_2, ..., x_n\}\) 和 \(Y = \{y_1, y_2, ..., y_n\}\),则它们的协方差计算公式为:
\[
\text{Cov}(X, Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n}
\]
其中,\(\bar{x}\) 和 \(\bar{y}\) 分别是 \(X\) 和 \(Y\) 的均值。
三、相关系数(Correlation Coefficient)
相关系数是对协方差的一种归一化处理,用来描述两个变量之间线性关系的强弱,其取值范围在 \([-1, 1]\) 之间。
公式:
相关系数 \(r\) 的计算公式为:
\[
r = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}
\]
其中,\(\sigma_X\) 和 \(\sigma_Y\) 分别是 \(X\) 和 \(Y\) 的标准差。
小结
这三个指标——标准差、协方差和相关系数,在实际应用中常常结合使用。标准差帮助我们了解单个变量的波动情况,协方差揭示了两个变量之间的相互作用,而相关系数则提供了更为直观的变量间关系强度的度量。通过合理运用这些工具,可以更好地理解和分析数据背后隐藏的信息。