什么是Q-Q图?

Q-Q图(Quantile-Quantile Plots)是一种散点图,横坐标为某一样本的分位数,纵坐标为另一样本的分位数,横坐标与纵坐标组成的散点图代表同一个累计概率所对应的分位数。分位数是某些值低于该分位数的值,例如,中位数是一个分位数,其中50%的数据低于该点,50%高于该点。Q-Q图的目的是确定两组数据是否来自同一分布。在Q-Q图上绘制45度角;如果两个数据集来自共同分布,则这些点将落在该参考线上。

上图显示了水平轴上理论正态分布的分位数。它与y轴上的一组数据进行比较。这种特殊类型的Q-Q图称为常规Q-Q图。这些点没有聚集在45度线上,实际上遵循曲线,表明样本数据不是正态分布的。

如何创建Q-Q图?

示例问题:以下数据是否来自正态分布?

7.19, 6.31, 5.89, 4.5, 3.77, 4.25, 5.19, 5.79, 6.79.

(1) 步骤1:将数据从小到大排序。

3.77, 4.25,4.50,5.19,5.89,5.79,6.31,6.79,7.19

(2)步骤2:绘制正态分布曲线。将曲线分成n + 1个段。我们有9个值,因此将曲线分成10个大小相等的区域。对于此示例,每个段是区域的10%(因为100%/ 10 = 10%)。

(3)步骤3:在该步骤中找到每个段的z值(截止点)。这些段是区域,因此请参考z表(或使用软件)获取每个段的z值。

z值为:

  • 10% = -1.28

  • 20% = -0.84

  • 30% = -0.52

  • 40% = -0.25

  • 50% = 0

  • 60% = 0.25

  • 70% = 0.52

  • 80% = 0.84

  • 90% = 1.28

  • 100% = 3.0

(4)第4步:根据正态分布截止点绘制数据集值(步骤1)(步骤3):

此Q-Q图上的数据几乎是一条直线,表示数据大致满足正态分布。

注意:

此示例使用标准正态分布,但如果认为你的数据可能来自不同的正态分布(即具有不同均值和标准偏差的分布),那么你可以使用它。

对于许多统计测试来说,正态性假设是一个重要的假设;假设你是从正态分布的人群中取样的。正态Q-Q图是评价正态性的一种方法。但是,你不必使用正态分布作为数据的比较;你可以使用任何连续分布作为比较(例如威布尔分布或均匀分布),只要你可以计算分位数。

参考

[1] Q-Q Plots: Simple Definition & Example. https://www.statisticshowto.datasciencecentral.com/q-q-plots