中心極限定理。統計を使う研究に身を置く人であれば、一度は聞いたことがあるであろう。 はて、その意味するところはなんだろうか?
「サンプルサイズ(標本数)が増えれば、どんな確率変数も正規分布で近似できる」
たぶん、生態学の界隈では、このような理解がまことしやかに蔓延っている(昔私も信じていた)。その結果としてこういった記述をみることがある。
「応答変数は個体数であるが、サンプル数が多いことから正規分布で近似する」
結論から言うと、できません。さて、どこが間違ってるのだろうか。 わかりやすい説明を試みるが、自信はない。
Rで試す中心極限定理
統計の表現になれのない人のために、表現について少し解説を加えておく。ここでは、正規分布ではない確率分布として、ポアソン分布を例に挙げようと思う。確率変数1がある確率分布に従うとき、それはニョロニョロ(Tilde, ~)をつかって表現される。例えば、確率変数Xが平均2のポアソン分布に従う場合、次のように書く:
\[ X \sim \text{Poisson}(2) \]
試しにRでX
を生成してみる(rpois()
はポアソン分布に従う乱数を生成)。
# produce 3 samples of X that follows a Poisson distribution with a mean 2
(X <- rpois(n = 3, lambda = 2))
## [1] 1 2 2
この例では、3サンプル生成してみると、1, 2, 2 となった。ここで、最初の文言に戻ってみよう。
「サンプルサイズ(標本数)が増えれば、どんな確率変数も正規分布で近似できる」
この言葉を字面通りに受け取ると、サンプルをどんどん増やしていけばX
はいずれ正規分布に近づくように解釈できる。もしそうならば、サンプル数を増やすほど、X
の頻度分布はきれいな左右対称の鐘状になるはずだ。試してみよう。まずは100サンプル。
# histogram with 100 samples
X <- rpois(n = 100, lambda = 2)
plot(table(X))
うーん、歪んでいる。1万ならどうだ。
# histogram with 10000 samples
X <- rpois(n = 10000, lambda = 2)
plot(table(X))
そろそろわかると思うが、X
のサンプルサイズを増やしたところでX
はポアソン分布のままである。そう、中心極限定理は、そもそもこんなことは言っていないので当然である。
実際の答えはこうだ:
「ある確率分布に従う確率変数Xがある。複数のXを足し合わせた新たな確率変数Y(\(Y = \sum_i X_i\))を考える2。この時、足し合わせるXの個数が多ければ、Yは漸近的に正規分布に従う 」
Rで試してみよう。100個のX
を足した値をY
として、それを1000個生成する。
## Take a sum of 100 poisson samples for 1000 times
Y <- replicate(1000,
sum(rpois(100, lambda = 2)))
plot(table(Y))
おお、ちゃんと正規分布っぽくなった3。和ではなく、平均をとってもよい(そもそも、和と平均は統計的な意味合いは同じ)。こちらも試してみる。
## Take a mean of 100 poisson samples for 1000 times
Y <- replicate(1000,
mean(rpois(100, lambda = 2)))
plot(table(Y))
中心極限定理のすごいところは、確率変数\(X\)の確率分布によらず、この定理が成り立つ点にある。例えば、平均2の幾何分布を考えてみる。元の分布は正規分布からほど遠い。
# geometric distribution with mean of 2 (mean = 1 / prob)
X <- rgeom(n = 10000, prob = 0.5)
plot(table(X))
足し合わせて、Y
の分布を見てみる。
Y <- replicate(1000,
sum(rgeom(100, prob = 0.5)))
plot(table(Y))
\(X\)が幾何分布でも、足し合わせた変数\(Y\)の分布は正規分布っぽくなった4。
というわけで、サンプルサイズが多い→正規分布で近似できるというのは間違い(あるいは語弊がある)。ちゃんと確率変数の特徴に見合った確率分布を選びたいですね。