中心極限定理をめぐる誤解
中心極限定理。統計を使う研究に身を置く人であれば、一度は聞いたことがあるであろう。 はて、その意味するところはなんだろうか? 「サンプルサイズ(標本数)が増えれば、どんな確率変数も正規分布で近似できる」 たぶん、生態学の界隈では、このような理解がまことしやかに蔓延っている(昔私も信じていた)。その結果としてこういった記述をみることがある。 「応答変数は個体数であるが、サンプル数が多いことから正規分布で近似する」 結論から言うと、できません。さて、どこが間違ってるのだろうか。 わかりやすい説明を試みるが、自信はない。 Rで試す中心極限定理 統計の表現になれのない人のために、表現について少し解説を加えておく。ここでは、正規分布ではない確率分布として、ポアソン分布を例に挙げようと思う。確率変数1がある確率分布に従うとき、それはニョロニョロ(Tilde, ~)をつかって表現される。例えば、確率変数Xが平均2のポアソン分布に従う場合、次のように書く: \[ X \sim \text{Poisson}(2) \] 試しにRでXを生成してみる(rpois()はポアソン分布に従う乱数を生成)。 # produce 3 samples of X that follows a Poisson distribution with a mean 2 (X <- rpois(n = 3, lambda = 2)) ## [1] 1 2 2 この例では、3サンプル生成してみると、1, 2, 2 となった。ここで、最初の文言に戻ってみよう。 「サンプルサイズ(標本数)が増えれば、どんな確率変数も正規分布で近似できる」 この言葉を字面通りに受け取ると、サンプルをどんどん増やしていけばXはいずれ正規分布に近づくように解釈できる。もしそうならば、サンプル数を増やすほど、Xの頻度分布はきれいな左右対称の鐘状になるはずだ。試してみよう。まずは100サンプル。 # histogram with 100 samples X <- rpois(n = 100, lambda = 2) plot(table(X)) うーん、歪んでいる。1万ならどうだ。 # histogram with 10000 samples X <- rpois(n = 10000, lambda = 2) plot(table(X)) そろそろわかると思うが、Xのサンプルサイズを増やしたところでXはポアソン分布のままである。そう、中心極限定理は、そもそもこんなことは言っていないので当然である。...