【大数の法則・中心極限定理】標本平均に関する重要な定理

こんにちは、たくろー(@takuro_data )です!

前回、前々回で、標本から母数を推定する方法を学びました。

【点推定・区間推定】標本から母集団の特徴を推定しよう

【ブートストラップ法】シミュレーションで推定しよう

今回は、前々回扱った標本平均に関する2つの定理について学習します。

要点
  1. 大数の法則:標本サイズが大きくなるにつれて、標本平均は、真の値である母平均に近づく
  2. 中心極限定理:大標本で、標本平均と母平均との偶然誤差が正規分布に近づく(標本平均も正規分布に近づく)

大数の法則

試行をたくさん繰り返すと、経験的確率も理論的確率に近づきます。コイン投げの繰り返し回数を増やすと、イカサマのないコインの表の出る確率は0.5%に近づきます。下記記事の2項分布の乱数シミュレーションで確認できます。

【一様分布・二項分布・正規分布・ポアソン分布】統計モデリングで使おう

標本平均における大数の法則は、標本サイズが大きくなるに従って、真の値である母平均に近づきます。Rでシミュレーションしてみます。

#二項分布
# コイン投げ設定:10試行を10回繰り返す
size <- 10
p <- 0.5
n <- 10
samples <- coin_sim <- rbinom(n,size,p)
hist(samples)
# コイン投げの標本平均をサンプリング
sample_means <- NULL
sample_ses <- NULL
iteration <- c(10,100,1000,10000)

par(mfrow=c(2,2))
for(i in iteration){
  for(j in 1:i){
    each_samples <- rbinom(n, size, p)
    tmp_mean <- mean(each_samples)
    sample_means <- c(sample_means, tmp_mean)
  }
  hist(sample_means,probability=T,col="gray",main = paste("n = ", i)) 
  temp_se <- sd(sample_means)/sqrt(n)
  sample_ses <- c(sample_ses, temp_se)
}
sample_ses
> sample_ses
[1] 0.2023473 0.1611026 0.1531004 0.1583839

繰り返す数を増やすにつれて、母平均の5に近づいているようにみえるものの、1000以上では、標準誤差の値が大きな違いはみられなかったです。

中心極限定理

個別データの母集団が正規分布していなくても、そこから抽出した標本が十分に大きければ、標本平均は正規分布に近づきます。同様に、標本平均と真の平均の差である偶然誤差も、標本が大きくなると、ゼロを中心とした正規分布に近づきます。

#混合正規分布をつくる
mean1 <- 2
sd1 <- 1
mean2 <- 10
sd2 <- 3
mean <- (mean1 + 2*mean2)/3

samples1 <- rnorm(100,mean=mean1,sd=sd1)
samples2 <- rnorm(200,mean=mean2,sd=sd2)
samples <- c(samples1, samples2)
par(mfrow=c(1,1))
hist(samples)
#混合正規分布からサンプリング
iteration <- 1000
sample_means<-NULL
for(i in 1:iteration){
  samples1 <- rnorm(100,mean=mean1,sd=sd1)
  samples2 <- rnorm(200,mean=mean2,sd=sd2)
  samples <- c(samples1, samples2)
  tmp_mean<-mean(samples)
  sample_means<-c(sample_means, tmp_mean)
}
sample_ses <- sample_means - mean 
par(mfrow=c(1,2))
hist(sample_means)
hist(sample_ses)

さいごに

今回は、標本平均に関する定理として大数の法則と中心極限定理を学びました。多くの統計的手法では、データが正規分布することが前提条件となっているので、中心極限定理は特に大事です。

次回は、仮説検定について学びます。

【仮説検定】仮説検定の用語を確認して実施してみよう