【点推定・区間推定】標本から母集団の特徴を推定しよう

こんにちは、たくろー(@takuro_data )です!

前回までで推測統計学の基礎となる確率分布について、学習しました。

【一様分布・二項分布・正規分布・ポアソン分布】統計モデリングで使おう

【カイ二乗分布・F分布・t分布】仮説検定で使おう

今回は、標本を使って、その抽出元である母集団の特徴(母数)を推定することを学びます。具体的には、標本から標本統計量を算出し、母数(母平均、母比率、母分散、母相関係数)の点推定と区間推定を行います。

要点
  1. 母平均は、母分散がわかならい場合、t分布から推定
  2. 母比率は、正規分布から推定
  3. 母分散は、カイ二乗分布から推定
  4. 母相関係数は、z変換して正規分布から推定

推定とは

観測データ(標本)から、その背景にある母集団の特徴を推測することが目的です。母集団の特徴が母数(母平均、母分散など)で、母集団の分布の形を決めるパラメーターです。この母数を、標本統計量から推定します。

推定には、母数の値をピンポイントで推定する点推定と、範囲で推定する区間推定があります。

点推定は不偏推定量を求めます。不偏推定量とは、真の値である母数と比較して、大きい方へも小さい方へも偏らない統計量です。例えば、標本分散を自由度で調整して、不偏分散を求めたりします。以下、記事の分散・標準偏差の項目をご確認ください。

【分位数・分散・標準偏差・外れ値・変動係数】平均とあわせて確認しよう

母数と標本統計量には誤差があるので、母集団の平均や分散が入ると予想される区間を標本から推定するのが区間推定です。抽出と区間推定を100回実施した場合に、母数が推定区間に95回ぐらい入ることを信頼係数95%といいます。

母平均の推定

Rのサンプルデータwomen(30-39歳のアメリカ人の女性の平均の身長と体重データ)を使って母平均の点推定と区間推定をしてみます。

データ準備

# データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
n <- length(women$height)
mean <- mean(women$height)
sd <- sd(women$height)
hist(women$height)
n
mean
sd
> n
[1] 15
> mean
[1] 165.1
> sd
[1] 11.35926

点推定と区間推定

# 点推定
xbar <- mean
xbar

# 区間推定、母分散未知かつn=15だからt分布を使う
#sdは不偏分散だから信頼区間の式はn-1ではなくn
cf <- 0.95
df <- n-1
cftile <- qt(cf+(1-cf)/2,df)
c(xbar - cftile * sd / sqrt(n),xbar + cftile * sd / sqrt(n))

#1コマンドで(t検定)
t.test(data)

#正規分布でやってみる(母分散は仮数値として不偏分散)
cftile <- qnorm(cf+(1-cf)/2)
c(xbar - cftile * sd / sqrt(n),xbar + cftile * sd / sqrt(n))
> xbar
[1] 165.1
> c(xbar - cftile * sd / sqrt(n),xbar + cftile * sd / sqrt(n))
[1] 158.8094 171.3906
> t.test(data)

	One Sample t-test

data:  data
t = 56.291, df = 14, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 158.8094 171.3906
sample estimates:
mean of x 
    165.1 
> c(xbar - cftile * sd / sqrt(n),xbar + cftile * sd / sqrt(n))
[1] 159.3515 170.8485

母比率の推定

標本比率\(\hat{p}\)の分子である「ある性質を持つ要素の数x」は2項分布に従います。なので、標本サイズnが大きくなると正規分布に従います。TV視聴率や選挙得票率などの予測などに使われます。

#データ仮定:TV視聴率20%(900世帯)
n <- 900
p <- 0.2
x <- n * p
x

#区間推定
cf <- 0.95
cftile <- qnorm(cf+(1-cf)/2)
cftile
c(p - cftile * sqrt((p*(1-p)/n)),p + cftile * sqrt((p*(1-p)/n)))

#1コマンドで(2項検定)
binom.test(x,n)
> x
[1] 180
> cftile
[1] 1.959964
> c(p - cftile * sqrt((p*(1-p)/n)),p + cftile * sqrt((p*(1-p)/n)))
[1] 0.1738671 0.2261329
> binom.test(x,n)

	Exact binomial test

data:  x and n
number of successes = 180, number of trials = 900, p-value < 2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.1743280 0.2276521
sample estimates:
probability of success 
                   0.2 

※計算した値と2項検定の区間推定の値が違うが、若干なので時間があるときに調べます。

母分散の推定

標本分散\(s^2\)が従う確率分布はないので、\(\chi^2\)分布に従うように、標本分散\(s^2\)または不偏分散\(\hat{\sigma}^2\)と比例する統計量に変換します。品質の安定性が重視される品質管理分野などで使われます。

#データの取得
data("women")
women$height <- round(women$height / 0.39370,1)
n <- length(women$height)
var <- var(women$height)
n
var

#区間推定
cf <- 0.95
cftile1 <- qchisq(cf+(1-cf)/2,n-1)
cftile2 <- qchisq((1-cf)/2,n-1)
cftile1
cftile2
c(n * var / cftile1,n * var / cftile2)
> n
[1] 15
> var
[1] 129.0329
> cftile1
[1] 5.628726
> cftile2
[1] 26.11895
> c(n * var / cftile2,n * var / cftile1)
[1]  74.10302 343.85984
> sqrt(c(n * var / cftile2,n * var / cftile1))
[1]  8.608311 18.543458
> sqrt(var)
[1] 11.35926

母相関係数の推定

データの準備

#データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
women$weight <- round(women$weight / 2.2046,1)

plot(women$height,women$weight)
r <- cor(women$height,women$weight, method="pearson")
r
n <- length(women$height)
n
> r
[1] 0.9952961
> n
[1] 15

点推定と区間推定

#区間推定
#Fisherのz変換
fisher <- function(x){
  log((1+x)/(1-x))/2
}
#z変換の逆変換
ifisher <- function(x){
  (exp(2*x)-1)/(exp(2*x)+1)
}

zr <- fisher(r)
cf <- 0.95
cftile <- qnorm(cf+(1-cf)/2)
cftile
zl <- zr - cftile / sqrt(n-3)
zu <- zr + cftile / sqrt(n-3)
c(ifisher(zl),ifisher(zu))

#1コマンドで(無相関の検定)
cor.test(women$height,women$weight)
> cftile
[1] 1.959964
> c(ifisher(zl),ifisher(zu))
[1] 0.9854870 0.9984805
> cor.test(women$height,women$weight)

	Pearson's product-moment correlation

data:  women$height and women$weight
t = 37.042, df = 13, p-value = 1.443e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.9854870 0.9984805
sample estimates:
      cor 
0.9952961 

さいごに

今回は、母平均、母比率、母分散、母相関係数について、それぞれの標本統計量の分布から、点推定・区間推定する方法を学びました。

次回は、シミュレーションで母数を推定する方法としてブートストラップ法について学びます。

【ブートストラップ法】シミュレーションで推定しよう