【仮説検定】仮説検定の用語を確認して実施してみよう

こんにちは、たくろー(@takuro_data )です!

データの記述、確率分布、母数の推定を学習してきました。今回から仮説検定について学びます。

要点
  1. 母平均と標本平均の検定は、t検定で判定する。Rコマンドはt.test。
  2. 母比率と標本比率の検定は、正規分布を使って判定する。Rコマンドはprop.test。
  3. 無相関の検定は、t分布を使って判定する。Rコマンドはcor.test。

仮説検定とは

観測された複数の平均や分散の間の差が、母集団においてもあるといってもいいか判定します。母数と標本統計量に差があるか検定する場合と、2群に差があるか検定する場合があり、今回は前者を扱います。仮説検定で重要な用語は以下のとおり。

  • 帰無仮説:研究で主張したい(採択したい)内容とは逆の仮説
  • 対立仮説:帰無仮説が棄却されたとき、代わりに採択される仮説
  • 両側検定片側検定
  • 有意水準\(\alpha\):どの程度の正確さで帰無仮説を棄却するか
  • p値:帰無仮説の分布において、検定統計量よりも極端な値が観測される確率
  • 第一種の過誤:本当は差がない(帰無仮説が正しい)のに、その真実を見落として「差がある」と判定してしまうこと。第一種の過誤を犯す確率は危険率\(\alpha\)。うっかりミス。
  • 第二種の過誤:差がないのは過ち(帰無仮説が正しくない)にもかかわらず、その過ちを見過ごして「差がない」と判定してしまうこと。第二種の過誤を犯す確率\(\beta\)。ぼんやりミス。
  • 検出力:差がある場合に、きちんと差があると判定できる能力(検定がいかに優れているか)。第二種の過誤を犯さない確率\(1-\beta\)。

母平均と標本平均の検定

「観測された標本平均」を「母平均(既知)」と比較し、それらが異なるか否かを確率で判定します。母分散が既知の場合は、z検定(標準正規分布)を用いる場合もありますが、普通は母分散が未知なので、t検定を用います。

Rのサンプルデータwomen(30-39歳のアメリカ人の女性の平均の身長と体重データ)を使ってt検定をしてみます。

# データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
n <- length(women$height)
mean <- mean(women$height)
sd <- sd(women$height)
hist(women$height)
n
mean
sd
> n
[1] 15
> mean
[1] 165.1
> sd
[1] 11.35926
#母平均仮定
mu <- 158
#t検定
t.test(women$height, mu=mu)
> t.test(women$height, mu=mu)

	One Sample t-test

data:  women$height
t = 2.4208, df = 14, p-value = 0.02966
alternative hypothesis: true mean is not equal to 158
95 percent confidence interval:
 158.8094 171.3906
sample estimates:
mean of x 
    165.1 

標本平均が母平均158cmであるという帰無仮説において、自由度14(n-1)のt統計量は2.42でp値は3%なので、有意水準5%で、帰無仮説は棄却され、標本平均は母平均158cmと異なるという対立仮説が採択されます。

母比率と標本比率の検定

「観測された標本比率」を「特定の比率の値」と比較して、それらが異なるか否かを正規分布を使って判定します。

あるサービスの利用意向のアンケート調査で、400人中300人が利用したい(75%)との結果でした。70%を目安にしていた場合、このサービスはリリースすべきでしょうか。

#母比率の検定
prop.test(300,400,p=0.7)
> prop.test(300,400,p=0.7)

	1-sample proportions test with continuity correction

data:  300 out of 400, null probability 0.7
X-squared = 4.5268, df = 1, p-value = 0.03337
alternative hypothesis: true p is not equal to 0.7
95 percent confidence interval:
 0.7040154 0.7910893
sample estimates:
   p 
0.75 

標本比率が母比率70%であるという帰無仮説の下でのp値は3.3%なので、有意水準5%で帰無仮説は棄却され、標本比率は母比率70%ではないという対立仮説が採択されます。よって、統計的に、目安の70%を超えているといえます。

無相関の検定

「観測された相関係数」を「ゼロ(無相関)」と比較し、それらが異なるか否かをt分布を使って判定します。

Rのサンプルデータwomenを使って身長と体重の無相関検定をしてみます。

#データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
women$weight <- round(women$weight / 2.2046,1)
plot(women$height,women$weight)
length(women$height)
#無相関検定
cor.test(women$height,women$weight)
> length(women$height)
[1] 15
> cor.test(women$height,women$weight)

	Pearson's product-moment correlation

data:  women$height and women$weight
t = 37.042, df = 13, p-value = 1.443e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.9854870 0.9984805
sample estimates:
      cor 
0.9952961 

標本相関係数がゼロであるという帰無仮説の下、自由度13(n-2)のt検定統計量は37.04でp値が0.00%であるので、有意水準5%で帰無仮説を棄却し、標本相関係数がゼロではないという対立仮説を採択します。

さいごに

今回は、仮説検定として、1群の場合の母平均の検定・母比率の検定、無相関の検定を学びました。

次回は、2群の場合の仮説検定について学びます。

【仮説検定】2群の平均の差を検定をしよう