こんにちは、たくろー(@takuro_data )です!
データの記述、確率分布、母数の推定を学習してきました。今回から仮説検定について学びます。
- 母平均と標本平均の検定は、t検定で判定する。Rコマンドはt.test。
- 母比率と標本比率の検定は、正規分布を使って判定する。Rコマンドはprop.test。
- 無相関の検定は、t分布を使って判定する。Rコマンドはcor.test。
仮説検定とは
観測された複数の平均や分散の間の差が、母集団においてもあるといってもいいか判定します。母数と標本統計量に差があるか検定する場合と、2群に差があるか検定する場合があり、今回は前者を扱います。仮説検定で重要な用語は以下のとおり。
- 帰無仮説:研究で主張したい(採択したい)内容とは逆の仮説
- 対立仮説:帰無仮説が棄却されたとき、代わりに採択される仮説
- 両側検定と片側検定
- 有意水準\(\alpha\):どの程度の正確さで帰無仮説を棄却するか
- p値:帰無仮説の分布において、検定統計量よりも極端な値が観測される確率
- 第一種の過誤:本当は差がない(帰無仮説が正しい)のに、その真実を見落として「差がある」と判定してしまうこと。第一種の過誤を犯す確率は危険率\(\alpha\)。うっかりミス。
- 第二種の過誤:差がないのは過ち(帰無仮説が正しくない)にもかかわらず、その過ちを見過ごして「差がない」と判定してしまうこと。第二種の過誤を犯す確率\(\beta\)。ぼんやりミス。
- 検出力:差がある場合に、きちんと差があると判定できる能力(検定がいかに優れているか)。第二種の過誤を犯さない確率\(1-\beta\)。
母平均と標本平均の検定
「観測された標本平均」を「母平均(既知)」と比較し、それらが異なるか否かを確率で判定します。母分散が既知の場合は、z検定(標準正規分布)を用いる場合もありますが、普通は母分散が未知なので、t検定を用います。
Rのサンプルデータwomen(30-39歳のアメリカ人の女性の平均の身長と体重データ)を使ってt検定をしてみます。
# データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
n <- length(women$height)
mean <- mean(women$height)
sd <- sd(women$height)
hist(women$height)
n
mean
sd
> n
[1] 15
> mean
[1] 165.1
> sd
[1] 11.35926

#母平均仮定
mu <- 158
#t検定
t.test(women$height, mu=mu)
> t.test(women$height, mu=mu)
One Sample t-test
data: women$height
t = 2.4208, df = 14, p-value = 0.02966
alternative hypothesis: true mean is not equal to 158
95 percent confidence interval:
158.8094 171.3906
sample estimates:
mean of x
165.1
標本平均が母平均158cmであるという帰無仮説において、自由度14(n-1)のt統計量は2.42でp値は3%なので、有意水準5%で、帰無仮説は棄却され、標本平均は母平均158cmと異なるという対立仮説が採択されます。
母比率と標本比率の検定
「観測された標本比率」を「特定の比率の値」と比較して、それらが異なるか否かを正規分布を使って判定します。
あるサービスの利用意向のアンケート調査で、400人中300人が利用したい(75%)との結果でした。70%を目安にしていた場合、このサービスはリリースすべきでしょうか。
#母比率の検定
prop.test(300,400,p=0.7)
> prop.test(300,400,p=0.7)
1-sample proportions test with continuity correction
data: 300 out of 400, null probability 0.7
X-squared = 4.5268, df = 1, p-value = 0.03337
alternative hypothesis: true p is not equal to 0.7
95 percent confidence interval:
0.7040154 0.7910893
sample estimates:
p
0.75
標本比率が母比率70%であるという帰無仮説の下でのp値は3.3%なので、有意水準5%で帰無仮説は棄却され、標本比率は母比率70%ではないという対立仮説が採択されます。よって、統計的に、目安の70%を超えているといえます。
無相関の検定
「観測された相関係数」を「ゼロ(無相関)」と比較し、それらが異なるか否かをt分布を使って判定します。
Rのサンプルデータwomenを使って身長と体重の無相関検定をしてみます。
#データ読み込み
#単位変換:インチからセンチメートル、ポンドからキログラム
data("women")
women$height <- round(women$height / 0.39370,1)
women$weight <- round(women$weight / 2.2046,1)
plot(women$height,women$weight)
length(women$height)
#無相関検定
cor.test(women$height,women$weight)

> length(women$height)
[1] 15
> cor.test(women$height,women$weight)
Pearson's product-moment correlation
data: women$height and women$weight
t = 37.042, df = 13, p-value = 1.443e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9854870 0.9984805
sample estimates:
cor
0.9952961
標本相関係数がゼロであるという帰無仮説の下、自由度13(n-2)のt検定統計量は37.04でp値が0.00%であるので、有意水準5%で帰無仮説を棄却し、標本相関係数がゼロではないという対立仮説を採択します。
さいごに
今回は、仮説検定として、1群の場合の母平均の検定・母比率の検定、無相関の検定を学びました。
次回は、2群の場合の仮説検定について学びます。