【カイ二乗分布・F分布・t分布】仮説検定で使おう

こんにちは、タクロウです!

前回は、よく使う分布として、一様分布、二項分布、正規分布、ポアソン分布について学習しました。

【一様分布・二項分布・正規分布・ポアソン分布】統計モデリングで使おう

今回は確率分布の続きで、仮説検定によくでてくる確率分布について学習します。

要点
  1. カイ二乗分布は、独立性の検定や適合度検定に用いられる
  2. F分布は、等分散の検定や分散分析に用いられる
  3. t分布は、正規分布の代わりに使われ、母平均の検定に用いられる

カイ二乗分布:複数のデータを扱う

カイ二乗\(\chi^2\)分布は、正規分布に従う複数のデータを同時に扱うことができるので、分散分析に用いられます。独立性の検定や適合度検定で用いられます。自由度\(m\)の(\(\chi^2\))分布は、互いに独立な標準正規分布に従う\(m\)個の変数\z_{1},z_{2},…,z_{m}から次式で計算します。

$$\chi_{(m)}^2=z_{1}^2+z_{2}^2+…+z_{m}^2$$

平均値は自由度で、分散は2×自由度です。

乱数シミュレーション

#乱数シミュレーション
n <- c(100,1000,5000,10000)
df <- 2
par(mfrow=c(2,2))
for (i in n) {
  chi_sim <- rchisq(i,df)
  hist(chi_sim,probability=T,col="gray", main = paste("n=",i))
}
mean(chi_sim)
sd(chi_sim)

mu <- df
var <- 2*df
sd <- sqrt(var)
mu
sd
> mean(chi_sim)
[1] 1.988414
> sd(chi_sim)
[1] 1.973337
> mu
[1] 2
> sd
[1] 2

自由度の違い

#自由度の違うグラフ
par(mfrow=c(1,1))
x<-seq(0,20,0.1)
curve(dchisq (x,2),from=0,to=20, col="blue")
curve(dchisq (x,4),add=T, col="pink")
curve(dchisq (x,6),add=T, col="orange")
curve(dchisq (x,8),add=T, col="green")
curve(dchisq (x,10),add=T, col="purple")

F分布:カイ二乗の比

F分布は、独立した2つのカイ二乗分布に従う確率変数の比の分布です。等分散の検定や分散分析に用いられ、次式で計算します。

$$F=\frac{\chi_{m_{1}}^2/m_{1}}{\chi_{m_{2}}^2/m_{2}} \\ 平均:\frac{m_2}{m_{2}-2} \\ 分散:\frac{2m_{2}^2(m_{1}+m_{2}-2)}{m_{1}(m_{2}-2)^2(m_{2}-4)}$$

乱数シミュレーション

#乱数シミュレーション
n <- c(100,1000,5000,10000)
df1 <- 10
df2 <- 15

par(mfrow=c(2,2))
for (i in n) {
  f_sim <- rf(i,df1,df2)
  hist(f_sim,probability=T,col="gray", main = paste("n=",i))
}
mean(f_sim)
sd(f_sim)

mu <- df2/(df2-2)
var <- 2*df2^2*(df1+df2-2)/(df1*(df2-2)^(2)*(df2-4))
sd <- sqrt(var)
mu
sd
> mean(f_sim)
[1] 1.156014
> sd(f_sim)
[1] 0.7470166
> mu
[1] 1.153846
> sd
[1] 0.7461575

自由度の違い

#自由度の違うグラフ
par(mfrow=c(1,1))
x<-seq(0,3,0.1)
curve(df(x,1,10),from=0,to=3,col="blue")
curve(df(x,10,1),add=T, col="pink")
curve(df(x,5,5),add=T, col="green")

t分布:正規分布の代わり

母分散が分からないときに正規分布の代わりに用いられる分布で、、標本サイズが小さいときは正規分布に比べて両裾が厚くなり、n≧30あたりから正規分布とほぼ一致します。

標本を繰り返し抽出した標本平均の標準化変量\(z_{\bar{x}}\)の母標準偏差\(\sigma\)がわからないとき、準標準化変量\(t\)を使い、次式で計算します。

$$t_{\bar{x}}=\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n-1}}} \\ 参考:z_{\bar{x}}=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$$

平均は0、分散はm/(m-2)です。

乱数シミュレーション

#乱数シミュレーション
n <- c(100,1000,5000,10000)
df <- 30

par(mfrow=c(2,2))
for (i in n) {
  t_sim <- rt(i,df)
  hist(t_sim,probability=T,col="gray", main = paste("n=",i))
}
mean(t_sim)
sd(t_sim)
> mean(t_sim)
[1] 0.007019063
> sd(t_sim)
[1] 1.028339
> mu
[1] 0
> sd
[1] 1.035098

自由度の違い

#自由度の違うグラフ
par(mfrow=c(1,1))
curve(dt(x,30),from=-4,to=4, col="blue", ylab = "t")
curve(dt(x,5),add=T, col="pink")
curve(dt(x,1),add=T, col="green")

さいごに

今回は、仮説検定によくでてくるカイ二乗分布、F分布、t分布について学びました。

次回からは推測統計学について学んでいきます。

【点推定・区間推定】標本から母集団の特徴を推定しよう