こんにちは、たくろー(@takuro_data )です!
アンケート調査をする際、何人とったらいいのでしょうか?
「最低100人必要」とか「400人が目安」とか言われたりします。結論、400あれば精度よく、100あればそこそこの精度でアンケート実施できます。精度は統計学的にいうと「信頼係数」と「許容誤差」です。
サンプルサイズ400人とは、信頼係数95%、許容誤差±5%ぐらいの精度です。例えば、サービス利用意向ありと答えた人の割合が50%の場合、95%の確率で45~55%であるといえます。
「信頼係数」「許容誤差」とは何か、計算方法について紹介します。
アンケートのサンプルサイズ:理論編
無限母集団の場合(通常)
アンケート調査結果は、大体の場合、サービス利用意向あり50%など比率で表されます。なので、統計学の「母比率の推定」が使えます。詳細は下記記事を参照ください。

図は信頼係数95%のときのサンプルサイズです。アンケートを100回実施した場合に、母比率が推定区間に95回ぐらい入ることを「信頼係数95%」といいます。比率は正規分布に従うことが知られており、信頼係数と許容誤差を決めるとサンプルサイズを求めることができます。1.96は標準正規分布の97.5%点の値です。
比率は何%になるかわからない場合がほとんどかと思うので、サンプルサイズが最大になる比率50%で計算しておくとよいでしょう。
有限母集団の場合
有限母集団とは、調査対象全体に限りがあるときです。例えば、サブスクモデルのtoBユーザーにアンケート調査する場合です。
有限母集団の場合、そこからデータを抜き取っていくごとに、母集団に残るデータ数は減っていきます。それが、サンプリングに影響を与えます。そのため、有限母集団であり、とくに母集団全体が小さい場合、あるいは、母集団の大きさNのなかの標本サイズnが大きいときは、それを考慮した計算をする必要があります。
具体的には、分散に修正係数N-n/N-1を乗算して、標本誤差、サンプルサイズnが以下の通りになります。Nは有限母集団の全体数です。
$$修正標準誤差=\sqrt{\frac{N-n}{N-1}×\frac{p (1-p)}{n}}$$
$$n=\frac{N}{\left(\frac{許容誤差}{1.96}\right)^2×\frac{N-1}{p(1-p)}+1}$$
アンケートのサンプルサイズ:実践編
Googleスプレッドシート
無限母集団(通常)

図のように数式を入力すると計算できます。NORMINV関数は正規分布の逆関数で、引数に確率、平均、標準偏差を指定することで、パーセント点を計算できます(理論編の信頼係数95%の場合の1.96です)。
有限母集団

図のように数式を入力すると計算できます。セルB8に有限母集団全体数を追加して、理論編の数式どおり計算しています。
R
Rで実行するコードと実行結果です。
p - 0.5 #標本比率
delta - 0.05 #許容誤差
conf.level=0.95 #信頼係数
N - 200 #有限母集団数
n1 - qnorm((1-conf.level)/2)^2*p*(1-p)/delta^2
n2 - N/((delta/qnorm((1-conf.level)/2))^2*((N-1)/(p*(1-p)))+1)
n1
n2
> n1
[1] 384.1459
> n2
[1] 131.7495
さいごに
アンケート調査のサンプルサイズについて、母比率の推定を利用した理論と実践を紹介しました。他にも母比率の検定を利用した方法もあります。比較する相手(母集団)がある場合は、検定を利用した方法でサンプルサイズを求めます(検出力分析)。検出力分析については下記記事をご覧ください。
以上、お読みいただきありがとうございました。