11.母集団とサンプリング
nを変えてみよう
このページは電子ブック「探求 数学B・C」の一部です。
1.母集団と標本平均
<サンプリング>
膨大なデータを網羅することは難しい。
たとえば、工場で作る商品の検査を全件でするとなると、相当な費用がかかる。
そこで、適当にピックアップしてチェックすることで不良品を減らすようなことはよくあることだね。
工場でなくても、社会調査とか、全日本人の男性の身長の平均を推定するとか、年代ごとの男女の比率
を調べるとか、膨大なデータをすべて調べることは不可能。
そこでやることはサンプリングだ。
本当の全体集合としてのデータを母集団[polulation]という。そこから抽出された一部分のデータを標本、サンプル[sample]という。全体から一部のデータを抽出することを標本調査、サンプリング[sampling]という。
母集団のもつ平均、分散μ,σ2は全件データによる数値で母集団の性質を表している。
母平均、母分散と名付ける。
サンプリング自体が確率的なプロセスだから、もしn個のサンプルを取ったとき、
X={X1,....Xn}はすべて確率変数で、それから計算した、平均x、分散s2も確率変数とみなすことになる。
標本平均、標本分散と言う。
サンプルを取るたびに標本平均、標本分散ともに変化するから、これらも確率変数になる。
サンプリングでは、1つ1つのサンプルではなく、サンプルの標本平均、標本分散を確率変数として、
統計処理する。そのことで、母集団の分布を推定することになる。
・標本平均をmとする。これ自体が確率変数である。
m=1/n∑xiで、mが確率変数だから、それ自体にばらつきがあり、平均があり、分散がある。
しかし、そのもとになっているデータは母集団のものだから、それらの1つ1つのデータは
母集団の母平均、母分散になる分布に従っている。
期待値は線形関数なので、
E(m)=E(1/n∑xi)=1/n∑E(xi)=1/n・n・μ=μ
つまり、E(m)=μ(母平均と等しい)
分散は1次の係数が2乗されるので、
V(m)=V(1/n∑xi)=(1/n)2∑V(xi)=(1/n)2・n・σ2=1/n・σ2
V(m)=σ2/n(母分散÷サンプルサイズn)
σ(m)=σ/√n(母標準偏差÷サンプルサイズnの平方根)=SE(標準誤差)
だから、Xの母集団の平均がμで,分散がσ2のとき、nが十分大きいと
Xの標本平均mの分布が正規分布のN(μ, 1/n・σ2)に近づく。
nが限りなく大きくなると、 1/n・σ2は0に近づく(中心極限定理)
・標本分散をs2とする。これ自体が確率変数である。
1回のサンプリングの標本平均をYとするとき、標本分散はs2=1/n∑(xi-Y)2
s2は確率変数だから、それ自体にばらつきがあり、平均があり、分散がある。
しかし、そのもとになっているデータは母集団のものだから、それらの1つ1つのデータは
母集団の母平均、母分散になる分布に従っている。
s2=1/n∑(xi-Y)2=1/n∑(xi-μ+μ-Y)2=1/n∑((xi-μ)-(Y-μ))2=....(略).......=1/n∑(xi-μ)2-(Y-μ)2
期待値は線形関数なので、
E(s2)=E(1/n∑(xi-μ)2-(Y-μ)2)=1/n∑E(xi-μ)2-E((Y-μ)2)=1/n・n・σ2-1/n・σ2=(1-1/n)・σ2
つまり、E(s2)=(n-1)/n・σ2(母分散の1-1/n 倍)
2。母数のパラメータを推定する
<標準誤差Standard Error>
標準誤差SE = 標本分布に現れるばらつきで、母標準偏差/標本サイズの平方根=σ/√n
標準誤差の大きさは、標本サイズ の平方根に反比例する。
たとえば、標本サイズが4倍になると、標準誤差は1/2になる。
(例)
n=2のときSEは母標準偏差の1/√2=0.70倍
n=10のときSEは母標準偏差の1/√10=0.31倍
(大数の法則)こうして、nを大きくすると、標本誤差が小さくなるから、標本平均mは母平均μに近づく。
<点推定(Point Estimate)>
標本平均mから母平均μを推測することを点推定という。
標本平均mは確率変数であり母平均μとは違う。
しかし、標本平均mの平均(期待値)E(m)は母平均μと一致する。
そのために、標本平均mは母平均の不偏(unbiased)な推定量と言われる。
<区間推定(Interval Estimate)>
区間推定:母数を推定に幅をもたせた区間で推定する。
信頼区間(confidence interval; CI)
標準正規分布N(0,1)の特徴:[-1.96, 1.96] の区間にデータの95%が収まることを利用する。
そのために、標本平均データを標準化する。
標本平均mの平均E(m) = 母平均μ
標本平均mの標準偏差σ(m) = 標準誤差 (SE)
‣ 標本平均mの z値は、z =(x¯ − μ)/SE=(x¯ − μx)/(σ/√N)
たくさんある標本の95%についてz値は−1.96 ≤ z ≤ 1.96の区間に収まる。
これを解くとxの母平均μの95%信頼区間が[x¯ − 1.96 ⋅ SE, x¯ + 1.96 ⋅ SE]となる。
だから、これは標準化していない一般の正規分布での95%信頼区間を表す。
ちなみに、
・50%信頼区間:標本平均 ± 0.67SE
・99%信頼区間:標本平均 ± 2.58SE
・99.9%信頼区間:標本平均 ± 3.29SE
(例)
「母集団(平均μ,標準偏差σ)からn255のサンプルを調べたら平均x=102で、標準偏差s=5だった。母平均の信頼度95%での推定」は?
E(x)=μ、V(x)=σ/√255=σ/15から、xは正規分布N(μ,σ2/255)に従う。そこで、xを標準化しよう。
z=(z-μ)/(σ/15)の変換で標準正規分布N(0,1)となる。
信頼度95%区間はzは[-1.96, 1.96] で、xはその(σ/15)倍してμをたす。
μを102で代用し、σをs=5で代用するから、[102-1.96・5/15, 102+1.96・5/15]=[101.35, 102.65]。
<比率の推定>
母集団の中の女子の比率を、サンプルの女子の比率から推理するなどのように、集団に占める比率の推定
をしたいときがある。品質検査ならば規格外の製品の比率をサンプルから推定するなどもそうだ。
性質Aをもつ個体の母比率をpとし、サンプルでの標本比率R=X/nの分布はどうなるだろう。
nが十分大きいとXが二項分布B(n,p)に従っている考えられる。
Xの期待値E(X)=np,分散V(X)=npq(p+q=1)だから、
平均E(R)=E(X/n)=1/n・np=p、分散V(R)=V(X/n)=(1/n)2V(X)=1/n2・npq=pq/nの
Rの分布は正規分布N(p, pq/n)(p+q=1)に従うとみなせるだろう。
95%信頼区間の推定はSE=√(pq/n)(p+q=1)とおくと、[R − 1.96 ⋅ SE, R + 1.96 ⋅ SE]となる。
そこで、pをRで代用して、SE=√R(1-R)/nとすることで、標本比率Rから推定できるね。。
(例)
「n400サンプルでAが32あったとき、A率の母比率pを信頼度95%で推定」すると?
標本比率R=32/400=0.08。d=1.96・SE=1.96√R(1-R)/n=1.96√0.08(1.92)/400=0.027。
[0.08-d, 0.08+d]=[0.080-0.027,0.080-0.027]=[0.053, 0.107]