１１．母集団とサンプリング

ｎを変えてみよう

このページは電子ブック「探求　数学B・C」の一部です。

１．母集団と標本平均

＜サンプリング＞ 膨大なデータを網羅することは難しい。たとえば、工場で作る商品の検査を全件でするとなると、相当な費用がかかる。そこで、適当にピックアップしてチェックすることで不良品を減らすようなことはよくあることだね。工場でなくても、社会調査とか、全日本人の男性の身長の平均を推定するとか、年代ごとの男女の比率を調べるとか、膨大なデータをすべて調べることは不可能。そこでやることはサンプリングだ。本当の全体集合としてのデータを母集団[polulation]という。そこから抽出された一部分のデータを標本、サンプル[sample]という。全体から一部のデータを抽出することを標本調査、サンプリング[sampling]という。母集団のもつ平均、分散μ，σ²は全件データによる数値で母集団の性質を表している。 母平均、母分散と名付ける。 サンプリング自体が確率的なプロセスだから、もしｎ個のサンプルを取ったとき、 X={X1,....Xn}はすべて確率変数で、それから計算した、平均ｘ、分散ｓ²も確率変数とみなすことになる。 標本平均、標本分散と言う。サンプルを取るたびに標本平均、標本分散ともに変化するから、これらも確率変数になる。サンプリングでは、１つ１つのサンプルではなく、サンプルの標本平均、標本分散を確率変数として、統計処理する。そのことで、母集団の分布を推定することになる。・標本平均をmとする。これ自体が確率変数である。 m＝1/n∑xiで、mが確率変数だから、それ自体にばらつきがあり、平均があり、分散がある。しかし、そのもとになっているデータは母集団のものだから、それらの１つ１つのデータは母集団の母平均、母分散になる分布に従っている。期待値は線形関数なので、 E(m)=E(1/n∑xi)=1/n∑E(xi)=1/n・n・μ=μ つまり、E(m)=μ(母平均と等しい） 分散は1次の係数が2乗されるので、 V(m)=V(1/n∑xi)=(1/n)²∑V(xi)=(1/n)²・n・σ²=1/n・σ² V(m)=σ²/n（母分散÷サンプルサイズn) σ(m)=σ/√n（母標準偏差÷サンプルサイズnの平方根)=SE（標準誤差） だから、Xの母集団の平均がμで,分散がσ²のとき、ｎが十分大きいと Xの標本平均mの分布が正規分布のN(μ, 1/n・σ²)に近づく。ｎが限りなく大きくなると、 1/n・σ²は０に近づく（中心極限定理）・標本分散をs²とする。これ自体が確率変数である。 1回のサンプリングの標本平均をYとするとき、標本分散はs²＝1/n∑(xi-Y)² s2は確率変数だから、それ自体にばらつきがあり、平均があり、分散がある。しかし、そのもとになっているデータは母集団のものだから、それらの１つ１つのデータは母集団の母平均、母分散になる分布に従っている。ｓ²=1/n∑(xi-Y)²=1/n∑(xi-μ+μ-Y)²=1/n∑((xi-μ)-(Y-μ))²=....(略).......=1/n∑(xi-μ)²-(Y-μ)² 期待値は線形関数なので、 E(ｓ²)=E(1/n∑(xi-μ)²-(Y-μ)²)=1/n∑E(xi-μ)²-E((Y-μ)²)=1/n・n・σ²-1/n・σ²=(1-1/n)・σ² つまり、E(ｓ²)=(n-1)/n・σ²（母分散の1-1/n　倍)

２。母数のパラメータを推定する

＜標準誤差Standard Error＞ 標準誤差SE = 標本分布に現れるばらつきで、母標準偏差/標本サイズの平方根=σ/√n 標準誤差の大きさは、標本サイズの平方根に反比例する。たとえば、標本サイズが４倍になると、標準誤差は1/2になる。（例）ｎ＝２のときSEは母標準偏差の1/√2=0.70倍ｎ＝10のときSEは母標準偏差の1/√10=0.31倍（大数の法則）こうして、ｎを大きくすると、標本誤差が小さくなるから、標本平均ｍは母平均μに近づく。 ＜点推定（Point Estimate)＞ 標本平均mから母平均μを推測することを点推定という。標本平均mは確率変数であり母平均μとは違う。しかし、標本平均mの平均（期待値）E(m)は母平均μと一致する。そのために、標本平均mは母平均の不偏（unbiased)な推定量と言われる。 ＜区間推定（Interval Estimate）＞ 区間推定：母数を推定に幅をもたせた区間で推定する。 信頼区間（confidence　interval; CI） 標準正規分布N(0,1)の特徴：[-1.96, 1.96] の区間にデータの95%が収まることを利用する。そのために、標本平均データを標準化する。標本平均mの平均E(m) = 母平均μ 標本平均mの標準偏差σ(m) = 標準誤差 (SE) ‣ 標本平均mの z値は、z =(x¯ − μ)/SE=(x¯ − μx)/(σ/√N) たくさんある標本の95%についてｚ値は−1.96 ≤ z ≤ 1.96の区間に収まる。これを解くとｘの母平均μの95％信頼区間が[x¯ − 1.96 ⋅ SE, x¯ + 1.96 ⋅ SE]となる。だから、これは標準化していない一般の正規分布での95％信頼区間を表す。ちなみに、・50%信頼区間：標本平均 ± 0.67SE ・99%信頼区間：標本平均 ± 2.58SE ・99.9%信頼区間：標本平均 ± 3.29SE （例）「母集団（平均μ,標準偏差σ）からｎ255のサンプルを調べたら平均x=102で、標準偏差s=5だった。母平均の信頼度95％での推定」は？ E(x)=μ、V(x)=σ/√255=σ/15から、ｘは正規分布N(μ,σ²/255)に従う。そこで、ｘを標準化しよう。 z=(z-μ)/(σ/15)の変換で標準正規分布N(0,1)となる。信頼度95％区間はｚは[-1.96, 1.96] で、ｘはその(σ/15)倍してμをたす。 μを102で代用し、σをs=5で代用するから、[102-1.96・5/15, 102+1.96・5/15]=[101.35, 102.65]。 ＜比率の推定＞ 母集団の中の女子の比率を、サンプルの女子の比率から推理するなどのように、集団に占める比率の推定をしたいときがある。品質検査ならば規格外の製品の比率をサンプルから推定するなどもそうだ。性質Aをもつ個体の母比率をｐとし、サンプルでの標本比率R=X/nの分布はどうなるだろう。ｎが十分大きいとXが二項分布B(n,p)に従っている考えられる。 Xの期待値E(X)=np,分散V(X)＝npq(p+q=1)だから、平均E(R)=E(X/n)=1/n・np=p、分散V(R)=V(X/n)=(1/n)²V(X)=1/n²・npq=pq/nの Rの分布は正規分布N(p, pq/n)(p+q=1)に従うとみなせるだろう。 95％信頼区間の推定はSE＝√(pq/n)(p+q=1)とおくと、[R − 1.96 ⋅ SE, R + 1.96 ⋅ SE]となる。そこで、pをRで代用して、SE=√R(1-R)/nとすることで、標本比率Rから推定できるね。。（例）「ｎ400サンプルでAが32あったとき、A率の母比率ｐを信頼度95％で推定」すると？標本比率R=32/400=0.08。d=1.96・SE=1.96√R(1-R)/n=1.96√0.08(1.92)/400=0.027。 [0.08-d, 0.08+d]=[0.080-0.027,0.080-0.027]=[0.053, 0.107]

１１．母集団とサンプリング

ｎを変えてみよう

１．母集団と標本平均

２。母数のパラメータを推定する

★９５％信頼区間のもと

新しい教材

教材を発見

トピックを見つける