Googleクラスルーム
GeoGebraGeoGebra Classroom

8.確率変数と標準偏差

★PMFは相対度数で、CDFはPMFの順次累加

このページは電子ブック探求 数学B・Cの一部です。

1.確率変数

<確率変数に対する相対度数> たとえば、サイコロをふって出る目や、コイン投げの裏表など、どれがでるか決まっていないようなこころみ実験・試行[experiment]結果[outcome]の値を確率変数[random variables]という。 (例1) 1つのサイコロをふるときの目をXと表すとき、X=nに対する確率[probability],相対度数[relative frequency]をp(X=n)とかき、分布関数[distriburion function]という。 その和はp(X=1)+p(X=2)+p(X=3)+p(X=4)+p(X=5)+p(X=6)=1で、それぞれ負にならない。
X123456
p1/61/61/61/61/61/6
実験をする前なら、6つの確率はすべて等しくなると予想される。 しかし、理想的なサイコロはないし、有限回の実験では多少の歪みが観測されでしょう。
(例2) また、2つのサイコロをふるときの目の和をXと表すとしたら、p(X=n)のn=2からn=12までの和は1になり、それぞれの確率は負にならない。
X23456789101112
p1/362/363/364/365/366/365/364/363/362/361/36
・例1では、一様[uniform]で平ら[flat]に、例2では左右対称山型になっていた。 分布の形はちがうが、2つの例とも、それぞれの確率変数に対応して、合計確率1を重み[mass]付けをして振り分けていると言えるね。確率変数どちらの例でも、確率変数は離散量[discrete]で、分布関数の総和=1で、値は非負。 この分布関数確率質量関数pmf[probability mass function]という。 Xが離散量なので、横軸をXにして、たて軸を分布関数値として、棒グラフにすることがある。 これをヒストグラム,相対度数グラフ[Histogram,relative frequency diagram]ということがある。たいていはヒストグラムという。 <相対度数の累積> ヒストグラムはpmfの視覚化になっている。1つ1つの確率変数に対する確率がほしいときもあるが、 Xが7以下の確率とか、Xが4未満の確率とか、pmfを累積したい場面がある。 そのために、累積分布関数CDF[cumulative distribution function]を作ったりする。 たとえば、2つのサイコロをふるときの目の和をXにするときの、p(X=n)はpmf。 p(X<=7)=p(X=2)+p(X=3)+p(X=4)+p(X=5)+p(X=6)+p(X=7)=1/36+2/36+3/36+4/36+5/36+6/36=21/36=7/12 のように、いちいと相対度数を順にたし算するのも手間なので、最初から関数やリストにしておくとよい。F(a)= が累積分布関数だ。この場合はF(7)を求めれば良い。

★PMFとHistogram

★pとEとVとσ

2.期待値から標準偏差まで

<期待値>「さいころを2つふったときの目の和の期待値[expected value]」は? 確率変数Xがサイコロを2つふったときの目の和とするとき、X=xに対する確率p(X=x)をxにかけた xp(X=x)を合計したものが期待値E(X)である。 E(X)=∑xp(X=x) これは、平均値m(mean)を表しているとも言える。 (理由) X=xiの度数をfiとし、相対度数をfi/Nとする。 期待値E(X)=∑xi・fi/N=1/N・∑xi・fi=mean(平均) <分散は偏差2乗の期待値> E(X)=mとするとき、偏差の2乗(X-m)2の平均(期待値)は分散(variance 略してV(X))。 V(X)=。 データと平均の差を偏差という。分散=偏差の2乗の平均であり、偏差2乗の期待値でもある。 (例)式変形により、分散V(X)=(2乗の平均)ー(平均の2乗)=E(X2)-m2 標準偏差(standard deviation略して、sd、σ(X)):分散の平方根。 ルートすることで、分散の次元を変量と同じにし足し引きできるようにしたものに意味がでる。 偏差値:平均を偏差値50とすると、σ(シグマの小文字)が偏差値10の差に相等とする。 (例) 「1から10で止まるルーレットを10回まわした結果data=[6,4,10,6,9,6,10,6,1,8]と出たときの標準偏差」は? pythonで計算する。 データ個数n=len(data)=10 平均m=sum(data)/n=66/10=6.6。 偏差diff=[ x- m for x in data] =[-0.6,-2.6, 3.4, -0.6, 2.4, -0.6, 3.4,-0.6,-5.6, 1.4]。 偏差2乗sqr[ x*x for x in diff] 分散var=sum(sqr)/n=7.04 標準偏差σ=pow(var, 0.5)= 2.6532998322843198 (例) 平均点が30点で、標準偏差が15点のテストの場合、 0,15,30,45,60,75(点)の順に偏差値30,40,50,60,70,80になる。 (例) 「赤玉2個、白玉4個の入った袋から同時に3個の玉を取り出したときの赤玉の個数をXとするとき標準偏差」は? X=0,1,2に対応するpは順に4C3/6C3=4/20=1/5, 2C1・4C2/6C3=12/20=3/5, 4C1/6C3=4/20=1/5。 E(X)=m=0・1/5+1・3/5+2・1/5=1。 V(X)=E(X2)-m2=02・1/5+12・3/5+22・1/5 - 12=7/5-1=2/5 σ(X)=√(2/5)=1/5√10 (例) 1から5までの整数がかかれたカードが1枚ずつある。この中から1枚のカードを引くときのカードの数について、素数ならX=1,そうでないならX=2とし、奇数ならY=1,そうでないならY=2とする。このとき、E(X+Y)」は? X=1,2に対応するpは順に3/5,2/5。Y=1,2に対応するpは3/5,2/5。 E(X)=m=1・3/5+2・2/5=7/5=E(Y)。E(X+Y)=E(X)+E(Y)=7/5+7/5=14/5。

3.確率変数の操作

<確率変数の変換> 確率変数X=xiの度数をfiとし、相対度数(確率)をfi/N=pi、 E(X)=∑xipi=m、∑pi=1だ。 それでは、 Xをa倍してbを加えるという変換g、Y=g(X)=aX+bについて調べよう。 ・変数を変化させても対応する確率自体は変わらない。  P(Y)=P(X)。 ・期待値(平均値)はどうだろう。  E(Y)=E(aX+b)=∑(aX+b)pi=a∑xpi+b∑pi=aE(X)+b=g(E(X))=g(m) 変換gが線形変換で、Eの計算が線形だから、そのまま影響されているね。 ・では、分散(偏差の2乗の平均)はどうなる?  偏差2乗はg((X-m)2)=(g(X-m))2=(g(X)-g(m))2=(aX+b-(am+b))2=(a(X-m))2=a2(X-m)2 したがって、V(aX+b)=E(g(X-m)2)=a2E(X-m)2=a2V(X) 変換gの定数(a)倍の部分だけ定数の2乗(a2)倍という影響が出るね。 ・標準偏差は分散のルートなので、a2倍がa倍に変化するだけだね。  σ(aX+b)=√(a2V(X))=|a|√V(X) <確率変数の和> 同じ実験について、2つの確率変数X,Yを調べるとき、総数は共通なので、 期待値(平均)を求める操作は定数倍と和のところが違うだけになる。だから、線形になる。 E(X+Y)=E(X)+E(Y) (例) 確率変数X=18,23,28,33,38,43,48に対する度数が1,2,2,5,3,5,2のとき、変数変換Y=(X-33)/5をするときの、 E(Y),E(X),V(X),σ(X)」は? 度数和N=1+2+2+5+3+5+2=20。Y=-3,-2,-1,0,1,2,3に対してY2=9,4,1,0,1,4,9。 E(Y)=(-3・1+(-2)・2+-1・2+0・5+1・3+2・5+3・2)/20=10/20=1/2 V(Y)=E(Y2)-m2=(9・1+4・2+1・2+0・5+1・3+4・5+9・2)/20- (1/2)2=3-1/4=11/4 X=5Y+33で確率変数をYからXにもどせばよいね。 E(X)=E(5Y+33)=5(Y)+33=1/2・5+33=71/4。V(X)=52(V(Y))=11/4・25=275/4。σ(X)=√(275/4)=5/2√11