質問<2372>2005/5/21
(1) 3択のクイズ5もんにでたらめに答えるとき正解数を表す確率変数を Xとするとき、 ①4題以上正解する確率P(4<_P)を求めよ ②Xの平均、分散を求めよ (2) 2択のクイズ100題にでたらめに答えるとき、 正解数を表す確率変数Xとするとき ①P(40<_X<_65)を求めよ ②P(|X-50|<_x)=0.95をみたすxを求めよ ★希望★完全解答★
お便り2005/5/29
from=亀田馬志
ヒロシです・・・。ホントは確率の問題に答えたくはなかとです・・・・・・。ヒロシです・・・。 高校の時確率・統計の授業寝てたとです・・・・・・。ヒロシです・・・。それどころか数学の 授業は昼寝の時間だったとです・・・・・・。ヒロシです・・・それが高校卒業後10年以上経 って確率・統計と格闘するハメになるとは思わんかったとです・・・・・・。ヒロシです・・・ ヒロシです・・・ヒロジスティック回帰分析・・・・・・(註:オチ無し) ってなワケで正直答える側にはまわりたく無かったんですよ(苦笑)。ハッキリ言って 『確率・統計』大ッ嫌いなんです(笑)。 しかしながら最近『確率・統計』の問題と格闘せざるを得なくなって(格闘の軌跡は掲 示板参照)、恥ずかしながら『最近』確率・統計をマトモに勉強し始めたんです。マジ で高校時代数学の授業中寝てました(笑)。だってつまんなかったんだもん(笑)。 まあ、今(現在進行形ですが)つい数週間前書いた掲示板のネタ読んでも赤っ恥な事と か見当ハズれの事書いてますね、多分(笑)。『数学良く知ってる人』読んだら失笑モ ンでしょう(笑)。ただ、まあ一つは『ヘルプして欲しい』ってのもあるんですが、数 学の学習法として、『生徒としてはエレガントに学ぶのが当たり前であって、キレイ に理解出来ないヤツはバカだ』とか思って欲しく無い、ってのもあるんです。結果何 でもそうなんですけど、『格闘』して当たり前なんですよ。『すぐ分からなくて』当 たり前なんです。そっちの方が『フツー』なんです。ってなワケで掲示板の方に生き 恥晒してるワケです(笑)。何かの参考にして下さい(笑)。 さて、行ってみましょうか。ハッキリ言って『見当違いの事』書く可能性大ですが、 その旨はご指摘宜しくお願いします。 ところで前もって言っておきますが、多分高校範囲では『確率分布』ってのを扱わな いと思うんですね。扱って無かったと思うな。うん、多分。寝てたから確証ねえけど (笑)。 理由として ①教科書が異様に薄かった(笑)。 ②微分・積分が絡むので微積覚えたての高校生には扱いがキビしい。 だから延々と『組み合わせ』とか『順列』しかやってなかったと思うんですよ。 ちなみに僕の彼女は大学4年生のバリバリの文系なんですが(笑)、彼女も大学で『単 位をただでくれる』ってんで『統計の授業』受けてた(?)らしいんです。その『教科 書』が散々貶してる(笑)『統計データ解析』って本です。んでまあ、色々な分布が 書いてある。 ただし『文系の人間』にも扱えるように、って事が理由なのかどうかは知らないん ですが、定義として積分絡んでいても実際は『分布表』なるモノを利用して『確率』 を求めてるんです。一切『積分計算』やらないんですね。実際それでいいのかどうか は知りませんが、まあ、少なくとも正規分布でさえ定積分はメンド臭そうですね。 さて、問題読むと、この問題は『二項分布』絡みです。しかしながら通常試行数が少 ないからかどうかは知りませんが、そんな『二項分布表』なるモノはありません。よ って御自分で試算するしかない。そこがこの問題だとネックだと思うんです。 ってなワケでこの問題がどう言う状況で出題されてるのか知りません。そして願わ くば『テスト問題』では無い、って祈りたいです。 結論から言うと、ほとんどのPCに付属として付いてる表計算ソフト『エクセル』を使 いながら話を進めて行きます。簡単な『式入力』を示唆して行くので、是非ともプロ グラムを起動しながら読んで行ってください。そしてエクセルは数学の『実験』行う にはワリに扱い易いソフトだと思うんで、(散々掲示板では腐してましたがね・笑。) せっかくパソコンあるんですから、是非ともこれを機にエクセルで“数学を色々試す” って事を覚えてください。 (1) 3択のクイズ5もんにでたらめに答えるとき正解数を表す確率変数をXとするとき、 ①4題以上正解する確率P(4<_P)を求めよ まずは軽く準備運動を。 クイズの様に『正解/不正解』の『2つ』しか結果が存在しないある関数f(x)を『2項 分布』と呼びます。掲示板では『ヘアヌードになる/ならない』とかフザけた事書い てましたが(笑)、まあそれも確かに『2項分布』です。つまり結果が『ある/ない』の 2種類しか存在しません。よって『確率』に於いてはもっとも基本的な関数です。(っ て事はもっと色々な別の関数もある、って事です。) では『二項分布とは何ぞや?意味は何だ?』ってのが問題なんですが、カタチを表記す るのは簡単なんですが、意味に付いては答えません(笑)。と言うかコレは事実上単な る『2変数関数』なんです。 敢えて分解して書きますが、コレがなかなか分解してみてもピンと来ない。しかし敢 えて分解してみようと思います。(註:combin(n,x)はnからx通り取り出した組み合わせ “combination"で、n!/{x!(n-x)!}を表す) ・f(x,p)=COMBIN(n,x)*(p^x)*(1-p)^(n-x) ↑ ↑↑ ↑↑ ↑ ↑ 確率 n:総試行回数|確率| p:確率 | | | | x:成功数(確率変数とも言う) つまり『確率』を表す関数f(x,p)ってのは2つの独立変数(x:成功数,p:確率)の関数 ・・・言い換えれば『確率の確率』関数なんですよね(笑)。コレがまたワケが分かりま せん(笑)。 この『確率の確率』関数を便宜上『確率分布』もしくは『確率密度関数』と呼びます。 通常前者は二項分布の様な『離散型確率』(飛び飛びの値を取る)、後者は『連続型確 率』(滑らかで連続的な値を取る)の為に使われる用語です。 さて、実は左辺f(x,p)の示す『確率』と右辺の独立変数としてのpの示す『確率』っ てのは字面は同じなんですが、意味は全然違うんです。この辺りホントは数学者に 『用語の整理』頼みたいトコですし、学習者の『混乱の原因』なんですが、便宜上左 辺を『確率B』、右辺のpを『確率A』とでもしましょう。 『確率A』ってのは『独立試行』で得られる確率を指します。『独立試行』ってのは 例えばコインをポンと一回投げる。そのトキの『表が出る、もしくは裏が出る』確率 を指します。そして仮に何度か同じ事をやってみても前後同士『結果に全く影響を及 ぼし合わない』ってのが条件なんです。 今ココで『ポンと一回投げる』って簡単に書いたんですが、実はこのpってのも『何ら かの関数』です(笑)。ホントのコト言えばpの値を求めるのも『何百回から何千回も 投げてみて』その『表が出た/裏が出た回数の試行数全体に対しての平均値(推定値と も言う)』を『仮に定数として扱って』問題を解く、ってのがセオリーです。そして 代数的には確率Bを用いてある数学的作業で確率Aの推定値(平均値)を求めないといけ ない。そして確率Bを求めるには推定値である確率Aがなきゃ・・・って可笑しいでしょ (笑)?ハッキリ言うとマンガみたいな『堂々巡りの関係』なんです(笑)。まるで『エ ッチな単語を国語辞典で引く』ようです(笑)。オホン、次行きまひょか(笑)。 ここまで行くと『確率B』=f(x,p)が示す『確率』ってのも予想が付きやすいと思いま す。『確率B』ってのは今度は『たった一回』じゃなくって『連続して試行した場合 の』確率ってのを示しています。その場合『確率B』ってのがどの様に振舞うか?それ が『確率分布』って関数の意味です。お分かり頂けたでしょうか? さて、二項分布に関しては残り『n』ってのがあるんですが、コレは特に『変数』と しては扱いません。と言うのも、『何回試すのか?』ってのは僕等が勝手に決める事 であるし、別に『確率に左右されて』変わる値ではないからです。反面『何回成功す るのか?』ってのは確率に左右されます(そして確率を左右します)。よって『確率変数 x=成功した数』ってのは二項分布上は『取りあえず』独立変数扱いします。 こんなトコでイイでしょうか?では問題入りましょう。 >3択のクイズ5もんにでたらめに答えるとき正解数を表す確率変数をXとするとき もうこの文章読んだだけで『二項分布』に翻訳出来ないといけません。『クイズに 正解/不正解』って条件で選ぶ関数は『二項分布』で決定です。間違いない!!!(by長井 秀和) 現在分かってる情報は次の通りです。 ・総試行回数n:5回(5問) これだけです(笑)。いやホント(笑)。 問題は次の一文なんですが、 >3択のクイズにでたらめに答える コレは『2項分布』の説明に書いた『p』の部分なんですが、一体コレをどう捉える のか、って事なんですよね。例えば、僕なんかは運が悪い事だけには自信があるん で(笑)、ハッキリ言って『3択問題を全部ハズしまくる』自信だけはあります(笑)。 ココがさっき書いた『独立試行』(確率A)の部分なんですが、取りあえず『p』を定数 にしてみる、そしてその『p』を推定値(平均値)にしてやる、ってのがセオリーです。 この問題の場合は『1問目正解したから2問目が簡単になる/難しくなる』とか言う連続 性は皆無です。よって独立した1問1問に対する『正解の確率(A)』ってのは平均で 『3択分の1』(と言う定数)では無いか、って『推測』が出来ます。あくまで『推測』 ですよ。ホントかどうかは分かりません。しかし『確率・統計の初学者』でもそれ くらいは決定しても良い権利があるようです。 以上の事より、この『問題設定の場合』は『二項分布』は ・f(x,1/3)=COMBIN(5,x)*{(1/3)^x}*(1-1/3)^(5-x) =【5!/{x!(5-x)!}】*{(1/3)^x}*(2/3)^(5-x) になります。 ここまでイイでしょうか?ここで実際『xを代入して』f(x,1/3)を計算して行くワケで すが、別に手算しても構いません。どうせ総試行数はたったの5回ですからね。ただ、 次の問題の為に練習を兼ねていよいよ『エクセル』を使ってみてみたいと思います。 ではエクセルのアイコンをダブルクリックして起動して下さい。 『エクセルの入門書』にはセルとかワークシートがどうのこうの、とか書いてるんで すが、ただでさえ時間が無いので端折ります(笑)。エクセルを起動すると調度画面の 左上にあたる『マス』がちょっと太い黒枠で囲まれています。そこが『セルA1』です。 試しに英小文字で『x』って打ってそのアト、リターンキーを押して下さい。そうす ると黒枠が一つ下に移動したハズです。そこが『セルA2』です。今した作業は『セルA1 に文字xを入力した』って事です。そしてA1、A2・・・って何を表してるのかもう何とな く分かりますよね?分からんのはオヤジくらいなモンです(笑)。 次は今セルA2に黒枠があるハズですんで、今度は数字の0を入力してみましょう。そ してリターンキーを押す。今度は黒枠がA3セルに移動。数字の0がセルA2に入力され たハズです。 ここでマウスでA2セルをクリックしてみて下さい。黒枠がまたもやA2セルに戻ってき てくれたハズです。さて、ここでその黒枠をよくよく見てみると長方形の右下の部分 に何か不自然な小さな四角形がありますよね?マウスのポインター(矢印)をそこに持っ て行って下さい。矢印が十字に変化します。 ここでキーボードにCtrlキーってのがあります。キーボードの最下段左から2番目か右 端にあるハズです。それを『押し続けて』下さい。何かヘンな添え字で『+』って出 てきましたか?そこでCtrlキーを『押し続けながら』セルA2をマウスでクリック、そ してそのまま(両方押しながら)十字型になったポインターをセルA7まで『引きずって (ドラッグして)』下さい。A7で両方のボタンから手を離す(笑)。そうするとA列の1~7 のセルまで『x,0,1,2,3,4,5』って入力されてるハズです。上手く行ったでしょうか? コレで『確率変数xの入力』は終了です。 次にB1セルへ移動します。もう黒枠の解説はイイですよね(笑)?マウス使おうが矢印 キー使おうがお好きなように。そこで・・・・・・そうだなあ、取りあえず名前としてB(n,p) とでも入力しましょうか。BってのはBinomial Distribution(二項分布)の頭文字で、 特に二項分布に限って言うと、f(x)の代わりに好んで使われたりします。まあ、取り あえず『名前』なんで何でもイイんですがね。大事なのは次からです。 黒枠をセルB2に移動させて下さい。ここで次の様に( イコールから)入力します。一字一句間違えないで下さい。(もしくはここからコピペ しても構いませんよ) =binomdist(a2,5,1/3,false) これ入力したアト、リターンキー押すと 0.131687 って数字になるハズです。この計算式指定をエクセルでは『関数』と呼びます。今回 は2項分布を計算させる関数『BINOMDIST関数』を使用します。このアト解説しますが、 取りあえずコピペをB2からB7までやっちゃって下さい。それらが『今回使いたい数字』 です。 =binomdist(a2,5,1/3,false) ↑ ↑ ↑↑↑ ↑ ↑ 『関数を使うトキは=から始める』 | | ||| | | 『関数の名前。今回はbinomdist関数』 ||| | | 『関数の名前の次は(で始める。そして)で終わる』 || | | 『確率変数xの指定。今回はセルa2からはじめた。コピペによりここの値はB列のセルに 拠ってa2~a7まで6つある。要確認。』 | | | 『試行回数の指定。今回は5回なので5と入力』 | | 『独立試行の確率pの指定。今回は3択なんで1/3』 | 『関数形式の指定。後述。今は“false”と指定』 a2,5,1/3,false等『指定する為の数』は『引数』と呼ばれ、それらの間はカンマ(,)で 区切ります。さて、上手く行ったでしょうか?成功してればエクセルは次のような数値 を返してくれるハズです。確認してみて下さい。 x B(n,p) 0 0.131687⇒成功数0回の確率は約13%である 1 0.329218⇒成功数1回の確率は約33%である 2 0.329218⇒成功数2回の確率は約33%である 3 0.164609⇒成功数3回の確率は約16%である 4 0.041152⇒成功数4回の確率は約4%である 5 0.004115⇒成功数5回の確率は約0.4%である コレは中々面白い結果だと思います。と言うのも仮に3択5問で100点満点のテストな んかがあった場合、1問だけ答えられて20点と2問だけ答えられて40点でも確率的には 『双方同じ確率』なんですよね(笑)。まあ、もっとも『テスト』で『デタラメに答え る』なんてのはあり得ないシチュエーションなんですが、この場合20点でも40点でも 『ほとんど偶然』とあんま変わんないんです(笑)。しかも0点取る方が3問正解するよ りムズかしい(笑)。面白いと言おうか励まされると言おうか(笑)。 さて、このままボーっと数値眺めて面白がっていてもしょうがないんで、問題に戻り ましょうか。 >>①4題以上正解する確率P(4<_P)を求めよ 4題正解する確率f(4,1/3)は0.041152です。 5題正解する確率f(5,1/3)は0.004115です。 よって4題『以上』正解する確率は f(4,1/3)+f(5,1/3)=0.041152+0.004115 =0.04526749 ≒約4.5% となります。こんな風に『足してやって』構わないんです。ここが『確率分布』使う と便利なトコロです。(コレはもしくは連続型確率分布である“正規分布”等をご存 知でしたら、“確率素分”から“面積=確率”を求める作業に対応してる、ってのは 分かると思います。ただし、二項分布の場合は“密度”は表してはいないんで、ニュ アンス的には“長さを足しあわせる”作業に該当します。) もう一つ解法があります。それは『累積分布関数』を使う手法です。『二項分布』の 場合は次の関数F(x)が『二項分布』の『累積分布関数』を表しています。 ・F(x)=Σf(x_i) (Σはi=0からk(0≦k≦n)までの和) =ΣCOMBIN(n,x_i)*(p^x_i)*(1-p)^(n-x_i) かなり厳めしい数式に見えますね(苦笑)。Σの上に組み合わせだってさ(笑)。 しかしながら『全部の確率=長さを足し合わせて行くと』って視点も中々有効かもし れません。問題に即して言うと、この場合の『累積分布関数』は ・F(x)=ΣCOMBIN(5,x_i)*(p^x_i)*(1-p)^(5-x_i) (Σはi=0からk(0≦k≦5)までの和。なおx_0=0、x_1=1・・・x_5=5となる) となり問題の『4題以上正解する確率』ってのは ・F(5)-F(3) =ΣCOMBIN(5,x_i)*(p^x_i)*(1-p)^(5-x_i) -ΣCOMBIN(5,x_i)*(p^x_i)*(1-p)^(5-x_i) になります。(註:Σの第1項目ってのはk=5までの和でΣの第2項目はk=3までの和) ちょっとややこしく見えるかもしれませんがエクセルで計算させるとラクです。取り あえずセルC1にF(x)とでも名前を打って下さい。そしてセルC2に次の数式を入力しま す。 =binomdist(a2,5,1/3,true) falseがtrueに変わっただけですよね。アトは全部同じです。コレがエクセルでの 『二項分布の累積分布関数』の書式です。そしてセルC2をセルC7までコピペします。 出来たでしょうか?エクセルは次の様に値を返してくれるハズです。(一列増えまし たね?) x B(n,p) F(x) 0 0.131687 0.131687 1 0.329218 0.460905 2 0.329218 0.790123 3 0.164609 0.954733 4 0.041152 0.995885 5 0.004115 1 ここでまず次の事が分かります。 ・B(n,p)を全部足し合わせたら1(=100%)になる まあ、『確率を全部足し合わせたら1になる』ってのは当たり前なんですが、こうも キレイな数字出ると気持ちイイですね(笑)。では参りましょうか。 『4題以上正解する確率』=F(5)-F(3) =1-0.954733 =0.045267 ≒4.5% まあ解答が同じになるのは当たり前です。しかしながら『コッチの計算』の方がさ すがにエクセル使ってもラクなんです。それは(2)の①で明らかになります。 ②Xの平均、分散を求めよ まず『確率変数』の平均値の定義から行きます。確率変数Xの平均値E(X)は次のよう に定義されます。 ・E(X)=(x_1)*(f_1)+(f_2)*(f_2)+・・・+(x_n)*(f_n) (ココでf_iはx_iに於いての確率) ここで気を付けて欲しいんですが、僕等は大体『平均』って言葉を聞くと、直観的に x_1+x_2+・・・+x_n ・平均=-------------------- n とか考えちゃうんですが、それは特に『確率変数』に関しては『間違い』になっちゃ うんです。(もっとも物理で言う重心なんかもホントは広義の“平均値”ではありま すがね。) てなワケで『確率変数の平均値』ってのを特に『期待値』等と呼んで区別する事も多 いようです。 さて、そこでまたエクセル使ってみましょう。ここで次のように考えます。 ・e(x_i)=(x_i)*(f_i) そして『期待値』E(X)は ・E(X)=Σe(x_i) (i=0,1,2,・・・・・・n) です。そこでまずセルD1に『e(x)』とでも入力しましょう。そして今、f_iが何を表 すか、と言うと、今まで散々関わっていた『二項分布』、B(n,p)です。 つまり、セルD2にはセルA1とセルB2との積を記入すればイイんです。よってセルD2に は次のように入力します。 =a2*b2 そしてセルD2をセルD7までコピペします。結果は次のようになるハズです。 x B(n,p) F(x) e(x) 0 0.131687 0.131687 0 1 0.329218 0.460905 0.329218 2 0.329218 0.790123 0.658436 3 0.164609 0.954732 0.493827 4 0.041152 0.995884 0.164609 5 0.004115 1 0.020576 さて、期待値E(X)=Σe(x_i)だったんでD列のセルを全部足し合わせれば期待値E(X) が求められます。そこでセルD8に次の様に入力してみて下さい。 =sum(d2:d7) 今新しく出てきた関数はsum関数と言います。これは『指定されたセル同士を足し合 わせろ』って命令です。 =sum(d2:d7) ↑↑↑↑↑↑ 『関数はいっつも=から始める』 ||||| 『sum関数を使う、と指定』 |||| 『関数は(で始まり)で終わる』 ||| 『足し始めるセルを指定。今回はd2』 || 『コロン(:)の意味は“~から”』 | 『足し終わるセルを指定。今回はd7』 さてセルD8に入力し終わったらエクセルは次の値を返してくれるハズです。 1.666667 と言うワケで、確率変数Xの平均値は1.67くらいだ、と言うコトが出来ます。 >>Xの分散を求めよ 次は確率変数Xの分散V(X)の定義です。単純化のため、ココではm=E(X)として表記し ます。 ・V(X)=f_1*{(x_1)-m}^2+f_2*{(x_2)-m}^2+・・・f_n*{(x_n)-m}^2 そこで『平均』を求めたのと同じ手法で、まずはv(x_i)ってのを作ってやります。 ・v(x_i)=f_i*{(x_i)-m}^2 そして最後に ・V(X)=Σv(x_i) ってのを求めてやればイイ。理屈は単純です。しかし一つだけ問題があります。そ れはv(x_i)の設定に関してです。例えば、今ココでセルE1にv(x)と入力してセルE2 に次の式を代入してE7までコピペしたとしても上手く計算出来ません。 =b2*(a2-d8)^2 それは何故かと言うと、先ほど求めたm=E(X)(セル番号で言うとD8)の入力方法に問 題があるからなんです。コピペすると、全部の数字がどんどんズレて行ってしまい ます。結果E3の値を計算するトキにはd9が引用されて、E4の場合はd10・・・とどんどん ズレていっちゃいます。そして計算が合わなくなるんです。(こう言うミスを通常 “バグ”と言います) 平均値を引用するセルは絶対d8で無ければならない。d8から“動いては”ならないん です。これをエクセル用語で『絶対参照』と呼びます。指定の方法は至極簡単です。 式は次の様に入力すれば良い。 =b2*(a2-$d$8)^2 ↑ 『絶対参照』のセルの入力方法。この場合は“コピペだろうと何だろうとセルD8から 動かすな”って意味。 $が二つ付いてますが、最初の$は『列を固定しろ』って意味です。つまり『D列から 動かすな』って意味です。2つ目は行に関してですね。『8行目から動かすな』って事 です。数学的に言うとこれで“座標が固定されました”(笑)。 さて、アトはコピペすればオッケーです。v(x)が加わるとエクセルは次のような値を 計算してくれます。 x B(n,p) F(x) e(x) v(x) 0 0.131687 0.131687 0 0.365798 1 0.329218 0.460905 0.329218 0.146319 2 0.329218 0.790123 0.658436 0.036579 3 0.164609 0.954732 0.493827 0.292638 4 0.041152 0.995884 0.164609 0.224051 5 0.004115 1 0.020576 0.045724 一応v(x)の計算式も確認してみて下さい。(適当なE列のセルをクリックすればエク セルの上に入力した式が表示されます。絶対参照セル$d$8がコピペによって動いて ないのが分かると思います。) そこでsum関数を使ってセルE8にでも式を入力して見て下さい。作業的には同じなん でココには式を書きません(笑)。ちなみに値は1.111111になるハズです。それが確率 変数Xの今回の問題に於いての『分散』です。 とか大量の作業を指し示したアトに何なんですが(笑)、実は二項分布の場合、平均値 E(X)は試行回数をn、独立事象の確率をpとして、 ・E(X)=np で書き表せるんです(笑)。今回nは5、pは1/3だったんで、コレ使えば実はアッサリ解 が出ます(笑)。 ついでに言うと、二項分布に於ける分散V(X)は ・V(X)=np(1-p) で書き表せます。数学って便利ですね(笑)。 しかしながらいわゆる『定理=公式』ってのがどれだけ信頼に価するのか『疑って確 かめてみる』ってのも時には大事です。と言うのも何よりも大事なのはまず『定義』 なんで、定義から直接導かれた値と公式化した『定理』を使った値が一致するのかど うか、せっかくエクセル使うんだったら試してみるのも一興だと思いました。 2種類の計算の値が一致する事を確認してみて下さい。 (2) 2択のクイズ100題にでたらめに答えるとき、 正解数を表す確率変数Xとするとき ①P(40<_X<_65)を求めよ ②P(|X-50|<_x)=0.95をみたすxを求めよ さて、これが難問です。2項分布でコレを計算するべきか否か・・・・・・?なんせ今回は 『試行回数』が100回です(笑)。しかしながら今回は『エクセルを使ってみる』って 前提なんで、やってみましょうか(笑)。なんせコンピューターが『メンドくせえ計算』 ってのは全てやってくれるんで(笑)。 ちなみにですが、普通だったら『二項分布』をそのまま計算しなきゃならないような 『問題設定』ってのはあんま無いと思います。大体『何らかの近似』を使うんですよ ね。もしくは問題そのものが『近似せよ』って指定をしてくれてるハズです。 近似法で代表的なのはもう一種の離散型確率『ポアソン分布』 ・f(x)={e^(-λ)}*(λ^x)/x! を使うやり方です。(コレはポアソン分布表なる便利なモノが普及している。) 『二項分布』を『ポアソン分布』で近似するにはλ=np(nは試行回数)と置いて計算 するんですが、実は『近似の為の』条件があります。次の2つです。 ①nが十分大きくないといけない。 まあn=100ってのが『十分大きいかどうか』ってのは議論が分かれるトコかもしれま せんが、『手計算でメンド臭い』ってのは『十分大きい』って認めてあげても良いで しょう。多分(笑)。(通常はn≧25くらい?) ②pが非常に小さくないといけない。 これも曖昧ですね(笑)。しかしながら問題設定『2択のクイズ』の場合は『正解する/ しない』の推定確率はおよそ1/2。つまり50%もあります。これは『大きい』って言 ってもイイんじゃないでしょうか?ちなみに競馬では単勝1番人気が勝つ確率でさえ 34.6%程です(笑)。それに比べれば50%なんてのは・・・(笑)。いや、コレは大きいで すよ(笑)。よって『ポアソン分布』では近似出来ません(笑)。まあ、通常pが5%より 小さい場合、『ポアソン分布で近似出来る』って考えて良さそうです。 もう一つの近似はご存知『正規分布』を使うやり方です。ここでは敢えて『正規分布 の式』なるモノは載せませんが、(メンド臭いんで・笑)、『二項分布』を『正規分布』 で近似するには ①問題となる『二項分布』の確率変数の平均値、およびn(1-p)が5よりも大きい。 今回は平均値が100×0.5で50、そして100×(1-0.5)ってのも50でこっちの条件は満 たしています。しかしながら、 ②『二項分布が適切な連続修正がなされている場合においてのみ』近似出来る。 ってのがもう一つ。と言うのも『二項分布』ってのは『連続な値』ってのを持たない ので、今回の問題設定見る限り『適切な連続修正』もクソもあったもんじゃございや せん(笑)。よって取りあえず『近似は出来ない』って方向性でやって行こうと思いま す。(ちなみにそれをアトで視覚的に検証してみましょう) (註:もっとも“近似する”ってのは昔、コンピューターが普及してなかった頃の苦肉 の策なんで、別に今みたいにパソコンが普及してるんだったらそれ程神経質にならん でもエエでしょう。便利な時代になったモノですね・笑。ちなみに“連続修正した” 二項分布と正規分布が近似できる、って定理を“中心極限定理”とか言うらしいです。 証明は知らんけど・笑。) さて、アトは問題(1)でやった方法の応用です。試行回数n=100、p=1/2の『二項分 布』をエクセル上に入力して行きます。セルA1をx、セルB1をB(n,p)、セルC1をF(x) とでも入力して行って、アトはそれぞれ適切な『関数』を2行目に設定してやってそ れぞれ102行目まで『コピペ』です(笑)。作業としてはものの5分もあれば出来るハズ です。(確率変数xの0,1,2,3.・・・って入力を100までやるのが普通だったら一番メンド 臭いんですが、ドラッギングに拠るショートカットは既に伝えてあります。) 出来たでしょうか?103行3列の『壮大な』確率分布表になってるハズです(笑)。中には 7.88861E-31 なる数が出てきて『バグったか?』とか思ったかもしれませんが、大丈夫です(笑)。 それはあんまりにも小さい数 7.88861×10^(-31) って意味なんで、特にコンピューターとかプログラムが壊れたワケではありません。 (余談ですが、エクセルの二項分布では試行数1,000を超えると途端におかしくなりま す・笑。コレは確かにマイクロソフト側のバグです。詳細は掲示板参照。しかしなが ら試行数100程度ならまだまだ“大丈夫”です。) さて、視覚的に『標準偏差』とどう違うのか見てみましょうか。エクセルでは上に A,B,C,・・・ってアルファベットが並んでいるんですが、分かるでしょうか?コレは『列』 を示すボタン群です。試しに『A』って書かれたボタンをクリックしてみて下さい。 そうすると『A列の色が全部水色になった』と思います。この作業を『列を選択する』 って言います。このアト適当なセル(例えば何も入力していないセルD1等)をクリック すると“選択”が解除されたと思います。普通の状態に戻りましたね? さて、この要領で次は『同時にA列とB列』を選択してみようと思います。要領は 『コピペ』と同じです。マウスの左ボタンを『A』でクリック『したまま』、そのまま 『B』までドラッグして下さい。今度はA列B列両方『青色』になったハズです。なりま したか? 次にエクセルの一番上に目をやります。『ファイル、編集、表示・・・・』って並んでま すよね?その中に『挿入』って項目があるハズです。その『ステキな単語』にワクワク ドキドキしながら(笑)、マウスのポインターをそこでクリックします。『プルダウン メニュー』って状態になるハズです。(依然A列とB列は青になったままです)そこには 『行、列、ワークシート、・・・』って色んな項目があるんですが、その中に『グラフ』 ってのがあります。そのまま『グラフ』ってのを選択して下さい。 そうするといきなり『グラフウィザード-1/4-グラフの種類』ってのが表れます。 そこには『グラフの種類』『形式』等と大きく二つの項目があるハズです。(他の項 目は取りあえず無視。) そこで色々選択を始めるんですが、『グラフの種類』で取りあえず『散布図』っての を選んでください。左の真ん中辺り(上から5番目?)にあるハズです。選びましたか? その選択に拠って右の『形式』ってのが変わります。散布図の形式は全部で5個ある ハズです。 でまあどれでもイイんですが・・・取りあえず『形式』の左上から2番目選んでみまし ょうか?下に実は解説も出てくるんですが、そこには『データポイントを平滑線でつ ないだ散布図です。』とご丁寧にも書いてあるハズです(笑)。まあその『形式』を 選択したアト、下のボタンにある『次へ(N)>』をクリックします。 そうすると『グラフウィザード-2/4-グラフの元データ』ってに切り替わります。 別にここで何やるワケでも無いんですが、キレイな『ベルカーヴ』ってのが表示され てますね?コレが今計算したばっかりの『二項分布』です。ドキドキワクワクしなが ら、またもや下の『次へ(N)>』ってのをクリックします。 今度は『グラフウィザード-3/4-グラフオプション』ってのが出てきます。グラフ タイトルってのがあってそこには『B(n,p)』って自動に出てますね。何かカッコイイ ですね(笑)。『俺(私)ってスゴイんじゃないの?』ってちょっと鼻穴膨らましながら 自分を誉めてください(笑)。別にココでも『何する』ってワケでもないんですが、 ちょっとラベリングしてみましょうか。『X/数値軸(A)』ってトコに『成功数』と でも記入してみましょう。同様に『Y/数値軸(V)』って書かれたトコに『成功率』 とでも入力して下さい。そいでもってまた下の『次へ(N)>』をクリックします。 最後に『グラフウィザード-4/4-グラフの作成場所』 ってのが出てくるハズです。そこでは『オブジェクト』ってのが自動選択されてる ハズなんですが、そこの表示が『Sheet1』になってるハズです。それを敢えて 『Sheet2』に変更してみますか。これで作業は完了です。下のボタン『完了(F)』 をクリックして下さい。 エクセルの画面が『Sheet2』に切り替わって今まで作業した結果の『グラフ』っての が出来てるハズです。サイズは好きに選べるので(マウスでグラフの右下を摘むと サイズを拡張する事が出来る)まあ、お好きなサイズでグラフを楽しんでください。 余談ですが、下に『Sheet1,Sheet2,Sheet3』ってな『付箋』があります。ここを クリックすると画面が切り替わるんです。『Sheet1』には確率分布表、『Sheet2』 には『Sheet1』を基本にした『グラフ』ってのが図示されてるワケです。しばらく 『グラフ』を楽しんで下さい(笑)。キレイなカタチしてますよね? さて、このままグラフ眺めていてもしゃーないんでちょっと考えてみましょう。 問題は『この曲線』が正規分布で近似出来るのかどうかと言う問題です。確かに 『概形』としては似てはいるんですが、差異を考えてみましょう。 『統計の授業』ってのを取ってらっしゃるなら『正規分布』のグラフの形ってのは 良くご存知だと思います。まず『正規分布』ってのは全体にもっとなだらかなんで すよね。このB(n,p)グラフってのはX=35~65の辺りで『急激に増えて』います。 正規分布はこんな増加のカタチはしてないんですよ。そしてそれ以外の範囲では 『ほとんどゼロ』です。(と言うか極限値への収束が正規分布に比べて早すぎます。) 専門的には『尖がったカタチの度合』ってんで『尖度』とか言うらしいんですが、 尖度がキツいんです。よって近似するんだったらいわゆる『正規分布』よりも尖度 が強い『ロジスティック分布』の方がマシなカンジもしますね。まあいずれにせよ、 Xの中央値から『どれだけ離れているのか?』(いわゆる偏差ですね)ってのが『近似が 成り立つ/成り立たない』の境界線のようなんで、この場合X=50からあんまりにも 離れているような点では『正規分布での近似はムリ』って結論を持っても良さそう です。(おそらくその辺りが問②への布石なんでしょう) ちなみに僕もこう言った問題を計算する度にエクセルで色々とシミュレーションして みるんですが、今回の問題の場合『正規分布』で近似出来るかどうか色々トライして みました。中央のX=50から離れていくとやはり『誤差』ってのが大きすぎる、って 結論になりました。手法としてはz=(X-50)/標準偏差で座標変換してみて・・・ってな カンジなんですが、それぞれ端っこの値の差を調べてみましたがあんまり具合が良く なかったです。まあ、プログラム上のエラーやっちゃった可能性もありますが、単 純に『二項分布の確率』で計算する方がコンピューター使う以上は簡単ですね。 てなワケで『グラフ』はもうイイんで『Sheet1』に戻して下さい。設問にまいりま しょう。 ①P(40<_X<_65)を求めよ これも『二項分布』使ってf(40)+f(41)+・・・+f(65)ってバカ正直に計算して行くテ もあるんですが、メンド臭いですね(笑)。コレは『二項分布の累積分布関数』を利用 した方が早いです。 ・F(65)-F(39) を計算します。エクセルC列で計算した『累積分布関数の値』ってのを見てみると、 ・F(65)=0.9991050 ・F(39)=0.0176001 となってます。よって、 P(40<_X<_65)=0.981504935 ≒98.2% となります。この範囲で全体の確率の98%程を占めてるんですね。 ②P(|X-50|<_x)=0.95をみたすxを求めよ この問題は少々テクニックを要します。とは言っても『考え方』さえ分かればアトは 計算はコンピューターがやってくれるので(笑)、まあ、そう言った意味では易しい 設問です。 まず『二項分布』等の『離散型確率』の性質なんですが、再三申し上げているように 『飛び飛びの値』しか持たない『確率分布』なんで『95%の範囲は何ですか?』とか言 われても『95%』って値そのモノを持たない可能性も高いんです。まずコレをアタマ に入れておいて下さい。 さて、そこで|X-50|と言う表現なんですが、コレは『X=50を始点として考え て前後どれくらいの範囲で』って意味です。50って何なのか?と言うと当然今の問題 の場合確率変数Xの中央値です。ここを中央として左右対象に二項分布B(n,p)のベル カーヴは描かれてたんですよね?不安でしたらもう一回Sheet2をチェックするなり Sheet1のX=50前後B(n,p)の実値を調べてみて下さい。X=50を中心に前後に『同じ 数同士』が並んでいってるハズです。つまり、高さ(長さ)で考えるとX=50の時の B(n,p)の『高さ』が一番大きく、続いてその前後の『高さ』が同じで、その両側の 『高さ』がまた同じ・・・ってなって行ってるんです。 さて、設問(1)で見たとおり、累積分布関数の値で考えると確率分布B(n,p)の値を 『全部足す』と必ず1(=100%)になります。今回もなってますよね?C列のF(100)辺 りを調べてください。誤差がありますがその辺りの数字は『ほぼ全部100%』って値 を示しています。(多分表示としてはF(80)辺りから全部“1”を示しているハズです) コレは大変重要な性質で、次のコトが言えるんです。 ①どこを始点として“高さ”を足して行こうが、結局トータルの高さは1になってし まう。 そして、グラフはX=50を中心に左右対称でした。つまり、①と合わせて鑑みると、 ②X=50の高さの1/2に(グラフで言うと)左の方向に順次足してやった高さB(n,p)の総 和とX=50から右に足してやった高さB(n,p)の総和は等しい。かつそれぞれの総和は 0.5となる って性質があるんです。お分かりでしょうか? つまり問題としては >>0.95をみたすxを求めよ ってのは >>X=50のB(n,p)を2で割ったモノにxに準じた高さB(n,p)を順次加えて行ったトキ、 0.475(=0.95/2)を示す付近のxを探せ って意味なんです。それではやってみましょう。 列Dを使います。X=50に対応するセルはD52になりますが、ここには何も入力しませ ん。代わりにまずセルD51(x=49に対応)に次の様に入力します。 =sum($b$52:b51)-$d$52/2 ↑ ↑ ↑ 『絶対参照で加算の初期値を指定。この場合はX=50に対応するB(n,p)を指定してる。 よってセルb52を固定。』 | | 『加算の終値を指定。この場合はB(n,p)の値がxに拠って変わっても構わない。今は x=49に対応してるB(n,p)のセルB51を指定してるが、コレはコピペによって値は変化 する。』 | 『初期値B52の半分を差し引く。当然絶対参照で指定。』 そしてD51をコピー、『上に向かって』セルD2まで『ペースト』します。まずコレで 作業は半分終了です。 次にセルD53に式を入力します。入力する内容は御自分で考えてください。基本は先 ほどの作業と同じです。 さて、入力作業が終わるとD列見ると、それぞれのセルが演算結果ってのを表示して くれてます。それをザーっと眺めてみると、次の値が目に付きます。 ・x=40のトキ、セルD42の値:0.482400 ・x=41のトキ、セルD43の値:0.471556 ・x=59のトキ、セルD61の値:0.471556 ・x=60のトキ、セルD62の値:0.482400 予告した通り『0.95』を示すxの値、ってのは存在しないようです。何故ならxは二項 分布の定義上、『正の整数』しか取り得ないからです。 しかしながらP=0.95ってのは |X-50|≦10⇔『中央値50からの変数Xまでの距離は10以下じゃないといけない』 ってのが言えます。 よって ・x=10 ってのが答えになります。