Simulation showing bias in sample variance | Probability and Statistics | Khan Academy

Khan Academy

26 Nov 201206:24

Summary

TLDRこのシミュレーションは、真の母集団分散を推定する際、なぜn-1で割るのかを理解するために作成されたものです。サンプルサイズが小さいほど、サンプル平均が母集団平均から大きく外れる傾向があり、その結果、分散を過小評価しがちです。ビデオは、バイアスのある分散推定がどのように真の母集団分散に近づくのかを示し、n-1で割ることでバイアスを取り除き、より正確な分散推定が得られることを説明しています。

Takeaways

😀 サンプル分散の不偏推定量を求めるために、n-1で割る理由を理解するためのシミュレーションが紹介されています。
😀 シミュレーションでは、異なる分布の母集団を生成し、各サンプルサイズ（2〜10）に対してサンプルを抽出し、サンプル統計量（特にバイアスのあるサンプル分散）を計算します。
😀 母集団の平均（10.9）と分散（25.5）を直接計算し、その母集団に基づいてサンプルを抽出し、サンプルの統計量を計算するプロセスを示しています。
😀 バイアスのあるサンプル分散を計算する過程では、サンプルの平均から各データ点を引いて二乗し、その結果をnで割ることが示されています。
😀 サンプルの平均が母集団の平均から大きく外れている場合、サンプル分散が過小評価される傾向があることが示されています。
😀 小さいサンプルサイズ（ピンク色）の場合、サンプル平均が母集団平均から外れていることが多く、その結果、サンプル分散が過小評価されやすいことが示されています。
😀 大きいサンプルサイズ（青色）の場合、サンプル平均が母集団平均に近づき、サンプル分散の推定がより正確になる傾向があります。
😀 サンプルサイズが小さいと、サンプル分散が母集団の分散を過小評価する確率が高くなることが強調されています。
😀 各サンプルサイズにおけるバイアスのあるサンプル分散と母集団分散の比率を計算した結果、サンプルサイズが2の場合、バイアスのある分散が母集団分散の半分に近づき、サイズが増えるとその比率が増加することが分かります。
😀 最終的に、不偏推定量を得るためには、バイアスのあるサンプル分散をn/(n-1)で乗算する必要があることが示されています。これにより、正確な母集団分散が得られます。

Q & A

サンプル分散の計算で、なぜn-1で割るのか？
-n-1で割る理由は、無偏推定量を得るためです。標本から母集団の分散を推定する際、nで割ると偏った推定値になり、n-1で割ることで母集団分散に対する無偏推定が得られます。
このシミュレーションはどのように動作しますか？
-シミュレーションは、ランダムに生成された母集団分布を元に、異なるサンプルサイズ（2から10まで）でサンプリングを行い、各サンプルに対する平均と分散を計算します。これにより、サンプル分散の偏りとその修正方法が示されます。
母集団の分散と標本分散の違いは何ですか？
-母集団分散は、全てのデータ点に基づいて計算される分散であり、標本分散はその一部をサンプリングして計算される分散です。標本分散は、母集団分散を推定するための方法ですが、サンプルサイズが小さい場合はバイアスが生じることがあります。
サンプルサイズが小さいと何が起こるのですか？
-サンプルサイズが小さいと、標本の平均が母集団平均から大きく外れる可能性が高く、これによりサンプル分散が過小評価されることがあります。この現象はシミュレーションの中で赤色の点として視覚的に確認できます。
なぜバイアスのあるサンプル分散を使ってはいけないのですか？
-バイアスのあるサンプル分散では、母集団分散を正確に推定できません。特に、サンプルサイズが小さい場合、母集団分散を過小評価してしまうため、推定値に誤差が生じる可能性があります。
サンプル分散のバイアスをどのように修正できますか？
-バイアスを修正するためには、サンプル分散をn-1で割るのではなく、n/(n-1)を掛けることで無偏推定量を得ることができます。これにより、母集団分散に対する正しい推定が得られます。
サンプルサイズが増えると、推定精度はどう変化しますか？
-サンプルサイズが増えると、サンプル平均が母集団平均に近づき、サンプル分散も母集団分散に近づくため、推定精度が向上します。シミュレーションでは、サンプルサイズが大きくなるほど、バイアスが小さくなる様子が確認できます。
シミュレーション内での「赤い点」と「青い点」の違いは何ですか？
-シミュレーション内で赤い点は小さいサンプルサイズを表しており、これらの点はサンプル分散のバイアスが大きいことを示しています。青い点は大きいサンプルサイズを表し、より正確な推定が行われていることを示しています。
シミュレーションで計算されている「バイアスのあるサンプル分散」とは何ですか？
-バイアスのあるサンプル分散は、nで割って計算されたサンプル分散であり、これが無偏推定量ではないため、母集団分散に対する推定にバイアスがかかります。シミュレーションでは、この誤差を視覚化しています。
なぜサンプルサイズが2の時、サンプル分散は母集団分散の半分に近づくのですか？
-サンプルサイズが2の場合、サンプル分散の平均は母集団分散の半分に近づくため、n-1で割ることでバイアスを補正する必要があることが示されています。サンプルサイズが増えると、より正確に母集団分散を推定できます。