【平均値と標準偏差】n-1で割らないと不偏分散にならない理由。不偏の意味。データの要約の意味。正規分布と偏差値。等まとめて解説!【データの可視化】【要約】
Summary
TLDRこの動画スクリプトは、平均値と標準偏差の重要性とその計算方法について解説しています。データの可視化を通じて分布を把握し、平均値と標準偏差を用いてデータの特徴を要約することができ、これによりデータの理解が深まります。また、標準偏差の計算において、なぜn-1で割ることかについても詳細に説明し、データの分布が正規分布でない場合でも平均値と標準偏差の役割についても触れています。
Takeaways
- 📚 データの要約:平均値と標準偏差を計算することは、データの特徴を簡潔に表現する手段である。
- 🔍 データの可視化:ヒストグラムを作成することで、データの分布やばらつきを視覚的に把握することができる。
- 🎯 標準偏差の計算:標準偏差はデータが平均値からどれだけばらつくかを示す指標であり、計算の際にはn-1で割ることが重要。
- 🔄 データの復元:平均値と標準偏差から元のデータの分布を想像することができ、正規分布のデータであればより正確に復元が可能。
- ⚖️ 正規分布と偏りのあるデータ:正規分布に従わないデータでは、平均値と標準偏差だけではデータの実際の分布を正確に表すことができない。
- 📈 ヒストグラムの解釈:ヒストグラムから元のデータにどの程度正確に復元できるかを理解することは、データ分析の重要な要素である。
- 🤔 データの要約の限界:データの要約プロセスで情報量が減少することがあり、可視化と数値化のバランスを考える必要がある。
- 📊 データの可視化の重要性:データの可視化は、複雑なデータセットを理解するための重要なステップであり、最初に行うことが望ましい。
- 🔢 平均値の計算:データの平均値は、すべての値を足してサンプル数で割ることで求められる。
- 🌟 データ分析の目的:データ分析の最終的な目的は、データセットから得られた平均値や標準偏差を通じて、母集団の特徴を推定することである。
- 💡 データの理解:平均値や標準偏差を深く理解することは、データ分析において重要なスキルであり、データサイエンスの基礎概念の一つである。
Q & A
平均値と標準偏差を計算する理由は何ですか?
-平均値と標準偏差を計算する理由は、データの特徴を把握しやすくすることです。平均値はデータの中央値を示し、標準偏差はデータのばらつきの大きさを示します。これらを計算することで、データの概要を簡潔に表現することができます。
標準偏差を計算する際にn-1を用いる理由は何ですか?
-標準偏差を計算する際にn-1を用いる理由は、標本から母集団の分散を無偏に推定するためです。標本の偏差平方和をn-1で割ることで、母集団の分散をより正確に推定することができます。これは、標本サイズが母集団全体を代表しているわけではないため、バイアスを考慮するために行われます。
ヒストグラムとは何ですか?
-ヒストグラムは、データの分布を可視化するためのグラフで、データの各範囲(ビン)における頻度または密度を表します。横軸にはデータの値が表示され、縦軸にはその範囲内のデータ数または密度が表示されます。ヒストグラムは、データの分布、集中傾向、ばらつきなどを把握するのに役立ちます。
正規分布の特徴は何ですか?
-正規分布は、左右対称の釣り鐘状の形を持つ分布で、平均値を中心に均等にデータが分布されています。正規分布の特徴は、平均値と標準偏差の2つのパラメーターで分布の形を決定することです。また、平均値±1σの範囲に約68.3%のデータが、平均値±2σの範囲に約95.4%のデータが入ることが知られています。
データの可視化の重要性は何ですか?
-データの可視化の重要性は、データの特徴を直感的に把握しやすくすることです。大量のデータが集まった場合、数値だけではデータの特徴を理解することが困難になるため、グラフやヒストグラムなどの可視化手法を用いて、データの分布やばらつきを視覚的に表現することが重要です。これにより、データから得られる情報がはっきりと把握でき、分析や解釈が容易になります。
平均値や標準偏差を計算する際に注意すべき点は何ですか?
-平均値や標準偏差を計算する際には、データの性質に応じて適切な方法を用いる必要があります。例えば、データが右に歪み(スケウ)を持っている場合、平均値や標準偏差だけでデータを要約することは適切ではありません。その場合、データの特徴を正確に反映する他の統計的指標や可視化手法を用いて分析を行うことが重要です。
データの要約とは何ですか?
-データの要約とは、大量のデータから重要な情報が簡潔に表現されるプロセスです。このプロセスでは、平均値、標準偏差、分散などの統計的指標を計算することで、データの特徴やパターンを把握することができます。データの要約は、複雑なデータセットを理解し、分析結果を簡潔に伝えるための重要なステップです。
平均値と標準偏差を用いてデータを要約することの限界は何ですか?
-平均値と標準偏差を用いてデータを要約することの限界は、データの分布が正規分布でない場合です。例えば、データに大きな外れ値がある場合や、データが右に歪んでいる(スケウ)場合、平均値や標準偏差だけではデータの特徴を正確に反映できません。このような場合、他の統計的指標や可視化手法を用いてデータの特徴を分析する必要があります。
データ分析において標準偏差の計算が重要である理由は何ですか?
-データ分析において標準偏差の計算が重要である理由は、データのばらつきの大きさを定量的に評価できることです。標準偏差はデータが平均値からどの程度離れているかを示す指標であり、データの変動や不確実性を理解する上で重要な役割を果たします。また、標準偏差を用いることで、データの信頼性や予測可能性を評価することもできます。
データの分布が正規分布でない場合、どのように数据分析を行うか?
-データの分布が正規分布でない場合、他の統計的指標や分析手法を用いてデータの特徴を評価する必要があります。例えば、中位数や四分位範囲を用いることで、データの中央値や分散を把握することができます。また、相関分析や回帰分析、分群分析などを行うことで、データ間の関係性やパターンを発見することができます。さらに、データの可視化を通じて、データの特徴や傾向を直观的に理解することも重要です。
平均値や標準偏差を算出した後、どうやってその正確性を確認するのか?
-平均値や標準偏差を算出した後、その正確性を確認するためには、データの分布やヒストグラムを再度確認することが重要です。これにより、データのばらつきや集中傾向がどの程度平均値や標準偏差に反映されているかを判断することができます。また、データの正規性や外れ値の有無を確認し、必要に応じて適切な変換やフィルタリングを行うことも有効です。さらに、信頼区間や標準誤差などの統計的精度指標を計算し、結果の信頼性を評価することも役立ちます。
データ分析において、標準偏差が平均値よりも重要な指標となる場合がある理由は何ですか?
-データ分析において、標準偏差が平均値よりも重要な指標となる場合がある理由は、データのばらつきや変動の大きさに対する理解が、場合によってはデータの中央値よりも重要であることです。例えば、投資のリスク評価や品質管理など、データの分散や変動を重視する場面では、標準偏差がより重要な役割を果たします。また、データの分布が偏りや外れ値を含む場合、標準偏差はデータの特徴をより正確に反映する可能性があります。
Outlines
📚 データの可視化と要約の重要性
この段落では、データの可視化と要約に関する基本的な考え方について説明されています。データの可視化は、生データの状態から始め、分布やばらつきを把握しやすくすることを目的としています。また、データの要約は、複雑な生データから有益な情報を引き出すために必要なプロセスであり、平均値や標準偏差などの数値的な要約を行います。このプロセスは、データの特徴を簡潔に表現し、分析を促進するための重要なステップです。
🧠 データの可視化をスキップすることは避けるべき
この段落では、データの可視化を最初に行うことが重要である理由について述べられています。データの可視化は、私たちの脳がデータの分布やばらつきを理解するための重要なステップです。生データから直接平均値や標準偏差を計算しても、データの可視化をスキップすると、データの正確な解釈ができなくなります。したがって、データの分析において、常に可視化のステップを含めることが重要です。
📈 正規分布と標準偏差の理解
この段落では、正規分布と標準偏差の概念について深く理解するための基礎知識が提供されています。正規分布は、データが平均値を中心に左右対称に分布するものであり、標準偏差はデータがどの程度ばらつかれるかを示す指標です。平均値と標準偏差の2つの数値があれば、データの分布を表現することができます。この理解は、データ分析において非常に重要であり、分布の特性を把握し、データの要約を行うことができます。
🔢 標準偏差の計算方法とその意義
この段落では、標準偏差の計算方法とその意義について詳しく説明されています。標準偏差は、データが平均値からどの程度離れているかを示すため、データのばらつきを数値的に表現する指標です。計算方法是、データの平均値から各データポイントとの差を求め、その差的二乗を計算し、それらを足し合わせたものをデータポイントの数(または数-1)で割ることで求められます。この計算により得られる標準偏差は、データのばらつきの大きさを示す有力な情報となります。
🤔 データの要約と正規分布の関係性
この段落では、データの要約と正規分布との関係性について議論されています。データの要約は、生データから得られる情報を簡潔に表現するプロセスであり、正規分布はデータがどのように分布しているかを表すモデルです。平均値と標準偏差を用いてデータが正規分布に従うと仮定すると、データの特徴をより正確に把握することができます。しかし、データが正規分布に従わない場合でも、平均値や標準偏差は有効な要約ツールとなることがありますが、その場合の解釈には注意が必要です。
🌟 平均値と標準偏差の計算結果とその適用範囲
この最終段落では、平均値と標準偏差の計算結果に基づいて、データの分布を正規分布として想定し、その適用範囲について考察しています。平均値や標準偏差から得られる推定値は、データの分布を理解する上で有用ですが、必ずしもすべてのデータに適用できるわけではありません。特に、データが正規分布に従わない場合や、分布が右に傾いた場合、平均値や標準偏差に基づく推定は誤りを含む可能性があります。そのため、データの特性を充分に理解し、適切な方法で要約することが重要です。
Mindmap
Keywords
💡平均値
💡標準偏差
💡データ可視化
💡ヒストグラム
💡正規分布
💡中心極限定理
💡標準誤差
💡信頼区間
💡データの要約
💡データ分析
💡統計的推定
Highlights
ゼミ生のみなさんこんにちは、今日も一緒に勉強していきましょう。
今日のテーマは平均値と標準偏差に関して深く考え、深く理解することでこの2つをすごく好きになっちゃいましょうというのが目標になります。
平均値や標準偏差を計算する必要があるのかその理由をしっかり知る必要があります。
例えば標準偏差を求めるときにn-1を用いる理由を理解している場合もありますが、ここを放置して何となくやっている場合もあります。
データの可視化の重要性もしっかり理解してほしいと思っています。
平均値は129.6年、ばらつきの指標である標準偏差が15であることがわかります。
生データから数値によるようやくを致し、平均値や標準偏差を算出することで全体のデータがどのぐらいの大きさでどのぐらいのバラつきがイメージしやすくなった。
データの要約の流れの中でだんだんわかりやすくなっていく代わりに情報量がどんどん減っていってしまうことに皆さんお気づきになりましたでしょうか。
正規分布について知る必要がありますのでまずは正規分布の解説をさせていただきます。
正規分布は左右対称の1つの山と言います。
平均値と標準偏差の2つだけで分布の形が決まるという正規分布の特徴を理解することは重要です。
平均値と標準偏差がわかれば分布全体が把握できる、つまり平均値と標準偏差があればそこから逆算して頭の中で分布やヒストグラムを描くことができる。
平均値の求め方は特に説明する必要もないかもしれませんが、全ての数字を足し合わせて症例数 n で割るだけですね。
標準偏差は少し求め方が複雑ですが、平均値からのどの程度のばらつきかの指標として考えると良いでしょう。
偏差平方和を得るためには、それぞれのデータの値と平均値との差を二乗してから全て足し合わせます。
標準偏差を計算する際に、n-1で割ることで母集団の分散を偏りなく推定するための工夫の結果です。
正規分布では平均値を中心にして左右対称の釣り鐘状の形になります。
平均値プラスマイナス1かける標準偏差の範囲にすべてのデータのうち68.3%のデータが入ります。
正規分布しない場合でも平均値や標準偏差を計算すること自体はできますが、それによって想定される分布と元の分布が似ても似つかない場合もあります。
生データからデータの可視化をして左右対称で1縫製の分布が得られた場合に平均値や標準偏差で数値的なようやくができるという話でした。
Transcripts
ゼミ生のみなさんこんにちは今日も一緒に勉強していきましょう
今日のテーマは平均値と標準偏差に関して深く考え
深く理解することでこの2つをすごく好きになっちゃいましょうというのが目標になり
ます
そのぐらいに平均値や標準偏差を深く理解するために必要なことですが一つ目はなぜ
平均値や標準偏差を計算する必要があるのかその理由をしっかり知る必要があります2
つ目としてはその計算をちゃんと理解して行えることが必要になります
例えば標準偏差を求めるときに n -1目はる理由をあまり理解していない場合も
多いかと思いますがここを放置して何となくもやっとしたまま過ごしていると
この2つを好きになることはできません
最後にデータの可視化の重要性もしっかり理解してほしいところだと思っております
[音楽]
さて最初の質問ですがなぜ平均値や標準偏差を計算するのでしょうか
例えば何かの臨床研究において100人分の血圧を測ったとしましょう
そうするとこのように100個の血圧の値が出てくるようになります
データが集まることは良いことですがこのように100個の血圧の値を眺めているだけ
でデータの特徴が見えてくることはほとんどありません
データが多すぎてひと目で把握することができないんですね
なので最初にやることはデータをグラフにすることつまり視覚化だと思います
このようなヒストグラムを書くとデータの分布や殻つきがある程度把握できるんじゃ
ないでしょうか
ちなみにこのグラフのことをヒストグラムと言いまして
横軸は先ほどの血圧の値になっております
そして縦軸は患者さんの数になりますが
ヒストグラムでは基本的に人数を面積で表しております
例えばですが低い所の3つの階級
つまり血圧が80から110までの階級を一つにまとめた時にどういうヒストグラムに
なるかを考えてみましょう
3つの階級全体で9人いたとしますと
横幅が3倍になっていますので縦軸は旧悪さんでメモリとしてさんの高さにすれば
面積が9人分を表すことになりますよね
[音楽]
実際にヒストグラムを書くとこのようになります
ですのねヒストグラムにおいてはその面積が人数全体を表すというところを覚えて
いただければ良いかと思います
さて話を元に戻しましょう
グラフの視覚化をすることはできましたね
次に先ほどの100個のデータの平均値と標準偏差を計算してみましょう
平均値は129.6年
ばらつきの指標である標準偏差が15であることがわかります
100個あるデータはそのままでは把握しにくいので
一つ又はばらつきも含めて二つの数値にようやくするのがこの平均値や標準偏差を計算
する目的になります
まとめますと100個のデータがありまして
見やすくするためにデータの可視化をまず行いましたね
ヒストグラムにすることでデータの位置やバラつきが把握しやすくなりました
そしてさらに数値によるようやくを致しました
平均値や標準偏差を算出することで全体のデータがどのぐらいの大きさでどのぐらいの
バラ月7日がイメージしやすくなったかと思います
ですの音平均値や標準偏差をなぜ計算するのかという最初の疑問に対する答えは
単純にデータの要約をしたいからということになります
ここまではかなり一般的な議論の流れだと思うんですがせっかくなので皆さんには
もっと深く考えていただきたいと思います
今まで頻繁にデータの要約という単語が出てきましたがデータがようやくできたという
のはどういう状態なのかというのを考えていくと
平均値や標準偏差のより深いところの理解が得られると思います
さて基本的には生データが一番複雑ですよね
生データの状態が一番情報量がたくさんあるんですけども
見た目では把握しにくい状態でしたね
100個くらいのデータ数であればなんとかなる場合もありますが何万個
何十万個の生データの場合はデータの外観を俯瞰することすら不可能になります
なのでまずはデータの可視化をすることでデータの分布やばらつきを見た目でわかり
やすくしてそして平均値や標準偏差
などの数値でのようやくもいたしました
これがデータの要約の流れになりますが一つ注意点としては生データからいきなり平均
値や標準偏差を求めてデータの可視化をスキップする人がたまにいらっしゃるんです
けどもこれはあまりお勧めできません
データの可視化を最初にしなければいけない理由はこの脳がの後ろの方
で説明しますがデータの可視化というのが非常に重要なステップだということは覚えて
おいてくださいね
さてこのデータの要約の流れの中でだんだんわかりやすくなっていく代わりに情報量が
どんどん減っていってしまっていることに皆さんお気づきになりましたでしょうか
生データから可視化をした段階とおかしくから数値によるようやくをした段階ね
情報量が減っていってしまってるんですね
なのでこのヒストグラムから生データにどのくらい正確に戻れるのか
または数値で要約したものからどのくらい正確にイスと g に戻れるのかというある
意味ようやくの制度のようなものを考えていくといろいろとわかってくることがあり
ます
例えばこのヒストグラムから元の数値にどのぐらい戻れるかというのを考えてみ
ましょう
月圧が80から90の人はひとりであるとか
血圧120から130の人は30人ぐらいいるとかそういうことはヒストグラムから
わかりますね
そして細かい数字はわからないとしても例えば血圧80からケア中の人は血圧85だと
いうふうに決めつけてデータを保管していくと一応
100人分のデータを作ることができます
そのようにして100人分のデータを作るとすべてのデータが125とか
135などの値になってしまっていますが一応
100人分もデータとして元に戻すことができました
このデータは10刻みの数字になっていて
元のデータよりも情報量がかなり減っていますよね
例えば最初の5人に関しては生データだとこの上の数字なんですがそれをヒストグラム
から戻すとこの下に書いてある数字になります
それほど離れた数字ではないのですが例えば
136.7が135になっていますね
2番目の方と5番目の方の血圧は本当は
127.1と125.5なんですが
ヒストグラムから戻すと同じ125になってしまっています
このように元の値とは違う値になってしまったりそもそもの値が単純化されてしまって
いますので情報量はやはりスト g にすると減っているんですね
情報量が減った分見やすくなっているというのがヒストグラムであり
見やすくなった分減ってしまった情報は完全には元に戻せないけれどもある程度は
戻せるというそのような状態になってるんですね
さてでは今日のテーマである平均値や標準偏差によるようやくですがこのように要約し
た時にいったいどのぐらいかしかの南海
つまりイスト g に戻せるかというのを考えていきたいとおもいます
さてそのためにはまず正規分布について知る必要がありますのでまずは正規分布の解説
をさせてください
正規分布というのは左右対称の一つの山
つまり1縫製のこのような分布のことを指します
この分布を数値で表すということをまず最初に考えていきましょう
さてここに2つの正規分布があります
一つ目の正規分布は100ぐらいのところに中心があって比較的裾野が広い
つまりばらつきが大きいものになっていますね
二つ目の正規分布は170から180ぐらいのところに中心があって一つ目と比べると
そのが狭い
つまりばらつきの小さい分布になっております
この1番目と2番目の正規分布の違いをどのように表現するのかということをまずは
考えていきましょう
ここで重要な正規分布の特徴として平均値と標準偏差の2つだけで分布の形が決まると
いうものがあります
これらの数値の求め方は後で説明しますが
最初に覚えておいて欲しいのは正規分布というのは平均値が決まって標準偏差が決まる
と分布が一つに絶対に気があるということです
つまり平均値と標準偏差の2つだけを規定してあげれば私が分布を書いても別の人が
文法書いても全く同じ分布になるということですね
この特徴は覚えておいてくださいね
ということは先ほどの2つも平均値と標準偏差だけで
地内を表現できるはずですよね
先ほどの1番目の分布は平均値が100で標準偏差が中の正規分布になります
これに対してん
2番目の正規分布は平均値が175で標準偏差はさんになります
つまり1番目の正規分布よりもにバー目の正規分布は平均値が70を高いところにあり
ます
そして標準偏差が中からさんに小さくなっておりますので
バラ付つまり分布の裾野の広さも2番目の分布の方が狭くなっているというのがこの2
つの数字だけで表現できていると思います
つまりここでお伝えしたかったのは知ってる人にとっては当たり前かもしれませんが
平均値と標準偏差がわかれば分布全体が把握できる
つまり平均値と標準偏差があればそこから逆算して頭の中で分布やヒストグラムを描く
ことができるということになります
ここのところが平均値や標準偏差れの要約を行う
一番大事なところですので覚えておいてくださいね
さてでは先ほどの100人分のデータがありましたね
ヒストグラムはこのようになっていたと思います
このデータの市代表地である平均値
そしてデータのばらつきの代表地である標準偏差をこれからも貯めていきましょう
平均値の求め方は特に説明する必要もないかもしれませんが全ての数字を足し合わせて
症例数 n で割るだけですね
このデータは100人の血圧の値ですので100人の血圧の値を全て足すと大胆
1万2900ぐらいになりましてそれを100で割るとおおよそ129.6となります
これが平均値ですね
これに対して標準偏差は少し求め方が複雑です
標準偏差というのは平均値からどのぐらいばらつくかの指標になっております
なので平均値かなそれぞれのデータのさをとって行くとだいたいそんなばらつきが見え
てくるんですね
例えば1番目の患者さんは血圧が136.7でしたので平均値である129.6を引く
と
+7.1となります
平均値よりも7.1高い血圧でした
2番目の患者さんは血圧が127.1でしたので平均値である129.6を引くと
-2.5となります
平均値よりも2.5低いということがわかりますね
それぞれのデータの値と平均値との差が大きければ大きいほど
バラつきは大きいと判断できますね
それを正しく数値として表現するためにはどうすればいいでしょうか
これには2通りのやり方があります
まず基本事項として今計算した平均力の差を全部足すとゼロになるのはわかりますよね
全員の血圧の双蒼 n で割ったのが平均値ですからプラスマイナスの符号を無視して
平均力の差を全部足すと当然0になります
ゼロにしないためには絶対値をとってそうあを取るか
ここに書いてあるようにそれぞれを三条してからそうはを取るかどちらかになります
ここで絶対値を取る場合は標準偏差とは言わずに
平均偏差という名前に変わります
平均偏差の方は計算がしづらいだけではなくて
部分ができなかったり数式的に扱いづらいところがありますのでほとんど出てきません
医学系の論文でこの絶対値を使った平均偏差が使われることはほぼないと思って
ください
99.9%標準偏差が使われますので絶対値を取る方法に関しては忘れてしまっていい
と思います
ということで平均力の差の2以上を取って標準偏差を求めていきましょう
ここで平均力の差のことを偏差と言います
そして以上のことは兵法と言いますよね
なので平均値からのさの2乗のことを偏差平方
と呼んでおります
さてまずは全員の偏差平方を詰めて算出します
この偏差平方をすべて足し合わせたものを偏差平方和という風に呼んでおります
偏差平方案を得ぬ低い治療あると不偏分散がも泊まるのですが
ここがつまずきやすいポイントになります
偏差平方案を得ぬつまり100ではあるのではなくて
n 低い地である九十九ではあるんですね
ここがわかりにくいところでいろんな人に聞いてもそういうものだというふうに説明さ
れてしまいがちです
n で割るのは間違いで n -1で割るのが正しいという説明がされてしまうとても
混乱することになりますのでそこのところの説明をしっかりしていきたいとおもいます
とりあえず今は標準偏差を計算するところまでいきましょう
今算出した普遍分散というのは二条されたままですので会員は通常の血圧の単位である
mm 睡眠中ではなくその3条になってしまっていますよね
なので平方根をとって単位を合わせてあげるとそれが標準偏差になります
実際に計算すると15.0となりました
[音楽]
さてではなぜ n -1ではあるのかとか
不変というのはどういう意味なのかというところを説明していきたいとおもいます
まずここで強調したいのは n で割るのは実は間違いではありません
偏差平方和を得ぬで割ると標本分散が求まります
つまりこの100例に限定した分散を求めるのであれば
n で割るのが正しいということになります
ところが臨床研究においてこの100人についてだけ知りたいということはまず間違い
なくありえないんですね
この100人から母集団の平均値であったり
母集団の分散や恭順偏差を推定したいというのが基本的な立場になります
それについてちょっと考えていきましょう
[音楽]
何かの疾患の患者さんが例えば全国で1000万人いたとします
この1000万人の患者さん全員もデータがあってそこから平均値
ビューを求めることができたら平均値は一つの値に定まりますよね
この1000万人全員の血圧を本当に測ることができたならば単純に平均値を取れば
それが知りたい値になります
ただしそんなことはほとんどの場合不可能なので今回の場合は100人のサンプルを
抽出して血圧の平均値を求めています
この100人の標本から得られた標本平均値は神の平均値
ミュウを推定するものですので new ハットと呼ばれております
ミューハットの記号はビューの頭に通しのようなものをかぶっているのが特徴です
このハットは何かの推定値を表すときに使われるものですので覚えておいて損はないと
思いますよ
さてここで最初の集団のミューハットは
129.6でしたが別の100人をサンプルしたら別の御法度
ここでは客さん10.5になりました
そしてまた別の100人をサンプリングしたらまた別のミューハットが出てくるはず
ですよね
これらはすべて神の値ビューに近い値になるはずなんですけども
毎回必ず少しずつ違う値になりますよね
つまり母集団の神の平均値ミュウは一つの値固定値ですけども
view ハットに関してはいろんなサンプルの仕方によって少しずつばらつきます
そういうばらつきを持つ値であるということを理解してください
この考え方は中心極限定理の時にも出てきておりますのでわからない方は動画を復習さ
れると良いかと思います
それでは母集団全体のばらつき分さーん
標本分散で表現する方法を考えてみましょう
私たちの本当に知りたいのは母集団の分散ですよね
さてこの頭は100人の集団市文山になります
赤い四角のところがこの集団の標本平均値
new 発火になります
犬ハットを中心にばらついているのがわかるかと思います
ここで別の100人の集団にと集団さんを考えてみましょう
mig ハットにみゅアップさんはそれぞれ
最初の集団のミューハット市とは少しずつ違う値を取ります
そして核集団の犬ハットの周りにベータがばらついて核集団全体のばらつきになります
これを観てもらえれば直感的にわかると思いますが
母集団全体のばらつきというのは核集団のばらつきよりも大きくなりますよね
例えば集団市のばらつきだけ考える場合と比べると
母集団全体のばらつきは明らかに大きくなるのが感じられると思います
それはなぜかというと核集団の平均値
つまり new ハットが右に左にばらついていますのでその分だけ
ここの集団のばらつきよりも母集団全体のばらつきの方が大きくなるからです
つまり見ぬハットのばらつきが全体のバラ付を増やしているんですね
母集団全体のばらつき丸さんというのは
格標本のばらつきにビッグハットのばらつき
つまり流ハットの分散を加えたものになります
式にすると母集団の分散=
標本分散+ミグハットの分散となりますね
さてここで標本分散が出てきましたね
これは先ほど説明しましたが
標本の偏差平方案を得ぬで割ったままでしたね
なのであとはミューハットの分散がわかればこの式を解くことができます
さて中心極限定理の動画を観ていただいた方はもうここで気づくと思いますがこの
ビューハットの分散というのはまさに中心極限定理が扱っている分布
そのものでしたね
このミューハットのばらつきから標準誤差と言って推定精度の指標になるものを求める
ことができましたね
そしてそこから95%信頼区間を計算するという話をしたかと思います
その辺のところが気になる方は中心極限定理の動画をご覧下さい
さてここでは中心極限定理に従ってビッグハットの分散は母集団の分散を得ぬで割った
もので与えられるということを確認しましょうこれを利用して先ほどの式を変形すると
母集団の分散=標本分散+
流ハットの分散
そして標本分散は偏差平方案を得ぬで割ったものであり
new ハットの分散は母集団の分散を得ぬで割ったものになりますね
母集団の分散が右辺と左辺に両方出てきているのでまとめてしまいましょう
するとこのようになります
こうなってくるとだんだんわかってきましたね
左辺の母集団の係数を1にするために両辺に n -1分の n をかけるとこのよう
になります
母集団の分散を推定したければ教本の偏差平方和を得ぬではなくて
n -1で割るのが正しいということがこれでお分かりいただけたかと思います
先ほどのスライドで不偏分散という単語が出てきましたね
この普遍というのは偏りがないという意味ですがこれは母集団の分散から偏りのない
推定値が算出できるという意味になります
逆に言うと偏差平方和を得ぬで破った
標本分散というのは必ず母集団の分散よりも低いほうに偏った値になります
皆さん理解していただけたでしょうか
繰り返しになりますが偏差平方和を得ぬではなく
n -1で割るのは母集団の動産を偏りなく推定するための工夫の結果であります
これをに関していただけるとなぜ n ではなくて
n -1ではあるんだろうというモヤモヤしたことがすっきりと理解できてもっと標準
偏差を好きになってくれるんじゃないかと思います
さて平均値と標準偏差の計算できたのであとはその特徴をお伝えしていきたいとおもい
ます
正規分布というのは平均値を中心にして左右対称の釣り鐘状の形になります
そして平均値プラスマイナス1かける標準偏差の範囲にすべてのデータのうち
68.3%のデータが入ります
そして平均値プラスマイナスにかける標準偏差の範囲に95.4%のデータが入ること
になります
ぴったり95%のデータが入る区間のことを描画は5%10%と言って平均値プラス
マイナス
1.96かける標準偏差の範囲になります
身近なものでよく出てくるのは偏差値になります
偏差値というのは平均値を偏差値50としていて
1標準偏差増えるごとにプラス x するという算出方法になっております
平均値プラスマイナス1かける標準偏差
つまり偏差値40から60の間に約70%の受験生が入りますし併殺30から70の間
にほとんどすべての受験生が入ることになります
これは皆さんの実体験から納得できるものだと思います
このように自分の日常で使ったことのある指標に置き換えて考えてみるとより理解が
進むかと思います
さて話を元に戻しますと100人の平均値から
イストグラムを書きそして平均値と標準偏差を算出することができましたね
ここで大事なのはこの平均値や標準偏差から
ヒストグラムにどのぐらい戻れるかということでしたね
平均値が約130のところにあって
そして標準偏差な中のの正規分布を思い浮かべてみましょう
つまり130+-15である
115から145の間に70%のデータが入りそして
130+-30である100から160の間に95%のデータが入るようなそういう
正規分布を思い描いてみましょう
その正規分布はこのようになります
皆さん思い描けたでしょうか
平均値や標準偏差から想像される分布あまたのヒストグラムをよく表していますよね
これが平均値や標準偏差でデータがようやくできたということなんですね
データの要約というのは単に平均値や標準偏差を計算することではなくてそれによって
想定される分布と元の分布が似通っているということが前提になっております
これがデータの要約の今質的な部分になります
さてでは正規分布しない場合はどうなるのかという話もよく出てきますのでそちらの話
をいたします
正規分布しない場合は平均値や標準偏差でようやくするのは間違いだと教わった方は
多いと思います
ただ理由を理解しないまま受け入れてしまうと心に引っかかりが残りますのでそこの
ところをもう一度考えてみましょう
さて正規分布せず右にそう引くようなデータを用意しました
このようなデータでも平均値や標準偏差を計算すること自体はできますよね
これらを計算すると平均値は130で標準偏差は35になりました
この時に客三重を中心として+-35のところに約70%のデータが入りプラス-70
のところに95%のデータが会えるようなそういう正規分布を想像してみてください
それはこのような分布になります
つまり平均値や標準偏差から想定される分布というのは元の分布と似ても似つかない
ですよね
これではとてもようやくできたとは言えないですよね
これが右や左に裾を引くような分布で平均値や標準偏差を使ってデータを要約しても
意味がないという本質的な理由になります
ということで生データからデータの可視化をして左右対称で1縫製の分布が得られた
場合に平均値や標準偏差で数値的なようやくができるというお話をしてきました
平均値と標準偏差がわかればある程度
ヒストグラムを頭の中で再現できますし
ヒストグラムから生データにある程度戻ることもできる
という話をいたしました
先ほどの正規分布をしないようなデータの場合には平均値や標準偏差が使えませんので
その場合にどのように要約するかに関してはまた別の講義動画を作成する予定です
[音楽]
今日の解説動画は平均値や標準偏差を深く理解してこの二つを好きになろうという
コンセプトでやってまいりました
なぜ n -1ではあるのかという細かい部分もしっかりと理解することや数値的に
ようやくを行う本質的な意味合いについて皆様と一緒に考えてきました
わかっていただけたなら嬉しいです
今日のところはここまでになりますので皆さんここまでご覧頂きありがとうございます
では今日はこのへんねまた次の講義動画でお会いしましょう
さようなら
うp
ああああああ
ああああああ
ええええええ
5.0 / 5 (0 votes)