【平均値と標準偏差】n-1で割らないと不偏分散にならない理由。不偏の意味。データの要約の意味。正規分布と偏差値。等まとめて解説!【データの可視化】【要約】

さくら🌸医療系データサイエンス
13 Dec 202029:17

Summary

TLDRこの動画スクリプトは、平均値と標準偏差の重要性とその計算方法について解説しています。データの可視化を通じて分布を把握し、平均値と標準偏差を用いてデータの特徴を要約することができ、これによりデータの理解が深まります。また、標準偏差の計算において、なぜn-1で割ることかについても詳細に説明し、データの分布が正規分布でない場合でも平均値と標準偏差の役割についても触れています。

Takeaways

  • 📚 データの要約:平均値と標準偏差を計算することは、データの特徴を簡潔に表現する手段である。
  • 🔍 データの可視化:ヒストグラムを作成することで、データの分布やばらつきを視覚的に把握することができる。
  • 🎯 標準偏差の計算:標準偏差はデータが平均値からどれだけばらつくかを示す指標であり、計算の際にはn-1で割ることが重要。
  • 🔄 データの復元:平均値と標準偏差から元のデータの分布を想像することができ、正規分布のデータであればより正確に復元が可能。
  • ⚖️ 正規分布と偏りのあるデータ:正規分布に従わないデータでは、平均値と標準偏差だけではデータの実際の分布を正確に表すことができない。
  • 📈 ヒストグラムの解釈:ヒストグラムから元のデータにどの程度正確に復元できるかを理解することは、データ分析の重要な要素である。
  • 🤔 データの要約の限界:データの要約プロセスで情報量が減少することがあり、可視化と数値化のバランスを考える必要がある。
  • 📊 データの可視化の重要性:データの可視化は、複雑なデータセットを理解するための重要なステップであり、最初に行うことが望ましい。
  • 🔢 平均値の計算:データの平均値は、すべての値を足してサンプル数で割ることで求められる。
  • 🌟 データ分析の目的:データ分析の最終的な目的は、データセットから得られた平均値や標準偏差を通じて、母集団の特徴を推定することである。
  • 💡 データの理解:平均値や標準偏差を深く理解することは、データ分析において重要なスキルであり、データサイエンスの基礎概念の一つである。

Q & A

  • 平均値と標準偏差を計算する理由は何ですか?

    -平均値と標準偏差を計算する理由は、データの特徴を把握しやすくすることです。平均値はデータの中央値を示し、標準偏差はデータのばらつきの大きさを示します。これらを計算することで、データの概要を簡潔に表現することができます。

  • 標準偏差を計算する際にn-1を用いる理由は何ですか?

    -標準偏差を計算する際にn-1を用いる理由は、標本から母集団の分散を無偏に推定するためです。標本の偏差平方和をn-1で割ることで、母集団の分散をより正確に推定することができます。これは、標本サイズが母集団全体を代表しているわけではないため、バイアスを考慮するために行われます。

  • ヒストグラムとは何ですか?

    -ヒストグラムは、データの分布を可視化するためのグラフで、データの各範囲(ビン)における頻度または密度を表します。横軸にはデータの値が表示され、縦軸にはその範囲内のデータ数または密度が表示されます。ヒストグラムは、データの分布、集中傾向、ばらつきなどを把握するのに役立ちます。

  • 正規分布の特徴は何ですか?

    -正規分布は、左右対称の釣り鐘状の形を持つ分布で、平均値を中心に均等にデータが分布されています。正規分布の特徴は、平均値と標準偏差の2つのパラメーターで分布の形を決定することです。また、平均値±1σの範囲に約68.3%のデータが、平均値±2σの範囲に約95.4%のデータが入ることが知られています。

  • データの可視化の重要性は何ですか?

    -データの可視化の重要性は、データの特徴を直感的に把握しやすくすることです。大量のデータが集まった場合、数値だけではデータの特徴を理解することが困難になるため、グラフやヒストグラムなどの可視化手法を用いて、データの分布やばらつきを視覚的に表現することが重要です。これにより、データから得られる情報がはっきりと把握でき、分析や解釈が容易になります。

  • 平均値や標準偏差を計算する際に注意すべき点は何ですか?

    -平均値や標準偏差を計算する際には、データの性質に応じて適切な方法を用いる必要があります。例えば、データが右に歪み(スケウ)を持っている場合、平均値や標準偏差だけでデータを要約することは適切ではありません。その場合、データの特徴を正確に反映する他の統計的指標や可視化手法を用いて分析を行うことが重要です。

  • データの要約とは何ですか?

    -データの要約とは、大量のデータから重要な情報が簡潔に表現されるプロセスです。このプロセスでは、平均値、標準偏差、分散などの統計的指標を計算することで、データの特徴やパターンを把握することができます。データの要約は、複雑なデータセットを理解し、分析結果を簡潔に伝えるための重要なステップです。

  • 平均値と標準偏差を用いてデータを要約することの限界は何ですか?

    -平均値と標準偏差を用いてデータを要約することの限界は、データの分布が正規分布でない場合です。例えば、データに大きな外れ値がある場合や、データが右に歪んでいる(スケウ)場合、平均値や標準偏差だけではデータの特徴を正確に反映できません。このような場合、他の統計的指標や可視化手法を用いてデータの特徴を分析する必要があります。

  • データ分析において標準偏差の計算が重要である理由は何ですか?

    -データ分析において標準偏差の計算が重要である理由は、データのばらつきの大きさを定量的に評価できることです。標準偏差はデータが平均値からどの程度離れているかを示す指標であり、データの変動や不確実性を理解する上で重要な役割を果たします。また、標準偏差を用いることで、データの信頼性や予測可能性を評価することもできます。

  • データの分布が正規分布でない場合、どのように数据分析を行うか?

    -データの分布が正規分布でない場合、他の統計的指標や分析手法を用いてデータの特徴を評価する必要があります。例えば、中位数や四分位範囲を用いることで、データの中央値や分散を把握することができます。また、相関分析や回帰分析、分群分析などを行うことで、データ間の関係性やパターンを発見することができます。さらに、データの可視化を通じて、データの特徴や傾向を直观的に理解することも重要です。

  • 平均値や標準偏差を算出した後、どうやってその正確性を確認するのか?

    -平均値や標準偏差を算出した後、その正確性を確認するためには、データの分布やヒストグラムを再度確認することが重要です。これにより、データのばらつきや集中傾向がどの程度平均値や標準偏差に反映されているかを判断することができます。また、データの正規性や外れ値の有無を確認し、必要に応じて適切な変換やフィルタリングを行うことも有効です。さらに、信頼区間や標準誤差などの統計的精度指標を計算し、結果の信頼性を評価することも役立ちます。

  • データ分析において、標準偏差が平均値よりも重要な指標となる場合がある理由は何ですか?

    -データ分析において、標準偏差が平均値よりも重要な指標となる場合がある理由は、データのばらつきや変動の大きさに対する理解が、場合によってはデータの中央値よりも重要であることです。例えば、投資のリスク評価や品質管理など、データの分散や変動を重視する場面では、標準偏差がより重要な役割を果たします。また、データの分布が偏りや外れ値を含む場合、標準偏差はデータの特徴をより正確に反映する可能性があります。

Outlines

00:00

📚 データの可視化と要約の重要性

この段落では、データの可視化と要約に関する基本的な考え方について説明されています。データの可視化は、生データの状態から始め、分布やばらつきを把握しやすくすることを目的としています。また、データの要約は、複雑な生データから有益な情報を引き出すために必要なプロセスであり、平均値や標準偏差などの数値的な要約を行います。このプロセスは、データの特徴を簡潔に表現し、分析を促進するための重要なステップです。

05:02

🧠 データの可視化をスキップすることは避けるべき

この段落では、データの可視化を最初に行うことが重要である理由について述べられています。データの可視化は、私たちの脳がデータの分布やばらつきを理解するための重要なステップです。生データから直接平均値や標準偏差を計算しても、データの可視化をスキップすると、データの正確な解釈ができなくなります。したがって、データの分析において、常に可視化のステップを含めることが重要です。

10:04

📈 正規分布と標準偏差の理解

この段落では、正規分布と標準偏差の概念について深く理解するための基礎知識が提供されています。正規分布は、データが平均値を中心に左右対称に分布するものであり、標準偏差はデータがどの程度ばらつかれるかを示す指標です。平均値と標準偏差の2つの数値があれば、データの分布を表現することができます。この理解は、データ分析において非常に重要であり、分布の特性を把握し、データの要約を行うことができます。

15:09

🔢 標準偏差の計算方法とその意義

この段落では、標準偏差の計算方法とその意義について詳しく説明されています。標準偏差は、データが平均値からどの程度離れているかを示すため、データのばらつきを数値的に表現する指標です。計算方法是、データの平均値から各データポイントとの差を求め、その差的二乗を計算し、それらを足し合わせたものをデータポイントの数(または数-1)で割ることで求められます。この計算により得られる標準偏差は、データのばらつきの大きさを示す有力な情報となります。

20:09

🤔 データの要約と正規分布の関係性

この段落では、データの要約と正規分布との関係性について議論されています。データの要約は、生データから得られる情報を簡潔に表現するプロセスであり、正規分布はデータがどのように分布しているかを表すモデルです。平均値と標準偏差を用いてデータが正規分布に従うと仮定すると、データの特徴をより正確に把握することができます。しかし、データが正規分布に従わない場合でも、平均値や標準偏差は有効な要約ツールとなることがありますが、その場合の解釈には注意が必要です。

25:12

🌟 平均値と標準偏差の計算結果とその適用範囲

この最終段落では、平均値と標準偏差の計算結果に基づいて、データの分布を正規分布として想定し、その適用範囲について考察しています。平均値や標準偏差から得られる推定値は、データの分布を理解する上で有用ですが、必ずしもすべてのデータに適用できるわけではありません。特に、データが正規分布に従わない場合や、分布が右に傾いた場合、平均値や標準偏差に基づく推定は誤りを含む可能性があります。そのため、データの特性を充分に理解し、適切な方法で要約することが重要です。

Mindmap

Keywords

💡平均値

平均値は、データの集まりの中で最も一般的な数値を表す指標です。この動画のテーマである「平均値と標準偏差」の中で、平均値はデータの中央値を表すために使われ、例えば100人の血圧の平均値を計算する際に使用されます。動画では、平均値がデータの要約において重要な役割を果たしていることが強調されています。

💡標準偏差

標準偏差は、データのばらつきの大きさを示す統計的指標です。この動画では、標準偏差がデータのばらつきを数値化し、データの分布を理解するための重要な要素と説明されています。例えば、血圧のデータがどのようにばら割れているかを表すために使用されます。また、標準偏差はデータの信頼性や変動の程度を評価する際にも重要な役割を果たします。

💡データ可視化

データ可視化は、複雑なデータや統計情報を視覚的に理解しやすくするためのプロセスです。この動画では、データ可視化の重要性が強調されており、ヒストグラムを作成することでデータの分布やばらつきを把握しやすくなることが説明されています。データ可視化は、統計の分析や解釈において、情報を効果的に伝えるための鍵となる技術と言えます。

💡ヒストグラム

ヒストグラムは、データポイントの頻度を可视化するための統計的な図表です。動画の中では、ヒストグラムがデータの分布を把握するための方法として導入されており、例として血圧のデータがヒストグラムにどのように表現されるかが説明されています。ヒストグラムは、データの集計や分析において、情報を視覚的に理解するための有用なツールです。

💡正規分布

正規分布は、最も一般的な確率分布の一つであり、対称的な鐘型の分布を表す統計学的モデルです。動画では、正規分布がデータの分布を理解するための基礎となる概念として説明されています。例えば、平均値と標準偏差を知ることで、正規分布からデータの大部分がどの範囲に分布しているかを予測できることが示されています。正規分布の知識は、データ分析や統計の解釈において非常に重要です。

💡中心極限定理

中心極限定理は、独立したランダムな変数たちの平均の分布が、サンプルサイズが大きくなるにつれて正規分布に近づくことを示す統計学的定理です。動画では、この理論に基づいて、標本平均値の分散や標準誤差を計算し、母集団の平均値に関する推定を行う方法が説明されています。中心極限定理は、統計推定や信頼区間の計算において重要な役割を果たします。

💡標準誤差

標準誤差は、標本平均値と母集団平均値との間の誤差の標準偏差を表す統計的指標です。動画の中では、標準誤差が標本から母集団の平均値を推定する際の精度を評価するために使用されることが説明されています。標準誤差は、データの分散やサンプルサイズに基づいて計算され、信頼区間を決定する際にも重要な役割を果たします。

💡信頼区間

信頼区間は、母集団パラメータ(例えば平均値)の推定値の不確実性を示す範囲です。動画では、信頼区間を計算するための手法が説明されており、これにより研究者が母集団の平均値を特定の信頼度(例えば95%)で推定できることが示されています。信頼区間は、統計分析の結果を解釈し、結論を下す際に重要な要素です。

💡データの要約

データの要約は、大量のデータをより簡潔で理解しやすい形に変えるプロセスです。動画では、データの要約が重要であることが強調されており、平均値や標準偏差の計算を通じてデータの特徴を簡潔に表現することができることが説明されています。データの要約は、統計分析や報告書 작성において、情報を効果的に伝えるための重要なステップです。

💡データ分析

データ分析は、データから意味のあるパターンや関係性を発見するために使用される一連のプロセスです。この動画では、データ分析の過程として平均値や標準偏差の計算が行われ、これによりデータの分布やばらつきに関する理解が深まります。データ分析は、意思決定や問題解決、予測などの様々な分野で重要な役割を果たしています。

💡統計的推定

統計的推定は、標本データから母集団の特性を推測するプロセスです。動画では、統計的推定が中心極限定理に基づいて行われ、標本平均値から母集団の平均値を推定する際に標準誤差が使用されることが説明されています。統計的推定は、研究やビジネス分析などで、母集団の特性を理解するために欠かせない技術です。

Highlights

ゼミ生のみなさんこんにちは、今日も一緒に勉強していきましょう。

今日のテーマは平均値と標準偏差に関して深く考え、深く理解することでこの2つをすごく好きになっちゃいましょうというのが目標になります。

平均値や標準偏差を計算する必要があるのかその理由をしっかり知る必要があります。

例えば標準偏差を求めるときにn-1を用いる理由を理解している場合もありますが、ここを放置して何となくやっている場合もあります。

データの可視化の重要性もしっかり理解してほしいと思っています。

平均値は129.6年、ばらつきの指標である標準偏差が15であることがわかります。

生データから数値によるようやくを致し、平均値や標準偏差を算出することで全体のデータがどのぐらいの大きさでどのぐらいのバラつきがイメージしやすくなった。

データの要約の流れの中でだんだんわかりやすくなっていく代わりに情報量がどんどん減っていってしまうことに皆さんお気づきになりましたでしょうか。

正規分布について知る必要がありますのでまずは正規分布の解説をさせていただきます。

正規分布は左右対称の1つの山と言います。

平均値と標準偏差の2つだけで分布の形が決まるという正規分布の特徴を理解することは重要です。

平均値と標準偏差がわかれば分布全体が把握できる、つまり平均値と標準偏差があればそこから逆算して頭の中で分布やヒストグラムを描くことができる。

平均値の求め方は特に説明する必要もないかもしれませんが、全ての数字を足し合わせて症例数 n で割るだけですね。

標準偏差は少し求め方が複雑ですが、平均値からのどの程度のばらつきかの指標として考えると良いでしょう。

偏差平方和を得るためには、それぞれのデータの値と平均値との差を二乗してから全て足し合わせます。

標準偏差を計算する際に、n-1で割ることで母集団の分散を偏りなく推定するための工夫の結果です。

正規分布では平均値を中心にして左右対称の釣り鐘状の形になります。

平均値プラスマイナス1かける標準偏差の範囲にすべてのデータのうち68.3%のデータが入ります。

正規分布しない場合でも平均値や標準偏差を計算すること自体はできますが、それによって想定される分布と元の分布が似ても似つかない場合もあります。

生データからデータの可視化をして左右対称で1縫製の分布が得られた場合に平均値や標準偏差で数値的なようやくができるという話でした。

Transcripts

play00:00

ゼミ生のみなさんこんにちは今日も一緒に勉強していきましょう

play00:05

今日のテーマは平均値と標準偏差に関して深く考え

play00:09

深く理解することでこの2つをすごく好きになっちゃいましょうというのが目標になり

play00:15

ます

play00:16

そのぐらいに平均値や標準偏差を深く理解するために必要なことですが一つ目はなぜ

play00:23

平均値や標準偏差を計算する必要があるのかその理由をしっかり知る必要があります2

play00:30

つ目としてはその計算をちゃんと理解して行えることが必要になります

play00:36

例えば標準偏差を求めるときに n -1目はる理由をあまり理解していない場合も

play00:42

多いかと思いますがここを放置して何となくもやっとしたまま過ごしていると

play00:48

この2つを好きになることはできません

play00:51

最後にデータの可視化の重要性もしっかり理解してほしいところだと思っております

play00:57

[音楽]

play00:58

さて最初の質問ですがなぜ平均値や標準偏差を計算するのでしょうか

play01:06

例えば何かの臨床研究において100人分の血圧を測ったとしましょう

play01:12

そうするとこのように100個の血圧の値が出てくるようになります

play01:18

データが集まることは良いことですがこのように100個の血圧の値を眺めているだけ

play01:23

でデータの特徴が見えてくることはほとんどありません

play01:28

データが多すぎてひと目で把握することができないんですね

play01:32

なので最初にやることはデータをグラフにすることつまり視覚化だと思います

play01:40

このようなヒストグラムを書くとデータの分布や殻つきがある程度把握できるんじゃ

play01:46

ないでしょうか

play01:47

ちなみにこのグラフのことをヒストグラムと言いまして

play01:51

横軸は先ほどの血圧の値になっております

play01:55

そして縦軸は患者さんの数になりますが

play01:58

ヒストグラムでは基本的に人数を面積で表しております

play02:03

例えばですが低い所の3つの階級

play02:07

つまり血圧が80から110までの階級を一つにまとめた時にどういうヒストグラムに

play02:13

なるかを考えてみましょう

play02:15

3つの階級全体で9人いたとしますと

play02:19

横幅が3倍になっていますので縦軸は旧悪さんでメモリとしてさんの高さにすれば

play02:26

面積が9人分を表すことになりますよね

play02:29

[音楽]

play02:31

実際にヒストグラムを書くとこのようになります

play02:34

ですのねヒストグラムにおいてはその面積が人数全体を表すというところを覚えて

play02:41

いただければ良いかと思います

play02:43

さて話を元に戻しましょう

play02:46

グラフの視覚化をすることはできましたね

play02:49

次に先ほどの100個のデータの平均値と標準偏差を計算してみましょう

play02:57

平均値は129.6年

play03:00

ばらつきの指標である標準偏差が15であることがわかります

play03:05

100個あるデータはそのままでは把握しにくいので

play03:08

一つ又はばらつきも含めて二つの数値にようやくするのがこの平均値や標準偏差を計算

play03:15

する目的になります

play03:18

まとめますと100個のデータがありまして

play03:22

見やすくするためにデータの可視化をまず行いましたね

play03:26

ヒストグラムにすることでデータの位置やバラつきが把握しやすくなりました

play03:32

そしてさらに数値によるようやくを致しました

play03:35

平均値や標準偏差を算出することで全体のデータがどのぐらいの大きさでどのぐらいの

play03:42

バラ月7日がイメージしやすくなったかと思います

play03:47

ですの音平均値や標準偏差をなぜ計算するのかという最初の疑問に対する答えは

play03:55

単純にデータの要約をしたいからということになります

play04:01

ここまではかなり一般的な議論の流れだと思うんですがせっかくなので皆さんには

play04:07

もっと深く考えていただきたいと思います

play04:10

今まで頻繁にデータの要約という単語が出てきましたがデータがようやくできたという

play04:16

のはどういう状態なのかというのを考えていくと

play04:20

平均値や標準偏差のより深いところの理解が得られると思います

play04:26

さて基本的には生データが一番複雑ですよね

play04:31

生データの状態が一番情報量がたくさんあるんですけども

play04:36

見た目では把握しにくい状態でしたね

play04:38

100個くらいのデータ数であればなんとかなる場合もありますが何万個

play04:44

何十万個の生データの場合はデータの外観を俯瞰することすら不可能になります

play04:50

なのでまずはデータの可視化をすることでデータの分布やばらつきを見た目でわかり

play04:55

やすくしてそして平均値や標準偏差

play04:59

などの数値でのようやくもいたしました

play05:01

これがデータの要約の流れになりますが一つ注意点としては生データからいきなり平均

play05:08

値や標準偏差を求めてデータの可視化をスキップする人がたまにいらっしゃるんです

play05:13

けどもこれはあまりお勧めできません

play05:16

データの可視化を最初にしなければいけない理由はこの脳がの後ろの方

play05:21

で説明しますがデータの可視化というのが非常に重要なステップだということは覚えて

play05:27

おいてくださいね

play05:29

さてこのデータの要約の流れの中でだんだんわかりやすくなっていく代わりに情報量が

play05:36

どんどん減っていってしまっていることに皆さんお気づきになりましたでしょうか

play05:41

生データから可視化をした段階とおかしくから数値によるようやくをした段階ね

play05:47

情報量が減っていってしまってるんですね

play05:51

なのでこのヒストグラムから生データにどのくらい正確に戻れるのか

play05:57

または数値で要約したものからどのくらい正確にイスと g に戻れるのかというある

play06:03

意味ようやくの制度のようなものを考えていくといろいろとわかってくることがあり

play06:08

ます

play06:09

例えばこのヒストグラムから元の数値にどのぐらい戻れるかというのを考えてみ

play06:15

ましょう

play06:16

月圧が80から90の人はひとりであるとか

play06:20

血圧120から130の人は30人ぐらいいるとかそういうことはヒストグラムから

play06:26

わかりますね

play06:28

そして細かい数字はわからないとしても例えば血圧80からケア中の人は血圧85だと

play06:36

いうふうに決めつけてデータを保管していくと一応

play06:39

100人分のデータを作ることができます

play06:44

そのようにして100人分のデータを作るとすべてのデータが125とか

play06:49

135などの値になってしまっていますが一応

play06:53

100人分もデータとして元に戻すことができました

play06:57

このデータは10刻みの数字になっていて

play07:00

元のデータよりも情報量がかなり減っていますよね

play07:06

例えば最初の5人に関しては生データだとこの上の数字なんですがそれをヒストグラム

play07:13

から戻すとこの下に書いてある数字になります

play07:17

それほど離れた数字ではないのですが例えば

play07:20

136.7が135になっていますね

play07:24

2番目の方と5番目の方の血圧は本当は

play07:29

127.1と125.5なんですが

play07:32

ヒストグラムから戻すと同じ125になってしまっています

play07:37

このように元の値とは違う値になってしまったりそもそもの値が単純化されてしまって

play07:43

いますので情報量はやはりスト g にすると減っているんですね

play07:50

情報量が減った分見やすくなっているというのがヒストグラムであり

play07:54

見やすくなった分減ってしまった情報は完全には元に戻せないけれどもある程度は

play08:00

戻せるというそのような状態になってるんですね

play08:04

さてでは今日のテーマである平均値や標準偏差によるようやくですがこのように要約し

play08:11

た時にいったいどのぐらいかしかの南海

play08:14

つまりイスト g に戻せるかというのを考えていきたいとおもいます

play08:20

さてそのためにはまず正規分布について知る必要がありますのでまずは正規分布の解説

play08:28

をさせてください

play08:29

正規分布というのは左右対称の一つの山

play08:33

つまり1縫製のこのような分布のことを指します

play08:38

この分布を数値で表すということをまず最初に考えていきましょう

play08:44

さてここに2つの正規分布があります

play08:48

一つ目の正規分布は100ぐらいのところに中心があって比較的裾野が広い

play08:54

つまりばらつきが大きいものになっていますね

play08:58

二つ目の正規分布は170から180ぐらいのところに中心があって一つ目と比べると

play09:05

そのが狭い

play09:06

つまりばらつきの小さい分布になっております

play09:10

この1番目と2番目の正規分布の違いをどのように表現するのかということをまずは

play09:17

考えていきましょう

play09:20

ここで重要な正規分布の特徴として平均値と標準偏差の2つだけで分布の形が決まると

play09:27

いうものがあります

play09:29

これらの数値の求め方は後で説明しますが

play09:33

最初に覚えておいて欲しいのは正規分布というのは平均値が決まって標準偏差が決まる

play09:40

と分布が一つに絶対に気があるということです

play09:44

つまり平均値と標準偏差の2つだけを規定してあげれば私が分布を書いても別の人が

play09:51

文法書いても全く同じ分布になるということですね

play09:56

この特徴は覚えておいてくださいね

play09:59

ということは先ほどの2つも平均値と標準偏差だけで

play10:04

地内を表現できるはずですよね

play10:08

先ほどの1番目の分布は平均値が100で標準偏差が中の正規分布になります

play10:15

これに対してん

play10:17

2番目の正規分布は平均値が175で標準偏差はさんになります

play10:24

つまり1番目の正規分布よりもにバー目の正規分布は平均値が70を高いところにあり

play10:31

ます

play10:32

そして標準偏差が中からさんに小さくなっておりますので

play10:36

バラ付つまり分布の裾野の広さも2番目の分布の方が狭くなっているというのがこの2

play10:44

つの数字だけで表現できていると思います

play10:47

つまりここでお伝えしたかったのは知ってる人にとっては当たり前かもしれませんが

play10:55

平均値と標準偏差がわかれば分布全体が把握できる

play11:00

つまり平均値と標準偏差があればそこから逆算して頭の中で分布やヒストグラムを描く

play11:07

ことができるということになります

play11:10

ここのところが平均値や標準偏差れの要約を行う

play11:14

一番大事なところですので覚えておいてくださいね

play11:19

さてでは先ほどの100人分のデータがありましたね

play11:24

ヒストグラムはこのようになっていたと思います

play11:27

このデータの市代表地である平均値

play11:31

そしてデータのばらつきの代表地である標準偏差をこれからも貯めていきましょう

play11:38

平均値の求め方は特に説明する必要もないかもしれませんが全ての数字を足し合わせて

play11:45

症例数 n で割るだけですね

play11:48

このデータは100人の血圧の値ですので100人の血圧の値を全て足すと大胆

play11:55

1万2900ぐらいになりましてそれを100で割るとおおよそ129.6となります

play12:02

これが平均値ですね

play12:06

これに対して標準偏差は少し求め方が複雑です

play12:10

標準偏差というのは平均値からどのぐらいばらつくかの指標になっております

play12:17

なので平均値かなそれぞれのデータのさをとって行くとだいたいそんなばらつきが見え

play12:22

てくるんですね

play12:24

例えば1番目の患者さんは血圧が136.7でしたので平均値である129.6を引く

play12:32

play12:32

+7.1となります

play12:35

平均値よりも7.1高い血圧でした

play12:39

2番目の患者さんは血圧が127.1でしたので平均値である129.6を引くと

play12:46

-2.5となります

play12:49

平均値よりも2.5低いということがわかりますね

play12:53

それぞれのデータの値と平均値との差が大きければ大きいほど

play12:59

バラつきは大きいと判断できますね

play13:02

それを正しく数値として表現するためにはどうすればいいでしょうか

play13:07

これには2通りのやり方があります

play13:10

まず基本事項として今計算した平均力の差を全部足すとゼロになるのはわかりますよね

play13:18

全員の血圧の双蒼 n で割ったのが平均値ですからプラスマイナスの符号を無視して

play13:24

平均力の差を全部足すと当然0になります

play13:29

ゼロにしないためには絶対値をとってそうあを取るか

play13:33

ここに書いてあるようにそれぞれを三条してからそうはを取るかどちらかになります

play13:39

ここで絶対値を取る場合は標準偏差とは言わずに

play13:43

平均偏差という名前に変わります

play13:46

平均偏差の方は計算がしづらいだけではなくて

play13:50

部分ができなかったり数式的に扱いづらいところがありますのでほとんど出てきません

play13:57

医学系の論文でこの絶対値を使った平均偏差が使われることはほぼないと思って

play14:03

ください

play14:05

99.9%標準偏差が使われますので絶対値を取る方法に関しては忘れてしまっていい

play14:12

と思います

play14:14

ということで平均力の差の2以上を取って標準偏差を求めていきましょう

play14:20

ここで平均力の差のことを偏差と言います

play14:24

そして以上のことは兵法と言いますよね

play14:28

なので平均値からのさの2乗のことを偏差平方

play14:33

と呼んでおります

play14:35

さてまずは全員の偏差平方を詰めて算出します

play14:40

この偏差平方をすべて足し合わせたものを偏差平方和という風に呼んでおります

play14:47

偏差平方案を得ぬ低い治療あると不偏分散がも泊まるのですが

play14:52

ここがつまずきやすいポイントになります

play14:55

偏差平方案を得ぬつまり100ではあるのではなくて

play14:59

n 低い地である九十九ではあるんですね

play15:02

ここがわかりにくいところでいろんな人に聞いてもそういうものだというふうに説明さ

play15:08

れてしまいがちです

play15:10

n で割るのは間違いで n -1で割るのが正しいという説明がされてしまうとても

play15:16

混乱することになりますのでそこのところの説明をしっかりしていきたいとおもいます

play15:23

とりあえず今は標準偏差を計算するところまでいきましょう

play15:28

今算出した普遍分散というのは二条されたままですので会員は通常の血圧の単位である

play15:35

mm 睡眠中ではなくその3条になってしまっていますよね

play15:40

なので平方根をとって単位を合わせてあげるとそれが標準偏差になります

play15:46

実際に計算すると15.0となりました

play15:50

[音楽]

play15:51

さてではなぜ n -1ではあるのかとか

play15:54

不変というのはどういう意味なのかというところを説明していきたいとおもいます

play16:00

まずここで強調したいのは n で割るのは実は間違いではありません

play16:06

偏差平方和を得ぬで割ると標本分散が求まります

play16:10

つまりこの100例に限定した分散を求めるのであれば

play16:15

n で割るのが正しいということになります

play16:18

ところが臨床研究においてこの100人についてだけ知りたいということはまず間違い

play16:24

なくありえないんですね

play16:27

この100人から母集団の平均値であったり

play16:30

母集団の分散や恭順偏差を推定したいというのが基本的な立場になります

play16:37

それについてちょっと考えていきましょう

play16:39

[音楽]

play16:41

何かの疾患の患者さんが例えば全国で1000万人いたとします

play16:47

この1000万人の患者さん全員もデータがあってそこから平均値

play16:52

ビューを求めることができたら平均値は一つの値に定まりますよね

play16:57

この1000万人全員の血圧を本当に測ることができたならば単純に平均値を取れば

play17:04

それが知りたい値になります

play17:06

ただしそんなことはほとんどの場合不可能なので今回の場合は100人のサンプルを

play17:13

抽出して血圧の平均値を求めています

play17:16

この100人の標本から得られた標本平均値は神の平均値

play17:22

ミュウを推定するものですので new ハットと呼ばれております

play17:26

ミューハットの記号はビューの頭に通しのようなものをかぶっているのが特徴です

play17:32

このハットは何かの推定値を表すときに使われるものですので覚えておいて損はないと

play17:38

思いますよ

play17:40

さてここで最初の集団のミューハットは

play17:43

129.6でしたが別の100人をサンプルしたら別の御法度

play17:49

ここでは客さん10.5になりました

play17:52

そしてまた別の100人をサンプリングしたらまた別のミューハットが出てくるはず

play17:57

ですよね

play17:58

これらはすべて神の値ビューに近い値になるはずなんですけども

play18:03

毎回必ず少しずつ違う値になりますよね

play18:07

つまり母集団の神の平均値ミュウは一つの値固定値ですけども

play18:13

view ハットに関してはいろんなサンプルの仕方によって少しずつばらつきます

play18:18

そういうばらつきを持つ値であるということを理解してください

play18:24

この考え方は中心極限定理の時にも出てきておりますのでわからない方は動画を復習さ

play18:31

れると良いかと思います

play18:34

それでは母集団全体のばらつき分さーん

play18:38

標本分散で表現する方法を考えてみましょう

play18:42

私たちの本当に知りたいのは母集団の分散ですよね

play18:47

さてこの頭は100人の集団市文山になります

play18:51

赤い四角のところがこの集団の標本平均値

play18:55

new 発火になります

play18:57

犬ハットを中心にばらついているのがわかるかと思います

play19:03

ここで別の100人の集団にと集団さんを考えてみましょう

play19:08

mig ハットにみゅアップさんはそれぞれ

play19:11

最初の集団のミューハット市とは少しずつ違う値を取ります

play19:16

そして核集団の犬ハットの周りにベータがばらついて核集団全体のばらつきになります

play19:24

これを観てもらえれば直感的にわかると思いますが

play19:28

母集団全体のばらつきというのは核集団のばらつきよりも大きくなりますよね

play19:34

例えば集団市のばらつきだけ考える場合と比べると

play19:38

母集団全体のばらつきは明らかに大きくなるのが感じられると思います

play19:45

それはなぜかというと核集団の平均値

play19:48

つまり new ハットが右に左にばらついていますのでその分だけ

play19:54

ここの集団のばらつきよりも母集団全体のばらつきの方が大きくなるからです

play20:00

つまり見ぬハットのばらつきが全体のバラ付を増やしているんですね

play20:05

母集団全体のばらつき丸さんというのは

play20:09

格標本のばらつきにビッグハットのばらつき

play20:12

つまり流ハットの分散を加えたものになります

play20:17

式にすると母集団の分散=

play20:20

標本分散+ミグハットの分散となりますね

play20:25

さてここで標本分散が出てきましたね

play20:29

これは先ほど説明しましたが

play20:32

標本の偏差平方案を得ぬで割ったままでしたね

play20:36

なのであとはミューハットの分散がわかればこの式を解くことができます

play20:42

さて中心極限定理の動画を観ていただいた方はもうここで気づくと思いますがこの

play20:48

ビューハットの分散というのはまさに中心極限定理が扱っている分布

play20:54

そのものでしたね

play20:56

このミューハットのばらつきから標準誤差と言って推定精度の指標になるものを求める

play21:02

ことができましたね

play21:04

そしてそこから95%信頼区間を計算するという話をしたかと思います

play21:11

その辺のところが気になる方は中心極限定理の動画をご覧下さい

play21:17

さてここでは中心極限定理に従ってビッグハットの分散は母集団の分散を得ぬで割った

play21:25

もので与えられるということを確認しましょうこれを利用して先ほどの式を変形すると

play21:33

母集団の分散=標本分散+

play21:36

流ハットの分散

play21:38

そして標本分散は偏差平方案を得ぬで割ったものであり

play21:43

new ハットの分散は母集団の分散を得ぬで割ったものになりますね

play21:49

母集団の分散が右辺と左辺に両方出てきているのでまとめてしまいましょう

play21:56

するとこのようになります

play21:59

こうなってくるとだんだんわかってきましたね

play22:03

左辺の母集団の係数を1にするために両辺に n -1分の n をかけるとこのよう

play22:10

になります

play22:13

母集団の分散を推定したければ教本の偏差平方和を得ぬではなくて

play22:18

n -1で割るのが正しいということがこれでお分かりいただけたかと思います

play22:26

先ほどのスライドで不偏分散という単語が出てきましたね

play22:30

この普遍というのは偏りがないという意味ですがこれは母集団の分散から偏りのない

play22:38

推定値が算出できるという意味になります

play22:42

逆に言うと偏差平方和を得ぬで破った

play22:45

標本分散というのは必ず母集団の分散よりも低いほうに偏った値になります

play22:52

皆さん理解していただけたでしょうか

play22:55

繰り返しになりますが偏差平方和を得ぬではなく

play22:59

n -1で割るのは母集団の動産を偏りなく推定するための工夫の結果であります

play23:07

これをに関していただけるとなぜ n ではなくて

play23:10

n -1ではあるんだろうというモヤモヤしたことがすっきりと理解できてもっと標準

play23:16

偏差を好きになってくれるんじゃないかと思います

play23:20

さて平均値と標準偏差の計算できたのであとはその特徴をお伝えしていきたいとおもい

play23:27

ます

play23:28

正規分布というのは平均値を中心にして左右対称の釣り鐘状の形になります

play23:35

そして平均値プラスマイナス1かける標準偏差の範囲にすべてのデータのうち

play23:42

68.3%のデータが入ります

play23:45

そして平均値プラスマイナスにかける標準偏差の範囲に95.4%のデータが入ること

play23:53

になります

play23:54

ぴったり95%のデータが入る区間のことを描画は5%10%と言って平均値プラス

play24:01

マイナス

play24:02

1.96かける標準偏差の範囲になります

play24:07

身近なものでよく出てくるのは偏差値になります

play24:11

偏差値というのは平均値を偏差値50としていて

play24:15

1標準偏差増えるごとにプラス x するという算出方法になっております

play24:21

平均値プラスマイナス1かける標準偏差

play24:24

つまり偏差値40から60の間に約70%の受験生が入りますし併殺30から70の間

play24:33

にほとんどすべての受験生が入ることになります

play24:37

これは皆さんの実体験から納得できるものだと思います

play24:42

このように自分の日常で使ったことのある指標に置き換えて考えてみるとより理解が

play24:48

進むかと思います

play24:51

さて話を元に戻しますと100人の平均値から

play24:55

イストグラムを書きそして平均値と標準偏差を算出することができましたね

play25:03

ここで大事なのはこの平均値や標準偏差から

play25:07

ヒストグラムにどのぐらい戻れるかということでしたね

play25:12

平均値が約130のところにあって

play25:15

そして標準偏差な中のの正規分布を思い浮かべてみましょう

play25:20

つまり130+-15である

play25:24

115から145の間に70%のデータが入りそして

play25:29

130+-30である100から160の間に95%のデータが入るようなそういう

play25:37

正規分布を思い描いてみましょう

play25:41

その正規分布はこのようになります

play25:44

皆さん思い描けたでしょうか

play25:47

平均値や標準偏差から想像される分布あまたのヒストグラムをよく表していますよね

play25:54

これが平均値や標準偏差でデータがようやくできたということなんですね

play26:00

データの要約というのは単に平均値や標準偏差を計算することではなくてそれによって

play26:07

想定される分布と元の分布が似通っているということが前提になっております

play26:13

これがデータの要約の今質的な部分になります

play26:18

さてでは正規分布しない場合はどうなるのかという話もよく出てきますのでそちらの話

play26:24

をいたします

play26:26

正規分布しない場合は平均値や標準偏差でようやくするのは間違いだと教わった方は

play26:33

多いと思います

play26:34

ただ理由を理解しないまま受け入れてしまうと心に引っかかりが残りますのでそこの

play26:40

ところをもう一度考えてみましょう

play26:45

さて正規分布せず右にそう引くようなデータを用意しました

play26:50

このようなデータでも平均値や標準偏差を計算すること自体はできますよね

play26:56

これらを計算すると平均値は130で標準偏差は35になりました

play27:03

この時に客三重を中心として+-35のところに約70%のデータが入りプラス-70

play27:12

のところに95%のデータが会えるようなそういう正規分布を想像してみてください

play27:19

それはこのような分布になります

play27:23

つまり平均値や標準偏差から想定される分布というのは元の分布と似ても似つかない

play27:29

ですよね

play27:31

これではとてもようやくできたとは言えないですよね

play27:35

これが右や左に裾を引くような分布で平均値や標準偏差を使ってデータを要約しても

play27:42

意味がないという本質的な理由になります

play27:47

ということで生データからデータの可視化をして左右対称で1縫製の分布が得られた

play27:53

場合に平均値や標準偏差で数値的なようやくができるというお話をしてきました

play28:00

平均値と標準偏差がわかればある程度

play28:04

ヒストグラムを頭の中で再現できますし

play28:07

ヒストグラムから生データにある程度戻ることもできる

play28:10

という話をいたしました

play28:12

先ほどの正規分布をしないようなデータの場合には平均値や標準偏差が使えませんので

play28:19

その場合にどのように要約するかに関してはまた別の講義動画を作成する予定です

play28:25

[音楽]

play28:27

今日の解説動画は平均値や標準偏差を深く理解してこの二つを好きになろうという

play28:34

コンセプトでやってまいりました

play28:36

なぜ n -1ではあるのかという細かい部分もしっかりと理解することや数値的に

play28:42

ようやくを行う本質的な意味合いについて皆様と一緒に考えてきました

play28:48

わかっていただけたなら嬉しいです

play28:51

今日のところはここまでになりますので皆さんここまでご覧頂きありがとうございます

play28:58

では今日はこのへんねまた次の講義動画でお会いしましょう

play29:03

さようなら

play29:05

うp

play29:08

ああああああ

play29:11

ああああああ

play29:14

ええええええ

Rate This

5.0 / 5 (0 votes)

相关标签
統計学平均値標準偏差データ可視化データ要約正規分布標準誤差計算方法統計分析臨床研究
您是否需要英文摘要?