12データサイエンス

藤井功
12 Jun 202324:00

Summary

TLDRこのビデオスクリプトはデータサイエンスの基礎について解説しています。ビッグデータや人工知能と密接に関連し、統計学を駆使してデータの意味を理解し、意思決定を行うための武器として活用する重要性を説きます。データの種類、その関係性、統計学的手法を通じて新たな知見を導き出し、データサイエンスの目的と定性的・定量的なデータの取り扱いについて学ぶことができます。ヒストグラムや標準偏差、中心極限定理などの統計学の概念を通じてデータの分布や信頼性を評価し、仮説検定を行う方法も紹介されています。

Takeaways

  • 📚 データサイエンスは、ビッグデータや人工知能と関連があり、統計学を駆使してデータを分析し、意味のある情報を引き出す学問です。
  • 🔍 データは事実や情報を意味のある形で表現したもので、定性的・定量的な値の集合体を指します。
  • 🌐 データサイエンスは広範な分野に関わっており、データから隠れた知見や価値を明らかにし、問題解決に役立つ技術を指します。
  • 📝 データサイエンスの目的は、データ間の比較、要約、分類、予測など、多岐にわたります。
  • 📈 統計学はデータサイエンスで重要な役割を果たし、データの分析や推測に使われます。
  • 🔢 データは定性的(クオリタティブ)と定量的(クオンティタティブ)に分けられ、それぞれのデータタイプには異なる分析方法があります。
  • 📊 定性的データはカテゴリーデータとして扱われ、定量的データは感覚尺度や比例尺度に分けられます。
  • 📉 統計学の手法は、データの性質を調べたり、将来の結果を推測するための手段として用いられます。
  • 📚 データサイエンスは、データの分析と推測を通じて、客観的評価を提供する学問です。
  • 📋 統計的推定や仮説検定は、データサイエンスにおいて重要な手法で、仮説の成り立ちを検証することができます。
  • 📝 データサイエンスは、データ分析のスキルを駆使して、論理的に議論し、強いエビデンスを得る能力を身につけることを目指します。

Q & A

  • データサイエンスのテーマについて何を学びたいと思いますか?

    -データサイエンスについて学ぶことで、ビッグデータや人工知能と関連する統計学を使いこなし、データに意味があるかどうかを理解し、意思決定の武器として統計学を身につけることを目指します。

  • データサイエンスにおける「データ」とは何を指しますか?

    -データとは、英語のデータムの複数形で、分析や意思決定に用いる際に個々の事実、情報、基礎資料といった意味合いで使われる用語であり、厳密には人や事物に関する定性的、定量的な値の集合体を指します。

  • データサイエンスにおける「エビデンス」とは何を指していますか?

    -エビデンスは、ラテン語の外部に見えているものという意味から、証拠となったと言われ、意見を述べる時に個人の感想や不確かな推測ではなく、客観的事実を指しています。

  • データサイエンスで使用する統計学的手法にはどのようなものがありますか?

    -データサイエンスで使用する統計学的手法には、データ間の差を統計的に比較し優位性を明確にする手法、複数のデータを要約し原因を明らかにする手法、データを類似した要素ごとに分類整理し構成する原因を探る手法、そして得られた知見から今後の展開を予測する手法などがあります。

  • 定性的データと定量的データの違いは何ですか?

    -定性的データとは、物事の様子や変化を数字では表せない性質に重点を置いたデータで、質的変数と呼ばれ、カテゴリーデータとも呼ばれます。一方、定量的データとは、物事の様子や変化を数字に直して分析するデータで、量的変数と呼ばれます。

  • 統計学で扱う「名義尺度」と「順序尺度」の違いは何ですか?

    -名義尺度はカテゴリーを表す数値でない変数で、与えられた位置や番号に数的な意味が無いことを指します。順序尺度は順序が与えられている変数に対して、数字の大小が順序に意味を持ちますが、数字の感覚には意味が無いことを指します。

  • 「感覚尺度」と「比例尺度」の違いは何ですか?

    -感覚尺度では数値の間に意味があり、例えば温度の差を表す際に用いられます。一方、比例尺度では変数自体に物理的な意味があり、ゼロが定義されており、数値自体に意味が出るため、身長や体重のように比較や比率にも意味があります。

  • データサイエンスにおいて、ヒストグラムの重要性は何ですか?

    -ヒストグラムはデータをいくつかの階級に分け、それぞれの階級に入るデータ数を示した分布表を作成することで、データの分布や特徴を視覚化する重要な手段です。

  • 統計学的推定と仮説検定の違いは何ですか?

    -統計的推定は、標本から母集団に関する性質や各種統計量を推測することを指し、点推定や区間推定があります。一方、統計的仮説検定は、母集団に関する仮説が成り立つかどうかを判断するための手法であり、標本データを用いて仮説の妥当性を検証します。

  • 中心極限定理とは何ですか?

    -中心極限定理は、母集団から無作為に標本を抽出する場合、標本平均の分布がサンプル数が増えるにつれて平均値と標準偏差で表される正規分布に近づくという統計学的定理です。

  • データサイエンスにおいて、データの質を評価する上で重要な統計量は何ですか?

    -データの質を評価する上で重要な統計量には、標本の平均(Xバー)、標本の分散(S²)、標本の標準偏差(S)などがあります。これらの統計量は、データのばらつきや集まり具合を理解する上で役立ちます。

Outlines

00:00

📊 データサイエンスの基礎と目標

この段落では、データサイエンスのテーマが紹介され、ビッグデータや人工知能と密接な関係があることが説明されています。統計学を駆使してデータの意味を理解し、意思決定の武器として活用することが目的となっており、データサイエンスにおけるデータの種類や統計学の関係性、データから得られる知見の取り扱い方について学ぶことが提案されています。データの定義やデータサイエンスの分野の広さ、データ分析の学問としての捉え方、そしてピーター・ナウアによるデータサイエンスの定義が触れられています。

05:01

🔍 データの種類と分析

段落2では、データの定性的と定量的なものに分類され、それぞれの性質と分析方法が説明されています。定性的データは数字で表せない性質を捉え、定量的データは数字に直して分析されることが特徴です。質的変数と量的変数の概念が紹介され、それぞれの変数が持つ尺度についても解説されています。また、データサイエンスが取り組む目的として、データ間の比較、要約、分類、予測が可能であることが強調されています。

10:02

📚 統計学の手法とデータの性質

第3段落では、統計学的手法がデータサイエンスにどのように役立つかが探求されており、データの性質を理解するための重要なポイントが挙げられています。統計学は膨大なデータを理解しやすくするためのツールであり、データの集まりから母集団の性質を推測する手段とされています。標本と母集団の関係性、標本の性質、標準偏差、中心極限定理など、統計学の基礎用語と概念が解説され、データサイエンスにおけるその意義が強調されています。

15:04

📉 データの分布と統計量

この段落では、データの分布とそれに伴う統計量の基礎について学びます。標本の平均、分散、標準偏差などの基本的な統計概念が紹介され、データのばらつきを示す方法が説明されています。ヒストグラムの作成方法や、データが正規分布に従っているかどうかの判断基準も触れられ、データの外観からその特性を読み取る重要性が強調されています。

20:06

🔎 統計的推定と仮説検定

最後の段落では、統計的推定と仮説検定の概念が解説されています。点推定と区間推定の違いが説明され、仮説検定のプロセスがステップバイステップで紹介されています。優位水準の設定や仮説が成り立つかどうかの判断方法が学ばれ、統計学を用いた論理的な議論の重要性が強調されています。また、このプロセスを理解することの重要性と、不合格のリスクについても触れられています。

Mindmap

Keywords

💡データサイエンス

データサイエンスは、ビッグデータや人工知能と密接に関連する分野で、統計学を駆使してデータから意味のある情報を引き出す技術を指します。この分野は、様々な研究分野の知識を組み合わせて、データから隠れた知見や価値を明らかにし、問題解決に役立てます。例えば、ビデオではデータサイエンスがデータを分析し、新たな知見を導き出す過程が説明されています。

💡統計学

統計学は、データサイエンスの重要なツールであり、データの分析と解釈に不可欠な役割を果たします。ビデオでは統計学を用いてデータの関係性や意味を理解し、意思決定の武器として活用することが強調されています。統計学はデータサイエンスにおいて、データから得られる事実に基づく客観的な評価を行うための方法論を提供します。

💡データ

データとは、英語の'datum'の複数形であり、分析や意思決定に用いる事実や情報、基礎資料の集合体を指します。ビデオではデータの概念が説明され、定性的データと定量的データに分けられ、それぞれのデータの性質と取り扱い方について議論されています。

💡定性的データ

定性的データは、物事の様子や変化を数字で表せない性質に焦点を当てたデータであり、カテゴリーデータとも呼ばれます。ビデオでは性別や血液型などの例を通じて、定性的データがどのように扱われ、数値化されていないことが強調されています。

💡定量的データ

定量的データは、物事の様子や変化を数字に直して分析するデータであり、数値データとも呼ばれます。ビデオでは身長や年齢などの具体例を用いて、定量的データが数値で測られ、比較や計算が可能であることが説明されています。

💡標本

標本は、母集団から無作為に抽出されたデータの集合であり、統計学においては母集団の性質を推定するための重要な概念です。ビデオでは標本が母集団を代表し、その性質を反映することについて説明されています。

💡母集団

母集団は、統計学においては調査や研究の対象となる全個体または項目の総集団です。ビデオでは母集団の概念が紹介され、標本から母集団の性質を推定するプロセスが説明されています。

💡標準偏差

標準偏差は、データのばらつきを示す統計量で、データが平均値からどれだけ離れているかを測ります。ビデオでは標本標準偏差がデータのばらつきを表す指標として紹介され、データの信頼性評価に使われることが説明されています。

💡正規分布

正規分布、またはガウス分布は、データが平均値を中心に左右対称に分布していることを示す連続プロットであり、統計学でよく使われる分布です。ビデオでは標本データが正規分布に従う場合のデータの信頼性について触れられています。

💡ヒストグラム

ヒストグラムは、データの分布を可視化するためのグラフであり、データの階級に入るデータ数を表示します。ビデオではヒストグラムがデータの分布傾向を理解するための重要なツールとして紹介されており、データのばらつきや特性を把握するのに役立ちます。

Highlights

データサイエンスはビッグデータや人工知能と密接に関連しており、統計学を駆使してデータを分析し、意味のある情報を得るための学問である。

統計学を身につけることで、データサイエンスを活用して意思決定を行うことができる。

データとは事実や情報を意味する英語のデータムの複数形であり、分析や意思決定に用いる。

データサイエンスは広範な分野にわたるため、捉えどころのない分野のように見えるが、データの分析とその手法を学ぶことが重要である。

データサイエンスの分野では、データに基づいた客観的な評価をエビデンスと呼び、これは論理的な議論の基盤となる。

統計学的手法を用いてデータを分析することで、データ間の差を比較したり、要因を明らかにすることができる。

データサイエンスは定性的データと定量的データを区別し、それぞれのデータの性質を理解することが重要である。

定性的データは数字で表せない性質に重点を置いた分析であり、定量的データは数字に直して分析する。

統計学では、データの分布やばらつきを理解するために標本平均や標準偏差などの統計量を用いる。

中心極限定理により、標本平均の分布はサンプル数が大きくなるにつれて正規分布に近づく。

ヒストグラムを作成することで、データの分布や特徴を視覚的に理解することができる。

統計的推定や仮説検定は、標本データを用いて母集団に関する性質を推測または検証する手法である。

データサイエンスは膨大なデータを理解しやすく、役立つ情報を引き出すための学問である。

統計学の手法は、データに役割や命を与えるための重要なツールである。

データサイエンスを理解することで、データから得られる知見を活用し、問題解決に役立てることができる。

データサイエンスの分野では、データの性質に応じて適切な統計的手法を選択することが求められる。

データサイエンスは、データの分析と解釈を通じて新たな知見を生み出し、ビジネスや社会に貢献する分野である。

Transcripts

play00:02

今回のテーマはデータサイエンスについて

play00:05

考えていきたいと思います先に説明しまし

play00:09

たビッグデータや人工知能とも非常に関連

play00:13

する内容になっています

play00:15

統計学を使いこなし

play00:17

求めたデータに意味があるのかないのかに

play00:20

ついて

play00:21

理解する必要があると思いますその上で

play00:25

意思決定の武器として

play00:27

統計学を身につけていきたいと思います

play00:30

ここではデータサイエンスについて学ぼう

play00:33

と思いますそもそもデータとは何なのかに

play00:37

ついて考えてみたいと思いますそして

play00:40

データにはどのような種類があるのかに

play00:43

ついて理解します

play00:46

統計学を用いてデータ同士の関係性につい

play00:49

ても考えてみたいと思いますここでは

play00:52

データの本質を理解しデータから導き出さ

play00:56

れた新たな知見をどのように取り扱って

play00:59

いくのかについて理解したいと思います

play01:02

よろしいでしょうか

play01:04

頑張ってついてきてください

play01:07

データとは英語のデータムの複数形であり

play01:10

分析や意思決定に用いる際に個々の事実

play01:14

情報

play01:15

基礎資料といった意味合いで使われる用語

play01:18

でしょうかより厳密には人や事物に関する

play01:22

定性的

play01:23

及び

play01:24

定量的な

play01:25

値の集合体を指しています現在では先に出

play01:29

てきた情報インフォメーションと同じ物質

play01:33

名詞と考える

play01:34

傾向が強いでしょうかJISの情報

play01:37

処理用語によると情報の表現であって

play01:41

伝達

play01:42

解釈または処理に適するように形式化され

play01:45

再度情報として解釈できるものとあります

play01:49

つまりは

play01:51

独立した情報となっていてその後の処理に

play01:54

適するように形式化されたものという

play01:56

ところでしょうか

play01:59

ではこのデータを取り扱う学問データ

play02:03

サイエンスについて見てみましょうデータ

play02:06

サイエンスという分野は非常に広い分野が

play02:09

関係しているためそれ自体

play02:12

捉えどころがない言葉のように見える

play02:13

でしょうか一般にはデータの分析について

play02:17

の学問分野としてよいでしょうかただその

play02:21

ための手法が多岐にわたっていることが

play02:24

難しいと言えます

play02:27

複数の研究分野の知識をもとに得られた

play02:30

様々なデータに潜む知見や価値を明らかに

play02:35

play02:36

課題の解決に役立てる技術を指します

play02:39

平たく言うとデータの中に埋もれた事実

play02:42

意味のある情報や法則関連性といったもの

play02:46

を掘り起こし

play02:48

活用することを言うようでしょうかこの

play02:51

データサイエンスという言葉はデンマーク

play02:54

のコンピュータ学者である

play02:56

ピーターナウアが

play02:58

1974年の論文で用いています

play03:02

よくデータに基づいて

play03:05

議論するようになどと言われることが多い

play03:07

だろうかこれはエビデンスが求められて

play03:10

いるわけですね

play03:12

エビデンスは最近よく使われる言葉ですが

play03:15

そもそも何を指すのでしょうか語源は

play03:19

ラテン語の外部に見えているものという

play03:23

意味から

play03:24

証拠となったと言われますおおむね

play03:28

意見を述べる時に個人の感想や不確かな

play03:31

憶測ではないことを示す裏付けとなる客観

play03:35

的事実を指していますデータ

play03:38

サイエンスの場合データに基づいた客観的

play03:41

評価を指すわけです

play03:44

意見を述べるにおいてもデータを指し示す

play03:46

と客観性があって私的意見ではないことを

play03:50

指しているわけですね

play03:52

幾分

play03:53

ニュアンスは

play03:54

業界によって異なりますが

play03:57

IT関連ではその時の状況が再現できる

play04:00

わけではないので現象などをキャプチャー

play04:03

したものを指すでしょうかまた

play04:06

医療関連では

play04:07

過去の治療効果を示したデータを指すよう

play04:10

ですねまた一般ビジネスの世界では物的

play04:15

証拠以外には指示書などもこれに含まれる

play04:18

ようでしょうか自身の行動を行う上での

play04:21

明確な証拠を示すことが自身を守ることに

play04:25

つながるといった意味合いで使われてい

play04:27

ますかね

play04:29

データサイエンスで使える道具としては

play04:31

データに対しては

play04:34

統計学的手法を用いることができます

play04:37

数的にエビデンスを示すことができるわけ

play04:40

ですね

play04:41

細かい内容は省きますがデータサイエンス

play04:44

により

play04:45

概ね次の4つの目的を明らかにできる

play04:48

でしょうか例えば

play04:51

複数あるデータ間の差を

play04:53

統計学的に比較しその優位性を明確にでき

play04:56

ますまた

play04:59

複数のデータを要約し

play05:01

原因となる要素を明らかにすることが

play05:03

できるでしょうかさらにはデータを

play05:07

類似した要素ごとに分類整理し構成する

play05:11

原因を探ることもできます

play05:13

そして得られた知見から今後の展開を予測

play05:17

することが可能となるでしょうかこういっ

play05:20

た目的を解決するためにデータサイエンス

play05:23

という学問が研究されてきています

play05:27

データには大きく分けて

play05:30

定性的なものと

play05:31

定量的なものがあります

play05:33

順に見ていきましょうまず定性的ですが

play05:36

英語ではクオリタティブといい物事の様子

play05:40

または変化などを数字では表せない性質の

play05:45

部分に着目して分析する様およびそれから

play05:49

得られたデータを意味します一方

play05:53

定量的ですが英語ではクオンティタティブ

play05:55

といい物事の様子または変化などを数字に

play05:59

直して分析する様およびそれから得られた

play06:02

データを意味します

play06:06

定性的に取り扱う際にその時の変数

play06:09

すなわちパラメータを質的変数と言います

play06:13

言い換えると

play06:15

質的変数とは数値や量で測ることのでき

play06:18

ない変数を指しカテゴリー変数カテゴリー

play06:21

データとも呼ばれるものです

play06:23

代償関係がないかあっても数的なものには

play06:27

意味がありません

play06:30

例として性別を変数としたとき次のように

play06:34

男性に1女性に2を仮につけたとしても得

play06:38

られたデータ自体はカテゴリー的な分類で

play06:41

あって数的な

play06:43

値に意味はありませんよろしいでしょうか

play06:46

また同じく

play06:49

血液型とは生物学的に

play06:52

血液中にある抗体の種類とその有無により

play06:55

決まるものであって

play06:57

血液型自体には世間一般で議論されている

play07:00

ような優位さはありません

play07:03

さらには個人の感覚に由来する

play07:06

満足度の場合でも同じで

play07:08

並んでいる順番には意味がありますが数的

play07:11

な意味はありません1の大変不満足に対し

play07:15

て大変満足という語を選んだ場合はより

play07:19

満足度が大きいという意味はあっても

play07:21

データ自体の指す5倍といった数的な意味

play07:25

合いはありませんこのような数的議論が

play07:28

できないデータに対する変数を

play07:31

質的変数と呼んでいます

play07:34

定性的データを取り扱う際変数が持つ性質

play07:39

尺度には名義尺度と順序尺度があります

play07:42

性別に出てきた名義尺度とはカテゴリーを

play07:46

表す数値でない変数に与えられた位置や2

play07:49

といった名義上の仮の数字であって数的な

play07:53

大きさに順序もなければ感覚にも意味は

play07:56

ありませんここの位置や2といったものは

play07:59

コンピュータが扱いやすい数値を割り振っ

play08:02

ただけに過ぎません

play08:04

判別の仕方としては他の数値でない変数に

play08:08

置き換えることができるかで判断できる

play08:10

でしょうか一方

play08:13

順序尺度とは

play08:14

順序が与えられている変数に対して数字の

play08:17

大小

play08:18

順序に意味が生じますがここでは数字の

play08:22

感覚には意味がないものを指します

play08:25

またその変数に対して

play08:28

与えられた尺度を指しています例えば1番

play08:32

目と2番目との違いと2番目と3番目との

play08:36

違いすなわち

play08:38

順位間の差において

play08:40

均等な差を示しているわけではありません

play08:42

人の感覚ですので

play08:45

順番には意味がありますがその感じ方の

play08:48

強度は線形つまり直線的ではないわけです

play08:52

かね

play08:54

定量的に取り扱う際にパラメータを量的

play08:57

変数と言います

play08:59

言い換えると

play09:00

量的変数は数値や量で測ることができる

play09:03

変数を指し感覚尺度と比例尺度に分けられ

play09:07

ます先ほどの順序尺度が

play09:11

並び順を示していたのに対してここでは

play09:13

物理的な違いを数値に置き換えられている

play09:17

ことに注意しましょうデータの質としても

play09:21

ぐっと精度が上がっていることを理解

play09:23

できるでしょうか

play09:25

例として年齢や身長といった数的な意味

play09:29

あるいは尺度がある変数を指しています

play09:33

定量的に取り扱う際にパラメータを量的

play09:36

変数と言います

play09:38

言い換えると

play09:39

量的変数は数値や量で測ることができる

play09:42

変数を指しさらに詳しく説明すると感覚

play09:47

尺度と比例尺度に分けられます

play09:50

例として年齢や身長といった数的に意味を

play09:54

持つ場合あるいは尺度があるときにその

play09:57

変数を指して言います感覚

play10:00

尺度と比例尺度の違いについて見ていき

play10:02

ましょう感覚

play10:04

尺度では数値の間つまりさに意味がある

play10:07

ときに用いられます例えば

play10:10

摂氏何度といった

play10:12

温度の場合には

play10:13

議論の対象は2つ以上の温度の差を議論

play10:16

するために使われるものです

play10:19

例えば

play10:20

昨日は20度だったが今日は30度で

play10:24

熱く感じられるといったように使われます

play10:27

数値自体に意味があるわけではないので

play10:30

昨日に比べて今日は1.5倍温度が高いと

play10:34

いう表現は意味をなしませんつまり数値と

play10:39

しての値自体に意味がないわけです同様に

play10:42

テストの点数自体も大小は比較できたとし

play10:46

ても数値としての点数自体に意味はあり

play10:49

ませんこのようなデータに対して用い

play10:53

られる尺度を感覚尺度と言います一方変数

play10:57

自体に物理的な意味がありさらにゼロと

play11:00

なる原点が定義できる時には数値自体にも

play11:04

意味が出てきますこのようなデータを表す

play11:08

尺度のことを

play11:09

比例尺度と言っています

play11:11

例えば

play11:12

身長の場合絶対的長さを元に計測された値

play11:16

が用いられますからその数値自体に意味が

play11:19

出てきますまた日本やアメリカなど母集団

play11:23

が変わったとしてもその値は保証され

play11:27

比較することができますこのように数値

play11:30

自体の大小やささらにはその比率について

play11:34

も意味があるデータに対して用いられるの

play11:37

play11:38

比例尺度となりますその性質上様々な処理

play11:42

に耐えることのできるデータの質としては

play11:45

最も

play11:46

信頼できるデータと言えるでしょうか

play11:49

取り扱う変数と

play11:52

尺度の性質についてまとめてみましたこの

play11:55

表は現在取り扱っているデータがどのよう

play11:58

な性質のものかを理解できる上で非常に

play12:01

大事と言えますつまりはどのようなデータ

play12:05

を取り扱っているかについて理解できて

play12:08

いればそのデータを使ってどのようなこと

play12:11

ができるかすなわちどのようなことが議論

play12:14

できるかを意味しています

play12:17

情報化が進む社会の中にあって様々な

play12:21

データを得ることができるようになってき

play12:23

ました一方

play12:26

我々に降り注ぐ膨大な情報は一般にはその

play12:29

ままでは理解できず時には不要なものも

play12:32

多いように思えます電光

play12:35

掲示板に表示される情報もそのようなもの

play12:38

でしょうか向かうべき方向の情報が必要で

play12:42

あってそれ以外は不要あるいは妨害となる

play12:45

ものと言えるでしょうかこれに対して

play12:49

統計学とは

play12:50

膨大なデータを人が理解できるより分かり

play12:53

やすい形に置き換えて生きたものにする

play12:56

ことと言えるでしょうか

play12:58

言い換えるなら無機質なデータに役割

play13:02

あるいは命を与えるための手法が

play13:05

統計学と言えるでしょうか

play13:08

統計学的手法とは対象である

play13:11

母集団からデータを集める方法や集めた

play13:14

データを解析する手法のことを言います

play13:17

言い換えると

play13:19

統計学的手法とはあるデータの集合体に

play13:22

対してその性質を調べたり得られたデータ

play13:26

から大元となるデータやこれから起こる

play13:29

だろう未来の結果を推測するための手段と

play13:32

言えますまとめてみますと

play13:35

統計学を用いることにより得られたデータ

play13:38

の性質を求めることができますさらに

play13:42

観察されたデータの

play13:43

元となる集合体

play13:45

母集団と言いますこの母集団の性質を予測

play13:48

することができます

play13:51

データを測定するということはデータの

play13:54

集まりである

play13:55

母集団から

play13:57

標本を抽出する作業と言えます

play14:00

ちなみにここでいう母集団とは世界中の

play14:03

20歳の男性についての調査のように総数

play14:07

すらわからないデータの集まりを意味して

play14:10

います全てのデータについて調査ができ

play14:13

ないためその一部を抽出し全体の集団を

play14:17

予測する必要が生じてきますこの

play14:21

抽出によって作為的つまり意図的でなかっ

play14:24

た時には

play14:25

抽出されたデータの塊ここでは標本として

play14:28

おきますこの

play14:30

標本の持つ性質は

play14:32

元の母集団の性質を引き継ぐことになり

play14:35

ます

play14:36

標本の性質つまり

play14:39

統計的基礎データを見ることで

play14:41

元の集団の統計的データを類推できると

play14:44

いうのがデータサイエンスの本質となり

play14:46

ます

play14:48

ここでは

play14:50

標本のデータについて説明していきます

play14:52

この

play14:54

標本のというように何についての統計量な

play14:57

のかが大事となってきます対象が違うと

play15:01

計算式も変わってきますので

play15:03

常に何についての議論かを意識しましょう

play15:06

かさて

play15:09

標本の平均はここでは

play15:11

Xバーと書きます取り出すとき

play15:14

偶然によってばらついている状態を正規

play15:18

分布あるいはガウス分布と呼びます

play15:21

恣意的なものが混じってくるとこの形が

play15:24

崩れてきますこの後出てくる

play15:27

統計量だけでなくデータの形を見ることも

play15:30

大事と言えるでしょうか

play15:33

標本のデータ数が多いほどまた偶然にも

play15:36

短配されるとすると

play15:38

綺麗な大勝軒の釣鐘型となります

play15:41

後に詳しく説明しますがデータのばらつき

play15:45

具合を示す

play15:46

ピークに対する広がりの幅Sのことを

play15:49

標本の標準偏差と呼んでいます

play15:52

プラスマイナス1標本

play15:54

標準偏差の中に全データの68%が入って

play15:58

いますいわゆるデータとしては普通の範囲

play16:02

と言えるところですこの範囲で大小を議論

play16:06

しても意味がないと言えますさらに

play16:10

プラスマイナスに標本

play16:12

標準偏差の範囲には全データの95%が

play16:15

入っています通常はこの範囲を同じ

play16:19

グループとして考えますこれより外の部分

play16:23

は5%

play16:24

程度しかないので

play16:26

範囲外の部分を

play16:27

滅多に起こらない範囲として取り扱います

play16:30

ここから外の部分は別のグループと考える

play16:34

わけですさらに3票本

play16:38

標準偏差を超えると全体の1%を割るので

play16:41

まずありえない範囲として考えますここ

play16:45

から外の部分は別の集団の範囲として

play16:49

考えるわけですよろしいでしょうか

play16:53

ここで中心極限定理という

play16:56

重要な定理について説明しておきます

play16:59

先ほど見てきた

play17:01

母集団から無作為に標本を抽出するときに

play17:04

得られる標本平均の分布は

play17:07

抽出数nが大きくなるに従って

play17:11

平均値と標準偏差で表される正規分布に

play17:14

近づくという考え方がありますこれは

play17:17

サンプル数が小さい時には

play17:20

母集団の偏りの影響を受けますが

play17:23

十分にNが大きいと

play17:25

母集団は正規分布に置き換えることが

play17:28

できることを示しています

play17:31

統計学ではNの数が30以上であれば

play17:33

おおむね母集団は正規分布していると考え

play17:37

て良いとしています

play17:39

逆に言えば5回や6回のデータ測定では

play17:43

十分なことは言えないことを示しています

play17:46

よろしいでしょうか

play17:49

では

play17:50

統計学的手法によりどのような情報を得る

play17:53

ことができるでしょうか

play17:56

順に見ていきましょうまず標本により得

play17:59

られたデータの総数Nを求めますこの数

play18:03

サンプル数が多いほどデータの信頼性が

play18:06

上がることはなんとなくわかるでしょうか

play18:09

そして次に

play18:12

合計を求めておきます

play18:14

標本の平均は変数Xを使って

play18:18

平均を意味するXバーと記載しますデータ

play18:21

にとってこの平均も大事ですよねまた

play18:26

標本データのおおよその形を理解するため

play18:28

に最大値や最小値そしてデータの大まかな

play18:33

大きさがわかるといいでしょうか

play18:36

例のデータで見ていきますと

play18:38

標本数nは5

play18:40

合計は65

play18:42

平均は13さらにデータの最大値は20

play18:46

最小値は2レンジは

play18:49

最大値引くことの最小値で18となります

play18:52

よろしいでしょうか自分で検算しておいて

play18:56

ください

play18:58

そして

play18:59

平均値からどれぐらい

play19:01

標本データがばらついているかを知るため

play19:03

の標本分散部位を求めておきます

play19:07

統計学ではいろいろな分散が出てきますの

play19:09

でここでは

play19:11

標本の分散であるという意味で

play19:14

標本分散部位あるいはS2乗としておき

play19:17

ますこの値が小さいと

play19:21

概ね平均値にまとまった標本データである

play19:23

ことを示しこの値が大きいと

play19:27

平均を中心にばらついた標本データである

play19:30

ことがわかります表

play19:32

計算ソフトでは

play19:34

varpやストデプ関数を用いてそれぞれ

play19:37

の値を求めます

play19:39

例のデータを用いて計算すると

play19:42

標本分散部位は36となり

play19:45

標本標準偏差は6となっています

play19:49

試しに研鑽してみてください

play19:52

どのようなデータなのかを理解する上で

play19:54

ヒストグラムを得ることは重要と言えます

play19:58

ヒストグラムとはデータをいくつかの階級

play20:02

段階のデータに分けその階級に入るデータ

play20:05

数つまり

play20:07

度数を示した分布表を作成することです

play20:10

横軸にデータの階級

play20:14

範囲を

play20:14

縦軸に階級に含まれるデータの総数をとり

play20:18

グラフに表記していきます高さは

play20:21

階級の平均値になるので

play20:24

階級幅は同じ幅にすると分布の傾向が捉え

play20:28

やすいと言えるでしょうかこのグラフが

play20:31

釣鐘型になるほど

play20:33

統計学ではデータが綺麗であると言います

play20:36

よろしいでしょうか

play20:39

得られたヒストグラムを眺めることでどの

play20:42

ような特徴を持っているかがわかります

play20:45

順に見ていきましょう

play20:47

ヒストグラムの図形が左右対称で山が一つ

play20:51

見られる場合は正規分布に従っていると

play20:54

考えられ得られたデータの信頼性は高いと

play20:57

言えますそれ以外の場合山が2つある場合

play21:01

では2つの集団が混じって存在している

play21:04

ことを示唆しています左右

play21:07

非対称などデータの分布が綺麗でない場合

play21:10

にはデータの集計における

play21:13

条件や評価方法自体を見直した方がいい

play21:16

ことを示しています

play21:18

人の第一印象と同じく見た目も

play21:22

統計学的には大事と言えるわけですね

play21:25

統計的推定あるいは単に

play21:28

推定とは

play21:29

標本を用いて

play21:31

母集団に関する性質

play21:33

各種統計量を推測することを指します

play21:37

推定には点推定と区間推定があります点

play21:41

推定では

play21:42

推定するのは一つの値であり区間推定では

play21:46

ある区間つまり幅を持って

play21:49

母集団の値を推定することができます

play21:52

統計的

play21:53

仮説検定あるいは単に

play21:56

検定とは

play21:57

母集団に関するある仮説が

play22:00

統計学的に

play22:01

成り立つか否かを示すことです

play22:04

具体的には

play22:05

標本のデータを用いて次のように順に実施

play22:08

することで建てた仮説が成り立つかどうか

play22:11

を判断できるこのような手法を検定と呼ん

play22:14

でいますまず

play22:17

母集団に対してある仮説を設定します次に

play22:22

検定結果にどこまで間違いを認めるかと

play22:24

いう指標となる優位水準を設定します通常

play22:28

は5%であったりシビアな場合は1%を

play22:33

設定します次に

play22:36

標本のデータに対して

play22:37

検証します最終的に建てた仮説が成り立つ

play22:41

のか成り立たないかという結論を導くこと

play22:44

になります

play22:45

細かいところはデータサイエンスの授業と

play22:48

しますが

play22:50

母集団に立てた仮説が

play22:52

成り立つかどうかを

play22:53

標本データを用いて調べることができると

play22:55

いうことですよろしいでしょうか

play22:59

仮に

play23:00

検定により

play23:01

仮説が成り立つとなれば強いエビデンスが

play23:04

得られたわけですねこのように

play23:07

統計学を用いることで

play23:09

論理的に

play23:10

議論ができるわけですねこのようにデータ

play23:13

から何が言えるのかを議論するのがデータ

play23:16

サイエンスと言えるわけです

play23:18

議論の上で非常に強い武器となるので

play23:21

うまく扱えるようになるといいでしょうか

play23:25

本授業の内容が理解できているか確認

play23:28

いたします

play23:30

授業後でも構いません本日中23時59分

play23:34

までに実施してください時間を超えると

play23:38

システムが受け付けなくなりますのでご

play23:41

注意ください不

play23:43

合格な場合でも残り2回チャンスがあり

play23:46

ますので

play23:47

合格できるように動画をよく見直して回答

play23:50

を行ってください

play23:52

不合格のまま放置しますと本事業は

play23:56

欠席となりますのでご注意ください

Rate This

5.0 / 5 (0 votes)

Related Tags
データサイエンス統計学データ分析ビッグデータ人工知能エビデンス客観評価データの質標本分布正規分布ヒストグラム推定仮説検定
Do you need a summary in English?