DISTRIBUIÇÃO NORMAL ESTATÍSTICA

Nerd dos Dados
28 Nov 202325:41

Summary

TLDREl guion del video proporciona una explicación detallada y práctica del concepto de distribución normal, uno de los pilares fundamentales en estadística y ciencia de datos. El presentador, Jefferson, creador del canal, se enfoca en enseñar cómo calcular y interpretar la distribución normal para análisis de datos y modelado predictivo. Se ilustra cómo determinar la probabilidad de seleccionar una persona de una altura específica dada la media y el desvio estándar de una muestra. Además, se muestra cómo realizar estos cálculos en Python, utilizando paquetes estadísticos y gráficos para visualizar los datos y la distribución normal, facilitando así una comprensión clara y aplicable del tema.

Takeaways

  • 👋 El script es una presentación sobre la distribución normal en estadística por parte de Jefferson, creador del canal.
  • 📚 Se discute que la distribución normal es un concepto fundamental en análisis de datos y modelado predictivo en machine learning.
  • 📉 La distribución normal también se conoce como distribución gaussiana, curva de sino o distribución de sino.
  • 🔍 Se utiliza para determinar la probabilidad de que un valor se encuentre dentro de un rango específico, como la altura media de las personas.
  • 📊 Se menciona la importancia de entender medidas estadísticas como la moda, mediana y desviación estándar para interpretar la distribución normal.
  • 🤖 Se explica cómo calcular y representar la distribución normal en Python, incluyendo el uso de paquetes como pandas, numpy, y matplotlib.
  • 📈 Se ilustra cómo generar un histograma y una curva de sino para visualizar los datos y su distribución normal.
  • 📝 Se da un ejemplo práctico de cómo calcular la probabilidad de que una persona tenga una altura entre 1,55 m y 1,75 m usando la fórmula de la función de densidad de probabilidad.
  • 📚 Se menciona la utilización de la tabla de Z-scores para encontrar la probabilidad de un intervalo específico.
  • 💡 Se resalta que la curva de sino es simétrica y que la media es el pico más alto de la curva, representando el centro de la distribución.
  • 🔢 Se muestra cómo calcular la probabilidad de un intervalo de alturas en Python usando la función `norm.cdf` del paquete `scipy.stats`.

Q & A

  • ¿Qué es la distribución normal y por qué es importante en estadística y ciencia de datos?

    -La distribución normal, también conocida como distribución gaussiana o curva de sino, es una distribución de probabilidad continua que es utilizada ampliamente en estadística y ciencia de datos. Es importante porque muchos datos numéricos en la naturaleza siguen una distribución normal. Permite calcular la probabilidad de que un valor se encuentre dentro de un rango específico, lo cual es fundamental en análisis de datos y en la creación de modelos predictivos en machine learning.

  • ¿Qué es un histograma y cómo se relaciona con la distribución normal?

    -Un histograma es una representación gráfica de los datos que se utiliza para mostrar la distribución de una variable. Se relaciona con la distribución normal porque, a través de un histograma, se puede visualizar si los datos siguen una distribución normal o no. Además, se puede superponer una curva de sino para comparar visualmente la distribución de los datos con una distribución normal teórica.

  • ¿Cómo se calcula el desvio estándar y qué representa?

    -El desvio estándar es una medida de la variabilidad o dispersión de los datos en torno a la media. Se calcula como la raíz cuadrada de la varianza y representa el promedio de las distancias de cada punto de datos a la media. Un desvio estándar más grande indica que los datos están más dispersos, mientras que uno más pequeño indica que están más concentrados alrededor de la media.

  • ¿Qué es el z-score y cómo se utiliza en la distribución normal?

    -El z-score es una medida estándar que indica cuánto se desvía un valor de una distribución normal en términos de desviaciones estándar. Se calcula dividiendo la diferencia entre el valor y la media por el desvio estándar. Se utiliza para comparar los valores de datos individuales con la distribución normal y para calcular probabilidades asociadas a intervalos de valores.

  • ¿Cómo se interpreta la fórmula de densidad de probabilidad en el contexto de la distribución normal?

    -La fórmula de densidad de probabilidad para la distribución normal es una función matemática que describe cómo se distribuyen las probabilidades de los diferentes valores dentro de la distribución. Aunque no es necesario memorizar la fórmula, es importante entender que involucra el valor de x (valor a evaluar), la media (μ) y el desvio estándar (σ), y se utiliza para calcular la probabilidad de que un valor específico oce en la distribución.

  • ¿Cómo se utiliza la tabla de z-scores para encontrar probabilidades en una distribución normal?

    -La tabla de z-scores es una herramienta que relaciona z-scores con probabilidades acumuladas. Para encontrar la probabilidad de un intervalo de valores en una distribución normal, se identifican los z-scores correspondientes a los límites del intervalo en la tabla. Luego, se utiliza la diferencia entre las probabilidades acumuladas para calcular la probabilidad del intervalo deseado.

  • ¿Qué es el paquete 'numpy' y cómo se utiliza en el análisis de datos en Python?

    -El paquete 'numpy' es una biblioteca de Python que proporciona herramientas para el cálculo numérico y el manejo de arrays multidimensionales. Se utiliza en el análisis de datos para realizar operaciones matemáticas avanzadas, como el cálculo de la media, el desvio estándar y otras estadísticas descriptivas, así como para manipular y procesar grandes conjuntos de datos de manera eficiente.

  • ¿Cómo se genera un histograma y una curva de sino en Python utilizando el paquete 'matplotlib'?

    -Para generar un histograma y una curva de sino en Python, se utiliza el paquete 'matplotlib' junto con 'numpy'. Se crea un objeto 'figure' y se utilizan los métodos 'hist' para generar el histograma y 'plot' para superponer la curva de sino. Se pueden ajustar los parámetros como el número de 'bins' para personalizar la apariencia del histograma.

  • ¿Qué es el método 'norm.cdf' en Python y cómo se utiliza para calcular probabilidades en una distribución normal?

    -El método 'norm.cdf' es una función del paquete 'scipy.stats' que calcula la función de distribución acumulada (CDF) para una distribución normal. Se utiliza para encontrar la probabilidad de que una variable aleatoria normal se encuentre por debajo de un valor específico. Se llama a esta función con los parámetros de la media, el desvio estándar y el límite superior del intervalo de interés.

  • ¿Cómo se calcula la probabilidad de que una persona tenga una altura entre 1.55 m y 1.75 m si la media es 1.65 m y el desvio estándar es 0.08 m?

    -Para calcular esta probabilidad, se utilizan los z-scores correspondientes a las alturas de 1.55 m y 1.75 m, se encuentran en la tabla de z-scores o se calcula utilizando el método 'norm.cdf' en Python. Se determina la probabilidad acumulada para cada z-score y se resta una de la otra para obtener la probabilidad del intervalo (1.55 m, 1.75 m).

Outlines

00:00

📚 Introducción a la Distribución Normal

El primer párrafo presenta la importancia de la distribución normal en la estadística y el aprendizaje automático, explicando que es una de las bases fundamentales para el análisis de datos y la creación de modelos predictivos. El canal se enfoca en temas de ciencia de datos, modelos predictivos, análisis exploratorio y más. El objetivo es simplificar el concepto de distribución normal, también conocida como distribución gaussiana o curva de sino, y su relevancia en la interpretación de datos numéricos y la determinación de probabilidades en situaciones específicas, como la altura promedio de una muestra de personas.

05:01

🔍 Explicación de la Distribución Normal y su Fórmula

Este párrafo se enfoca en la explicación detallada de la distribución normal, presentando la fórmula de densidad de probabilidad y los símbolos clave que representan el valor de X, la media (μ) y el desvio estándar (σ). Se ilustra cómo calcular el Z-score para transformar un intervalo de datos en una distribución normal y cómo utilizar la fórmula para encontrar la probabilidad de que una persona tenga una altura específica dentro de un rango dado, utilizando un ejemplo práctico de alturas de personas.

10:02

📈 Uso de la Tabla Normal de Z-Scores para Calcular Probabilidades

El tercer párrafo detalla cómo utilizar la tabla normal estándar de Z-scores para interpretar los valores y calcular probabilidades. Se describe el proceso de encontrar los valores de Z-score en la tabla y cómo sumar las áreas correspondientes para obtener la probabilidad total de un intervalo específico. Se enfatiza la importancia de entender cómo se representa la información en la tabla y cómo se relaciona con la curva de sino y el histograma para determinar áreas y probabilidades.

15:03

💻 Demostración Práctica en Python del Cálculo de Probabilidades

En este párrafo, se presenta una guía práctica sobre cómo realizar cálculos de probabilidad utilizando Python. Se sugiere la importación de paquetes como pandas, numpy, scipy y matplotlib para cargar datos, generar gráficos y calcular probabilidades. Se habla sobre la visualización de datos a través de histogramas y curvas de sino, y cómo la distribución normal se ajusta a los datos. Además, se menciona la disponibilidad de material adicional para descargar y practicar estos conceptos en la computadora del usuario.

20:04

📊 Análisis de Datos y Visualización de la Distribución Normal en Python

El quinto párrafo se centra en el análisis de datos y la visualización de la distribución normal utilizando Python. Se describe el proceso de cargar un conjunto de datos de alturas de personas en un dataframe, calcular estadísticas básicas y visualizar los datos mediante histogramas y curvas de sino. Se discute el ajuste de la distribución normal a los datos observados y cómo se puede modificar el número de 'bins' en un histograma para obtener una mejor representación de los datos.

25:06

📘 Conclusión y Recursos Adicionales sobre la Distribución Normal

El último párrafo concluye la explicación de la distribución normal y su importancia en el análisis de datos. Se ofrecen dos enlaces a videos adicionales que cubren medidas estadísticas y cómo interpretar histogramas. Se anima a los espectadores a dejar sus comentarios y sugerencias, y se agradece su tiempo y atención. Se enfatiza la intención de proporcionar contenido de calidad y fácil de entender en el canal.

Mindmap

Keywords

💡Distribución Normal

La distribución normal, también conocida como distribución de probabilidad Gaussiana, curva de campana o distribución de sino, es una forma de probabilidad que se utiliza ampliamente en estadística. En el video, se destaca como uno de los pilares fundamentales en análisis de datos y modelado predictivo, ya que muchos conjuntos de datos naturales tienden a seguir esta distribución simétrica.

💡Media

La media, o valor promedio, es el resultado de sumar todos los valores de un conjunto de datos y luego dividir por la cantidad de valores. En el contexto del video, la media se utiliza para describir el centro de la distribución normal de las alturas de las personas en el estudio, con una media de 1,65 metros.

💡Desvio Padrão

El desvio estándar es una medida de la dispersión o variabilidad de los datos en torno a la media. En el video, se menciona que el desvio estándar para la altura de las personas es de 8, lo que indica cuán dispersas están las alturas en el conjunto de datos.

💡Probabilidad

La probabilidad es una medida numérica que indica la posibilidad de que ocurra un evento. En el video, se calcula la probabilidad de elegir una persona de una altura específica dentro de un rango utilizando la distribución normal, lo que es crucial para el análisis predictivo en machine learning.

💡Z-score

El z-score es una medida estándar que indica cuánto un valor está por encima o por debajo de la media, en términos de desvios estándar. En el video, se calcula el z-score para determinar la probabilidad de que una persona tenga una altura entre 1,55 m y 1,75 m, lo que se utiliza para encontrar el área bajo la curva de la distribución normal.

💡Histograma

Un histograma es una representación gráfica de los datos que utiliza barras para mostrar la frecuencia de los valores dentro de intervalos específicos. En el video, se utiliza un histograma para visualizar la distribución de las alturas de las personas y se compara con la curva de la distribución normal.

💡Curva de Sino

La curva de sino es una representación gráfica de una distribución normal, que tiene una forma que recuerda a una campana. En el video, la curva de sino se utiliza para ilustrar cómo los datos de las alturas de las personas se distribuyen en torno a la media y cómo se ajustan a la distribución normal.

💡Función de Densidad de Probabilidad

La función de densidad de probabilidad (PDF) describe cómo se distribuyen las probabilidades para cada valor en una distribución de probabilidad continua. En el video, se menciona la PDF como una fórmula matemática que representa la forma de la curva de sino y se utiliza para calcular probabilidades.

💡Python

Python es un lenguaje de programación ampliamente utilizado en análisis de datos y machine learning. En el video, se muestra cómo utilizar Python para calcular probabilidades, generar histogramas y curvas de sino, y realizar análisis estadístico de los datos de alturas de las personas.

💡Pandas

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos para la manipulación y análisis de conjuntos de datos. En el video, se utiliza Pandas para cargar y manipular un archivo CSV que contiene los datos de las alturas de las personas.

💡Matplotlib

Matplotlib es una biblioteca de visualización de datos en Python que se utiliza para crear gráficos y diagramas. En el video, se utiliza Matplotlib para generar un histograma y una curva de sino que representan la distribución de las alturas de las personas.

Highlights

Explicação passo a passo sobre um dos principais conceitos da estatística: a distribuição normal.

Introdução à distribuição normal, também conhecida como distribuição gaussiana ou curva de sino.

Importância da distribuição normal na análise de dados e na criação de modelos de machine learning preditivos.

Como a distribuição normal pode ser usada para determinar a probabilidade de uma situação, como por exemplo, a altura das pessoas.

Demonstração de como calcular a probabilidade de uma pessoa ter uma altura específica, usando uma pesquisa hipotética com 100.000 pessoas.

Explicação sobre medidas estatísticas como moda, mediana e desvio padrão, com um link para mais informações.

Apresentação de um histograma e como ele se relaciona com a distribuição normal.

Como identificar a probabilidade de uma pessoa ter uma altura entre 1,55m e 1,75m usando a distribuição normal.

Introdução à fórmula da função de densidade de probabilidade e seus símbolos, sem a necessidade de memorizar a fórmula.

Como calcular o z-score para determinar a probabilidade usando a média e o desvio padrão.

A utilização de uma tabela normal do z-score para encontrar a probabilidade de um intervalo específico.

Interpretação da tabela normal do z-score para encontrar a área correspondente à probabilidade.

Demonstração de como calcular a probabilidade de uma altura específica no Python com apenas algumas linhas de código.

Como gerar um histograma e uma curva de sino no Python usando pacotes como pandas, seaborn, e matplotlib.

Explicação sobre como importar e usar o pacote stats para realizar cálculos estatísticos no Python.

Como usar a função de distribuição acumulada (CDF) para encontrar a probabilidade de uma distribuição normal no Python.

Comparação entre o cálculo manual de probabilidade e o uso do pacote scipy para fazer o mesmo cálculo no Python.

Conclusão sobre a simplicidade de encontrar a probabilidade usando o Python e a importância do conceito de distribuição normal.

Transcripts

play00:00

hoje eu vou trazer aqui para você e vou

play00:01

te explicar tudo bem passo a passo e

play00:03

também te mostrar na prática um dos

play00:05

conceitos mais importantes da

play00:07

estatística um dos pilares da

play00:09

estatística seja para quando a gente faz

play00:12

análise de dados e principalmente na

play00:14

criação dos nossos modelos de machine

play00:16

learning dos nossos modelos preditivos a

play00:19

gente vai falar sobre distribuição

play00:21

normal mas fica tranquilo que eu vou te

play00:23

explicar de uma forma bem fácil para

play00:25

você entender de uma vez por todas Então

play00:27

vamos lá começar vem comigo

play00:33

Olá se você ainda não me conhece o meu

play00:35

nome é Jefferson eu sou o criador do

play00:38

canal e aqui comigo você sempre é muito

play00:40

bem-vindo aqui eu falo muito sobre

play00:42

Ciência de dados modelos preditivos

play00:45

análise exploratória tratamento de dados

play00:47

SQL server Python integration service e

play00:52

muito mais então tudo que você precisa

play00:54

aprender para entrar nessa área de

play00:55

ciência de dados você vai encontrar aqui

play00:57

comigo então vamos lá colocar a mão na

play00:59

massa que eu quero te explicar e fazer

play01:00

você entender de uma forma simples o que

play01:03

é a distribuição normal primeiramente o

play01:06

que é uma distribuição normal

play01:07

distribuição normal nada mais é do que é

play01:09

uma distribuição normal de probabilidade

play01:12

ela também é conhecida como distribuição

play01:15

galciana ou curva de sino ou uma

play01:18

distribuição de sino você vai encontrar

play01:21

em muitos livros por aí eem muito

play01:23

conteúdo se você pesquisar você pode

play01:25

encontrar com o nome de distribuição

play01:27

normal estatística distribuição normal

play01:30

de probabilidade distribuição galciana

play01:33

distribuição de sino Ou seja é tudo a

play01:35

mesma coisa é uma distribuição normal de

play01:38

probabilidade Por que que isso é tão

play01:40

importante porque que isso é um dos

play01:42

pilares da ciência de dados e um dos

play01:44

pilares da estatística porque todos

play01:47

dados numéricos Claro ele pode ter uma

play01:50

distribuição normal ou uma distribuição

play01:53

que não é normal e essa distribuição

play01:55

normal se a gente souber entender e

play01:58

interpretar a gente a gente consegue

play02:00

chegar num número de probabilidade de

play02:02

uma determinada situação por exemplo

play02:05

imagina que foi feita uma pesquisa com

play02:07

100.000 pessoas e foi identificado que a

play02:10

média de altura dessas pessoas é de

play02:13

1,65 M tendo um desvio padrão Aí de oito

play02:17

aí com base nisso a gente vai precisar

play02:19

responder a seguinte questão determine

play02:22

qual a probabilidade de você escolher

play02:25

uma pessoa que tem altura no intervalo

play02:28

entre 1 m e

play02:30

E

play02:31

1,75 então a gente vai precisar

play02:34

identificar as pessoas qual a

play02:37

probabilidade de escolhermos uma pessoa

play02:39

nesse intervalo de altura e isso a gente

play02:42

resolve de forma simples com a

play02:44

distribuição normal e aqui só um detalhe

play02:47

eu vou deixar o link de um vídeo aqui na

play02:48

descrição onde eu explico sobre moda

play02:51

mediana desvio padrão Ou seja medidas em

play02:55

geral as medidas base da estatística é

play02:57

bem legal vale a pena você conferir

play02:59

depois porque eu explico tudo bem

play03:01

detalhado e na prática vamos prosseguir

play03:04

aqui com o nosso exemplo por além de

play03:07

mostrar tudo isso para você aqui

play03:09

conceitualmente eu vou te mostrar também

play03:11

no Python Como que você calcula isso na

play03:14

prática tá não é só conceito eu quero te

play03:17

fazer entender o conceito disso para

play03:19

depois te mostrar que lá no Python com

play03:21

uma duas três linhas de código você

play03:24

identifica tudo isso primeiramente aqui

play03:26

a gente vai ter a nossa distribuição

play03:28

normal ou seja aqui pode observar que

play03:32

aqui nós temos essa linha por isso que a

play03:34

distribuição normal chama curva de sino

play03:37

porque ela tem essa linha aqui que

play03:39

caracteriza uma distribuição normal e

play03:42

ela apece um sino E aí embaixo dessa

play03:45

linha nós temos a distribuição dos

play03:47

nossos dados e como funcionaria isso

play03:50

aqui por trás nós temos um histograma e

play03:53

Aqui nós temos as faixas de cada

play03:55

histograma chama beins Eu também já

play03:58

expliquei isso num outro vídeo eu vou de

play03:59

deixar o link para vocês na descrição e

play04:01

Aqui nós temos essa faixa que a gente

play04:04

quer encontrar ou seja de

play04:06

1,55 m até

play04:08

1,75 M então nós queremos identificar

play04:12

toda essa probabilidade aqui e tá dentro

play04:14

desse espaço demarcado aqui aonde eu

play04:17

marquei em amarelo Ou seja a gente quer

play04:19

identificar a probabilidade da gente

play04:22

selecionar pessoas da gente escolher uma

play04:25

pessoa que tem altura entre 1,55 m e 1,7

play04:30

e aqui essa área demarcada Ela Vai

play04:33

representar o número da nossa

play04:35

probabilidade agora aqui é apenas para

play04:38

te mostrar e você ter conhecimento que

play04:40

essa fórmula é a fórmula da função de

play04:44

densidade de probabilidade não precisa

play04:47

decorar nada disso eu vou fazer você

play04:49

entender de uma forma bem simples não

play04:52

precisa decorar fórmula a única coisa

play04:54

que você precisa entender são alguns

play04:55

símbolos que às vezes pode aparecer para

play04:57

vocês em algum exercício e alguma

play05:00

entrevista de trabalho e algum teste

play05:02

para algum trabalho então aqui essa

play05:05

pequena fórmula que você tá vendo aqui

play05:08

que é x- mi dividido por Sigma elevado a

play05:13

quadrado o que que representa o x o X é

play05:16

o valor do início e do fim ali do

play05:19

intervalo nós queremos transformar isso

play05:22

para uma distribuição normal o X é o

play05:25

valor de início e fim ali do nosso

play05:27

intervalo O Mi que é esse símbolo aqui

play05:30

ele representa a média e o Sigma ele

play05:32

determina o desvio padrão E aí quando a

play05:35

gente faz esse cálculo aqui a gente

play05:37

chega no nosso Z o nosso z é o seguinte

play05:40

é o z score aonde nós vamos utilizar

play05:44

para identificar a probabilidade que tá

play05:47

ali na nossa distribuição normal agora

play05:49

para ilustrar melhor e para você

play05:51

entender todo esse conceito aqui que

play05:53

daqui a pouco a gente já vai lá pro

play05:54

Python O que que a gente vai fazer a

play05:57

gente sabe porque nos foi dado lá no

play05:59

início que a gente tem um desvio padrão

play06:01

de oito correto e nós temos também uma

play06:04

média que é de 165 ou seja 1,65 M aqui a

play06:09

gente pode representar pelo número

play06:10

inteiro 165 cm então a minha

play06:15

probabilidade dentro desse intervalo

play06:17

aqui que a gente vai localizar é o qu

play06:21

como que a gente representa ela p da

play06:23

probabilidade e aí vai ser

play06:27

155 porque a gente não quer achar o

play06:29

intervalo de

play06:31

1,55 até

play06:33

1,75 então a gente vai fazer p que vai

play06:36

ser representado por

play06:38

155 menor que x menor que

play06:42

1,75 esse é o nosso intervalo e aí agora

play06:45

a gente transformando isso naquela Nossa

play06:48

fórmula que que a gente vai fazer a

play06:50

gente vai fazer

play06:52

155 -

play06:54

165 por qu lembra da nossa fórmula né x

play06:58

que é o valor que a a gente quer

play06:59

encontrar - mi que é a média dividido

play07:02

por Sigma elevado ao quadrado então aqui

play07:05

a gente faz

play07:07

155 - 165 e divide por Sigma que é o

play07:12

desvio padrão Ou seja o nosso x menos a

play07:16

média dividido pelo desvio padrão nesse

play07:19

caso a gente vai ter o quê -10 divo 8

play07:23

vai dar

play07:25

-1,25 E aí a gente faz que é menor que Z

play07:28

que é menor

play07:30

175 é o nosso intervalo máximo que a

play07:33

gente quer localizar - 1,65 ou seja 175

play07:38

- 165 dividido por 8 que é o desvio

play07:42

padrão a gente vai encontrar

play07:44

1,25 Positivo e aí o x a gente

play07:48

simplesmente muda e transforma ele aqui

play07:50

para Z por qu porque z é o nosso Z score

play07:54

então agora a gente vai precisar

play07:55

encontrar essa probabilidade está entre

play07:59

-

play08:00

1,25 e

play08:02

1,25 positivo a gente consegue

play08:04

representar dessa forma aqui também ou

play08:07

seja é a mesma coisa a gente só mudou

play08:09

esses números agora porque a gente tem a

play08:12

nossa tabela normal do zore e agora como

play08:15

que a gente acha a nossa probabilidade

play08:18

desse intervalo aqui como que a gente

play08:20

chega num número Quantos por cento isso

play08:22

representa qual a probabilidade de a

play08:24

gente encontrar uma pessoa nesse

play08:27

intervalo aqui de altura de 1,55 M até

play08:31

1,75 m e conta que a gente vai fazer

play08:34

alguma fórmula mirabolante Não nada

play08:36

disso é uma simples tabela que você vai

play08:39

bater o olho eu vou te explicar como

play08:41

interpreta essa tabela Você vai bater o

play08:43

olho e vai chegar na probabilidade

play08:46

Depois eu vou te mostrar isso com uma

play08:47

linha de código lá no Python como que a

play08:49

gente calcula só que antes se você não

play08:52

tiver inscrito inscreve aqui no canal

play08:54

Porque toda semana eu trag o conteúdo

play08:56

bem passo a passo detalhado na prática

play08:59

disponibilizo todo esse material e creio

play09:01

que isso pode te ajudar bastante então

play09:03

se inscreve aqui e ativa o Sininho das

play09:05

notificações para você sempre ficar por

play09:07

dentro dos novos vídeos Então bora

play09:08

voltar e vamos continuar E agora

play09:11

voltando aqui pessoal existe uma tabela

play09:13

que é chamada de tabela normal padrão de

play09:17

zero a z o que que essa tabela faz nessa

play09:19

tabela nós temos todas probabilidade e é

play09:23

só a gente saber interpretar o número

play09:24

que a gente localizou no Passo anterior

play09:26

olhar nessa tabela e interpretar e

play09:28

chegar no nosso valor de probabilidade

play09:30

então Deixa eu te explicar só um pequeno

play09:32

detalhe aqui a gente chegou nesse número

play09:35

aqui certo -

play09:37

1,25 e

play09:39

1,25 o mesmo valor nesse caso foi

play09:42

coincidentemente o mesmo valor positivo

play09:44

e negativo que que a gente vai fazer

play09:47

observa que aqui no nosso histograma e

play09:50

na nossa curva de sino aqui a gente tem

play09:52

no meio aqui o zero correto aqui pro

play09:55

lado da direita a gente tem

play09:58

1,25

play09:59

e aqui a gente tem

play10:01

-1,25 ou seja 1,25 negativo o que que

play10:06

isso quer dizer aqui no meio O valor é a

play10:09

média dos nossos dados o pico mais alto

play10:11

aqui do nosso sino sempre vai ser a

play10:13

média então do lado da direita nós temos

play10:16

50% e do lado da esquerda 50% no total

play10:21

até o final do Sino aqui só que a gente

play10:23

quer achar uma pequena área e aqui a

play10:25

gente tem um valor negativo Porém Aqui a

play10:28

gente é identificar uma área certo então

play10:32

a gente não precisa levar em

play10:34

consideração o número negativo porque o

play10:38

valor vai ser o mesmo tanto pro lado

play10:41

esquerdo como pro lado direito aqui é só

play10:43

uma forma de representar o dado Ok então

play10:47

na nossa tabelinha a gente precisa achar

play10:50

os dois valores de

play10:52

1,25 e como que a gente acha isso na

play10:54

nossa tabela aqui repara o seguinte ó tá

play10:57

vendo que sempre o primeiro número e o

play11:00

primeiro número após a vírgula ou seja o

play11:03

um que é nosso primeiro número vírgula e

play11:06

o dois que é o primeiro número após a

play11:08

vírgula esses dois números aqui eles vão

play11:12

corresponder à linha da nossa tabela e

play11:15

aqui esse segundo número depois da

play11:18

vírgula que é o cinco ele vai

play11:19

representar a coluna da nossa tabela

play11:23

então o que que a gente faz para achar

play11:25

probabilidade o percentual a gente vai

play11:28

pegar aqui no caso esse aqui seria o

play11:30

-1,25 é que a gente não vai considerar o

play11:33

sinal Então a gente vai achar dos dois

play11:35

de 1,25 negativo e de 1,25 positivo só

play11:39

que aqui a gente vai tratar tudo como

play11:41

positivo porque ali no nosso gráfico é

play11:43

uma área uma área pra gente não vai

play11:45

importar se é negativo ou positivo a

play11:47

gente quer achar aquele intervalo então

play11:50

o que que a gente vai fazer vamos lá 1,2

play11:52

corresponde a que linha a gente vai vir

play11:54

aqui no z da nossa tabela ó corresponde

play11:57

a linha 1,2 tá vendo aqui ó 1,2 é essa

play12:01

linha toda a linha

play12:03

1,2 essa aqui coluna 5 então a gente vem

play12:08

1,2 coluna 5 Qual que é a coluna 5 essa

play12:12

coluna aqui essa coluna aqui é a coluna

play12:14

5 ó coluna

play12:17

5 linha 1.2 linha

play12:21

1.2 coluna 5 qual que é esse valor na

play12:25

tabela

play12:27

0,39 44 Ok

play12:31

0,39 44 a gente simplesmente multiplica

play12:34

por 100 ou anda duas casas decimais e

play12:38

vai ser o quê

play12:40

39,44 por. só que aqui

play12:43

39,44 é apenas de uma área que a gente

play12:46

achou agora vamos achar da área do outro

play12:49

lado do nosso da nossa média só que o

play12:52

número aqui é igual Então vai ser o

play12:54

mesmo correto Então vai ser aqui ó

play12:57

39,44 mesma coisa então como que a gente

play13:00

faz para achar o total da área

play13:04

39,44 +

play13:06

39,44 Quanto isso representa

play13:10

78,88 por. então

play13:14

78,88 corresponde a essa área aqui dos

play13:18

nossos dados que a gente queria

play13:20

localizar é assim que a gente encontra a

play13:22

probabilidade através da distribuição

play13:25

normal agora vamos ver como funciona

play13:27

isso lá no p

play13:29

aqui no Python Então como que a gente

play13:31

faz a gente precisa só de alguns pacotes

play13:34

eu vou mostrar para vocês além de

play13:35

calcular essa probabilidade eu vou

play13:37

mostrar para vocês também como gerar

play13:39

esse histograma e essa curva de sino com

play13:41

esses dados e também vou deixar esse

play13:43

material todo disponível com o link aqui

play13:45

na descrição para você poder baixar e

play13:48

poder fazer os testes aí no seu

play13:50

computador Então vamos lá primeiramente

play13:51

a gente vai importar alguns pacotes que

play13:54

seria o pandas o cbor pra gente poder

play13:57

gerar o nosso gráfico o sapai aqui stats

play14:00

a gente vai importar aqui ó o pacote

play14:02

norme tá pra gente poder calcular a

play14:05

probabilidade da distribuição normal

play14:07

vamos importar o no Pie vamos importar o

play14:09

pacote statistics e vamos importar aqui

play14:11

o Mat plot Lib vamos rodar aqui

play14:14

Prontinho Agora ele já importou então

play14:16

agora aqui pessoal a gente vai carregar

play14:18

um arquivo csv também vai est disponível

play14:20

na descrição do vídeo que que a gente

play14:22

vai fazer vamos colocar aqui um

play14:24

dataframe e vamos pedir pro nosso pandas

play14:26

ler esse arquivo csv arenar tudo no

play14:29

nosso dataframe a gente coloca aqui pdre

play14:32

csv e o nome do arquivo é alturas pcsv

play14:37

vamos executar aqui carregamos o arquivo

play14:39

se a gente der um head aqui no arquivo

play14:42

simplesmente a gente tem só uma coluna

play14:44

aqui com a altura das pessoas aqui a

play14:46

gente pode dar um df. describe pra gente

play14:49

já ver os dados do nosso arquivo Olha lá

play14:52

a gente tem aqui 100.000 registros a

play14:55

gente tem uma média de

play14:57

164.493 ou seja 165 um desvio padrão de

play15:02

7.98 ou seja 8 igual nós vimos lá no

play15:06

nosso cálculo que fizemos de forma

play15:07

manual o mínimo o primeiro quartil a

play15:11

mediana o terceiro quartil e o valor

play15:14

máximo Então nós temos altura ali de 130

play15:18

até 197 e a gente tem uma média de

play15:21

165 com o desvio padrão de oito é

play15:24

simplesmente o que vimos no nosso

play15:25

exemplo aqui a gente vai simplesmente

play15:28

pegando agora o nosso valor mínimo e

play15:31

exibindo essa informação Olha lá então

play15:33

nós temos aqui ó 130 que é o nosso valor

play15:35

mínimo o valor máximo também vamos pegar

play15:38

aqui ó criar uma variável Vl Max que vai

play15:40

ser igual

play15:41

df.max vai receber o valor máximo e

play15:44

vamos exibir aqui com o print Olha lá

play15:46

altura máxima 197 aqui a gente vai

play15:49

coletar a média como que a gente faz

play15:51

isso a gente não importou aqui esse

play15:54

pacote de statistics eu quero mostrar

play15:56

para vocês a gente poderia fazer is

play15:58

cupando poderia mas esse outro pacote

play16:00

também fornece funcionalidades para nós

play16:03

então é sempre é bom a gente abrir nosso

play16:05

leque de conhecimentos a gente vai

play16:06

colocar aqui média que vai ser igual ST

play16:08

pmin e o que que eu quero qual que é a

play16:11

média a média da minha do meu dataframe

play16:13

da coluna altura em seguida aqui a gente

play16:15

exibe isso olha lá e aqui O desvio

play16:18

padrão a mesma coisa então aqui eu vou

play16:21

colocar uma variável chamada desvio

play16:23

padrão que vai ser igual ST que é o

play16:25

nosso pacote statistics pon pstd É o quê

play16:29

É o nosso desvio padrão populacional de

play16:31

todo o nosso conjunto de dados e vai ser

play16:34

o DF altura vamos olhar lá ó lá 7.98 se

play16:39

a gente arredondar dá oito o nosso

play16:41

desvio padrão e aí a gente vai fazer o

play16:44

quê vai fazer ali um plot dos nossos

play16:46

dados para ver como que esses dados

play16:48

estão e se aqui vai est representando

play16:51

igual no nosso conceito lá que a gente

play16:53

viu naquele nosso exemplo que fizemos

play16:55

passo a passo que eu expliquei para

play16:56

vocês pra gente gerar esse gráfico é

play16:59

simples a gente coloca aqui SNS que é o

play17:01

que o nosso cbor pon e plot e já é do

play17:05

próprio cbor é um gráfico para

play17:07

histograma e vai ser o quê aqui a gente

play17:10

vai passar o nosso DF altura é o que a

play17:13

gente quer fazer ali o nosso gráfico a

play17:16

gente vai passar aqui o kde igual a true

play17:19

para que que é esse kde para ele fazer a

play17:20

linha do Sino Ou seja a linha da

play17:22

distribuição normal e aqui de forma

play17:25

discreta que ele vai fazer o gráfico de

play17:27

uma forma ali melhor ele vai colocar os

play17:30

bins que são as barras de acordo com o

play17:32

nosso conjunto de dados Olha lá se a

play17:34

gente executar então nós temos aqui ó

play17:37

exatamente o que tá representado no

play17:39

nosso conjunto de dados nós temos aqui

play17:42

altura mínima certo altura máxima que tá

play17:45

em

play17:46

197 Aqui nós temos a média o pico mais

play17:50

alto aqui ó o centro aqui é sempre a

play17:52

média que é

play17:53

1,65 e aqui vai tá a área que a gente

play17:56

quer localizar e a aqui a gente pode ver

play17:59

a nossa curva de sino que tá

play18:01

representando certinho uma distribuição

play18:03

normal aqui a gente pode ver também sem

play18:07

as barras do histograma a gente pode ver

play18:09

só a curva como que a gente faz a gente

play18:12

coloca o SNS que é do cbor P CDE plot e

play18:16

entre parênteses data ali que é o

play18:18

parâmetro de data dos dados e a gente

play18:20

coloca simplesmente o nosso DF a gente

play18:23

executar aqui olha o que a gente vai ter

play18:25

somente a nosssa curva de sino então

play18:27

aqui a gente tá vendo a nossa

play18:29

distribuição normal a nossa curva de

play18:31

sino agora aqui a gente vai gerar outros

play18:34

gráficos só para você poder também ter

play18:36

conhecimento saber como que faz e poder

play18:39

também brincar um pouco com a l com as

play18:41

informações quando você tiver fazendo a

play18:43

sua análise que que a gente faz aqui a

play18:45

gente já tem ó a gente tá obtendo aqui o

play18:47

valor mínimo igual fizemos anteriormente

play18:50

o valor máximo a nossa média tá igual

play18:54

fizemos anteriormente o nosso desvio

play18:56

padrão igual fizemos também na nas

play18:58

linhas acima e aqui a gente vai colocar

play19:01

uma figura aqui ou seja um subplot e

play19:03

vamos colocar aqui um plot que a gente

play19:05

vai plotar o quê o DF - B que é o qu que

play19:09

que a gente quer fazer aqui a gente quer

play19:10

plotar dois gráficos ali um embaixo do

play19:13

outro então no na figura 212 a gente vai

play19:17

fazer aqui um histograma vai ser o quê o

play19:21

nosso Data Frame DF Beans Vamos colocar

play19:24

Beans igual a 10 que é a barra e o

play19:26

density igual a true o que que é o

play19:28

density que ele vai representar a linha

play19:30

de densidade Ou seja a curva do Sino e

play19:33

aqui a gente vai fazer o seguinte a

play19:35

gente vai criar essa variável chamada e

play19:38

i x que ela significa eixo X e uma

play19:42

variável eixo Y que significa o eixo Y

play19:45

no eixo X o que que nós vamos obter aqui

play19:48

nós vamos obter o Line Space ou seja

play19:50

fazer aquela linha ali do nosso

play19:53

histograma e da nossa curva de sino ela

play19:56

vai ser o quê o valor mínimo o valor

play19:58

máximo de 100 pontos O que representa

play20:01

esses 100 pontos que é a formação ali da

play20:04

curva de sino e aqui a gente vai obter

play20:06

aqui o pdf que é a nossa função

play20:09

probabilidade de densidade igual nós

play20:11

vimos no exemplo e nada mais é do que o

play20:13

nosso eixo X que é a nossa linha base

play20:16

vírgula média vírgula desvio padrão e

play20:18

aqui a gente simplesmente plota o

play20:20

gráfico isso tudo nada mais é pra gente

play20:23

fazer o gráfico dessa forma diferente

play20:25

aqui ó pra gente poder ver o histograma

play20:28

sim com 10 beins Porque aqui nós vimos

play20:31

ele com diversos beins tudo da forma que

play20:34

a própria função melhor representá-lo

play20:37

aqui a gente pode começar a analisar

play20:40

melhor os nossos dados e ver a gente

play20:42

poderia vir aqui também e simplesmente

play20:44

colocar 12 PR a gente executar de novo

play20:48

Observe que agora a gente tem 12 Bins tá

play20:50

vendo aqui tá baixinho e parece que não

play20:53

tem nada mas tem aqui o Bim é bem pouco

play20:56

então a gente pode aumentar tá isso

play20:58

também ah eu quero colocar aqui 20 Bins

play21:01

é possível a gente colocar aqui 20 Bins

play21:04

sim é possível lá tá vendo o nosso

play21:06

histograma que é o que a distribuição

play21:09

ali dos nossos dados começa a mudar mas

play21:12

o sino da distribuição normal ele fica

play21:15

intacto vamos voltar aqui para 10 Bins e

play21:18

aqui a gente tem então nossos dados como

play21:21

eles estão distribuídos aqui ó que é

play21:23

simplesmente esse gráfico aqui que a

play21:25

gente não passou parâmetro nenhum

play21:27

simples ente pediu para ele plotar a

play21:29

quantidade dos nossos dados e aqui a

play21:32

gente já tem o nosso histograma tudo

play21:34

sobre histograma eu vou deixar um vídeo

play21:37

passando aqui para vocês depois vale a

play21:39

pena dar uma olhada porque eu explico

play21:40

como interpretá-lo o que ele significa

play21:43

como que faz tudo bem passo a passo e

play21:45

agora a gente vai ver como que a gente

play21:47

acha a probabilidade aqui no Python a

play21:49

mesma que nós achamos lá fazendo os

play21:51

cálculos e olhando na tabela o Python já

play21:54

tem uma função pronta a gente não

play21:56

importou o pacote cpai é o quê é um

play21:59

pacote específico com cálculos para

play22:01

ciência de dados com cálculos

play22:03

estatísticos matemáticos Então a gente

play22:05

tem muita função pronta naquele nosso

play22:07

pacote cpai e como que a gente faz isso

play22:09

duas linhas de código de forma bem

play22:11

simples aqui eu vou criar aqui uma

play22:13

variável chamada probabilidade só para

play22:16

receber o que que ela vai receber ela

play22:18

vai receber aqui o norme que significa o

play22:21

quê a nossa probabilidade de

play22:23

distribuição normal que nós importamos

play22:26

aqui ó nós importamos aqui ó cpy P stats

play22:30

de estatísticas Import norme n inf Esse

play22:34

norme é o quê é o pacote que trata sobre

play22:37

a distribuição normal no Python E aí a

play22:39

gente vai utilizar ele a gente vai

play22:41

colocar aqui norme pcdf o que que é esse

play22:44

método CDF a gente não viu lá que a

play22:46

gente tem a nossa função de densidade de

play22:49

probabilidade esse CDF aqui ele

play22:51

significa o qu cumulative distribuition

play22:54

F Ou seja a nossa função de distribuição

play22:57

da probabil idade acumulada Por que que

play22:59

a gente precisa usar esse método aqui

play23:02

porque a gente não tem o máximo aqui que

play23:04

a gente quer encontrar o intervalo

play23:05

correto a gente quer encontrar o

play23:07

intervalo e é o quê de 155 ou 1,55 M até

play23:14

175 que é 1,75 m o que que a gente

play23:17

precisa fazer aqui não é o máximo os

play23:20

parâmetros dessa função que a gente

play23:22

passa aqui é o valor maior da nossa área

play23:25

que a gente quer encontrar a média que é

play23:28

165 e o desvio padrão é oo os dados a

play23:33

gente já tem menos o norm.cdf de novo

play23:36

qual que é o menor ali espaço que a

play23:38

gente quer qual que é a menor altura que

play23:40

a gente quer do espaço da nossa área

play23:43

1,55 ou 155 vírgula a média a média é

play23:47

1,65 e o desvio padrão é 8 a gente faz o

play23:51

maior menos o menor a gente vai salvar

play23:54

ali um valor na nossa probabilidade aí o

play23:57

que que a gente faz faz simplesmente a

play23:58

gente faz aqui ó probabilidade vezes 100

play24:02

ele vai vir zero vírgula alguma coisa

play24:04

aqui a gente multiplica por 100 só para

play24:06

ficar no formato certinho da nossa

play24:08

probabilidade e o HD a gente coloca para

play24:11

arredondar para ficar com duas casas

play24:13

decimais vamos rodar e vamos ver se vai

play24:15

bater com o que a gente fez de forma

play24:17

manual e ó não esquece de deixar o seu

play24:19

like hein Porque para mim o seu like é

play24:21

muito importante significa que o que eu

play24:23

tô passando aqui para vocês tá sendo

play24:25

legal tá agregando valor para vocês se

play24:27

você tá gostando então deixa um like

play24:29

para eu saber se você tá gostando desse

play24:30

tipo de conteúdo e olha lá vamos

play24:33

executar Prontinho

play24:35

78.7 ó

play24:38

78.8 Quanto que deu lá naquele exemplo

play24:41

que fizemos calculando pela tabelinha do

play24:43

nosso zscore

play24:45

78.8 arredondamento

play24:48

78.8

play24:49

78.8 Ou seja a mesma coisa a gente

play24:52

poderia simplesmente arredondar para um

play24:55

número inteiro ali ficaria 79 % ou seja

play24:58

viu como no Python é simples achar essa

play25:01

probabilidade com essas duas linhas de

play25:03

código eu mostrei tudo isso para vocês

play25:06

porque eu quis trazer para vocês como

play25:07

que vocês fazem uma análise disso como

play25:09

que vocês interpretam o gráfico e também

play25:12

eu quis trazer o conceito para vocês

play25:14

você entendendo isso pronto matou de vez

play25:16

do que a distribuição normal de

play25:18

probabilidade eu vou deixar também aqui

play25:20

dois vídeos que vale muito a pena você

play25:22

dar uma olhada são vídeos que eu já

play25:24

falei que eu ia deixar o link na

play25:25

descrição que são referente às medidas

play25:27

estatísticas também sobre histograma

play25:30

vale muito a pena dar uma olhada e se

play25:32

você ficou com alguma dúvida ou tiver

play25:33

alguma sugestão deixa para mim aqui nos

play25:35

comentários que eu vou te responder o

play25:36

mais rápido possível Muito obrigado e

play25:39

até o próximo vídeo

Rate This

5.0 / 5 (0 votes)

関連タグ
Distribución NormalEstadísticaCiencia de DatosAnálisis de DatosModelos PredictivosMachine LearningPythonTutorialConceptos BásicosCálculo de Probabilidad
英語で要約が必要ですか?