DISTRIBUIÇÃO NORMAL ESTATÍSTICA
Summary
TLDREl guion del video proporciona una explicación detallada y práctica del concepto de distribución normal, uno de los pilares fundamentales en estadística y ciencia de datos. El presentador, Jefferson, creador del canal, se enfoca en enseñar cómo calcular y interpretar la distribución normal para análisis de datos y modelado predictivo. Se ilustra cómo determinar la probabilidad de seleccionar una persona de una altura específica dada la media y el desvio estándar de una muestra. Además, se muestra cómo realizar estos cálculos en Python, utilizando paquetes estadísticos y gráficos para visualizar los datos y la distribución normal, facilitando así una comprensión clara y aplicable del tema.
Takeaways
- 👋 El script es una presentación sobre la distribución normal en estadística por parte de Jefferson, creador del canal.
- 📚 Se discute que la distribución normal es un concepto fundamental en análisis de datos y modelado predictivo en machine learning.
- 📉 La distribución normal también se conoce como distribución gaussiana, curva de sino o distribución de sino.
- 🔍 Se utiliza para determinar la probabilidad de que un valor se encuentre dentro de un rango específico, como la altura media de las personas.
- 📊 Se menciona la importancia de entender medidas estadísticas como la moda, mediana y desviación estándar para interpretar la distribución normal.
- 🤖 Se explica cómo calcular y representar la distribución normal en Python, incluyendo el uso de paquetes como pandas, numpy, y matplotlib.
- 📈 Se ilustra cómo generar un histograma y una curva de sino para visualizar los datos y su distribución normal.
- 📝 Se da un ejemplo práctico de cómo calcular la probabilidad de que una persona tenga una altura entre 1,55 m y 1,75 m usando la fórmula de la función de densidad de probabilidad.
- 📚 Se menciona la utilización de la tabla de Z-scores para encontrar la probabilidad de un intervalo específico.
- 💡 Se resalta que la curva de sino es simétrica y que la media es el pico más alto de la curva, representando el centro de la distribución.
- 🔢 Se muestra cómo calcular la probabilidad de un intervalo de alturas en Python usando la función `norm.cdf` del paquete `scipy.stats`.
Q & A
¿Qué es la distribución normal y por qué es importante en estadística y ciencia de datos?
-La distribución normal, también conocida como distribución gaussiana o curva de sino, es una distribución de probabilidad continua que es utilizada ampliamente en estadística y ciencia de datos. Es importante porque muchos datos numéricos en la naturaleza siguen una distribución normal. Permite calcular la probabilidad de que un valor se encuentre dentro de un rango específico, lo cual es fundamental en análisis de datos y en la creación de modelos predictivos en machine learning.
¿Qué es un histograma y cómo se relaciona con la distribución normal?
-Un histograma es una representación gráfica de los datos que se utiliza para mostrar la distribución de una variable. Se relaciona con la distribución normal porque, a través de un histograma, se puede visualizar si los datos siguen una distribución normal o no. Además, se puede superponer una curva de sino para comparar visualmente la distribución de los datos con una distribución normal teórica.
¿Cómo se calcula el desvio estándar y qué representa?
-El desvio estándar es una medida de la variabilidad o dispersión de los datos en torno a la media. Se calcula como la raíz cuadrada de la varianza y representa el promedio de las distancias de cada punto de datos a la media. Un desvio estándar más grande indica que los datos están más dispersos, mientras que uno más pequeño indica que están más concentrados alrededor de la media.
¿Qué es el z-score y cómo se utiliza en la distribución normal?
-El z-score es una medida estándar que indica cuánto se desvía un valor de una distribución normal en términos de desviaciones estándar. Se calcula dividiendo la diferencia entre el valor y la media por el desvio estándar. Se utiliza para comparar los valores de datos individuales con la distribución normal y para calcular probabilidades asociadas a intervalos de valores.
¿Cómo se interpreta la fórmula de densidad de probabilidad en el contexto de la distribución normal?
-La fórmula de densidad de probabilidad para la distribución normal es una función matemática que describe cómo se distribuyen las probabilidades de los diferentes valores dentro de la distribución. Aunque no es necesario memorizar la fórmula, es importante entender que involucra el valor de x (valor a evaluar), la media (μ) y el desvio estándar (σ), y se utiliza para calcular la probabilidad de que un valor específico oce en la distribución.
¿Cómo se utiliza la tabla de z-scores para encontrar probabilidades en una distribución normal?
-La tabla de z-scores es una herramienta que relaciona z-scores con probabilidades acumuladas. Para encontrar la probabilidad de un intervalo de valores en una distribución normal, se identifican los z-scores correspondientes a los límites del intervalo en la tabla. Luego, se utiliza la diferencia entre las probabilidades acumuladas para calcular la probabilidad del intervalo deseado.
¿Qué es el paquete 'numpy' y cómo se utiliza en el análisis de datos en Python?
-El paquete 'numpy' es una biblioteca de Python que proporciona herramientas para el cálculo numérico y el manejo de arrays multidimensionales. Se utiliza en el análisis de datos para realizar operaciones matemáticas avanzadas, como el cálculo de la media, el desvio estándar y otras estadísticas descriptivas, así como para manipular y procesar grandes conjuntos de datos de manera eficiente.
¿Cómo se genera un histograma y una curva de sino en Python utilizando el paquete 'matplotlib'?
-Para generar un histograma y una curva de sino en Python, se utiliza el paquete 'matplotlib' junto con 'numpy'. Se crea un objeto 'figure' y se utilizan los métodos 'hist' para generar el histograma y 'plot' para superponer la curva de sino. Se pueden ajustar los parámetros como el número de 'bins' para personalizar la apariencia del histograma.
¿Qué es el método 'norm.cdf' en Python y cómo se utiliza para calcular probabilidades en una distribución normal?
-El método 'norm.cdf' es una función del paquete 'scipy.stats' que calcula la función de distribución acumulada (CDF) para una distribución normal. Se utiliza para encontrar la probabilidad de que una variable aleatoria normal se encuentre por debajo de un valor específico. Se llama a esta función con los parámetros de la media, el desvio estándar y el límite superior del intervalo de interés.
¿Cómo se calcula la probabilidad de que una persona tenga una altura entre 1.55 m y 1.75 m si la media es 1.65 m y el desvio estándar es 0.08 m?
-Para calcular esta probabilidad, se utilizan los z-scores correspondientes a las alturas de 1.55 m y 1.75 m, se encuentran en la tabla de z-scores o se calcula utilizando el método 'norm.cdf' en Python. Se determina la probabilidad acumulada para cada z-score y se resta una de la otra para obtener la probabilidad del intervalo (1.55 m, 1.75 m).
Outlines
📚 Introducción a la Distribución Normal
El primer párrafo presenta la importancia de la distribución normal en la estadística y el aprendizaje automático, explicando que es una de las bases fundamentales para el análisis de datos y la creación de modelos predictivos. El canal se enfoca en temas de ciencia de datos, modelos predictivos, análisis exploratorio y más. El objetivo es simplificar el concepto de distribución normal, también conocida como distribución gaussiana o curva de sino, y su relevancia en la interpretación de datos numéricos y la determinación de probabilidades en situaciones específicas, como la altura promedio de una muestra de personas.
🔍 Explicación de la Distribución Normal y su Fórmula
Este párrafo se enfoca en la explicación detallada de la distribución normal, presentando la fórmula de densidad de probabilidad y los símbolos clave que representan el valor de X, la media (μ) y el desvio estándar (σ). Se ilustra cómo calcular el Z-score para transformar un intervalo de datos en una distribución normal y cómo utilizar la fórmula para encontrar la probabilidad de que una persona tenga una altura específica dentro de un rango dado, utilizando un ejemplo práctico de alturas de personas.
📈 Uso de la Tabla Normal de Z-Scores para Calcular Probabilidades
El tercer párrafo detalla cómo utilizar la tabla normal estándar de Z-scores para interpretar los valores y calcular probabilidades. Se describe el proceso de encontrar los valores de Z-score en la tabla y cómo sumar las áreas correspondientes para obtener la probabilidad total de un intervalo específico. Se enfatiza la importancia de entender cómo se representa la información en la tabla y cómo se relaciona con la curva de sino y el histograma para determinar áreas y probabilidades.
💻 Demostración Práctica en Python del Cálculo de Probabilidades
En este párrafo, se presenta una guía práctica sobre cómo realizar cálculos de probabilidad utilizando Python. Se sugiere la importación de paquetes como pandas, numpy, scipy y matplotlib para cargar datos, generar gráficos y calcular probabilidades. Se habla sobre la visualización de datos a través de histogramas y curvas de sino, y cómo la distribución normal se ajusta a los datos. Además, se menciona la disponibilidad de material adicional para descargar y practicar estos conceptos en la computadora del usuario.
📊 Análisis de Datos y Visualización de la Distribución Normal en Python
El quinto párrafo se centra en el análisis de datos y la visualización de la distribución normal utilizando Python. Se describe el proceso de cargar un conjunto de datos de alturas de personas en un dataframe, calcular estadísticas básicas y visualizar los datos mediante histogramas y curvas de sino. Se discute el ajuste de la distribución normal a los datos observados y cómo se puede modificar el número de 'bins' en un histograma para obtener una mejor representación de los datos.
📘 Conclusión y Recursos Adicionales sobre la Distribución Normal
El último párrafo concluye la explicación de la distribución normal y su importancia en el análisis de datos. Se ofrecen dos enlaces a videos adicionales que cubren medidas estadísticas y cómo interpretar histogramas. Se anima a los espectadores a dejar sus comentarios y sugerencias, y se agradece su tiempo y atención. Se enfatiza la intención de proporcionar contenido de calidad y fácil de entender en el canal.
Mindmap
Keywords
💡Distribución Normal
💡Media
💡Desvio Padrão
💡Probabilidad
💡Z-score
💡Histograma
💡Curva de Sino
💡Función de Densidad de Probabilidad
💡Python
💡Pandas
💡Matplotlib
Highlights
Explicação passo a passo sobre um dos principais conceitos da estatística: a distribuição normal.
Introdução à distribuição normal, também conhecida como distribuição gaussiana ou curva de sino.
Importância da distribuição normal na análise de dados e na criação de modelos de machine learning preditivos.
Como a distribuição normal pode ser usada para determinar a probabilidade de uma situação, como por exemplo, a altura das pessoas.
Demonstração de como calcular a probabilidade de uma pessoa ter uma altura específica, usando uma pesquisa hipotética com 100.000 pessoas.
Explicação sobre medidas estatísticas como moda, mediana e desvio padrão, com um link para mais informações.
Apresentação de um histograma e como ele se relaciona com a distribuição normal.
Como identificar a probabilidade de uma pessoa ter uma altura entre 1,55m e 1,75m usando a distribuição normal.
Introdução à fórmula da função de densidade de probabilidade e seus símbolos, sem a necessidade de memorizar a fórmula.
Como calcular o z-score para determinar a probabilidade usando a média e o desvio padrão.
A utilização de uma tabela normal do z-score para encontrar a probabilidade de um intervalo específico.
Interpretação da tabela normal do z-score para encontrar a área correspondente à probabilidade.
Demonstração de como calcular a probabilidade de uma altura específica no Python com apenas algumas linhas de código.
Como gerar um histograma e uma curva de sino no Python usando pacotes como pandas, seaborn, e matplotlib.
Explicação sobre como importar e usar o pacote stats para realizar cálculos estatísticos no Python.
Como usar a função de distribuição acumulada (CDF) para encontrar a probabilidade de uma distribuição normal no Python.
Comparação entre o cálculo manual de probabilidade e o uso do pacote scipy para fazer o mesmo cálculo no Python.
Conclusão sobre a simplicidade de encontrar a probabilidade usando o Python e a importância do conceito de distribuição normal.
Transcripts
hoje eu vou trazer aqui para você e vou
te explicar tudo bem passo a passo e
também te mostrar na prática um dos
conceitos mais importantes da
estatística um dos pilares da
estatística seja para quando a gente faz
análise de dados e principalmente na
criação dos nossos modelos de machine
learning dos nossos modelos preditivos a
gente vai falar sobre distribuição
normal mas fica tranquilo que eu vou te
explicar de uma forma bem fácil para
você entender de uma vez por todas Então
vamos lá começar vem comigo
Olá se você ainda não me conhece o meu
nome é Jefferson eu sou o criador do
canal e aqui comigo você sempre é muito
bem-vindo aqui eu falo muito sobre
Ciência de dados modelos preditivos
análise exploratória tratamento de dados
SQL server Python integration service e
muito mais então tudo que você precisa
aprender para entrar nessa área de
ciência de dados você vai encontrar aqui
comigo então vamos lá colocar a mão na
massa que eu quero te explicar e fazer
você entender de uma forma simples o que
é a distribuição normal primeiramente o
que é uma distribuição normal
distribuição normal nada mais é do que é
uma distribuição normal de probabilidade
ela também é conhecida como distribuição
galciana ou curva de sino ou uma
distribuição de sino você vai encontrar
em muitos livros por aí eem muito
conteúdo se você pesquisar você pode
encontrar com o nome de distribuição
normal estatística distribuição normal
de probabilidade distribuição galciana
distribuição de sino Ou seja é tudo a
mesma coisa é uma distribuição normal de
probabilidade Por que que isso é tão
importante porque que isso é um dos
pilares da ciência de dados e um dos
pilares da estatística porque todos
dados numéricos Claro ele pode ter uma
distribuição normal ou uma distribuição
que não é normal e essa distribuição
normal se a gente souber entender e
interpretar a gente a gente consegue
chegar num número de probabilidade de
uma determinada situação por exemplo
imagina que foi feita uma pesquisa com
100.000 pessoas e foi identificado que a
média de altura dessas pessoas é de
1,65 M tendo um desvio padrão Aí de oito
aí com base nisso a gente vai precisar
responder a seguinte questão determine
qual a probabilidade de você escolher
uma pessoa que tem altura no intervalo
entre 1 m e
E
1,75 então a gente vai precisar
identificar as pessoas qual a
probabilidade de escolhermos uma pessoa
nesse intervalo de altura e isso a gente
resolve de forma simples com a
distribuição normal e aqui só um detalhe
eu vou deixar o link de um vídeo aqui na
descrição onde eu explico sobre moda
mediana desvio padrão Ou seja medidas em
geral as medidas base da estatística é
bem legal vale a pena você conferir
depois porque eu explico tudo bem
detalhado e na prática vamos prosseguir
aqui com o nosso exemplo por além de
mostrar tudo isso para você aqui
conceitualmente eu vou te mostrar também
no Python Como que você calcula isso na
prática tá não é só conceito eu quero te
fazer entender o conceito disso para
depois te mostrar que lá no Python com
uma duas três linhas de código você
identifica tudo isso primeiramente aqui
a gente vai ter a nossa distribuição
normal ou seja aqui pode observar que
aqui nós temos essa linha por isso que a
distribuição normal chama curva de sino
porque ela tem essa linha aqui que
caracteriza uma distribuição normal e
ela apece um sino E aí embaixo dessa
linha nós temos a distribuição dos
nossos dados e como funcionaria isso
aqui por trás nós temos um histograma e
Aqui nós temos as faixas de cada
histograma chama beins Eu também já
expliquei isso num outro vídeo eu vou de
deixar o link para vocês na descrição e
Aqui nós temos essa faixa que a gente
quer encontrar ou seja de
1,55 m até
1,75 M então nós queremos identificar
toda essa probabilidade aqui e tá dentro
desse espaço demarcado aqui aonde eu
marquei em amarelo Ou seja a gente quer
identificar a probabilidade da gente
selecionar pessoas da gente escolher uma
pessoa que tem altura entre 1,55 m e 1,7
e aqui essa área demarcada Ela Vai
representar o número da nossa
probabilidade agora aqui é apenas para
te mostrar e você ter conhecimento que
essa fórmula é a fórmula da função de
densidade de probabilidade não precisa
decorar nada disso eu vou fazer você
entender de uma forma bem simples não
precisa decorar fórmula a única coisa
que você precisa entender são alguns
símbolos que às vezes pode aparecer para
vocês em algum exercício e alguma
entrevista de trabalho e algum teste
para algum trabalho então aqui essa
pequena fórmula que você tá vendo aqui
que é x- mi dividido por Sigma elevado a
quadrado o que que representa o x o X é
o valor do início e do fim ali do
intervalo nós queremos transformar isso
para uma distribuição normal o X é o
valor de início e fim ali do nosso
intervalo O Mi que é esse símbolo aqui
ele representa a média e o Sigma ele
determina o desvio padrão E aí quando a
gente faz esse cálculo aqui a gente
chega no nosso Z o nosso z é o seguinte
é o z score aonde nós vamos utilizar
para identificar a probabilidade que tá
ali na nossa distribuição normal agora
para ilustrar melhor e para você
entender todo esse conceito aqui que
daqui a pouco a gente já vai lá pro
Python O que que a gente vai fazer a
gente sabe porque nos foi dado lá no
início que a gente tem um desvio padrão
de oito correto e nós temos também uma
média que é de 165 ou seja 1,65 M aqui a
gente pode representar pelo número
inteiro 165 cm então a minha
probabilidade dentro desse intervalo
aqui que a gente vai localizar é o qu
como que a gente representa ela p da
probabilidade e aí vai ser
155 porque a gente não quer achar o
intervalo de
1,55 até
1,75 então a gente vai fazer p que vai
ser representado por
155 menor que x menor que
1,75 esse é o nosso intervalo e aí agora
a gente transformando isso naquela Nossa
fórmula que que a gente vai fazer a
gente vai fazer
155 -
165 por qu lembra da nossa fórmula né x
que é o valor que a a gente quer
encontrar - mi que é a média dividido
por Sigma elevado ao quadrado então aqui
a gente faz
155 - 165 e divide por Sigma que é o
desvio padrão Ou seja o nosso x menos a
média dividido pelo desvio padrão nesse
caso a gente vai ter o quê -10 divo 8
vai dar
-1,25 E aí a gente faz que é menor que Z
que é menor
175 é o nosso intervalo máximo que a
gente quer localizar - 1,65 ou seja 175
- 165 dividido por 8 que é o desvio
padrão a gente vai encontrar
1,25 Positivo e aí o x a gente
simplesmente muda e transforma ele aqui
para Z por qu porque z é o nosso Z score
então agora a gente vai precisar
encontrar essa probabilidade está entre
-
1,25 e
1,25 positivo a gente consegue
representar dessa forma aqui também ou
seja é a mesma coisa a gente só mudou
esses números agora porque a gente tem a
nossa tabela normal do zore e agora como
que a gente acha a nossa probabilidade
desse intervalo aqui como que a gente
chega num número Quantos por cento isso
representa qual a probabilidade de a
gente encontrar uma pessoa nesse
intervalo aqui de altura de 1,55 M até
1,75 m e conta que a gente vai fazer
alguma fórmula mirabolante Não nada
disso é uma simples tabela que você vai
bater o olho eu vou te explicar como
interpreta essa tabela Você vai bater o
olho e vai chegar na probabilidade
Depois eu vou te mostrar isso com uma
linha de código lá no Python como que a
gente calcula só que antes se você não
tiver inscrito inscreve aqui no canal
Porque toda semana eu trag o conteúdo
bem passo a passo detalhado na prática
disponibilizo todo esse material e creio
que isso pode te ajudar bastante então
se inscreve aqui e ativa o Sininho das
notificações para você sempre ficar por
dentro dos novos vídeos Então bora
voltar e vamos continuar E agora
voltando aqui pessoal existe uma tabela
que é chamada de tabela normal padrão de
zero a z o que que essa tabela faz nessa
tabela nós temos todas probabilidade e é
só a gente saber interpretar o número
que a gente localizou no Passo anterior
olhar nessa tabela e interpretar e
chegar no nosso valor de probabilidade
então Deixa eu te explicar só um pequeno
detalhe aqui a gente chegou nesse número
aqui certo -
1,25 e
1,25 o mesmo valor nesse caso foi
coincidentemente o mesmo valor positivo
e negativo que que a gente vai fazer
observa que aqui no nosso histograma e
na nossa curva de sino aqui a gente tem
no meio aqui o zero correto aqui pro
lado da direita a gente tem
1,25
e aqui a gente tem
-1,25 ou seja 1,25 negativo o que que
isso quer dizer aqui no meio O valor é a
média dos nossos dados o pico mais alto
aqui do nosso sino sempre vai ser a
média então do lado da direita nós temos
50% e do lado da esquerda 50% no total
até o final do Sino aqui só que a gente
quer achar uma pequena área e aqui a
gente tem um valor negativo Porém Aqui a
gente é identificar uma área certo então
a gente não precisa levar em
consideração o número negativo porque o
valor vai ser o mesmo tanto pro lado
esquerdo como pro lado direito aqui é só
uma forma de representar o dado Ok então
na nossa tabelinha a gente precisa achar
os dois valores de
1,25 e como que a gente acha isso na
nossa tabela aqui repara o seguinte ó tá
vendo que sempre o primeiro número e o
primeiro número após a vírgula ou seja o
um que é nosso primeiro número vírgula e
o dois que é o primeiro número após a
vírgula esses dois números aqui eles vão
corresponder à linha da nossa tabela e
aqui esse segundo número depois da
vírgula que é o cinco ele vai
representar a coluna da nossa tabela
então o que que a gente faz para achar
probabilidade o percentual a gente vai
pegar aqui no caso esse aqui seria o
-1,25 é que a gente não vai considerar o
sinal Então a gente vai achar dos dois
de 1,25 negativo e de 1,25 positivo só
que aqui a gente vai tratar tudo como
positivo porque ali no nosso gráfico é
uma área uma área pra gente não vai
importar se é negativo ou positivo a
gente quer achar aquele intervalo então
o que que a gente vai fazer vamos lá 1,2
corresponde a que linha a gente vai vir
aqui no z da nossa tabela ó corresponde
a linha 1,2 tá vendo aqui ó 1,2 é essa
linha toda a linha
1,2 essa aqui coluna 5 então a gente vem
1,2 coluna 5 Qual que é a coluna 5 essa
coluna aqui essa coluna aqui é a coluna
5 ó coluna
5 linha 1.2 linha
1.2 coluna 5 qual que é esse valor na
tabela
0,39 44 Ok
0,39 44 a gente simplesmente multiplica
por 100 ou anda duas casas decimais e
vai ser o quê
39,44 por. só que aqui
39,44 é apenas de uma área que a gente
achou agora vamos achar da área do outro
lado do nosso da nossa média só que o
número aqui é igual Então vai ser o
mesmo correto Então vai ser aqui ó
39,44 mesma coisa então como que a gente
faz para achar o total da área
39,44 +
39,44 Quanto isso representa
78,88 por. então
78,88 corresponde a essa área aqui dos
nossos dados que a gente queria
localizar é assim que a gente encontra a
probabilidade através da distribuição
normal agora vamos ver como funciona
isso lá no p
aqui no Python Então como que a gente
faz a gente precisa só de alguns pacotes
eu vou mostrar para vocês além de
calcular essa probabilidade eu vou
mostrar para vocês também como gerar
esse histograma e essa curva de sino com
esses dados e também vou deixar esse
material todo disponível com o link aqui
na descrição para você poder baixar e
poder fazer os testes aí no seu
computador Então vamos lá primeiramente
a gente vai importar alguns pacotes que
seria o pandas o cbor pra gente poder
gerar o nosso gráfico o sapai aqui stats
a gente vai importar aqui ó o pacote
norme tá pra gente poder calcular a
probabilidade da distribuição normal
vamos importar o no Pie vamos importar o
pacote statistics e vamos importar aqui
o Mat plot Lib vamos rodar aqui
Prontinho Agora ele já importou então
agora aqui pessoal a gente vai carregar
um arquivo csv também vai est disponível
na descrição do vídeo que que a gente
vai fazer vamos colocar aqui um
dataframe e vamos pedir pro nosso pandas
ler esse arquivo csv arenar tudo no
nosso dataframe a gente coloca aqui pdre
csv e o nome do arquivo é alturas pcsv
vamos executar aqui carregamos o arquivo
se a gente der um head aqui no arquivo
simplesmente a gente tem só uma coluna
aqui com a altura das pessoas aqui a
gente pode dar um df. describe pra gente
já ver os dados do nosso arquivo Olha lá
a gente tem aqui 100.000 registros a
gente tem uma média de
164.493 ou seja 165 um desvio padrão de
7.98 ou seja 8 igual nós vimos lá no
nosso cálculo que fizemos de forma
manual o mínimo o primeiro quartil a
mediana o terceiro quartil e o valor
máximo Então nós temos altura ali de 130
até 197 e a gente tem uma média de
165 com o desvio padrão de oito é
simplesmente o que vimos no nosso
exemplo aqui a gente vai simplesmente
pegando agora o nosso valor mínimo e
exibindo essa informação Olha lá então
nós temos aqui ó 130 que é o nosso valor
mínimo o valor máximo também vamos pegar
aqui ó criar uma variável Vl Max que vai
ser igual
df.max vai receber o valor máximo e
vamos exibir aqui com o print Olha lá
altura máxima 197 aqui a gente vai
coletar a média como que a gente faz
isso a gente não importou aqui esse
pacote de statistics eu quero mostrar
para vocês a gente poderia fazer is
cupando poderia mas esse outro pacote
também fornece funcionalidades para nós
então é sempre é bom a gente abrir nosso
leque de conhecimentos a gente vai
colocar aqui média que vai ser igual ST
pmin e o que que eu quero qual que é a
média a média da minha do meu dataframe
da coluna altura em seguida aqui a gente
exibe isso olha lá e aqui O desvio
padrão a mesma coisa então aqui eu vou
colocar uma variável chamada desvio
padrão que vai ser igual ST que é o
nosso pacote statistics pon pstd É o quê
É o nosso desvio padrão populacional de
todo o nosso conjunto de dados e vai ser
o DF altura vamos olhar lá ó lá 7.98 se
a gente arredondar dá oito o nosso
desvio padrão e aí a gente vai fazer o
quê vai fazer ali um plot dos nossos
dados para ver como que esses dados
estão e se aqui vai est representando
igual no nosso conceito lá que a gente
viu naquele nosso exemplo que fizemos
passo a passo que eu expliquei para
vocês pra gente gerar esse gráfico é
simples a gente coloca aqui SNS que é o
que o nosso cbor pon e plot e já é do
próprio cbor é um gráfico para
histograma e vai ser o quê aqui a gente
vai passar o nosso DF altura é o que a
gente quer fazer ali o nosso gráfico a
gente vai passar aqui o kde igual a true
para que que é esse kde para ele fazer a
linha do Sino Ou seja a linha da
distribuição normal e aqui de forma
discreta que ele vai fazer o gráfico de
uma forma ali melhor ele vai colocar os
bins que são as barras de acordo com o
nosso conjunto de dados Olha lá se a
gente executar então nós temos aqui ó
exatamente o que tá representado no
nosso conjunto de dados nós temos aqui
altura mínima certo altura máxima que tá
em
197 Aqui nós temos a média o pico mais
alto aqui ó o centro aqui é sempre a
média que é
1,65 e aqui vai tá a área que a gente
quer localizar e a aqui a gente pode ver
a nossa curva de sino que tá
representando certinho uma distribuição
normal aqui a gente pode ver também sem
as barras do histograma a gente pode ver
só a curva como que a gente faz a gente
coloca o SNS que é do cbor P CDE plot e
entre parênteses data ali que é o
parâmetro de data dos dados e a gente
coloca simplesmente o nosso DF a gente
executar aqui olha o que a gente vai ter
somente a nosssa curva de sino então
aqui a gente tá vendo a nossa
distribuição normal a nossa curva de
sino agora aqui a gente vai gerar outros
gráficos só para você poder também ter
conhecimento saber como que faz e poder
também brincar um pouco com a l com as
informações quando você tiver fazendo a
sua análise que que a gente faz aqui a
gente já tem ó a gente tá obtendo aqui o
valor mínimo igual fizemos anteriormente
o valor máximo a nossa média tá igual
fizemos anteriormente o nosso desvio
padrão igual fizemos também na nas
linhas acima e aqui a gente vai colocar
uma figura aqui ou seja um subplot e
vamos colocar aqui um plot que a gente
vai plotar o quê o DF - B que é o qu que
que a gente quer fazer aqui a gente quer
plotar dois gráficos ali um embaixo do
outro então no na figura 212 a gente vai
fazer aqui um histograma vai ser o quê o
nosso Data Frame DF Beans Vamos colocar
Beans igual a 10 que é a barra e o
density igual a true o que que é o
density que ele vai representar a linha
de densidade Ou seja a curva do Sino e
aqui a gente vai fazer o seguinte a
gente vai criar essa variável chamada e
i x que ela significa eixo X e uma
variável eixo Y que significa o eixo Y
no eixo X o que que nós vamos obter aqui
nós vamos obter o Line Space ou seja
fazer aquela linha ali do nosso
histograma e da nossa curva de sino ela
vai ser o quê o valor mínimo o valor
máximo de 100 pontos O que representa
esses 100 pontos que é a formação ali da
curva de sino e aqui a gente vai obter
aqui o pdf que é a nossa função
probabilidade de densidade igual nós
vimos no exemplo e nada mais é do que o
nosso eixo X que é a nossa linha base
vírgula média vírgula desvio padrão e
aqui a gente simplesmente plota o
gráfico isso tudo nada mais é pra gente
fazer o gráfico dessa forma diferente
aqui ó pra gente poder ver o histograma
sim com 10 beins Porque aqui nós vimos
ele com diversos beins tudo da forma que
a própria função melhor representá-lo
aqui a gente pode começar a analisar
melhor os nossos dados e ver a gente
poderia vir aqui também e simplesmente
colocar 12 PR a gente executar de novo
Observe que agora a gente tem 12 Bins tá
vendo aqui tá baixinho e parece que não
tem nada mas tem aqui o Bim é bem pouco
então a gente pode aumentar tá isso
também ah eu quero colocar aqui 20 Bins
é possível a gente colocar aqui 20 Bins
sim é possível lá tá vendo o nosso
histograma que é o que a distribuição
ali dos nossos dados começa a mudar mas
o sino da distribuição normal ele fica
intacto vamos voltar aqui para 10 Bins e
aqui a gente tem então nossos dados como
eles estão distribuídos aqui ó que é
simplesmente esse gráfico aqui que a
gente não passou parâmetro nenhum
simples ente pediu para ele plotar a
quantidade dos nossos dados e aqui a
gente já tem o nosso histograma tudo
sobre histograma eu vou deixar um vídeo
passando aqui para vocês depois vale a
pena dar uma olhada porque eu explico
como interpretá-lo o que ele significa
como que faz tudo bem passo a passo e
agora a gente vai ver como que a gente
acha a probabilidade aqui no Python a
mesma que nós achamos lá fazendo os
cálculos e olhando na tabela o Python já
tem uma função pronta a gente não
importou o pacote cpai é o quê é um
pacote específico com cálculos para
ciência de dados com cálculos
estatísticos matemáticos Então a gente
tem muita função pronta naquele nosso
pacote cpai e como que a gente faz isso
duas linhas de código de forma bem
simples aqui eu vou criar aqui uma
variável chamada probabilidade só para
receber o que que ela vai receber ela
vai receber aqui o norme que significa o
quê a nossa probabilidade de
distribuição normal que nós importamos
aqui ó nós importamos aqui ó cpy P stats
de estatísticas Import norme n inf Esse
norme é o quê é o pacote que trata sobre
a distribuição normal no Python E aí a
gente vai utilizar ele a gente vai
colocar aqui norme pcdf o que que é esse
método CDF a gente não viu lá que a
gente tem a nossa função de densidade de
probabilidade esse CDF aqui ele
significa o qu cumulative distribuition
F Ou seja a nossa função de distribuição
da probabil idade acumulada Por que que
a gente precisa usar esse método aqui
porque a gente não tem o máximo aqui que
a gente quer encontrar o intervalo
correto a gente quer encontrar o
intervalo e é o quê de 155 ou 1,55 M até
175 que é 1,75 m o que que a gente
precisa fazer aqui não é o máximo os
parâmetros dessa função que a gente
passa aqui é o valor maior da nossa área
que a gente quer encontrar a média que é
165 e o desvio padrão é oo os dados a
gente já tem menos o norm.cdf de novo
qual que é o menor ali espaço que a
gente quer qual que é a menor altura que
a gente quer do espaço da nossa área
1,55 ou 155 vírgula a média a média é
1,65 e o desvio padrão é 8 a gente faz o
maior menos o menor a gente vai salvar
ali um valor na nossa probabilidade aí o
que que a gente faz faz simplesmente a
gente faz aqui ó probabilidade vezes 100
ele vai vir zero vírgula alguma coisa
aqui a gente multiplica por 100 só para
ficar no formato certinho da nossa
probabilidade e o HD a gente coloca para
arredondar para ficar com duas casas
decimais vamos rodar e vamos ver se vai
bater com o que a gente fez de forma
manual e ó não esquece de deixar o seu
like hein Porque para mim o seu like é
muito importante significa que o que eu
tô passando aqui para vocês tá sendo
legal tá agregando valor para vocês se
você tá gostando então deixa um like
para eu saber se você tá gostando desse
tipo de conteúdo e olha lá vamos
executar Prontinho
78.7 ó
78.8 Quanto que deu lá naquele exemplo
que fizemos calculando pela tabelinha do
nosso zscore
78.8 arredondamento
78.8
78.8 Ou seja a mesma coisa a gente
poderia simplesmente arredondar para um
número inteiro ali ficaria 79 % ou seja
viu como no Python é simples achar essa
probabilidade com essas duas linhas de
código eu mostrei tudo isso para vocês
porque eu quis trazer para vocês como
que vocês fazem uma análise disso como
que vocês interpretam o gráfico e também
eu quis trazer o conceito para vocês
você entendendo isso pronto matou de vez
do que a distribuição normal de
probabilidade eu vou deixar também aqui
dois vídeos que vale muito a pena você
dar uma olhada são vídeos que eu já
falei que eu ia deixar o link na
descrição que são referente às medidas
estatísticas também sobre histograma
vale muito a pena dar uma olhada e se
você ficou com alguma dúvida ou tiver
alguma sugestão deixa para mim aqui nos
comentários que eu vou te responder o
mais rápido possível Muito obrigado e
até o próximo vídeo
Voir Plus de Vidéos Connexes
5.0 / 5 (0 votes)