Estatística Básica para Ciência de Dados
Summary
TLDREl script ofrece una introducción a las medias móviles, una técnica estadística utilizada en el análisis de series temporales. El presentador, Jeferson, explica cómo identificar tendencias en datos a lo largo del tiempo, con aplicaciones en áreas como la logística y la finanza. Se muestra cómo generar datos aleatorios en Python utilizando pandas y random, y luego calcular medias móviles para evaluar periodos de tiempo específicos. Se ilustra el proceso paso a paso, incluyendo la creación de un DataFrame y el uso del método Rolling para calcular la media móvil de ventanas de tiempo variadas. El objetivo es proporcionar una guía práctica para que los espectadores puedan implementar el análisis de medias móviles en sus propios proyectos.
Takeaways
- 😀 El video ofrece una introducción al concepto de la media móvil en estadísticas y cómo aplicarla en Python.
- 📈 Se explica que la media móvil es una herramienta utilizada para identificar tendencias en conjuntos de datos de series temporales.
- 🛠️ El video muestra cómo utilizar Python para trabajar con medias móviles, incluyendo la importación de paquetes como pandas y random.
- 📅 Se crea un conjunto de datos utilizando pandas, estableciendo un rango de fechas y generando datos aleatorios para pruebas.
- 🔢 Los datos generados incluyen ventas en dinero y cartão, y se etiquetan con información de fecha, tipo de día y forma de pago.
- 🗓️ Se utiliza la función `date_range` de pandas para establecer el período de tiempo para el análisis.
- 📊 Se muestra cómo agregar datos a una lista y luego convertir esa lista en un DataFrame de pandas para su análisis.
- 🔧 Se abordan comandos de Python para manipular y analizar los datos, como el uso de bucles `for` y funciones de agregación.
- 📉 El video destaca el uso de la función `Rolling` en pandas para calcular la media móvil de un conjunto de datos.
- 📈 Se ejemplifica el cálculo de medias móviles para diferentes ventanas de tiempo, como 2 días, 3 días y 7 días.
- 📝 Se enfatiza la importancia de la media móvil en áreas como la logística, supply chain, recursos humanos, compras y finanzas.
Q & A
¿Qué es un concepto de estadística que se discute en el script del video?
-El concepto de estadística discutido en el script es la 'media móvil'.
¿Para qué se utilizan las medias móviles según el script?
-Las medias móviles se utilizan para identificar la tendencia de un conjunto de datos en una serie temporal, como en análisis de ventas, cantidad de stock, etc.
¿En qué áreas se pueden aplicar las medias móviles según el video?
-Las medias móviles se pueden aplicar en áreas como logística, supply chain, recursos humanos, compras y logística, especialmente en el área financiera como acciones y bolsa de valores.
¿Qué es lo primero que se hace para trabajar con la media móvil en Python según el script?
-Lo primero que se hace es importar los paquetes 'pandas' y 'numpy' para generar datos y trabajar con ellos.
¿Cómo se crea el conjunto de datos para evaluar la media móvil en el script?
-Se crea un conjunto de datos utilizando un bucle 'for' para iterar sobre un rango de fechas y generar datos aleatorios para las ventas.
¿Cómo se identifica si es un día laborable o un fin de semana en el script?
-Se utiliza la función 'WeekDay' para identificar el día de la semana y si es mayor que cuatro (sábado o domingo), se identifica como un fin de semana.
¿Qué función de pandas se utiliza para convertir una lista en un DataFrame?
-Se utiliza la función 'pd.DataFrame' para convertir una lista en un DataFrame.
¿Qué función de pandas permite calcular la media móvil de un DataFrame?
-La función 'Rolling' de pandas permite calcular la media móvil de un DataFrame.
¿Cómo se calcula la suma de las ventas para un rango de tiempo específico en el script?
-Se utiliza la función 'Rolling' con un parámetro de ventana para sumar las ventas de un rango de tiempo específico y se almacena en una nueva columna.
¿Cómo se calcula la media móvil de 7 días para las ventas en el DataFrame según el script?
-Se utiliza la función 'Rolling' con un parámetro de ventana de 7 días y se especifica que se debe usar la columna 'data' para la ventana y la columna 'qtd_vendas' para calcular la media.
¿Qué función de pandas permite realizar operaciones como sumar o calcular la media móvil?
-La función 'Rolling' de pandas permite realizar operaciones como sumar o calcular la media móvil.
¿Cómo se puede utilizar la media móvil para análisis en diferentes áreas de negocio?
-La media móvil puede utilizarse para realizar análisis temporales en diferentes áreas de negocio, como la evaluación de tendencias de ventas, el monitoreo de inventarios y la predicción de movimientos en el mercado financiero.
Outlines
📊 Introducción a las Medias Móviles con Python
El primer párrafo presenta el tema principal del video, que es la explicación de las medias móviles y su aplicación en el análisis temporal de datos utilizando Python. El orador, Jeferson, creador del canal, se presenta y se compromete a mostrar paso a paso cómo utilizar las medias móviles en Python. Se menciona que las medias móviles son útiles para identificar tendencias en series temporales y son aplicables en áreas como logística, supply chain, recursos humanos, compras y finanzas. Se habla de la importancia de prestar atención al proceso y se anuncia la creación de un conjunto de datos para ilustrar el concepto.
🔢 Creación de un Conjunto de Datos con Python
En el segundo párrafo, el script se centra en la creación de un conjunto de datos en Python. Se describe el proceso de importación de los paquetes 'pandas' y 'numpy', y se utiliza la función 'date_range' para generar un rango de fechas. Luego, se crea una lista vacía llamada 'dados' para almacenar los datos. Se implementa un bucle 'for' para recorrer el rango de fechas y, dentro de este bucle, se generan valores aleatorios para las ventas en efectivo y con tarjeta, así como se determina si el día es fin de semana o no. Estos datos se anexan a la lista 'dados' con información sobre la fecha, el tipo de día y las ventas.
📈 Análisis de Medias Móviles con Pandas
El tercer párrafo se enfoca en el análisis de medias móviles utilizando el paquete 'pandas'. Se explica cómo se puede utilizar la función 'Rolling' para calcular la suma y la media móvil de los datos. Se muestra cómo crear columnas adicionales en el DataFrame para almacenar los resultados de las sumas y medias móviles de diferentes ventanas de tiempo, como dos días o tres días. Se ejemplifica con código cómo se realiza el cálculo y se visualiza el DataFrame resultante con las nuevas columnas.
👨🏫 Conclusión y Recursos Adicionales
El último párrafo del script es una conclusión donde el orador anima a los espectadores a suscribirse al canal y activar las notificaciones para recibir nuevos contenidos. También se menciona la intención de proporcionar material adicional y código fuente para ayudar a los espectadores a comprender mejor las medias móviles y su implementación en Python. Se ofrecen recursos adicionales sobre listas y bucles 'for' y se invita a los espectadores a dejar comentarios con preguntas o sugerencias.
Mindmap
Keywords
💡Média Móvel
💡Python
💡Pandas
💡Data Frame
💡Randomico
💡Rolling
💡Análisis Temporal
💡Logística y Cadena de Suministro
💡Finanzas
💡Machine Learning
💡Loop For
Highlights
Introdução ao conceito de médias móveis e sua aplicação em análise temporal.
Explicação sobre como médias móveis são usadas em áreas como logística, supply chain, vendas, recursos humanos e finanças.
Demonstração passo a passo de como implementar médias móveis no Python.
Importação dos pacotes necessários: pandas, numpy e random.
Criação de um conjunto de dados utilizando pandas e geradores de números aleatórios.
Uso do pandas para gerar datas e a alocação de dados em uma estrutura de Data Frame.
Como trabalhar com datas e identificar dias de final de semana no conjunto de dados.
Explicação sobre como inserir dados em uma lista e depois converter essa lista em um Data Frame.
Demonstração de como calcular a soma de quantidades de vendas por janelas de tempo específicas.
Como calcular a média móvel de sete dias usando o método Rolling do pandas.
Aplicação da função Rolling para realizar cálculos de média móvel em séries temporais.
Exemplo de como as médias móveis podem ser utilizadas em análises financeiras, como ações e bolsa de valores.
Como adicionar colunas ao Data Frame para armazenar resultados de cálculos de média móvel.
Apresentação de como a média móvel pode ser aplicada em modelos de machine learning.
Oferecimento de recursos adicionais, como links para vídeos sobre listas e loops for, para ajudar na compreensão.
Convite para inscrever-se no canal e ativar as notificações para receber novos conteúdos.
Ressaltando a importância de entender listas e loops for antes de trabalhar com médias móveis.
Oportunidade para o público deixar dúvidas e sugestões nos comentários para interação com o criador do conteúdo.
Transcripts
hoje eu vou trazer um conceito bem legal
de estatística para vocês e vou mostrar
exemplos e como a gente utiliza isso no
Python tudo bem passo a passo e na
prática vamos falar sobre médias móveis
que são muito utilizadas quando a gente
faz análise temporal quando a gente
precisa avaliar uma janela de tempo seja
valores seja quantidade eu vou mostrar
aqui para vocês tudo bem passo a passo
na prática Então vamos lá começar vem
comigo Olá se você não me conhece meu
nome é Jeferson eu sou o criador do
canal e é sempre um prazer ter você aqui
comigo bora lá começar então na prática
a ver aqui os nossos conceitos e algumas
coisas no Python sobre média móvel
primeira coisa conceitualmente Falando
em estatística o que seria a média móvel
eu até deixei descrito aqui para vocês
eu vou deixar esse material para vocês
disponível Tá bom mas é muito importante
você prestar atenção no passo a passo
que eu vou te explicar todos os comandos
aqui para te mostrar como funciona isso
na na prática utilizando Python em
estatística a média móvel é um recurso
utilizado para se identificar a
tendência de um conjunto de dados
dispostos em uma série de tempo ou seja
Resumindo pra gente avaliar determinados
dados de um tempo tal até um tempo tal
de uma data D até uma data final quais
dados a gente pode analisar qualquer
tipo de dados quantidade de vendas por
exemplo valores de vendas quantidade de
estoque valor em stoque isso é muito
utilizado na área de logística supply
chain por quê Porque a gente precisa
fazer algumas análises temporais para
verificar determinado produto quanto
tempo ficou no estoque quanto tempo saiu
do estoque Enfim uma série de análises
que a gente pode fazer isso para venda
para recursos humanos para compras para
logística qualquer área de negócio
principalmente área financeira ações
bolsa de valores e por aí vai então
vamos começar aqui no Python que eu vou
te mostrar agora como que é simples
trabalhar com essa média móvel Olha lá
primeira coisa que a gente vai fazer
aqui a gente vai importar aqui o pandas
o n pai e vamos importar Esse pacote
handle Esse pacote ROM faz o quê
simplesmente pra gente gerar números
aleatórios randomicamente Tá ok então
vamos importar esses três pacotes agora
que nós já importamos esses pacotes O
que que a gente vai fazer aqui a gente
vai criar um conjunto de dados em vez da
gente importar um conjunto de dados tudo
eu vou criar é um conjunto de dados
também trago alguns comandos novos aqui
para vocês como por exemplo o date Range
tá pra gente poder fazer esses testes e
poder fazer essa análise eu explicar
melhor isso para vocês então a primeira
coisa que a gente vai fazer aqui a gente
vai criar aqui ó uma lista vazia chamada
dados tá então vai ser nossos dados aqui
é uma lista vazia como que eu sei que é
uma lista vazia que a gente abriu e
fechou o colchetes eu já fiz um vídeo
aqui no canal também falando muito bem
em detalhes sobre listas vou deixar o
link aqui na descrição depois vale a
pena dar uma olhada então aqui a gente
vai agora criar aqui um período que a
gente vai fazer esse essa avaliação de
tempo então a gente vai colocar aqui ó
pd que é nosso pandas ponto date
underline Range essa função aqui é uma
função do pandas que ele vai criar um
período com essa data 1/01 de 2023 até
1/07
de2022 aqui poderia também ser um
período 1/06 de2020
poderia ser um mês dois meses período
que você achar melhor vou até mudar
vamos deixar um do 6 de 2023 aí o que
que a gente vai fazer agora para Popular
o nosso conjunto de dados que vai ser a
nossa lista ali vazia inicialmente tá
essa lista aqui ó chamada dados a gente
vai inserir dados lá dentro vai
converter num Data Frame que que a gente
vai fazer aqui a gente vai fazer um loop
for E aí para cada interação do nosso
loop for a gente vai fazer o quê a gente
vai a cada interação aqui nesse nosso
período de data ele vai ter todas as
datas ali que nós colocamos aqui desse
período ele vai fazer o quê a cada
interação do loop for cada vez que esse
for for executado tá ele vai criar aqui
ó uma variável que chama vendas
underline dinheiro e uma que chama
vendas underline cartão e aí nós vamos
colocar aqui ó Random pon Random init
vai de 1 a 10 e aqui Random p ROM it e
vai de 1 a 10 também ou seja o que
estamos fazendo aqui nesse início nesse
trecho de código a gente simplesmente tá
gerando de forma aleatória números que
estão entre 1 a 10 é isso que a gente tá
fazendo aqui e atribuindo nessas
variáveis aqui venda dinheiro e venda
cartão depois a gente vai colocar aqui ó
tipo dia igual dia semana a gente vai
colocar aqui ó tipo dia igual dia da
semana e aí a a gente vai verificar o
seguinte se o nosso período data entre
coates o i o que que é esse i é a linha
que o for tá fazendo naquele momento
ponto Week Day esse Week Day é o qu ele
pega o número do dia da semana por maior
que quatro por que maior que quatro no
Python o dia da semana começa em zero
então é 0 1 2 3 4 5 6 7 dias na semana E
se for maior que quatro significa o quê
Se for número cinco ou seis significa
que é sábado ou domingo então pro Python
o Week Day número 5 é sábado e o Week
Day número 6 é domingo e o zero até
quatro é segunda-feira é de segunda a
sexta tá então aqui se for maior que
quatro ou seja se for cinco ou se vai
ser sábado ou domingo então ele vai
mudar aqui ó a informação do tipo dia
para final de semana OK sen não vai
manter dia da semana aí a gente vai
fazer o qu dados P append aí entre
parênteses vamos transformar isso aqui
numa string tá o período data Porque até
então ele é uma data vamos transformar
um string da mesma forma que vamos
colocar o i que é aquela data que o
nosso for está passando ponto date aí
vamos fechar o parênteses vírgula tipo
dia vírgula dinheiro vírgula vendas
dinheiro ou seja a gente tá inserindo na
nossa lista porque o append ele vai
inserir na nossa lista ele inserir dados
na nossa lista ele vai inserir na nossa
lista essas informações aqui venda
dinheiro e de venda cartão então toda
vez que o for tiver passando ele vai
fazer todo esse procedimento e vai
inserir aqui na nossa lista vazia vai
fazer isso para todas as datas que
estiverem aqui nesse período E lembrando
que que esse período data são as datas
que nós atribuímos aqui para criar o
nosso intervalo Ok feito isso o que que
a gente vai fazer ele vai rodar aqui no
for se tiver lá 100 datas ele vai fazer
100 vezes o for 200 e assim
consecutivamente e aí depois que ele
terminar o for a gente vai aqui no dados
vai pegar dados que vai ser igual
pd.dataframe.loc
que a gente vai converter agora essa
lista é a nossa lista aqui que chama
dados em um Data Frame Então a gente vai
fazer pd dataframe entre parênteses
Vamos colocar aqui dados é a nossa lista
tá que agora ela não está mais vazia ela
está populada conforme a gente fez no
for vírgula colunas colunas cols n que a
gente vai passar também aqui o nome das
nossas colunas que vai ser o quê coluna
de data tipo dia for de pagamento e
quantidade de vendas e aí você observou
que aqui nós temos quatro Campos e aqui
a gente inseriu quatro Campos na nossa
lista ou seja esse aqui ó período data P
date é a nossa data o tipo dia vai ser
aqui a coluna tipo dia o dinheiro ou
cartão aqui essa descrição vai ser a
forma de pagamento e aqui vendas
dinheiro e vendas cartão nada mais é do
que a quantidade de vendas pra gente
poder a nossa média móvel então aqui a
gente tá só criando um conjunto de dados
para avaliar a nossa média móvel E aí
feito isso a gente vai colocar aqui ó
dados né o nosso campo data que vai ser
igual pd P datetime data a gente tá
convertendo aqui para date time porque
aí quando a gente for trabalhar lá logo
abaixo com os comandos para ver a média
móvel a gente consegue passar períodos
de data de uma forma bem simples vocês
vão ver já já então vamos executar aqui
agora esse comando ó já executamos e ele
já fez tá vendo ele já rodou todo o
nosso loop fora ali já converteu para um
Data Frame se a gente olhar agora o
nosso Data Frame chama dados Olha lá a
gente tem então todas as datas que nós
passamos ali aquele período o tipo do
dia se é final de semana ou se é dia da
semana a forma de pagamento dinheiro
cartão e a quantidade de vendas que nós
geramos aqui aleatoriamente toda vez que
a gente fez o for viu então assim a
gente criou um dataframe ali pra gente
poder fazer nossas análises e agora eu
vou mostrar para vocês umas funções
prontas do pandas que a gente já
consegue avaliar a nossa média móvel as
nossas janelas de tempo tudo de acordo
ali com as datas do nosso dataframe tudo
com uma linha de código bem simples só
que antes se você não tiver inscrito se
inscreve aqui no canal Porque toda
semana eu trago conteúdos novos tudo
muito bem detalhado passo a passo na
prática explico tudo muito bem em
detalhes para vocês e ainda
disponibilizo todo esse material todo
esse código fonte eu creio que isso vai
te ajudar bastante então se inscreve
aqui no canal ativa o Sininho das
notificações para você sempre ficar por
dentro dos novos vídeos e bora lá voltar
aqui e olha lá como que a gente faz
agora o cálculo da nossa média móvel
quantidade somar quantidade por janelas
de tempo muito simples o pandas ele tem
já essa função aqui que chama Rolling Ou
seja é uma rolagem significa uma rolagem
E aí a gente entre parênteses passa um
parâmetro ali de janela porque o Window
é o quê uma janela essa janela significa
o quê 2 3 4 a quantidade de registros ou
uma janela de tempo no caso para avaliar
as datas quando a gente tá trabalhando
com séries temporais por exemplo Ah eu
quero saber a média móvel do da
temperatura dos últimos 8 dias ou eu
quero saber a média móvel da última
semana em relação ao preço de uma
determinada ação de um determinado ativo
da Bolsa de Valores a gente pode fazer
com esse comando Rolling ele já é nativo
do próprio pandas Então olha lá primeira
coisa que a gente vai fazer aqui ainda
não é a média móvel a gente vai
simplesmente pegar aqui ó vamos criar né
uma coluna chamada soma underline dois
dias que vai ser igual o dados que é o
nosso dataframe ponto Rolling Window 2
que significa o qu que a gente quer
pegar os dois registros
tá E aí sempre fazer isso de dois em
dois A cada dois registros eu vou fazer
o quê Vou pegar o campo quantidade de
vendas então pon qtd underline vendas PS
para somar Olha só vamos executar aqui ó
executamos e se a gente agora visualizar
os nossos dados olha só tá vendo aqui
por que que ele colocou n ou seja not a
Number um valor Miss um valor nulo Por
que que ele não colocou nada aqui e
deixou nulo porque a aqui é o primeiro
valor então ele não tem um valor para
trás para ele calcular dois dias ali por
isso que o primeiro sempre vai ficar
nulo no segundo ele já colocou ali ó a
soma dos dois dias é o quê é 7 4 + 3 7
aí nesse daqui 5 por quê 3 + 2 5 esse
daqui 7 2 + 5 7 aqui 10 por qu 5 + 5 10
e assim consecutivamente ele sempre vai
pegando de dois em dois Vai somando e
vai atribuindo em uma nova coluna Ok
Isso foi que a gente fez a soma a gente
pode fazer isso também considerando três
dias os três dias não perdão três
registros porque aqui ainda a gente não
tá olhando a data a gente tá olhando
quantidade ali de linhas do dataframe Ok
então vamos criar aqui uma coluna soma
TRS Dias dados P Rolling Window = 3 P
etd under vendas psan se a gente
executar e agora vamos avaliar novamente
esse noso nosso dataframe Olha lá aqui
da mesma forma como a gente quer sempre
de três linhas as duas primeiras vão
ficar não vão ficar nula aí aqui a
partir da terceira ele já tem três
valores aqui ó para calcular Lembrando
que a gente não tá olhando essa coluna
aqui tá Porque essa já foi uma coluna
calculada a gente tá olhando a coluna
qtd vendas Então se a gente pegar e
fizer a soma 4 + 3 + 2 Vai dar 9 se a
gente pegar aqui ó essa deu 10 então 3
mais 2 5 + 5 10 e assim consecutivamente
então aqui da mesma forma que a gente
fez com a soma a gente vai fazer com a
média então a gente executa aqui para
ver a média de dois registros e para ver
a média ali de três registros se a gente
olhar aqui o nosso Data Frame de novo a
gente vai ver que agora em vez de fazer
a soma ele fez o quê ele fez ó tá vendo
a média de dois dias e a média de TRS
dias com o mesmo procedimento que
anteriormente e E aí agora que a gente
chega na média móvel olhando por período
por faixa de tempo da mesma forma com o
mesmo comando dados pon Rolling né dados
é o nosso dataframe ponto Rolling é a
função do pandas Então a gente vai criar
aqui ó dados pon média móvel 7 dias que
vai ser igual dados nosso dataframe pon
Rolling E aí entre parênteses o Window é
o qu é uma janela ali que que a gente
quer 7D 7D do qu 7 dias então a gente
coloca 7D de 7 dias vírgula on é
obrigatório a gente colocar aqui esse on
para dizer para ele qual coluna do
dataframe ele vai usar Então a gente vai
fazer o quê S dias ou na coluna data
Então a gente vai olhar PR essa coluna
data essa coluna data lembra que a gente
colocou ela já como date time justamente
pra gente poder usar isso daqui
justamente pra gente poder colocar aqui
7D on data P qtd vendas pon mim então se
a gente executar Esse comando e agora se
a gente olhar aqui na nossa coluna que a
gente criou média underline móvel
underline 7 dias a gente sempre vai ter
a média dos últimos sete dias então aqui
ele vai pegar sempre os sete dias os
últimos sete dias e vai fazendo a média
móvel isso a gente pode usar para
qualquer coisa para qualquer Data Frame
quando a gente quiser medir algum dado
num intervalo de tempo e um determinado
período a gente faz dessa forma com esse
simples comando aqui de um uma linha a
gente pode ir criando colunas no nosso
dataframe para posteriormente a gente
fazer mais análises fazer isso inserir
isso no modelo de machine learning E por
aí vai e como aqui nesse vídeo a gente
falou bastante de lista e de loop Force
se você não tiver familiarizado eu vou
deixar esses dois vídeos aqui tudo bem
em detalh sobre listas e sobre loop for
e se você ficou com alguma dúvida ou
tiver alguma sugestão deixa para mim
aqui nos comentários que eu te respondo
o mais rápido possível Muito obrigado e
até o próximo vídeo
Voir Plus de Vidéos Connexes
Como crear tu propio DETECTOR DE OBJETOS en TIEMPO REAL con Python OpenCV | Template Matching
Como fazer análise ESTATÍSTICA com Python
Prompt de ChatGPT para predecir el precio de las acciones
Sistema medio plazo SP500 sencillo
ESTATÍSTICA BÁSICA PARA CIÊNCIA DE DADOS
Diseño de un factor con Minitab 18 (One way - ANOVA)
5.0 / 5 (0 votes)