Como fazer amostragem de dados com Python
Summary
TLDREn este video, el creador de un canal de ciencia de datos, Jefferson, aborda un tema fundamental en la disciplina: la amostraje de datos. Comenzando con la diferencia entre población y muestra, el video guía paso a paso a los espectadores en cómo realizar diferentes tipos de amostrajes utilizando Python y paquetes como pandas y seaborn. Jefferson ilustra la importancia de una muestra estratificada para la creación de modelos de machine learning precisos, evitando sesgos en la representación de las clases. Finalmente, se muestra cómo usar el método `StratifiedShuffleSplit` de scikit-learn para asegurar que las muestras reflejen adecuadamente la distribución de la población. El video es una fuente valiosa para aquellos interesados en la ciencia de datos y el aprendizaje automático.
Takeaways
- 😀 El contenido trata sobre la importancia de la muestra en la ciencia de datos y cómo se aplica en la práctica.
- 📚 Se menciona la diferencia entre población y muestra, que son conceptos estadísticos fundamentales.
- 🔧 Se utiliza Python y bibliotecas como pandas y seaborn para demostrar cómo realizar diferentes tipos de muestreo.
- 🌟 Se destaca la utilidad del conjunto de datos 'Iris' de seaborn para ilustrar ejemplos y conceptos de muestreo.
- 📊 Se explica cómo realizar una muestra aleatoria simple, su aplicación y limitaciones, especialmente en la representatividad de las clases.
- 🔢 Se presenta el concepto de muestreo sistemático, incluyendo la elección de una 'semente' y el uso de un 'step' para seleccionar datos.
- 📐 Se muestra cómo el muestreo sistemático, aunque ordenado, no garantiza una representación equitativa de las clases en el conjunto de datos.
- 🎯 Se introduce el muestreo estratificado como una solución para mantener un balance en las clases representadas en la muestra.
- 🛠️ Se utiliza el método 'StratifiedShuffleSplit' de la biblioteca sklearn para realizar un muestreo estratificado y mantener la proporción de clases.
- 📈 Se enfatiza la importancia de una muestra equilibrada para la creación de modelos predictivos en machine learning.
- 👨🏫 El canal ofrece contenido regular y material adicional para apoyar al aprendizaje en ciencia de datos.
Q & A
¿Qué es la importancia de la muestra en la ciencia de datos?
-La muestra es crucial en la ciencia de datos porque ayuda a representar y analizar los datos de una población más grande de manera eficiente y precisa.
¿Qué es la diferencia entre una población y una muestra en términos estadísticos?
-Una población es el conjunto completo de elementos de interés en un estudio, mientras que una muestra es un subconjunto representativo de esa población que se utiliza para realizar análisis y generalizaciones.
¿Cómo se realiza una muestra aleatoria simple en Python utilizando pandas?
-Puedes realizar una muestra aleatoria simple en Python utilizando el método `.sample()` de pandas, especificando el número de muestras o el porcentaje deseado de la población.
¿Por qué podría ser problemático utilizar una muestra aleatoria simple para crear modelos de machine learning?
-Una muestra aleatoria simple podría no ser representativa de todas las clases en la población, lo que podría llevar a un sesgo en el modelo y afectar su capacidad de generalización.
¿Qué es la amostragem sistemática y cómo se diferencia de la amostragem aleatoria simple?
-La amostragem sistemática es un método en el que se seleccionan elementos de la población basándose en un patrón regular (por ejemplo, cada k-ésimo elemento). Se diferencia de la amostragem aleatoria simple en que no utiliza un proceso completamente aleatorio, sino que sigue un patrón sistemático.
¿Cómo se puede garantizar que una muestra esté equilibrada en términos de las clases presentes en la población?
-Para garantizar una muestra equilibrada, se puede utilizar la amostragem estratificada, que implica dividir la población en estratos (o clases) y luego tomar una muestra representativa de cada estrato.
¿Qué es el método `stratify` en el contexto de la amostragem estratificada en Python?
-El método `stratify` es una función de la biblioteca scikit-learn que se utiliza para asegurar que las proporciones de cada clase en la muestra sean las mismas que en la población original.
¿Cómo se puede visualizar la información de una muestra en Python después de haberla creada?
-Después de crear una muestra en Python, se puede visualizar utilizando la función `.head()` para ver las primeras filas o utilizando `.tail()` para ver las últimas filas del DataFrame de la muestra.
¿Por qué es importante la inscripción al canal en el contexto del aprendizaje de contenidos nuevos?
-La inscripción al canal es importante porque permite recibir notificaciones y actualizaciones sobre nuevos contenidos, lo que ayuda a los estudiantes a mantenerse actualizados y ser los primeros en aprender sobre los temas tratados.
¿Cómo se puede asegurar que una muestra sea representativa de la población original en términos de la distribución de características?
-Para asegurar que una muestra sea representativa, se puede utilizar técnicas de muestreo como la estratificación, la conglomerada o la sistemática, que buscan replicar la distribución de características en la población dentro de la muestra.
¿Cuál es el problema con la amostragem sistemática si no se tiene en cuenta la distribución de las clases en la población?
-La amostragem sistemática, si no se realiza de manera adecuada, podría generar una muestra sesgada, donde algunas clases podrían estar sobrerepresentadas o subrepresentadas, lo que llevaría a conclusiones incorrectas al analizar los datos.
¿Qué bibliotecas de Python son útiles para realizar diferentes tipos de muestreo?
-Las bibliotecas de Python útiles para realizar diferentes tipos de muestreo incluyen pandas, que proporciona funciones para manipular y analizar datos, y scikit-learn, que ofrece métodos específicos para la amostragem estratificada y otros procedimientos de muestreo.
Outlines
📊 Introducción a la Amostragem de Dados
El primer párrafo presenta el tema central del video, que es la importancia de la amostragem de datos en la ciencia de datos. El creador del canal, Jefferson, da la bienvenida a los espectadores y se lanza a explicar cómo utilizar conceptos estadísticos en la práctica con Python. Importa dos paquetes, pandas y seaborn, para cargar y manipular un conjunto de datos llamado 'Iris', que se utilizará para ilustrar diferentes tipos de amostragem y su aplicación en la creación de modelos de machine learning.
🔍 Amostragem Aleatória Simples
En este segundo párrafo, se discute el concepto de amostragem aleatória simple, donde se extraen elementos de un conjunto de datos sin ningún criterio específico. Se utiliza el método 'sample' de pandas para tomar una muestra de 10 registros del conjunto de datos 'Iris'. Sin embargo, se señala un problema potencial con esta técnica: puede resultar en una muestra no representativa de las clases en el conjunto de datos, lo que podría sesgar los resultados de un modelo de aprendizaje automático.
🔄 Amostragem Sistemática
El tercer párrafo introduce el concepto de amostragem sistemática, que se basa en definir un 'step' o intervalo para seleccionar los elementos de la muestra. Se utiliza una 'semente' aleatoria para determinar el inicio de esta 'step', y luego se seleccionan elementos a intervalos regulares. Aunque se muestra cómo implementar esta técnica en Python, también se señala que, al igual que con la amostragem aleatória simple, no garantiza una distribución equitativa de las clases en la muestra.
📈 Amostragem Estratificada
El último párrafo se centra en la amostragem estratificada, una técnica que asegura que la muestra refleje proporcionalmente las clases presentes en el conjunto de datos original. Se utiliza la función 'StratifiedShuffleSplit' de la biblioteca 'sklearn' para dividir el conjunto de datos 'Iris' en un 80% para entrenamiento y un 20% para pruebas, asegurando que la muestra esté balanceada en términos de las diferentes especies de flores. Se muestra cómo esta técnica puede ser útil para evitar sesgos en el modelado de machine learning y se invita a los espectadores a revisar más recursos para comprender mejor estos conceptos.
Mindmap
Keywords
💡Ciência de Dados
💡Amostragem de Dados
💡População e Amostra
💡Python
💡Pandas
💡Cyborg
💡Amostra Aleatória Simples
💡Contagem por Espécies
💡Amostragem Sistemática
💡Amostragem Estratificada
💡Machine Learning
Highlights
Introdução ao conteúdo sobre amostragem de dados e sua importância na ciência de dados.
Explicação sobre a diferença entre população e amostra, conceitos estatísticos fundamentais.
Apresentação de exemplos práticos de amostragem de dados utilizando Python.
Importação dos pacotes pandas e seaborn para manipulação e visualização de dados.
Carregamento do conjunto de dados Iris utilizando o seaborn para ilustrar conceitos de amostragem.
Amostragem aleatória simples com o método `sample` do pandas.
Discussão sobre a importância de ter classes balanceadas em amostragens para modelos de machine learning.
Demonstração de como a amostragem aleatória pode resultar em desbalanceamento das classes.
Explicação sobre amostragem sistemática e sua diferença em relação à amostragem aleatória simples.
Utilização de uma 'semente' aleatória para definir o início da amostragem sistemática.
Criação de índices para amostragem sistemática utilizando o método `range` do numpy.
Amostragem sistemática pode gerar amostras com distribuição não uniforme das classes.
Introdução ao conceito de amostragem estratificada para manter a proporção das classes no conjunto de dados.
Uso do método `StratifiedShuffleSplit` do sklearn para realizar amostragem estratificada.
Demonstração de como a amostragem estratificada garante a representatividade das classes na amostra.
Apresentação de como visualizar e validar a amostra gerada com as classes balanceadas.
Conclusão sobre a importância de técnicas de amostragem apropriadas para a criação de modelos preditivos confiáveis.
Transcripts
hoje eu quero trazer para vocês um
conteúdo muito importante na nossa área
de ciência de dados que é com relação a
amostragem de dados isso é muito
importante nos ajuda muito do nosso dia
a dia então vamos lá começar que eu
trouxe aqui para vocês uns exemplos bem
passo a passo e na prática que você vai
entender de vez como utilizar a mostrar
a gente de dados vem comigo
Olá se você ainda não me conhece meu
nome é Jefferson eu sou o criador do
canal e aqui comigo você sempre é muito
bem-vindo então vamos lá começar aqui
bora passo a passo no nosso conteúdo Eu
já mostrei no vídeo anterior a diferença
entre população e amostra conceitos
estatísticos nesse vídeo eu quero
mostrar para vocês como a gente utiliza
isso na prática com python os comandos
as funções prontas que a gente tem para
fazer esse tipo de amostragem e além do
mais eu vou te explicar vários tipos de
amostragem e vou te falar qual que é o
melhor a melhor forma de fazer uma
amostragem primeira coisa que a gente
vai fazer a gente vai importar que o
pandas e o Cyborg o pandas a gente vai
utilizar algumas funções deles para
carregar tá frame esse tipo de coisa
separar dados vezes informações dos
nossos dados o cyborne nós não vamos
utilizar o subordo na parte do gráfico o
cyborne dentro dele ele tem um data 7
que é o data 7 Iris aonde a gente pode
utilizar como trabalhos e exemplos em
algumas atividades Olha lá vamos
importar aqui esses dois pacotes Pronto
já importamos agora a gente vai carregar
o data 7 Iris que é um data 7 onde ele
tem algumas especificações sobre plantas
sobre flores isso não vem ao caso nesse
vídeo mas ele vai ser útil para eu te
mostrar as classes ali quando a gente
está fazendo uma amostra e os tipos de
amostra também que eu vou te explicar
Então olha lá aqui a gente simplesmente
vai colocar aqui íris que vai ser o nome
do nosso Data Frame que vai ser igual
SMS ponto logo de data 7 Esse é uma
função do próprio SMS que vai carregar o
que o nome do data 7 é Íris Olha lá se a
gente executar aqui e a gente visualizar
que as informações desse data 7 O que
que a gente vai ter Aqui nós temos um
data 7 ele é pequeno tá serve como
exemplo com 150 entradas que vai de 0
até 149 e aqui ele vai mostrar as
colunas os tipos de coluna os nomes das
colunas que nós temos nesse data 7 aqui
a gente não precisa se atentar a esses
detalhes mas eu vou te explicar um pouco
mais para frente a importância dos tipos
de amostra principalmente com relação a
mostra estratificada que chama Então
vamos lá vamos começar aqui com o tipo
de amostra simples amostra aleatória
simples e vamos fazer aqui tudo bem
passo a passo primeira coisa que a gente
vai fazer a gente vai aqui ó colocar um
DF a mostra simples que a gente vai
fazer uma amostra do que a gente vai
colocar aqui ó igual Íris ponto sem
Apple Semple é um método do pandas que
ele faz o que ele faz uma amostra
simples para que serve uma amostra sim
simplesmente a gente tem lá o conjunto
de dados a gente quer pegar determinada
quantidade dentro daquele conjunto de
dados então aqui a gente pode utilizar
esse método de duas formas como número
ou seja a gente passa uma quantidade
específica nesse caso aqui a gente vai
colocar eles ponto sempre E aí de
parentes O N = 10 significa que a gente
quer 10 amostras Então olha lá vamos
executar e vamos agora visualizar o
nosso Data Frame de amostra Olha lá nós
temos 10 registros Porque Nós escolhemos
aqui 10 amostras e Aqui nós temos as
colunas dele normal ele simplesmente fez
uma amostragem de todo o nosso conjunto
de dados Ok só que repara o seguinte se
a gente fizer aqui ó uma contagem por
espécies por que que eu tô fazendo essa
Contagem por espécies porque imagina que
você vai estar fazendo uma amostragem
para fazer um modelo ali de machine
learning Onde você tá carregando dados
reais de alguma base de dados Então
imagina que você tem uma variável alvo
nesse caso desse data 7 a variável algo
são as espécies é a coluna chamada
espécies E aí o que que acontece quando
a gente faz uma amostragem simples ali
utilizando simplesmente o tempo olha se
a gente fizer aqui uma contagem
distintas observa que na nossa classe
aqui que seria a nossa variável alvo a
gente tem ali cetosa Virgínia e
versicolor Então olha repara na
quantidade você tosa 6 Virgínia K3
versículo 1 qual que é o problema que
isso gera a gente não tem uma amostra
ali igual de cada classe de cada parte
do nosso conjunto de dados Ele
simplesmente foi lá pegou 10 registros
de forma aleatória e não se atentou para
ver extrair as informações iguais eu já
expliquei em outros vídeos quando a
gente tá criando nossos modelos de
machine learning a importância das
classes serem balanceadas serem iguais
imagina como que isso é importante na
criação de um modelo de uma chinelaine
de um modelo preditivo que a gente tem
que ter essas classes balanceadas
imagina se a gente já começa fazendo
mostra dessa forma a gente começa já
todo o nosso trabalho de forma incorreta
mas Aguenta aí tem uma forma perfeita da
gente separar isso em classes iguais eu
vou te mostrar aqui mais para frente
vamos continuando aqui passo a passo
então a gente já viu um tipo de amostra
que é amostragem simples ali utilizando
sempre a gente pode usar o método sem
ponto também através de percentual ou
seja em vez de eu falar assim olha eu
quero 10 amostras eu posso dizer eu
quero 10% do conjunto de dados como
nosso conjunto de dados aqui o que nosso
conjunto original ele tem 150 registro
150 observações Então se a gente colocar
aqui 10% significa que a gente tem que
ter uma amostra ali de 15 registros
vamos lá verificar Então olha lá da
mesma forma que a gente fez aqui em cima
a gente simplesmente coloca aqui ó Iris
ponto Semple em vez de passar QN que a
gente quer passar o número a gente
coloca aqui ó o fraco de fração ou a
gente vai fazer o quê vai passar aqui ó
igual 0.10 que significa
10%. Então olha lá quando a gente
executar isso aqui e verificar aqui ó
novamente a nossa amostra Olha lá então
a gente tem agora 10% do nosso Total são
15 registros ali 15 amostras só que da
mesma forma se a gente verificar ali ó a
separação dessas classes se ele pegou as
informações balanceadas e dividiu por
igual a gente vai observar que não tá
vendo ó Virgínia k6 Versículo 6 você
tosa 3 ou seja dessa forma a gente não
consegue separar em classes e separar a
amostra com os mesmos pesos isso
significa o quê que ele pode enviesar
todo o nosso trabalho e agora a gente
vai falar sobre a amostragem sistemática
só que antes se você não tiver inscrito
se inscreve aqui no canal Porque toda
semana eu trago conteúdos novos tudo bem
passo a passo de na prática
disponibilizo todo o material para vocês
e creio que isso pode te ajudar bastante
então se inscreve aqui ativa a
notificações para você sempre ficar por
dentro dos novos vídeos e bora voltar
aqui e Deixa eu te explicar
primeiramente a diferença entre uma
amostragem sistemática e uma amostragem
aleatória simples na amostragem
aleatória simples como o nome já diz ela
é simples que que a gente faz a gente
tem um conjunto de dados seja de
qualquer coisa simplesmente a gente vai
lá e seleciona alguns casos para nossa
amostra sem nenhum critério sem nenhum
conceito é algo bem simples vamos supor
nesse caso aqui eu tenho 100 registros
lá de informações eu vou lá e pego um
pego o oitavo pego o décimo quinto pega
o vigésimo sem critério nenhum faça uma
amostra Isso é uma amostra aleatória
simples e existe também A amostragem
sistemática e aí na amostragem
sistemática como que funciona imagina
que a gente tem ali o conjunto de 150
registros como nesse caso aqui a gente
tem um conjunto de 150 registros que que
a gente vai fazer a gente vai definir o
que é chamado ali de uma semente ou seja
um ponto alto então Vamos definir que a
nossa semente vai ser um número
aleatório entre 1 e 10 a gente vai
simplesmente pegar esse número que vai
ser o step ou seja o passo a diferença
entre os números da nossa amostra por
exemplo Deixa eu te explicar na prática
que vai ficar mais fácil de compreender
aqui vamos importar ou no pai para a
gente usar aqui algumas bibliotecas dele
Olha lá como portar já portanto então
aqui a gente vai criar uma variável
chamada semente pode ser qualquer nome
de variável tá pode ser um valor pode
ser um separador pode ser qualquer coisa
que a gente coloca semente NP que é
nosso pai ponto rendam que ele vai fazer
o quê uma escolha randômica ponto Choice
para ele fazer uma escolha entre um
número de 0 a 10
quando a gente coloca o 10 porque a
gente quer que começa em zero a gente
não precisa colocar
0,10 ele já vai entender que a gente
quer número de 0 até 10 até o 10 aqui se
a gente colocar-se 20 ele ia entender
que seria número de 0 a 20 e qual que é
o step aqui de um em um isso vai fazer
com que ele gera um número aleatório
entre 0 e 10 Então olha lá se a gente
executar e verificar agora aqui ó o
nosso número é o número 6 então ele
gerou o nosso número para gente ali de 6
como que isso funciona agora para a
gente fazer uma amostragem sistemática
Então vamos criar aqui ó uma outra
variável chamada índices que ela vai ser
igual não pai ponto arange esse a Rangel
que a gente vai criar o que uma faixa de
valores de 0 até 100 essa faixa de
valores ela vai de quanto de 6 em 6 que
é a nossa semente aqui de seis em seis
ele vai coletar um número dentro desse
Range Então olha lá se a gente executar
aqui e verificar quais serão esses
índices pode vir ó 06 12 18 24 30 ou
seja ele foi começou do zero e foi de 6
em 6 até ele chegar aqui como não chegou
no 100 ele vai pegar o último número mas
próximo de 100 porque se ele fizer mais
seis ele vai passar aqui para 102 só que
como a gente determinou que até 100 ele
vai simplesmente fazer isso aqui e aí
quantos números nós temos aqui ó 1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16 17 o que
que é esse 17 vai ser o tamanho da nossa
amostra aí o que que a gente faz vamos
coletar então uma amostra aqui ó colocar
um Data Frame que vai ser chamado aqui
de amostra que vai ser igual o íris o
nosso conjunto de dado original ponto
Loki porque Loki porque a gente vai
localizar pelo índice também cliquei
vídeos falando sobre índice sobre slices
tudo bem passo a passo vou deixar o
vídeo aqui na descrição para vocês aqui
o nosso foco é amostra então por isso
que eu não vou entrar em detalhes do
comando Lock Ok mas depois dá uma olhada
no outro vídeo que tá bem bacana tá aqui
ó vou colocar eles ponto Loki o nosso
índices Quais são os nossos índices
esses números aqui vírgula todo o nosso
conjunto de dados que a gente tá fazendo
um Slice E aí eu vou verificar Nossa
amostra Então olha lá eu gerei aqui ele
me gerou é essa amostra aqui ó a gente
tem um dois três se a gente contar nós
temos 17 amostras Só que essa amostra a
diferença dela é que a gente fez isso de
forma sistemática Ou seja a gente
definir um critério ali ou seja um
sistema qual que vai ser esse sistema de
amostra de seis em seis como que a gente
escolheu esses seis através de um número
randomico ali Então olha lá a gente
poderia aqui executar Esse comando
novamente pode ver que ele um outro
número tá vendo 7 se a gente executar
ele de novo gerou zero se a gente
executar ele mais uma vez e se a gente
for executando Olha lá gerou um número 7
e assim consecutivamente então a gente
definiu ali qual que seria o sistema da
nossa amostra Ou seja a gente vai pegar
o nosso conjunto de dados a cada seis
elementos a gente retirar um Ou seja é
uma amostra sistemática uma amostragem
sistemática só que vamos observar que se
a gente fizer aqui ó vale counts ou seja
para a gente contar as nossas classes
observa que ele também não garante que
ele vai pegar igual nesse caso aqui ó
foi pior ainda porque ele pegou só duas
espécies tá vendo ou seja nós temos três
espécies aqui nós não temos ó três
espécies aqui ele pegou duas espécies ou
seja como a situação ainda pior mas
agora a gente vai falar de amostragem
estratificada a amostragem
diferente da simples e diferente dá uma
amostragem sistemática é para que porque
a gente vai fazer uma amostragem que
Garanta que as informações serão
balanceadas ou seja se eu tenho duas
classes ali que a gente está fazendo a
coleta dos dados ele vai pegar as
amostras com quantidades iguais dessas
duas classes eu tenho três se eu tenho
quatro ele vai garantir que ela mostra
seja igual e para que isso para que
quando a gente tiver analisando nossos
dados criando os nossos modelos de
machine learning a gente fazendo uma
amostra extratificada vai garantir que a
gente tem uma amostra que corresponde de
fato ao nosso conjunto de dados sem
enviesar isso ou seja sem entender se há
para um tipo de classe e nem para outro
tipo de classe isso é bem simples porque
o Python o site Lane já tem um método
próprio para isso para fazer essa
separação olha lá o que que a gente vai
fazer aqui primeiramente a gente vai
importar aqui ó do nosso do nosso Model
selection vamos importar o método que
chama Street Fight shuffle split Ou seja
é um método próprio do site para fazer
amostra estratificada Então vamos
executar aqui vamos importar aqui vamos
pegar o nosso conjunto ali Íris o nosso
conjunto de dados Iris e vamos dar um
vale-caos Olha lá a gente tem 50
registros de cetosa 50 de Versículo 50
de Virgínia Ou seja é balanceado 50 de
cada certo que nós temos um total de 150
e temos 50 de cada classe Ok só que a
gente precisa fazer uma amostragem que
fique igual a nossa amostra com a mesma
quantidade de cetosa Versículo e
Virgínia e isso é bem simples de se
fazer primeira coisa a gente vai criar
que é uma variável chamada split que vai
ser igual Street Fight
e vamos colocar aqui ó o teste sai 0.2
Ou seja 20% a gente quer uma amostra de
20%. Então a gente vai ter 30 registros
de amostra porque o nosso conjunto de
dados tem 150 20% São 30 só que desses
30 a gente tem que ter 10 de cada classe
ok então vamos ver se isso vai funcionar
aqui a gente vai colocar a função split
ponto split que ela vai colocar os 80%
no X e os 20% que é a nossa amostra no y
e depois a gente vai usar e vai ver só o
nosso dfy como que a gente faz coloca um
for
x,y
split ponto split aqui é o nosso data 7
tá que é íris e aqui vírgula íris e aqui
a coluna que a gente quer fazer essa
separação né coluna de classe ali no
nosso aqui na nossa classe que a gente
quer separar é pela classe espécies
então a gente vai colocar aqui ao íris
vai chamar só essa coluna espécie dois
pontos aqui que é a sintaxe do nosso for
E aí a gente vai colocar
df_x que vai ser um Data Frame que vai
receber o quê o nosso x que são os casos
ali os 80% e o dfy que vai ser igual
Íris ponto Y que vai ser o quê os nossos
20% da nossa amostra que a gente
escolheu Então olha lá vamos executar
isso já fez super rápido porque a função
ela é pronta e preparada para isso para
esse tipo de situação por isso que ela
faz isso assim ó é excelente e agora
vamos ver aqui ó se o nosso dfy que é a
nossa mostra se a gente ficou com a
separação das classes corretas Olha lá
viu só Fantástico fala a verdade separou
tudo igualzinho e somente com essas
quatro linhas de códigos de forma bem
simples gerou Nossa mostra dedicada com
o método Pronto já do site learning E aí
para a gente finalizar a gente pode
visualizar aqui o nosso Data Frame Olha
lá então nós temos aqui 30 registis
porque a gente selecionou uma amostra de
20% do nosso data 7 completo é Então
temos 30 registros e temos 10 de cada
perfeito e ó dá uma olhada nesse vídeo
que eu vou deixar aqui para vocês como
indicação que eu explico as diferenças
entre população mostra fala dos
conceitos isso é muito importante creio
que vai te ajudar bastante e se você
ficou com alguma dúvida tiver alguma
sugestão deixa para mim aqui nos
comentários que eu vou te responder o
mais rápido possível Muito obrigado e
até o próximo vídeo
Weitere ähnliche Videos ansehen
DISTRIBUIÇÃO NORMAL ESTATÍSTICA
Como aprender estatística de forma fácil
Estatística Básica para Ciência de Dados
Como crear tu propio DETECTOR DE OBJETOS en TIEMPO REAL con Python OpenCV | Template Matching
Varianza, Desviación Estándar y Coeficiente de Variación | Datos agrupados en intervalos
Modelos predictivos Machine Learning - Tutorial en español | Matlab
5.0 / 5 (0 votes)