Como fazer amostragem de dados com Python

Nerd dos Dados
9 May 202318:05

Summary

TLDREn este video, el creador de un canal de ciencia de datos, Jefferson, aborda un tema fundamental en la disciplina: la amostraje de datos. Comenzando con la diferencia entre población y muestra, el video guía paso a paso a los espectadores en cómo realizar diferentes tipos de amostrajes utilizando Python y paquetes como pandas y seaborn. Jefferson ilustra la importancia de una muestra estratificada para la creación de modelos de machine learning precisos, evitando sesgos en la representación de las clases. Finalmente, se muestra cómo usar el método `StratifiedShuffleSplit` de scikit-learn para asegurar que las muestras reflejen adecuadamente la distribución de la población. El video es una fuente valiosa para aquellos interesados en la ciencia de datos y el aprendizaje automático.

Takeaways

  • 😀 El contenido trata sobre la importancia de la muestra en la ciencia de datos y cómo se aplica en la práctica.
  • 📚 Se menciona la diferencia entre población y muestra, que son conceptos estadísticos fundamentales.
  • 🔧 Se utiliza Python y bibliotecas como pandas y seaborn para demostrar cómo realizar diferentes tipos de muestreo.
  • 🌟 Se destaca la utilidad del conjunto de datos 'Iris' de seaborn para ilustrar ejemplos y conceptos de muestreo.
  • 📊 Se explica cómo realizar una muestra aleatoria simple, su aplicación y limitaciones, especialmente en la representatividad de las clases.
  • 🔢 Se presenta el concepto de muestreo sistemático, incluyendo la elección de una 'semente' y el uso de un 'step' para seleccionar datos.
  • 📐 Se muestra cómo el muestreo sistemático, aunque ordenado, no garantiza una representación equitativa de las clases en el conjunto de datos.
  • 🎯 Se introduce el muestreo estratificado como una solución para mantener un balance en las clases representadas en la muestra.
  • 🛠️ Se utiliza el método 'StratifiedShuffleSplit' de la biblioteca sklearn para realizar un muestreo estratificado y mantener la proporción de clases.
  • 📈 Se enfatiza la importancia de una muestra equilibrada para la creación de modelos predictivos en machine learning.
  • 👨‍🏫 El canal ofrece contenido regular y material adicional para apoyar al aprendizaje en ciencia de datos.

Q & A

  • ¿Qué es la importancia de la muestra en la ciencia de datos?

    -La muestra es crucial en la ciencia de datos porque ayuda a representar y analizar los datos de una población más grande de manera eficiente y precisa.

  • ¿Qué es la diferencia entre una población y una muestra en términos estadísticos?

    -Una población es el conjunto completo de elementos de interés en un estudio, mientras que una muestra es un subconjunto representativo de esa población que se utiliza para realizar análisis y generalizaciones.

  • ¿Cómo se realiza una muestra aleatoria simple en Python utilizando pandas?

    -Puedes realizar una muestra aleatoria simple en Python utilizando el método `.sample()` de pandas, especificando el número de muestras o el porcentaje deseado de la población.

  • ¿Por qué podría ser problemático utilizar una muestra aleatoria simple para crear modelos de machine learning?

    -Una muestra aleatoria simple podría no ser representativa de todas las clases en la población, lo que podría llevar a un sesgo en el modelo y afectar su capacidad de generalización.

  • ¿Qué es la amostragem sistemática y cómo se diferencia de la amostragem aleatoria simple?

    -La amostragem sistemática es un método en el que se seleccionan elementos de la población basándose en un patrón regular (por ejemplo, cada k-ésimo elemento). Se diferencia de la amostragem aleatoria simple en que no utiliza un proceso completamente aleatorio, sino que sigue un patrón sistemático.

  • ¿Cómo se puede garantizar que una muestra esté equilibrada en términos de las clases presentes en la población?

    -Para garantizar una muestra equilibrada, se puede utilizar la amostragem estratificada, que implica dividir la población en estratos (o clases) y luego tomar una muestra representativa de cada estrato.

  • ¿Qué es el método `stratify` en el contexto de la amostragem estratificada en Python?

    -El método `stratify` es una función de la biblioteca scikit-learn que se utiliza para asegurar que las proporciones de cada clase en la muestra sean las mismas que en la población original.

  • ¿Cómo se puede visualizar la información de una muestra en Python después de haberla creada?

    -Después de crear una muestra en Python, se puede visualizar utilizando la función `.head()` para ver las primeras filas o utilizando `.tail()` para ver las últimas filas del DataFrame de la muestra.

  • ¿Por qué es importante la inscripción al canal en el contexto del aprendizaje de contenidos nuevos?

    -La inscripción al canal es importante porque permite recibir notificaciones y actualizaciones sobre nuevos contenidos, lo que ayuda a los estudiantes a mantenerse actualizados y ser los primeros en aprender sobre los temas tratados.

  • ¿Cómo se puede asegurar que una muestra sea representativa de la población original en términos de la distribución de características?

    -Para asegurar que una muestra sea representativa, se puede utilizar técnicas de muestreo como la estratificación, la conglomerada o la sistemática, que buscan replicar la distribución de características en la población dentro de la muestra.

  • ¿Cuál es el problema con la amostragem sistemática si no se tiene en cuenta la distribución de las clases en la población?

    -La amostragem sistemática, si no se realiza de manera adecuada, podría generar una muestra sesgada, donde algunas clases podrían estar sobrerepresentadas o subrepresentadas, lo que llevaría a conclusiones incorrectas al analizar los datos.

  • ¿Qué bibliotecas de Python son útiles para realizar diferentes tipos de muestreo?

    -Las bibliotecas de Python útiles para realizar diferentes tipos de muestreo incluyen pandas, que proporciona funciones para manipular y analizar datos, y scikit-learn, que ofrece métodos específicos para la amostragem estratificada y otros procedimientos de muestreo.

Outlines

00:00

📊 Introducción a la Amostragem de Dados

El primer párrafo presenta el tema central del video, que es la importancia de la amostragem de datos en la ciencia de datos. El creador del canal, Jefferson, da la bienvenida a los espectadores y se lanza a explicar cómo utilizar conceptos estadísticos en la práctica con Python. Importa dos paquetes, pandas y seaborn, para cargar y manipular un conjunto de datos llamado 'Iris', que se utilizará para ilustrar diferentes tipos de amostragem y su aplicación en la creación de modelos de machine learning.

05:01

🔍 Amostragem Aleatória Simples

En este segundo párrafo, se discute el concepto de amostragem aleatória simple, donde se extraen elementos de un conjunto de datos sin ningún criterio específico. Se utiliza el método 'sample' de pandas para tomar una muestra de 10 registros del conjunto de datos 'Iris'. Sin embargo, se señala un problema potencial con esta técnica: puede resultar en una muestra no representativa de las clases en el conjunto de datos, lo que podría sesgar los resultados de un modelo de aprendizaje automático.

10:02

🔄 Amostragem Sistemática

El tercer párrafo introduce el concepto de amostragem sistemática, que se basa en definir un 'step' o intervalo para seleccionar los elementos de la muestra. Se utiliza una 'semente' aleatoria para determinar el inicio de esta 'step', y luego se seleccionan elementos a intervalos regulares. Aunque se muestra cómo implementar esta técnica en Python, también se señala que, al igual que con la amostragem aleatória simple, no garantiza una distribución equitativa de las clases en la muestra.

15:03

📈 Amostragem Estratificada

El último párrafo se centra en la amostragem estratificada, una técnica que asegura que la muestra refleje proporcionalmente las clases presentes en el conjunto de datos original. Se utiliza la función 'StratifiedShuffleSplit' de la biblioteca 'sklearn' para dividir el conjunto de datos 'Iris' en un 80% para entrenamiento y un 20% para pruebas, asegurando que la muestra esté balanceada en términos de las diferentes especies de flores. Se muestra cómo esta técnica puede ser útil para evitar sesgos en el modelado de machine learning y se invita a los espectadores a revisar más recursos para comprender mejor estos conceptos.

Mindmap

Keywords

💡Ciência de Dados

La ciencia de datos es una disciplina que se enfoca en el análisis y la interpretación de grandes volúmenes de información para obtener conocimientos y tomar decisiones informadas. En el video, el tema principal es la 'amostraje de datos', que es una técnica crucial en la ciencia de datos para representar a una población más grande con una muestra más pequeña y manejable.

💡Amostragem de Dados

El término 'amostraje de datos' se refiere al proceso de seleccionar una parte representativa de un conjunto de datos más grande, conocido como población. Es fundamental para la ciencia de datos ya que permite a los analistas trabajar con cantidades más pequeñas y manejables de información, como se discute en el video.

💡População e Amostra

En el guion, se mencionan los términos 'população' y 'amostra'. La 'população' es el grupo completo de individuos o elementos que uno desea estudiar, mientras que una 'amostra' es una selección de este grupo que se utiliza para hacer inferencias sobre la población completa. Es un concepto clave en estadística y se utiliza en el video para explicar cómo se realiza el análisis de datos.

💡Python

Python es un lenguaje de programación muy popular en la ciencia de datos y se menciona en el guion como el lenguaje que se utilizará para demostrar cómo se realiza la amostraje de datos en la práctica. Es conocido por su facilidad de uso y su amplia gama de bibliotecas y herramientas para el análisis de datos.

💡Pandas

Pandas es una biblioteca de Python que proporciona herramientas para el análisis de datos en estructuras de datos similares a las hojas de cálculo. En el video, se utiliza para cargar, manipular y analizar los datos, como se muestra al cargar el conjunto de datos 'Iris'.

💡Cyborg

Cyborg es mencionado en el guion como una biblioteca que contiene conjuntos de datos predefinidos, como el conjunto de datos 'Iris'. Aunque no se utiliza en profundidad en el video, es una herramienta que podría ayudar a los analistas de datos a acceder a datos de ejemplo para pruebas y demostraciones.

💡Amostra Aleatória Simples

La 'amostra aleatória simples' es un método de selección de muestra donde cada elemento de la población tiene la misma probabilidad de ser seleccionado. En el video, se utiliza para ilustrar cómo se puede realizar una selección de muestra sin considerar el equilibrio entre las clases o grupos dentro de la población.

💡Contagem por Espécies

En el guion, 'contagem por espécies' se refiere a contar el número de muestras dentro de cada clase o grupo en la población. Es un ejemplo de cómo se puede verificar si una muestra es representativa de la distribución de la población completa, que es un aspecto importante al evaluar la calidad de una muestra.

💡Amostragem Sistemática

La 'amostragem sistemática' es un método en el que se seleccionan elementos de la población según un patrón regular o sistema. Aunque no se explica en detalle en el guion, se menciona como un tipo de amostraje que se puede utilizar para seleccionar una muestra de datos.

💡Amostragem Estratificada

La 'amostragem estratificada' es un método que asegura que las muestras representen cada una de las clases o grupos dentro de la población de manera equilibrada. Es fundamental para la creación de modelos predictivos en machine learning, como se menciona en el guion, ya que ayuda a evitar sesgos y a mejorar la precisión del modelo.

💡Machine Learning

El 'machine learning' es una rama de la inteligencia artificial que se centra en el desarrollo de algoritmos que pueden aprender y mejorar con la experiencia sin ser programados explícitamente. En el video, se menciona en el contexto de crear modelos predictivos que requieren muestras representativas de la población para ser efectivos.

Highlights

Introdução ao conteúdo sobre amostragem de dados e sua importância na ciência de dados.

Explicação sobre a diferença entre população e amostra, conceitos estatísticos fundamentais.

Apresentação de exemplos práticos de amostragem de dados utilizando Python.

Importação dos pacotes pandas e seaborn para manipulação e visualização de dados.

Carregamento do conjunto de dados Iris utilizando o seaborn para ilustrar conceitos de amostragem.

Amostragem aleatória simples com o método `sample` do pandas.

Discussão sobre a importância de ter classes balanceadas em amostragens para modelos de machine learning.

Demonstração de como a amostragem aleatória pode resultar em desbalanceamento das classes.

Explicação sobre amostragem sistemática e sua diferença em relação à amostragem aleatória simples.

Utilização de uma 'semente' aleatória para definir o início da amostragem sistemática.

Criação de índices para amostragem sistemática utilizando o método `range` do numpy.

Amostragem sistemática pode gerar amostras com distribuição não uniforme das classes.

Introdução ao conceito de amostragem estratificada para manter a proporção das classes no conjunto de dados.

Uso do método `StratifiedShuffleSplit` do sklearn para realizar amostragem estratificada.

Demonstração de como a amostragem estratificada garante a representatividade das classes na amostra.

Apresentação de como visualizar e validar a amostra gerada com as classes balanceadas.

Conclusão sobre a importância de técnicas de amostragem apropriadas para a criação de modelos preditivos confiáveis.

Transcripts

play00:00

hoje eu quero trazer para vocês um

play00:01

conteúdo muito importante na nossa área

play00:04

de ciência de dados que é com relação a

play00:07

amostragem de dados isso é muito

play00:09

importante nos ajuda muito do nosso dia

play00:12

a dia então vamos lá começar que eu

play00:13

trouxe aqui para vocês uns exemplos bem

play00:15

passo a passo e na prática que você vai

play00:17

entender de vez como utilizar a mostrar

play00:19

a gente de dados vem comigo

play00:25

Olá se você ainda não me conhece meu

play00:27

nome é Jefferson eu sou o criador do

play00:28

canal e aqui comigo você sempre é muito

play00:30

bem-vindo então vamos lá começar aqui

play00:32

bora passo a passo no nosso conteúdo Eu

play00:34

já mostrei no vídeo anterior a diferença

play00:36

entre população e amostra conceitos

play00:39

estatísticos nesse vídeo eu quero

play00:41

mostrar para vocês como a gente utiliza

play00:43

isso na prática com python os comandos

play00:46

as funções prontas que a gente tem para

play00:48

fazer esse tipo de amostragem e além do

play00:51

mais eu vou te explicar vários tipos de

play00:53

amostragem e vou te falar qual que é o

play00:55

melhor a melhor forma de fazer uma

play00:58

amostragem primeira coisa que a gente

play01:00

vai fazer a gente vai importar que o

play01:02

pandas e o Cyborg o pandas a gente vai

play01:05

utilizar algumas funções deles para

play01:07

carregar tá frame esse tipo de coisa

play01:09

separar dados vezes informações dos

play01:11

nossos dados o cyborne nós não vamos

play01:14

utilizar o subordo na parte do gráfico o

play01:16

cyborne dentro dele ele tem um data 7

play01:19

que é o data 7 Iris aonde a gente pode

play01:21

utilizar como trabalhos e exemplos em

play01:24

algumas atividades Olha lá vamos

play01:26

importar aqui esses dois pacotes Pronto

play01:29

já importamos agora a gente vai carregar

play01:31

o data 7 Iris que é um data 7 onde ele

play01:35

tem algumas especificações sobre plantas

play01:38

sobre flores isso não vem ao caso nesse

play01:41

vídeo mas ele vai ser útil para eu te

play01:43

mostrar as classes ali quando a gente

play01:45

está fazendo uma amostra e os tipos de

play01:47

amostra também que eu vou te explicar

play01:48

Então olha lá aqui a gente simplesmente

play01:50

vai colocar aqui íris que vai ser o nome

play01:52

do nosso Data Frame que vai ser igual

play01:55

SMS ponto logo de data 7 Esse é uma

play01:58

função do próprio SMS que vai carregar o

play02:01

que o nome do data 7 é Íris Olha lá se a

play02:04

gente executar aqui e a gente visualizar

play02:06

que as informações desse data 7 O que

play02:10

que a gente vai ter Aqui nós temos um

play02:11

data 7 ele é pequeno tá serve como

play02:14

exemplo com 150 entradas que vai de 0

play02:17

até 149 e aqui ele vai mostrar as

play02:20

colunas os tipos de coluna os nomes das

play02:22

colunas que nós temos nesse data 7 aqui

play02:25

a gente não precisa se atentar a esses

play02:28

detalhes mas eu vou te explicar um pouco

play02:30

mais para frente a importância dos tipos

play02:33

de amostra principalmente com relação a

play02:36

mostra estratificada que chama Então

play02:38

vamos lá vamos começar aqui com o tipo

play02:40

de amostra simples amostra aleatória

play02:43

simples e vamos fazer aqui tudo bem

play02:45

passo a passo primeira coisa que a gente

play02:47

vai fazer a gente vai aqui ó colocar um

play02:49

DF a mostra simples que a gente vai

play02:52

fazer uma amostra do que a gente vai

play02:54

colocar aqui ó igual Íris ponto sem

play02:57

Apple Semple é um método do pandas que

play03:00

ele faz o que ele faz uma amostra

play03:02

simples para que serve uma amostra sim

play03:04

simplesmente a gente tem lá o conjunto

play03:06

de dados a gente quer pegar determinada

play03:09

quantidade dentro daquele conjunto de

play03:11

dados então aqui a gente pode utilizar

play03:13

esse método de duas formas como número

play03:18

ou seja a gente passa uma quantidade

play03:19

específica nesse caso aqui a gente vai

play03:22

colocar eles ponto sempre E aí de

play03:25

parentes O N = 10 significa que a gente

play03:28

quer 10 amostras Então olha lá vamos

play03:30

executar e vamos agora visualizar o

play03:33

nosso Data Frame de amostra Olha lá nós

play03:35

temos 10 registros Porque Nós escolhemos

play03:37

aqui 10 amostras e Aqui nós temos as

play03:41

colunas dele normal ele simplesmente fez

play03:43

uma amostragem de todo o nosso conjunto

play03:45

de dados Ok só que repara o seguinte se

play03:49

a gente fizer aqui ó uma contagem por

play03:52

espécies por que que eu tô fazendo essa

play03:54

Contagem por espécies porque imagina que

play03:57

você vai estar fazendo uma amostragem

play03:59

para fazer um modelo ali de machine

play04:03

learning Onde você tá carregando dados

play04:05

reais de alguma base de dados Então

play04:07

imagina que você tem uma variável alvo

play04:09

nesse caso desse data 7 a variável algo

play04:13

são as espécies é a coluna chamada

play04:16

espécies E aí o que que acontece quando

play04:19

a gente faz uma amostragem simples ali

play04:22

utilizando simplesmente o tempo olha se

play04:25

a gente fizer aqui uma contagem

play04:27

distintas observa que na nossa classe

play04:31

aqui que seria a nossa variável alvo a

play04:33

gente tem ali cetosa Virgínia e

play04:36

versicolor Então olha repara na

play04:40

quantidade você tosa 6 Virgínia K3

play04:44

versículo 1 qual que é o problema que

play04:47

isso gera a gente não tem uma amostra

play04:50

ali igual de cada classe de cada parte

play04:53

do nosso conjunto de dados Ele

play04:55

simplesmente foi lá pegou 10 registros

play04:58

de forma aleatória e não se atentou para

play05:01

ver extrair as informações iguais eu já

play05:04

expliquei em outros vídeos quando a

play05:06

gente tá criando nossos modelos de

play05:08

machine learning a importância das

play05:10

classes serem balanceadas serem iguais

play05:12

imagina como que isso é importante na

play05:15

criação de um modelo de uma chinelaine

play05:17

de um modelo preditivo que a gente tem

play05:19

que ter essas classes balanceadas

play05:22

imagina se a gente já começa fazendo

play05:24

mostra dessa forma a gente começa já

play05:27

todo o nosso trabalho de forma incorreta

play05:28

mas Aguenta aí tem uma forma perfeita da

play05:31

gente separar isso em classes iguais eu

play05:33

vou te mostrar aqui mais para frente

play05:35

vamos continuando aqui passo a passo

play05:36

então a gente já viu um tipo de amostra

play05:39

que é amostragem simples ali utilizando

play05:42

sempre a gente pode usar o método sem

play05:45

ponto também através de percentual ou

play05:48

seja em vez de eu falar assim olha eu

play05:49

quero 10 amostras eu posso dizer eu

play05:52

quero 10% do conjunto de dados como

play05:55

nosso conjunto de dados aqui o que nosso

play05:58

conjunto original ele tem 150 registro

play06:01

150 observações Então se a gente colocar

play06:04

aqui 10% significa que a gente tem que

play06:07

ter uma amostra ali de 15 registros

play06:10

vamos lá verificar Então olha lá da

play06:12

mesma forma que a gente fez aqui em cima

play06:14

a gente simplesmente coloca aqui ó Iris

play06:17

ponto Semple em vez de passar QN que a

play06:20

gente quer passar o número a gente

play06:22

coloca aqui ó o fraco de fração ou a

play06:25

gente vai fazer o quê vai passar aqui ó

play06:27

igual 0.10 que significa

play06:29

10%. Então olha lá quando a gente

play06:31

executar isso aqui e verificar aqui ó

play06:34

novamente a nossa amostra Olha lá então

play06:37

a gente tem agora 10% do nosso Total são

play06:41

15 registros ali 15 amostras só que da

play06:44

mesma forma se a gente verificar ali ó a

play06:48

separação dessas classes se ele pegou as

play06:50

informações balanceadas e dividiu por

play06:53

igual a gente vai observar que não tá

play06:55

vendo ó Virgínia k6 Versículo 6 você

play06:59

tosa 3 ou seja dessa forma a gente não

play07:03

consegue separar em classes e separar a

play07:07

amostra com os mesmos pesos isso

play07:09

significa o quê que ele pode enviesar

play07:11

todo o nosso trabalho e agora a gente

play07:13

vai falar sobre a amostragem sistemática

play07:16

só que antes se você não tiver inscrito

play07:18

se inscreve aqui no canal Porque toda

play07:20

semana eu trago conteúdos novos tudo bem

play07:23

passo a passo de na prática

play07:25

disponibilizo todo o material para vocês

play07:28

e creio que isso pode te ajudar bastante

play07:30

então se inscreve aqui ativa a

play07:32

notificações para você sempre ficar por

play07:34

dentro dos novos vídeos e bora voltar

play07:36

aqui e Deixa eu te explicar

play07:38

primeiramente a diferença entre uma

play07:40

amostragem sistemática e uma amostragem

play07:42

aleatória simples na amostragem

play07:44

aleatória simples como o nome já diz ela

play07:47

é simples que que a gente faz a gente

play07:48

tem um conjunto de dados seja de

play07:50

qualquer coisa simplesmente a gente vai

play07:52

lá e seleciona alguns casos para nossa

play07:55

amostra sem nenhum critério sem nenhum

play07:58

conceito é algo bem simples vamos supor

play08:00

nesse caso aqui eu tenho 100 registros

play08:02

lá de informações eu vou lá e pego um

play08:05

pego o oitavo pego o décimo quinto pega

play08:08

o vigésimo sem critério nenhum faça uma

play08:11

amostra Isso é uma amostra aleatória

play08:13

simples e existe também A amostragem

play08:16

sistemática e aí na amostragem

play08:18

sistemática como que funciona imagina

play08:21

que a gente tem ali o conjunto de 150

play08:24

registros como nesse caso aqui a gente

play08:26

tem um conjunto de 150 registros que que

play08:30

a gente vai fazer a gente vai definir o

play08:32

que é chamado ali de uma semente ou seja

play08:34

um ponto alto então Vamos definir que a

play08:36

nossa semente vai ser um número

play08:38

aleatório entre 1 e 10 a gente vai

play08:40

simplesmente pegar esse número que vai

play08:43

ser o step ou seja o passo a diferença

play08:47

entre os números da nossa amostra por

play08:50

exemplo Deixa eu te explicar na prática

play08:51

que vai ficar mais fácil de compreender

play08:53

aqui vamos importar ou no pai para a

play08:56

gente usar aqui algumas bibliotecas dele

play08:58

Olha lá como portar já portanto então

play09:01

aqui a gente vai criar uma variável

play09:03

chamada semente pode ser qualquer nome

play09:05

de variável tá pode ser um valor pode

play09:07

ser um separador pode ser qualquer coisa

play09:10

que a gente coloca semente NP que é

play09:13

nosso pai ponto rendam que ele vai fazer

play09:15

o quê uma escolha randômica ponto Choice

play09:19

para ele fazer uma escolha entre um

play09:22

número de 0 a 10

play09:24

quando a gente coloca o 10 porque a

play09:26

gente quer que começa em zero a gente

play09:28

não precisa colocar

play09:29

0,10 ele já vai entender que a gente

play09:32

quer número de 0 até 10 até o 10 aqui se

play09:36

a gente colocar-se 20 ele ia entender

play09:37

que seria número de 0 a 20 e qual que é

play09:40

o step aqui de um em um isso vai fazer

play09:43

com que ele gera um número aleatório

play09:45

entre 0 e 10 Então olha lá se a gente

play09:49

executar e verificar agora aqui ó o

play09:52

nosso número é o número 6 então ele

play09:56

gerou o nosso número para gente ali de 6

play09:58

como que isso funciona agora para a

play10:01

gente fazer uma amostragem sistemática

play10:03

Então vamos criar aqui ó uma outra

play10:05

variável chamada índices que ela vai ser

play10:08

igual não pai ponto arange esse a Rangel

play10:11

que a gente vai criar o que uma faixa de

play10:14

valores de 0 até 100 essa faixa de

play10:18

valores ela vai de quanto de 6 em 6 que

play10:21

é a nossa semente aqui de seis em seis

play10:24

ele vai coletar um número dentro desse

play10:26

Range Então olha lá se a gente executar

play10:28

aqui e verificar quais serão esses

play10:31

índices pode vir ó 06 12 18 24 30 ou

play10:36

seja ele foi começou do zero e foi de 6

play10:39

em 6 até ele chegar aqui como não chegou

play10:42

no 100 ele vai pegar o último número mas

play10:45

próximo de 100 porque se ele fizer mais

play10:46

seis ele vai passar aqui para 102 só que

play10:49

como a gente determinou que até 100 ele

play10:52

vai simplesmente fazer isso aqui e aí

play10:54

quantos números nós temos aqui ó 1 2 3 4

play10:57

5 6 7 8 9 10 11 12 13 14 15 16 17 o que

play11:05

que é esse 17 vai ser o tamanho da nossa

play11:07

amostra aí o que que a gente faz vamos

play11:10

coletar então uma amostra aqui ó colocar

play11:13

um Data Frame que vai ser chamado aqui

play11:15

de amostra que vai ser igual o íris o

play11:18

nosso conjunto de dado original ponto

play11:20

Loki porque Loki porque a gente vai

play11:22

localizar pelo índice também cliquei

play11:25

vídeos falando sobre índice sobre slices

play11:28

tudo bem passo a passo vou deixar o

play11:29

vídeo aqui na descrição para vocês aqui

play11:31

o nosso foco é amostra então por isso

play11:33

que eu não vou entrar em detalhes do

play11:35

comando Lock Ok mas depois dá uma olhada

play11:37

no outro vídeo que tá bem bacana tá aqui

play11:40

ó vou colocar eles ponto Loki o nosso

play11:43

índices Quais são os nossos índices

play11:45

esses números aqui vírgula todo o nosso

play11:48

conjunto de dados que a gente tá fazendo

play11:50

um Slice E aí eu vou verificar Nossa

play11:52

amostra Então olha lá eu gerei aqui ele

play11:56

me gerou é essa amostra aqui ó a gente

play11:58

tem um dois três se a gente contar nós

play12:01

temos 17 amostras Só que essa amostra a

play12:06

diferença dela é que a gente fez isso de

play12:07

forma sistemática Ou seja a gente

play12:09

definir um critério ali ou seja um

play12:12

sistema qual que vai ser esse sistema de

play12:14

amostra de seis em seis como que a gente

play12:16

escolheu esses seis através de um número

play12:19

randomico ali Então olha lá a gente

play12:20

poderia aqui executar Esse comando

play12:22

novamente pode ver que ele um outro

play12:25

número tá vendo 7 se a gente executar

play12:27

ele de novo gerou zero se a gente

play12:30

executar ele mais uma vez e se a gente

play12:33

for executando Olha lá gerou um número 7

play12:36

e assim consecutivamente então a gente

play12:38

definiu ali qual que seria o sistema da

play12:41

nossa amostra Ou seja a gente vai pegar

play12:43

o nosso conjunto de dados a cada seis

play12:46

elementos a gente retirar um Ou seja é

play12:49

uma amostra sistemática uma amostragem

play12:52

sistemática só que vamos observar que se

play12:54

a gente fizer aqui ó vale counts ou seja

play12:57

para a gente contar as nossas classes

play12:58

observa que ele também não garante que

play13:01

ele vai pegar igual nesse caso aqui ó

play13:04

foi pior ainda porque ele pegou só duas

play13:07

espécies tá vendo ou seja nós temos três

play13:10

espécies aqui nós não temos ó três

play13:13

espécies aqui ele pegou duas espécies ou

play13:17

seja como a situação ainda pior mas

play13:19

agora a gente vai falar de amostragem

play13:21

estratificada a amostragem

play13:24

diferente da simples e diferente dá uma

play13:28

amostragem sistemática é para que porque

play13:30

a gente vai fazer uma amostragem que

play13:32

Garanta que as informações serão

play13:35

balanceadas ou seja se eu tenho duas

play13:38

classes ali que a gente está fazendo a

play13:40

coleta dos dados ele vai pegar as

play13:42

amostras com quantidades iguais dessas

play13:44

duas classes eu tenho três se eu tenho

play13:46

quatro ele vai garantir que ela mostra

play13:48

seja igual e para que isso para que

play13:51

quando a gente tiver analisando nossos

play13:53

dados criando os nossos modelos de

play13:55

machine learning a gente fazendo uma

play13:57

amostra extratificada vai garantir que a

play14:00

gente tem uma amostra que corresponde de

play14:03

fato ao nosso conjunto de dados sem

play14:06

enviesar isso ou seja sem entender se há

play14:08

para um tipo de classe e nem para outro

play14:11

tipo de classe isso é bem simples porque

play14:13

o Python o site Lane já tem um método

play14:16

próprio para isso para fazer essa

play14:18

separação olha lá o que que a gente vai

play14:20

fazer aqui primeiramente a gente vai

play14:22

importar aqui ó do nosso do nosso Model

play14:26

selection vamos importar o método que

play14:28

chama Street Fight shuffle split Ou seja

play14:32

é um método próprio do site para fazer

play14:35

amostra estratificada Então vamos

play14:37

executar aqui vamos importar aqui vamos

play14:41

pegar o nosso conjunto ali Íris o nosso

play14:44

conjunto de dados Iris e vamos dar um

play14:46

vale-caos Olha lá a gente tem 50

play14:48

registros de cetosa 50 de Versículo 50

play14:52

de Virgínia Ou seja é balanceado 50 de

play14:56

cada certo que nós temos um total de 150

play14:58

e temos 50 de cada classe Ok só que a

play15:03

gente precisa fazer uma amostragem que

play15:05

fique igual a nossa amostra com a mesma

play15:07

quantidade de cetosa Versículo e

play15:10

Virgínia e isso é bem simples de se

play15:13

fazer primeira coisa a gente vai criar

play15:15

que é uma variável chamada split que vai

play15:17

ser igual Street Fight

play15:19

e vamos colocar aqui ó o teste sai 0.2

play15:24

Ou seja 20% a gente quer uma amostra de

play15:27

20%. Então a gente vai ter 30 registros

play15:31

de amostra porque o nosso conjunto de

play15:34

dados tem 150 20% São 30 só que desses

play15:38

30 a gente tem que ter 10 de cada classe

play15:41

ok então vamos ver se isso vai funcionar

play15:43

aqui a gente vai colocar a função split

play15:46

ponto split que ela vai colocar os 80%

play15:49

no X e os 20% que é a nossa amostra no y

play15:55

e depois a gente vai usar e vai ver só o

play15:58

nosso dfy como que a gente faz coloca um

play16:01

for

play16:02

x,y

play16:04

split ponto split aqui é o nosso data 7

play16:08

tá que é íris e aqui vírgula íris e aqui

play16:13

a coluna que a gente quer fazer essa

play16:16

separação né coluna de classe ali no

play16:19

nosso aqui na nossa classe que a gente

play16:21

quer separar é pela classe espécies

play16:23

então a gente vai colocar aqui ao íris

play16:25

vai chamar só essa coluna espécie dois

play16:28

pontos aqui que é a sintaxe do nosso for

play16:31

E aí a gente vai colocar

play16:33

df_x que vai ser um Data Frame que vai

play16:36

receber o quê o nosso x que são os casos

play16:40

ali os 80% e o dfy que vai ser igual

play16:43

Íris ponto Y que vai ser o quê os nossos

play16:47

20% da nossa amostra que a gente

play16:49

escolheu Então olha lá vamos executar

play16:51

isso já fez super rápido porque a função

play16:55

ela é pronta e preparada para isso para

play16:58

esse tipo de situação por isso que ela

play17:00

faz isso assim ó é excelente e agora

play17:03

vamos ver aqui ó se o nosso dfy que é a

play17:07

nossa mostra se a gente ficou com a

play17:10

separação das classes corretas Olha lá

play17:12

viu só Fantástico fala a verdade separou

play17:16

tudo igualzinho e somente com essas

play17:20

quatro linhas de códigos de forma bem

play17:22

simples gerou Nossa mostra dedicada com

play17:25

o método Pronto já do site learning E aí

play17:27

para a gente finalizar a gente pode

play17:29

visualizar aqui o nosso Data Frame Olha

play17:31

lá então nós temos aqui 30 registis

play17:34

porque a gente selecionou uma amostra de

play17:37

20% do nosso data 7 completo é Então

play17:40

temos 30 registros e temos 10 de cada

play17:43

perfeito e ó dá uma olhada nesse vídeo

play17:46

que eu vou deixar aqui para vocês como

play17:48

indicação que eu explico as diferenças

play17:50

entre população mostra fala dos

play17:53

conceitos isso é muito importante creio

play17:55

que vai te ajudar bastante e se você

play17:57

ficou com alguma dúvida tiver alguma

play17:58

sugestão deixa para mim aqui nos

play18:00

comentários que eu vou te responder o

play18:01

mais rápido possível Muito obrigado e

play18:03

até o próximo vídeo

Rate This

5.0 / 5 (0 votes)

Related Tags
Muestreo de DatosPythonCiencia de DatosBalance de ClasesModelos MLEstratificaciónAmostragemTécnicas EstadísticasData FrameMachine Learning
Do you need a summary in English?