Curso Básico de Ciência de Dados - Aula 1 - Introdução a Ciência de Dados
Summary
TLDRThe video script outlines a comprehensive introduction to machine learning and data science, emphasizing the importance of understanding core concepts to effectively engage in relevant projects or interviews. It discusses the process of data exploration, manipulation, and analysis for discovery and prediction, and highlights the scientific method's role in hypothesis testing and validation. The script also stresses the significance of aligning projects with business objectives and the necessity of a strong foundation in statistics, business understanding, and technology. A real-world example of Walmart using data science to predict increased demand for pop-tarts during hurricanes illustrates the practical application of these concepts.
Takeaways
- 📚 The importance of understanding machine learning and data science concepts for professional development and interviews.
- 🎯 Identifying and defining the problem you want to solve with data is the first step in a data science project.
- 📈 Data exploration, manipulation, and analysis are crucial for discovering patterns, trends, and making predictions.
- 🔍 A good data science project involves hypothesis testing and validation to ensure the model's accuracy and reliability.
- 💡 Data science is applied to answer business questions and make recommendations that can improve business outcomes.
- 🔧 The three pillars of a successful data science project are a strong statistical/mathematical foundation, business relevance, and robust technology.
- 🛠️ Technology's role in data science is to process and analyze large datasets efficiently and effectively.
- 📊 The importance of aligning data science outcomes with business expectations to ensure the project's success and impact.
- 🔄 The iterative nature of data science projects, which may involve going back and forth between stages to refine the model and insights.
- 🚀 Real-world examples, such as Walmart's use of data science to predict demand for pop-tarts during a hurricane, demonstrate the practical applications of data science.
- 🌐 The influence of social media algorithms, like Instagram's, on content creation and user engagement, highlighting the pervasiveness of machine learning in our lives.
Q & A
What is the main focus of the video transcript?
-The main focus of the video transcript is to introduce the concept of machine learning and data science, explain their importance in business, and outline the steps involved in a data science project.
What are the three fundamental pillars of data science mentioned in the transcript?
-The three fundamental pillars of data science mentioned are a strong statistical or mathematical foundation, a direct connection to the business, and a strong technological base.
How does the speaker emphasize the importance of understanding the business context in data science projects?
-The speaker emphasizes the importance of understanding the business context by stating that data science is not just about using mathematical models, but also about making sense of the data in a way that is relevant to the business needs and objectives.
What is the role of hypothesis testing in the scientific method of data science?
-Hypothesis testing plays a crucial role in the scientific method of data science as it allows researchers to validate their assumptions and models with data, ensuring that the insights and predictions are accurate and relevant to the business context.
Why is it important to have a clear understanding of the problem you want to solve before starting a data science project?
-Having a clear understanding of the problem is important because it helps to align expectations with the client or stakeholder, ensures that the project addresses the actual business needs, and prevents wasted effort on irrelevant or incorrect analyses.
What is the significance of the Walmart example in demonstrating the practical application of data science?
-The Walmart example demonstrates the practical application of data science by showing how historical data can be analyzed to predict consumer behavior and optimize inventory management, leading to increased sales and better decision-making in response to a natural disaster (hurricane).
How does the speaker describe the process of data preparation in a data science project?
-The speaker describes the process of data preparation as a critical step where data is cleaned, structured, and treated to make it ready for analysis. This involves handling missing values, outliers, and ensuring that the data is in a format suitable for modeling and analysis.
What is exploratory data analysis and why is it important?
-Exploratory data analysis is the process of examining and understanding the data to discover patterns, correlations, and insights. It is important because it helps in formulating hypotheses, identifying trends, and preparing the data for modeling, ultimately leading to more accurate and meaningful predictions.
What are the potential issues that can arise if the problem understanding and business expectations are not well aligned at the beginning of a data science project?
-If the problem understanding and business expectations are not well aligned, the project may lead to incorrect analyses, fail to meet the client's needs, and result in wasted resources. It can also lead to disappointment and a lack of trust from stakeholders, as the delivered results may not match their expectations.
How does the speaker suggest maintaining the relevance and accuracy of a data science model over time?
-The speaker suggests maintaining the relevance and accuracy of a data science model through continuous improvement, monitoring, and adjustment. This involves regularly updating the model with new data, refining it based on changes in the business environment or data patterns, and ensuring it continues to meet the needs of the stakeholders.
Outlines
📚 Introduction to Machine Learning Concepts
The paragraph introduces a series of lessons aimed at explaining the concepts behind a machine learning project. It emphasizes the importance of understanding key points in machine learning, discussing the topic with professionals, and showcasing knowledge in interviews. The speaker also mentions covering topics like exploratory data analysis, classification models, regression, and deploying models into production. The paragraph concludes with an encouragement to like, follow, and download materials for further assistance.
🔍 The Definition and Process of Data Science
This paragraph delves into the definition of data science, describing it as a process of exploration, manipulation, and analysis of data for discovery and prediction. It highlights the importance of finding hidden patterns and making business improvements. The scientific method is emphasized, including hypothesis testing and validation. The paragraph also discusses the necessity of a strong statistical or mathematical foundation, a clear business connection, and a robust technological base for a successful data science project.
🤖 The Intersection of Technology, Business, and Mathematics in Data Science
The speaker discusses the interplay between technology, business, and mathematics in the context of data science. It stresses the need for clarity in project goals and managing client expectations regarding accuracy. The paragraph also touches on the importance of having a strong technological capacity to process large datasets and the significance of statistical validity in generating reliable results. It concludes by emphasizing the importance of aligning data science efforts with business sense and client expectations.
🛠️ The CRISP-DM Process in Data Science Projects
The paragraph outlines the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology, which consists of six fundamental steps for a data science project: understanding the business, understanding the data, data preparation, analysis and modeling, validation, and deployment. The speaker adds additional steps, such as defining the problem and managing expectations, to ensure a comprehensive approach. The importance of aligning with the client throughout the project is also highlighted.
🔗 Aligning Data Treatment with Client Expectations
This section discusses the importance of aligning data treatment with client expectations. It emphasizes the iterative nature of data science projects, where understanding the data may lead back to the problem definition stage. The paragraph also stresses the need for clear communication with clients about the project's progress, expectations, and any necessary revisions to avoid misunderstandings and ensure the final model meets the client's needs.
🌟 Practical Example of Data Science: Walmart's Hurricane Response
The final paragraph provides a practical example of data science with Walmart's approach to predicting the best items to stock during a hurricane. By analyzing historical data, Walmart identified a hidden pattern of increased demand for Pop-Tarts, leading to a successful increase in sales. This example illustrates the power of data science in making informed business decisions and the importance of a data-driven culture within a company.
Mindmap
Keywords
💡Machine Learning
💡Data Science
💡Data Analysis
💡Model Deployment
💡Statistical Foundation
💡Business Understanding
💡Technology
💡Hypothesis Testing
💡Data Preparation
💡Exploratory Data Analysis
Highlights
The introduction of a series of classes explaining machine learning concepts.
The importance of understanding machine learning to converse in interviews and within companies.
The definition of data science as a process of exploration, manipulation, and analysis of data.
The application of data science in discovering hidden patterns and making predictions about the future.
The scientific method in data science involving hypothesis, testing, and validation.
The three pillars of a data science project: statistical/mathematical foundation, business relevance, and technological strength.
The necessity of having a clear objective for a data science project and aligning expectations with clients.
The importance of data in data science projects and the inability to proceed without it.
The process of understanding and preparing data for analysis in a data science project.
Exploratory data analysis to understand correlations and handle missing or discrepant data.
The iterative nature of data science projects, which may require returning to previous steps for refinement.
The validation of models using separate training and test datasets to ensure generalization.
The presentation of the model's results and its comparison with existing models for effectiveness.
Continuous improvement and monitoring of models to adapt to changing data.
A practical example of Walmart using data science to predict increased demand for Pop-Tarts during hurricanes.
The demonstration of how data science can provide insights leading to significant business decisions and outcomes.
Transcripts
em qual a impressionar dores tudo bem a
gente vai fazer uma série de aulas
explicando para vocês todos os conceitos
por trás um projeto de aprendizado de
máquinas então primeiro eu vou
conceituar os pontos mais importantes
explicar o que que é o aprendizado de
máquinas até pro quando vocês começaram
projeto tiver chegando em alguma empresa
vocês terem aço você tem bagagem para
conversar até também quando você tiver
fazendo uma entrevista para você
conseguir mostrar para regar que você
conhece esse assunto e você sabe como
abordar esse assunto e que você entende
do que você tá falando depois a gente
vai falar do panda as que caem análise
exploratória aqui é sim fundamental por
qualquer bom projeto de ciências de
dados a gente também vai falar de modelo
de classificação o modelo de regressão
análise Deus e a gente termina todo esse
conteúdo falam de como fazer o Deploy do
modelo como colocar esse modelo em
produção então nessa sala de aula a
gente vai acompanhar esse conteúdo vai
estar aqui no YouTube toda semana a
gente também vai criar uma playlist
então espero que isso ajude muito vocês
só que antes a gente começava a pedir
para você deixar e curtida seguir aqui
se você ainda não e aproveitar para
baixar o material que está aqui na
descrição desse vídeo e gente curte
porque isso ajuda muito a gente saber
que vocês estão gostando desse tipo de
conteúdo e ajuda a motivar trazer cada
vez mais conteúdos como esse Então bora
lá ó
[Música]
bom então para gente conversar fazer
ciência de dados mas o que é Ciência de
dados e eu gosto muito de conversar com
essa definição aqui porque ela é bem
completa Ela traz todos os pontos que a
gente precisa ter atenção em um projeto
como cientistas de dados e essa
definição diz que a ciência de dados vai
ser o processo de exploração e
manipulação e análise dos dados Então a
gente vai explorar os dados que a gente
tem vai manipular esses dados e analisar
e verificar o que que existe ali nos
dados como os dados estão se comportando
se existe algum padrão e gente faz isso
para descoberta e previsão então
anteriormente a gente olhava muitos
dados para entender o que aconteceu
entendeu passado aqui a gente consegue
entender o futuro e não só isso a gente
consegue encontrar padrões que antes
estavam escondidos nos dados então
Exatamente esse o diferencial de ciência
de dado se você tá conversando com
alguém do RH e eles e eles pergunta ahmm
por que que você usaria sem assustados
na empresa exatamente para isso para
encontrar coisas que a empresa nem sabe
o problema se ela nem sabe que tem a
fazer previsões de venda previsão de
demanda previsão de várias coisas que
vão melhorar realmente o negócio que
você está inserido além disso a ciência
de dados é feita através de hipótese
teste e validação e isso aqui exatamente
o processo científico você vai procurar
alguma coisa você vai definir as
hipóteses aí você vai testar com seus
dados vai validar para verificar se isso
que você criou a hipótese respostas que
você criou realmente está acontecendo
realmente existe nos dados e
principalmente se existe no processo que
você colocou em produção Então isso é o
processo científico é extremamente
importante no processo científico também
a gente busca hipóteses não só dentro do
nosso negócio a gente busca outras
pessoas que tiveram o mesmo problema
busca-se outros algoritmos de ação fez
para solucionar um problema que a gente
está lidando então cientista isso Senti
até buscar referências buscar
informações testar errar a gente vai
errar muito a gente tem que estar ciente
a gente vai errar e vai encontrar o
melhor modelo a partir desses erros
o objetivo disso é responder perguntas o
negócio do negócio ou até fazer
recomendações como eu tinha falado para
vocês e o que que é um processo ele tem
uma base em três pilares o primeiro
Pilar o embasamento estatístico ou
matemático muito forte porque não
adianta nada você definir um modelo
super ótimo que funciona ali só que eu
mandei não tem validade estatística a
sua mostra não é válida então definir um
modelo ali para avaliar alunos por
exemplo só que você tem 25 alunos e aí
você tava olhando o professor como
amostra muito pequena de alunos isso é
real isso aconteceu lá nos Estados
Unidos e gerou muita discussão sobre a
ética nos modelos de aprendizado de
máquina que eles usaram uma base muito
pequena e não existe uma validade
estatística tão grande além disso ele
tem que ser diretamente ligado a um
negócio adianta nada você falar o melhor
produto é esse produto x só que fruste
foi descontinuado os produtos x não
conseguem ser enviado para as lojas tem
que fazer sentido com o negócio que você
está e principalmente precisa ter uma
base de tecnologia muito forte o que
precisa ser feito de forma escalável e
replicável não adianta nada você fazer
um modelo que demora 5 horas para rodar
e você precisa gerar informação uma hora
preciso gerar no momento vamos supor que
você faz uma análise perfeito ali que o
cliente é bom ou ruim só que tu demora 5
horas para rodar na hora que você coloca
o modelo em produção você acha que o
gerente de banco vai ter 5 horas por
ficar esperando rodar na frente do
cliente isso não é Instalado não é
replicado então a gente não pode usar
esse modelo que a gente criou por mais
que seja um modelo ótimo porque ele não
funciona no dia a dia da empresa então
esses três pilares que a estatística
negócio de tecnologia tem que andar
muito juntos para gente ter um bom para
jato de ciência de dados e falando em
ciência de dado Exatamente isso a gente
pode levar por definição essas duas
palavras primeiro a parte de ciência diz
que existe um método científico Então a
gente vai fazer observação hipótese
teste validação analisar monitorar
depois que ele já tiverem produção e
dados é que a gente precisa os dados
Então se alguém chegar para você falar
eu quero que você faça um projeto de
senso de dados e não existem dados não
adianta a gente pode fazer outros
projetos pode fazer outras coisas mas
sem dados a gente não consegue fazer o
nosso projeto e agora uma coisa que pode
parecer muito simples mas que é uma ser
uma peça chave de sucesso de projetos at
lado é ter muito claro o que eu quero
responder e para fazer uma brincadeira
eu gosto muito de utilizar esse livro
aqui que alguém do Mochileiro das
Galáxias onde eles criam uma super
máquina para poder conseguir responder à
pergunta qual a resposta da vida do
universo e tudo mais e máquina responde
42 tem algumas discussões porque 42 mais
basicamente a máquina de spray ele que
se você não sabe a pergunta qual que é a
resposta serve então se você pergunta
uma coisa muito mapa você responder
qualquer coisa é válido então tomem esse
cuidado entendeu com o negócio que vocês
querem responder a linha expectativas
que vamos supor que você faz um projeto
excelente seu projeto que 98 por cento
de acurácia e ou seja em novo e os
carros ele é certo só que o seu cliente
esperava sem por cento e se você não
ligou com ele com aquela accuracy aquele
espera não é real que a gente não vai
conseguir essa coração de 100 porcento
ele vai ficar decepcionado porque por
mais que o seu resultado ou seja muito
bom ainda é inferior ao que ele esperava
então não só para definir bem um projeto
e para conseguir gerar os dados que
fazem sentido de que o negócio que você
precisa fazer saneamento mas também que
poder entregar o meu projeto entregar o
que o seu cliente espera e aí quando a
gente fala mesmo de sinceridade a gente
tá falando exatamente desses três
pilares que a tecnologia e automação
negócios e matemática estatística e a
ciência de dados é atualizado a mente
interseção Entre esses três e se pode me
perguntar mas Lucas não existe ali uma
relação que tecnologia negócios entre
tecnologia e matemática existe existe
bastante internacional esses Pilares por
exemplo entre tecnologia negócio a gente
tem um sofre as tradicionais como Excel
sass entre negócio de matemática desde
sempre desde do passado que as pessoas
USA a soma uma média entre a média de
venda e também que tecnologia matemática
a gente tem uma shimmy só que a ciência
de dados não é só Mach Lane é aplicar
Mas isso não há coisas que fazem sentido
dentro do negócio e por isso que a gente
tem que tomar cuidado porque se a gente
olha por exemplo 2 A Dori seus Pilares a
gente pode termos muito Absurdos Como
por exemplo o banho da base pode não ser
viável a gente quer fazer uma análise
aqui a gente tem bastante informação a
gente tem toda a parte de negócio tem
toda a parte matemático só que a base é
tão grande tem gente não consegue
processar eu tenho que fazer um modelo
Excel tenta fazer um modelo em outro
programa só que a base é muito grande
então a gente precisa Tech tecnologia
para conseguir processar ainda mais que
atualmente tem cada vez mais dados com
dados de Twitter dados do Instagram
dados Tik Tok então a gente precisa ter
a tecnologia para conseguir processar
todos esses dados ou por exemplo se eu
tenho a relação entre tecnologia negócio
que eu sofre usar o sofre tradicionais
eu posso chegar com já estão corretas só
que estatisticamente ela tem pouca
validade Então vamos supor eu tenho duas
cidades eu quero escolher qual o melhor
destino então quero sugerir destinos
para alguma pessoa ou sugerir destinos
um site que eu tenho a sua cidade aqui
que tem a primeira cidade tem uma média
de temperaturas de 30. 5 a segunda
cidade pelo médio temperatura de 31.3
seu surgiram para essa pessoa a vai para
Cidade dois Porque como você tá indo
para uma cidade melhor vamos supor que
ela tá indo em abril ou em maio Olha
isso daqui ela vai pegar uma temperatura
muito fria Então essa sugestão que você
deu para ela foi horrível porque você
errou então você errou porque você não
entende isso conceito estatístico da
Média porque só com a média a gente não
consegue dizer qual a melhor cidade para
ir visitar uma praia a gente tem que
entender como que essa temperatura está
distribuída se tem um desvio muito
grande ali de meus dados se eles estão
muito dispersos então só a média não vai
nos dizer muita coisa então tem que
tomar esse cuidado tem que entender
estatística por trás o que a gente e
para fazer sentido e fazer sentido
principalmente estatisticamente você já
tem uma validade nos dados que a gente
está gerando esse olho por exemplo
somente a parte de tecnologia e de
matemática eu posso gerar resultados com
validade estatística mas sem nenhuma
significância para o negócio então vamos
supor que eu tonalizando ele quatro
formas de fazer publicidade e uma delas
é o Orkut o Orkut na época que a empresa
fez a cinco anos atrás geravam retorno
muito grande e se eu falo assim a
empresa investe no Orkut que é melhor
solução a empresa eu vou chegar para mim
e falar como assim não faz sentido no
que hoje a gente dá um tem mais Orkut eu
tô dando um exemplo muito Pizarro para
vocês conseguirem se localizar mas a
gente vai falar assim a aumenta a venda
de tal produto coloca um produto do lado
do outro só que quando eu falo coloca um
produto lá do outro e se for por exemplo
uma roda de carro e um biscoito não faz
muito sentido eu vou atrapalhar a
circulação da loja então você tem que
entender com o negócio se aquilo que
você está gerando tá fazendo sentido
Então por o centro de dados da
exatamente nesses três pilares é fazer
coisas como a capacidade tecnológica
muito forte que tenham validade
estatística então a gente não pode fazer
algo simplesmente por fazer porque senão
é muito mais fácil usar média usado e um
número aleatório uma distribuição
aleatória porque se não tem validade
estatística o que eu tô gerando não é
muito confiável e principalmente que
façam sentido com o negócio então tenho
que responder as perguntas do negócio
então eu chego com um negócio e fala ah
à venda de carro elétrico tá bombando
você deveria produzir carro elétrico e o
negócio em uma fábrica para isso não tem
condição de vir a produção para casa
elétrica agora não vai adiantar nada
projeto que você tá fazendo tudo bem
pode ser um projeto daqui a 10 15 anos
mas agora ele quer resolver um problema
e você tem que entender esse problema
que ele quer resolver por isso é tão
importante você saber o que eu quero
responder tem também outros exemplos
Esse é o que a gente poder por exemplo o
gato da Alice a quando você não sabe o
que o caminho que você quer qualquer
caminho serve então saibam se você quer
responder Oi gente do com negócio
garanto que existe uma validade
estatística e garanto que isso vai ser
feito de forma escalável então uma base
tecnológica muito forte e aí se você tá
pensando Nossa mas não ciência de dados
está muito longe de mim eu nunca vou
usar isso eu não sei nem como que ela
não interfere e uma coisa que tá sendo
extremamente discutido atualmente
exatamente o algoritmo do Instagram as
pessoas ao nosso algoritmo está me
boicotando o algoritmo funciona o
algoritmo tá horrível e tudo isso é
aprendizado de máquina o que que será
que o algoritmo tá assim será que não é
o Instagram que está querendo direcionar
o seu conteúdo que dessa forma porque o
que acontece o Instagram tem uma forma
de determinar como algoritmo funciona e
essa forma que determina que o algoritmo
funciona consequentemente determina o
conteúdo que os criadores produzem
porque são goritmo entrega mais Rios os
criadores vão produzir mais Rios porque
entendem que essa é uma forma de
conteúdo que funciona melhor na
plataforma o algoritmo começa a reduzir
entrega de rios começa a entregar mais
históricos os influenciadores vão
começar é mais história O que é todos
eles querem aumentar o engajamento então
Instagram consegue controlar até o que
as pessoas estão produzindo para
plataforma neste ano nessas informações
do algoritmo Então tudo isso que você
ganha no seu feed O Rios no explorar é o
algoritmo do Instagram está te indicando
e ele funciona o tempo real no momento
que alguém faz com a publicação Ele
termina será relevante ou não para você
Em qual posição ela vai aparecer no seu
feed não tão instagram' Netflix também
faz isso para poder indicar qual vai ser
melhor filme A melhor o melhor série
para você e todos eles querem te manter
mais tempo na plataforma porque o
Instagram quando você fica mais tempo
ele consegue te vender mais produtos
consegue ter mais dados sobre você até
para vender por exemplo a sua formação
para outra empresa que querem mais KB
dados do cliente ou que queira colocar
uma propaganda no Instagram o Netflix já
é um pouco diferente ele quer manter
você na plataforma porque ele é um
serviço de assinatura quanto mais você
fica na plataforma Mas você sente que tá
fazendo sentido aquele dinheiro e a
menor chance de você sair aonde há
outros exemplos muito maiores do uso de
aprendizado de máquinas como por exemplo
carros autônomos quando um carro
autônomo começa a dirigir sozinho ele tá
fazendo isso utilizando aprendizado de
máquinas inclusive você tá ajudando o
carros autônomos como por exemplo você
marca a isso aqui é um sinal de trânsito
Isso aqui é uma placa Isso é uma faixa
de pedestre você tá ajudando carros
autônomos aprender e Essa não é a
primeira vez que você tá ajudando
algoritmo de aprendizado de máquina
aprenderem quando você tava escrevendo
lá a qual palavra essa daqui a essa
palavra que a banana essa palavra que
era maçã isso o Google tava usando você
para ajudar a traduzir textos traduzir
livros antigos e que a palavra não tava
de forma tão legível Então tudo isso é
aprendizado de máquinas e a gente está
inserido nele mais que a gente imagina e
agora só pra gente realmente consolidar
essa informação mostrar para vocês as
principais fases eu vou te mostrar um
passo a passo que a gente sempre pode
seguir como boa prática projeto de
aprendizado de máquinas e ciência de
dados
e a gente vai ver um exemplo prático de
como organizar de máquina foi usado ou
enorme empresa americana de venda de
varejo Então vamos apresentar agora os
principais passos que a gente deve
seguir em um projeto de ciências de
dados e só para dar base teórica que a
gente usou para poder criar esse porque
a gente vai apresentar para vocês a
gente começou utilizando crisp DM que é
o cross indústria estão nos próximos por
data-main e que bastante gente utiliza
esse de tapo também o processo de
ciência de dados e e diz que basicamente
um pros um projeto de data baile deve
ter seis etapas fundamentais a primeira
delas é o entendimento do negócio depois
o entendimento dos dados a preparação
dos dados análise e modelagem validação
e a preparação e visualização da
apresentação do que a gente vai entregar
para o nosso cliente eu gosto de
adicionar algumas etapas por mais que
esse processo seja muito completo eu
gosto de deixar muito claro algumas
etapas Como por exemplo o entendimento
do negócio separar em definir o problema
então qual o problema você quer resolver
e depois e as expectativas porque eu
gosto de separar essas duas formas
porque quando você tá definindo o
problema é uma coisa muito mais interna
que você tá entendendo o que tá
acontecendo você tá entendendo o negócio
depois que você entendeu sabe o problema
que você tem sábado e como que funciona
as coisas aí você vai alinhar
expectativas Então você volta com o
cliente fala óleo para esse problema eu
espero um tempo de duas semanas de um
mês de três meses 5 meses e aí a gente
consegue aqui tem uma acurácia já estou
tendo o centro uma curasse os 90 ou qual
é o curasse que você espera essa cor
acho que você espera a gente não
consegue atingir então a quero uma
coragem de 100 porcento Olha a gente não
consegue atingir o meu coração que tem
por cento mas Em contrapartida a gente
pode chegar no meu coração de 89 95 96
só que para essa curar 196 eu vou ter
que ter um tempo um pouco maior Então em
vez de três meses você quatro você tá
disposto Então você é a linha ali com o
cliente o que você vai entregar o que
você pretende entregar e deixaram muito
Claro não vai ser o único O que você vai
fazer esse alinhamento mas é sempre
importante que o cliente esteja ciente
do que está acontecendo Eu até gosto de
superior para mostrar para ele aí eu tô
nessa etapa depois eu vou fazer isso
depois eu espero fazer isso pode ser que
eu volte Então até como forma de começar
um projeto de centro de dados esse
afirmou que eu tô mostrando aqui para
vocês é bem útil então depois que você é
linda ou expectativa aí sim você vai
entender os seus dados quais dados você
tem como esses dados estão e muitas
vezes na parte definição do problema e
já vai entender esse existem dados a uma
desses dados estão como eles funcionam
como que está estruturado mas agora que
você animou expectativa e definir o
problema aí sim você vai mergulhar no
dado para verificar baixo vai verificar
com qual frequência de atualização como
esses dados estão lá esse dado aqui não
tá atualizado cidade aqui tem muitos
valores nulos E aí se necessário eu
gosto de deixar você tava aqui de
engenharia de dado que não
necessariamente a gente que vai fazer
isso mas muitas vezes a gente vai ter
que ter as interface com o engenheiro de
dados de falar é preciso demais dados eu
preciso uma frequência atualização
melhor eu preciso que esse tratamento
seja feito então a gente vai ter essa
interface EA muito importante a gente
está ciente disso E aí depois que a
gente fez isso aí sim a gente vai
preparar os dados e o que que é preparar
os dados é tornar os dados prontos para
a gente colocar o nosso jupyter nosso
arquivo que a gente está analisando
Nossa arquivo que a gente vai começar
ali a fazer o nosso projeto de ciência
de dados E aí depois que a gente coloca
esses dados importa coloca tudo aonde
deve estar aí sim a gente passa a tratar
de análise modelagem e Aqui começa uma
das principais etapas do projeto que
análises exploratórios agora você vai
entender os seus dados seus dados estão
jantar ficamos seu arquivo Júpiter Ane
você vai começar a tratar ele começar a
visualizar o que tem vai conversar com
quem tem a correlação entre os dados
como que funciona os dados 2 a 2 3 a 3 e
tem dados vazios se tem dado informações
faltantes se tem informações a gente tá
discrepante demais que a gente chama de
Out Live e você vai começar a entender
agora até para você conseguir preparar
também o tratamento que vai ser
necessário então a por exemplo acho que
nesse dado aqui eu vou ter que tirar os
valores vazios e trocar aquela média
nesses dados aqui faz mais sentido eu só
eliminar todos os colonos que tem valor
vazio porque a média não faz sentido
Então você precisa entender os dados que
são na sua base para conseguir garantir
que vai ser um bom projeto de ciência de
dados e depois que você entendeu Aí sim
você vai tratar Então vamos supor a eu
tenho que uma informação que não está
fazendo muito sentido essa coluna aqui
tá me atrapalhando eu posso tirar essa
coluna ou a eu tenho uma coluna que é um
valor diferente para cada para cada um
já que faz sentido a manter porque isso
não me ajuda em nada a fazer previsão
tão tudo isso vocês tem que entender tem
que estar muito bem claro na cabeça de
vocês porque Somente depois de entender
e tratar os dados a gente vai colocar as
informações do modelo e Tem um ditado
que eu gosto muito que é lixo entra lixo
sai se você coloca na descrição sou
modelo de nada mas é fazendo o quê
entregar dados ruins para vocês então
tomem cuidado e gasto muito tempo em
geral a gente vai gastar setenta por
cento do tempo nosso projeto nessas
etapas aqui porque a parte de modelo a
parte de depois apresentar não é tão
demorada mas a parte de tratar o dado é
muito demorada porque ela é muito
importante e aí quando a gente fala
dessa sequência de etapas como se fosse
uma coisa linear Às vezes a gente vai
precisar voltar com o por exemplar eu
olhei na análise exploratória que eu
achava que tinham dado mas eu não tenho
então você pode entender melhor esse
dado pode voltar a levar nossa Na
verdade eu preciso de outro dado porque
eu achei que essa coluna que era uma
coisa e na verdade a outra Nossa Na
verdade agora o que eu preciso não essa
coluna é a coluna X é a coluna Y Então
essa etapa aqui pode ser que você volte
depois você vai de novo fazer análise
exploratória depois você perceba que
precisa de mais alguma coisa e isso
também é muito importante alinhado com o
cliente o que ele tem que entender que
no tratamento de dados Pode ser que
surja alguma coisa que você precisa e
voltar um pouco e ah tá oi oi mas tudo
bem não vai demorar o tempo que demorou
essa primeira vez que você fez Então
esse vai ser um pouco mais rápido mas
isso acontece isso é normal no projeto
de ciência de dados e se você não vai
ganhar isso com cliente também ele pode
achar que Nossa você tá perdendo tempo
tá fazendo coisas necessário ou a você
não sabia o que estava acontecendo Então
deixa isso muito claro a linha
expectativas porque agora você não teria
problema nenhum se expectativas tivessem
bem alinhadas e aí beleza garantiu que o
tratamento Tá feito garantiu que tá tudo
certo aí sim você vai colocar o dado no
modelo e definir o melhor modelo quando
a gente fala de destino melhor modelo
não é só ficar colocando vários modelos
é colocar os modelos que visem é
analisar o erro é verificar se o erro tá
acontecendo mesmo não só nos dados de
treino mas não dados de teste
verificasse os meus o meu modelo não só
de cor ou aqueles dados meu modelo está
sendo generalizado Ou seja que ele
funciona os meus dados de tem mais
funciona para qualquer outro dado porque
basicamente a gente quer fazer é prever
com os novos dados que vão entrar só que
a gente com esses novos dados ir para
garantir que vai funcionar nesse
novidade a gente separa os dados para
gente treinar o modelo os dados para
gente testar e esse dado de teste é como
se fosse novos dados entraram e ele e o
modelo precisa funcionar também nesses
dados Então beleza garante que o modelo
funciona então tem os dados de treino
quando nos dados de teste e aí sim eu
faço essa validação o meu modelo
funciona tá funcionando os áudio teste
tá funcionando saúde teste não tem
problema nenhum beleza aí a gente
validou o modelo e o modelo tá pronto
para ir para produção e antes de ir para
produção claramente a gente vai
apresentar esse modelo ele não sabe o
nosso chefe de a a gente conseguiu gerar
isso daqui esse aqui foi o resultado
gerado Esse aqui foi a melhor em relação
à Média a melhor em relação ao modelo
que existe atualmente a empresa isso tá
ok para vocês e aí nesse momento pode
acontecer duas coisas ou ele fala que tá
beleza perfeito funcionou então a gente
pode implementar ou ele não tem algum
problema eu preciso que você revise na
ver e o Eric você conseguiu escrever a
venda mas consegui escrever Qual o
melhor item para enviar para loja e por
isso o entendimento do negócio é tão
importante que imagina você fazer todo
esse processo chegar aqui no final de
ver que não era aquilo que o cliente
queria saber ou ver que o que ele te
falou não era exatamente o que ele tinha
na cabeça então deixa muito claro o que
tá na cabeça do cliente no papel e de
confirme com ele é isso aqui olha o meu
modelo vai gerar isso daqui formalize
isso nosso isso para ele porque depois
você evita muito problemas com preservar
mas eu perguntei isso mas na verdade eu
queria saber outra coisa a você não
gerou que eu tava esperando então deixe
tudo muito alinhado porque esse final
aqui você garante que beleza Vai dar
tudo certo e você vai direto para a
implementação e claro Aline durante o
projeto olha outra gerando isso daqui é
isso o que que você espera Olha lá na
área exploratória eu consegui encontrar
isso isso isso tá fazendo sentido com o
negócio ou não pode ser algum problema
no dado que se tiver problema não dá aí
você vai precisar voltar lá né tapa de
engenharia fazer os os pássaros E aí sim
tratar com os dados corretos então
garanto que você tava torcendo muito bem
feita e depois que a gente implementou a
gente vai fazer etapa de melhoria
contínua e monitoramento e ajuste então
nosso modelo ele pode funcionar
perfeitamente caracterizado Mas vamos
supor que a gente criou o modelo antes
da anemia quando chega a pandemia os
dados mudam completamente toda a
situação Muda então você precisa
continuar melhorando seu modelo e fazer
essa melhoria contínua garante ficar
agora com os dados a poder isso aqui
muda isso aqui muda eu não posso mais
vai dar uma base de cinco anos eu tenho
que fazer a vontade de três meses porque
o perfil da LTDA ME empresa mudou muito
então garanto um sempre que o seu modelo
está sendo melhorado tá sendo ajustado
quando necessário e se for preciso se
vocês estão fazendo as melhorias que
vocês precisam fazer um modelo e eu
gosto muito exatamente de mostrar esses
Passos O que são passos que a gente pode
seguir junto com o cliente olha agora eu
vou definir um problema a gente vai
passar por essas etapas aqui hora essa
etapa e os dados e de engenharia talvez
a gente precisa voltar quando eu tiver
aqui fazendo tratamento E aí Vocês
conseguem até mostrar para levar agora
eu tenho preparação dos dados hora que
eu tô encontrando Nossa eu terminei
minha análise exploratória é um Marco
aqui do projeto então quando eu terminar
eu vou te apresentar o que eu encontrei
porque muitas vezes as informações que a
gente acha Na hora do Oratório tem um
cliente sabia então aqui a gente já pode
começar a Gerar valor para a empresa
então a minha com ele mostra em tudo e
usem essas etapas aqui até preguear em
vocês também ah eu tô esquecendo de
fazer alguma coisa a Será que eu deveria
ter feito isso olha essa etapa aqui são
máquina etapas que vão ser extremamente
útil nos projetos de ciência de dados de
vocês é isso só para a gente fechar de
forma bem rápida eu vou dar um exemplo
prático de como a ciência de dados foi
usado e é um exemplo é exatamente do
Walmart que ele tava vendo ali que tinha
um furacão e ele queria prever o que que
seria o melhor item para ele mandar para
as lojas e um outro furacão que também
estava se aproximando e como e é isso o
Walmart já tinha dados guardados ele já
tinha essa cultura de ciência de dados E
aí com isso ele começou a pesquisar ali
nos dados históricos dele em relação à
último furacão que aconteceu qual seria
o melhor item para mandar para loja e
realmente itens de primeiros socorros
claramente estavam sendo mais vendidos
então isso ele já sabia porque não
queria procurar nos dados é se tinha
algum padrão que ele não conseguia
perceber algum padrão escondido nos
dados e ele encontrou exatamente uma
sugestão de aumentar o estoque desse tem
que desse pop-tarts o que que esse pop
tá é basicamente um biscoitinho que você
consegue colocar na torradeira consegue
congelar consegue comer de várias formas
e ele percebeu que no último furacão a
procura por esse tipo aumentou muito
então a sugestão dele foi a aumento
estoque desse item e o que eles fizeram
foi exatamente enviar caminhões para as
lojas de se ele tem aqui que é o pop
tart e qual foi o resultado um aumento
de venda desses e Esse aumento não seria
possível se eles não tivessem feito
envios Exatamente porque não ter estoque
E aí na verdade eles poderiam perceber
que é um item de alta demanda com a
ciência de dados e encontraram padrões
que tava meio ocultos nos dados
apontavam de forma tão Clara então Eles
aceitaram esses padrões aceitaram a
sugestão cientistas de dados fizeram
Esse aumento de estoque e verificaram
que realmente aconteceu que a ciência de
dados prever e poderia não ter
acontecido poderia ter aumentado em duas
vezes a venda ou poderia nem ter
aumentado só que a cultura de uma
empresa que a data vivem que é muito
voltada dados permite essa sugestões
permite esse acertos e até novos erros e
isso aqui é exatamente um ótimo exemplo
de um projeto de ciência de dados e só
para explicar para vocês isso foi feito
em 2004 então Walmart já tá usando essa
cultura do centro de dados há muitos
anos a 20 anos atrás praticamente E é
isso que está crescendo cada vez mais só
que na verdade com empresas grandes
empresas que estão tomando a liderança
já usou isso é como um Marco Netflix
Instagram e várias outras empresas que
hoje a gente olha assim admira muito
inclusive a Amazon em só para a gente
fechar Olha como todas essas etapas de
ciência de dados estão aqui a primeira
entendimento do problema do negócio o
que que ele queria entender ele queria
saber de como aumentavam as vendas em
relação a períodos pré furacão ele tinha
um histórico de dados então existem
dados que ele poder analisar Ele criou
uma hipótese com os dados ali ele
colocou a hipótese de que provavelmente
esses em Pop tá não aumentar as vendas
no próximo furacão e ele fez o teste
então não foi só a isso aqui vai
aumentar isso é um review mas eu não sei
se isso realmente acontecer mas ele
testou ele enviou esse tem para as lojas
aumentou o estoque e ele validou isso
então Teve um aumento real tiverem 7 por
cento e a validação não quer dizer
apenas que funcionou pode ser uma
validação de cá essa hipótese é que deve
ser descartada porque ela não funciona
mas isso é testar isso o processo
científico Eu não me importo de baseada
nos seus dados você testou isso se
realmente acontecer na prática e você é
válida e pode ser humano para validação
positiva que realmente aconteceu uma
validação negativa e aí se for
localização negativo Você vai procurando
outros itens esse aqui é um exemplo que
deu certo mas pode ser qual Marcos
tentou outros itens entre outras
situações e não deu certo esse aqui é só
exemplo muito conhecido e a um exemplo
Muito bom até para vocês conversarem com
vocês tiverem fazer uma entrevista DH
quando estiverem conversando com alguém
ou quando entrar em uma empresa e ele
pensou que não da nossa mas aonde foi
usado ciência de dados Nossa tem um caso
muito famoso então caso do mar porque é
um caso também muito conhecido Inclusive
eu comprei o pop está se estudar para
ver para provar Exatamente isso daqui é
um biscoitinho que vem no saquinho assim
e aí você abre você pode comer tanto ele
puro ponto colocar na geladeira
Exatamente isso aqui o pop star para
quem tem curiosidade você está dando
para ver mas era isso então eu queria
mostrar isso tudo para vocês para nós a
importância da ciência de dados que como
ela está extremamente presente o nosso
dia a dia e também dá um pontapé inicial
nesse processo de cientistas de dados de
vocês Espero muito que tenha ajudado na
próxima aula a gente vai falar sobre o
pandas e a gente vai realmente começar a
colocar a mão na massa Espero muito que
vocês tenham gostado desse vídeo se você
ainda não deixou a curtida deixa curtida
segue a gente aqui se você ainda não
segue compartilha esse vídeo com os
amigos também e eu vou deixar aqui na
tela algumas outras sugestões de vídeos
sobre Ciência de dados e na próxima
semana a gente traz mais conteúdos dessa
playlist Beleza Espero muito que vocês
tenham gostado tchau
Weitere ähnliche Videos ansehen
Can UX Designers make assumptions?
Intro to Data Science: What is Data Science?
Tutorial 01: What is Statistics | Descriptive Statistics VS Inferential Statistics with examples
Key Machine Learning terminology like Label, Features, Examples, Models, Regression, Classification
How to ACTUALLY Learn the Math for Data Science
How I Would Learn Data Science in 2022
5.0 / 5 (0 votes)