Curso Básico de Ciência de Dados - Aula 1 - Introdução a Ciência de Dados

Hashtag Programação
8 Aug 202229:46

Summary

TLDRThe video script outlines a comprehensive introduction to machine learning and data science, emphasizing the importance of understanding core concepts to effectively engage in relevant projects or interviews. It discusses the process of data exploration, manipulation, and analysis for discovery and prediction, and highlights the scientific method's role in hypothesis testing and validation. The script also stresses the significance of aligning projects with business objectives and the necessity of a strong foundation in statistics, business understanding, and technology. A real-world example of Walmart using data science to predict increased demand for pop-tarts during hurricanes illustrates the practical application of these concepts.

Takeaways

  • 📚 The importance of understanding machine learning and data science concepts for professional development and interviews.
  • 🎯 Identifying and defining the problem you want to solve with data is the first step in a data science project.
  • 📈 Data exploration, manipulation, and analysis are crucial for discovering patterns, trends, and making predictions.
  • 🔍 A good data science project involves hypothesis testing and validation to ensure the model's accuracy and reliability.
  • 💡 Data science is applied to answer business questions and make recommendations that can improve business outcomes.
  • 🔧 The three pillars of a successful data science project are a strong statistical/mathematical foundation, business relevance, and robust technology.
  • 🛠️ Technology's role in data science is to process and analyze large datasets efficiently and effectively.
  • 📊 The importance of aligning data science outcomes with business expectations to ensure the project's success and impact.
  • 🔄 The iterative nature of data science projects, which may involve going back and forth between stages to refine the model and insights.
  • 🚀 Real-world examples, such as Walmart's use of data science to predict demand for pop-tarts during a hurricane, demonstrate the practical applications of data science.
  • 🌐 The influence of social media algorithms, like Instagram's, on content creation and user engagement, highlighting the pervasiveness of machine learning in our lives.

Q & A

  • What is the main focus of the video transcript?

    -The main focus of the video transcript is to introduce the concept of machine learning and data science, explain their importance in business, and outline the steps involved in a data science project.

  • What are the three fundamental pillars of data science mentioned in the transcript?

    -The three fundamental pillars of data science mentioned are a strong statistical or mathematical foundation, a direct connection to the business, and a strong technological base.

  • How does the speaker emphasize the importance of understanding the business context in data science projects?

    -The speaker emphasizes the importance of understanding the business context by stating that data science is not just about using mathematical models, but also about making sense of the data in a way that is relevant to the business needs and objectives.

  • What is the role of hypothesis testing in the scientific method of data science?

    -Hypothesis testing plays a crucial role in the scientific method of data science as it allows researchers to validate their assumptions and models with data, ensuring that the insights and predictions are accurate and relevant to the business context.

  • Why is it important to have a clear understanding of the problem you want to solve before starting a data science project?

    -Having a clear understanding of the problem is important because it helps to align expectations with the client or stakeholder, ensures that the project addresses the actual business needs, and prevents wasted effort on irrelevant or incorrect analyses.

  • What is the significance of the Walmart example in demonstrating the practical application of data science?

    -The Walmart example demonstrates the practical application of data science by showing how historical data can be analyzed to predict consumer behavior and optimize inventory management, leading to increased sales and better decision-making in response to a natural disaster (hurricane).

  • How does the speaker describe the process of data preparation in a data science project?

    -The speaker describes the process of data preparation as a critical step where data is cleaned, structured, and treated to make it ready for analysis. This involves handling missing values, outliers, and ensuring that the data is in a format suitable for modeling and analysis.

  • What is exploratory data analysis and why is it important?

    -Exploratory data analysis is the process of examining and understanding the data to discover patterns, correlations, and insights. It is important because it helps in formulating hypotheses, identifying trends, and preparing the data for modeling, ultimately leading to more accurate and meaningful predictions.

  • What are the potential issues that can arise if the problem understanding and business expectations are not well aligned at the beginning of a data science project?

    -If the problem understanding and business expectations are not well aligned, the project may lead to incorrect analyses, fail to meet the client's needs, and result in wasted resources. It can also lead to disappointment and a lack of trust from stakeholders, as the delivered results may not match their expectations.

  • How does the speaker suggest maintaining the relevance and accuracy of a data science model over time?

    -The speaker suggests maintaining the relevance and accuracy of a data science model through continuous improvement, monitoring, and adjustment. This involves regularly updating the model with new data, refining it based on changes in the business environment or data patterns, and ensuring it continues to meet the needs of the stakeholders.

Outlines

00:00

📚 Introduction to Machine Learning Concepts

The paragraph introduces a series of lessons aimed at explaining the concepts behind a machine learning project. It emphasizes the importance of understanding key points in machine learning, discussing the topic with professionals, and showcasing knowledge in interviews. The speaker also mentions covering topics like exploratory data analysis, classification models, regression, and deploying models into production. The paragraph concludes with an encouragement to like, follow, and download materials for further assistance.

05:01

🔍 The Definition and Process of Data Science

This paragraph delves into the definition of data science, describing it as a process of exploration, manipulation, and analysis of data for discovery and prediction. It highlights the importance of finding hidden patterns and making business improvements. The scientific method is emphasized, including hypothesis testing and validation. The paragraph also discusses the necessity of a strong statistical or mathematical foundation, a clear business connection, and a robust technological base for a successful data science project.

10:03

🤖 The Intersection of Technology, Business, and Mathematics in Data Science

The speaker discusses the interplay between technology, business, and mathematics in the context of data science. It stresses the need for clarity in project goals and managing client expectations regarding accuracy. The paragraph also touches on the importance of having a strong technological capacity to process large datasets and the significance of statistical validity in generating reliable results. It concludes by emphasizing the importance of aligning data science efforts with business sense and client expectations.

15:03

🛠️ The CRISP-DM Process in Data Science Projects

The paragraph outlines the CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology, which consists of six fundamental steps for a data science project: understanding the business, understanding the data, data preparation, analysis and modeling, validation, and deployment. The speaker adds additional steps, such as defining the problem and managing expectations, to ensure a comprehensive approach. The importance of aligning with the client throughout the project is also highlighted.

20:04

🔗 Aligning Data Treatment with Client Expectations

This section discusses the importance of aligning data treatment with client expectations. It emphasizes the iterative nature of data science projects, where understanding the data may lead back to the problem definition stage. The paragraph also stresses the need for clear communication with clients about the project's progress, expectations, and any necessary revisions to avoid misunderstandings and ensure the final model meets the client's needs.

25:05

🌟 Practical Example of Data Science: Walmart's Hurricane Response

The final paragraph provides a practical example of data science with Walmart's approach to predicting the best items to stock during a hurricane. By analyzing historical data, Walmart identified a hidden pattern of increased demand for Pop-Tarts, leading to a successful increase in sales. This example illustrates the power of data science in making informed business decisions and the importance of a data-driven culture within a company.

Mindmap

Keywords

💡Machine Learning

Machine learning is a core concept in the field of artificial intelligence. It involves the development of algorithms and models that allow computers to learn from and make predictions or decisions based on data. In the context of the video, machine learning is the primary method used to analyze data and generate insights, which can then be applied in various business scenarios.

💡Data Science

Data science is an interdisciplinary field that uses scientific methods, processes, algorithms, and systems to extract knowledge and insights from structured and unstructured data. It involves data exploration, manipulation, and analysis to uncover hidden patterns, trends, and correlations. In the video, data science is portrayed as a critical process for making informed decisions and predictions, which can significantly improve business operations.

💡Data Analysis

Data analysis is the process of inspecting, cleaning, transforming, and modeling data to discover useful information, suggest conclusions, and support decision-making. It involves a variety of techniques and tools to analyze data from different perspectives and summarize its key aspects in meaningful ways. In the video, data analysis is crucial for understanding data behavior and making data-driven decisions.

💡Model Deployment

Model deployment refers to the process of releasing a trained machine learning model into a live production environment, where it can be used to make predictions on new, unseen data. This step is critical to transition the model from the development phase to real-world applications, allowing businesses to leverage the model's insights. In the video, the speaker discusses the importance of deploying models to production so that the insights derived from data analysis can be utilized operationally.

💡Statistical Foundation

A statistical foundation refers to a strong understanding of statistical principles and methods, which is essential for building reliable and valid models in data science. It involves knowledge of probability theory, hypothesis testing, and data distribution, among other statistical concepts. In the video, the speaker emphasizes the need for a solid statistical foundation to ensure that models are not only mathematically sound but also practically meaningful and relevant to the business context.

💡Business Understanding

Business understanding in the context of data science refers to the ability to comprehend the commercial aspects of a project, identify the key objectives, and align the data analysis with the company's strategic goals. It is crucial for ensuring that the insights generated from data are actionable and contribute to the business's success. In the video, the speaker stresses the importance of connecting the data science process with the business needs and ensuring that the outcomes of the analysis are relevant and valuable to the company.

💡Technology

In the context of this video, technology refers to the tools, platforms, and software used to collect, process, and analyze data. It encompasses the infrastructure required to support data science activities, including databases, data processing frameworks, and visualization tools. The speaker emphasizes the need for a strong technological base to handle the scalability and replicability of data science models, ensuring they can be efficiently implemented in real-world scenarios.

💡Hypothesis Testing

Hypothesis testing is a statistical method used to make decisions based on data. It involves formulating a null hypothesis, collecting data, and using statistical tests to determine whether the data provides enough evidence to reject the null hypothesis in favor of an alternative hypothesis. In data science, hypothesis testing is crucial for validating assumptions and drawing conclusions from the analysis. The video emphasizes the scientific process of hypothesis testing as a fundamental part of data science, allowing for the validation of insights and the rejection of unproven assumptions.

💡Data Preparation

Data preparation, also known as data preprocessing, is the process of cleaning and unifying data from different sources and formats before it can be used for analysis. This step is critical in data science as it ensures the quality of the data, which directly impacts the accuracy of the models and the reliability of the insights. In the video, the speaker highlights the importance of data preparation in making data ready for analysis and model training, emphasizing that 'garbage in equals garbage out', meaning that poor quality data will yield poor results.

💡Exploratory Data Analysis

Exploratory Data Analysis (EDA) is an approach to analyzing data sets to summarize their main characteristics, often with visual methods. The purpose of EDA is to identify patterns, anomalies, relationships, and dependencies in the data, which can then inform further analysis or modeling. In the video, EDA is presented as a fundamental step in the data science process, allowing data scientists to understand the data's structure and uncover insights before building predictive models.

Highlights

The introduction of a series of classes explaining machine learning concepts.

The importance of understanding machine learning to converse in interviews and within companies.

The definition of data science as a process of exploration, manipulation, and analysis of data.

The application of data science in discovering hidden patterns and making predictions about the future.

The scientific method in data science involving hypothesis, testing, and validation.

The three pillars of a data science project: statistical/mathematical foundation, business relevance, and technological strength.

The necessity of having a clear objective for a data science project and aligning expectations with clients.

The importance of data in data science projects and the inability to proceed without it.

The process of understanding and preparing data for analysis in a data science project.

Exploratory data analysis to understand correlations and handle missing or discrepant data.

The iterative nature of data science projects, which may require returning to previous steps for refinement.

The validation of models using separate training and test datasets to ensure generalization.

The presentation of the model's results and its comparison with existing models for effectiveness.

Continuous improvement and monitoring of models to adapt to changing data.

A practical example of Walmart using data science to predict increased demand for Pop-Tarts during hurricanes.

The demonstration of how data science can provide insights leading to significant business decisions and outcomes.

Transcripts

play00:00

em qual a impressionar dores tudo bem a

play00:02

gente vai fazer uma série de aulas

play00:04

explicando para vocês todos os conceitos

play00:06

por trás um projeto de aprendizado de

play00:08

máquinas então primeiro eu vou

play00:09

conceituar os pontos mais importantes

play00:11

explicar o que que é o aprendizado de

play00:13

máquinas até pro quando vocês começaram

play00:15

projeto tiver chegando em alguma empresa

play00:17

vocês terem aço você tem bagagem para

play00:20

conversar até também quando você tiver

play00:22

fazendo uma entrevista para você

play00:23

conseguir mostrar para regar que você

play00:25

conhece esse assunto e você sabe como

play00:27

abordar esse assunto e que você entende

play00:29

do que você tá falando depois a gente

play00:31

vai falar do panda as que caem análise

play00:33

exploratória aqui é sim fundamental por

play00:35

qualquer bom projeto de ciências de

play00:36

dados a gente também vai falar de modelo

play00:39

de classificação o modelo de regressão

play00:40

análise Deus e a gente termina todo esse

play00:43

conteúdo falam de como fazer o Deploy do

play00:45

modelo como colocar esse modelo em

play00:47

produção então nessa sala de aula a

play00:49

gente vai acompanhar esse conteúdo vai

play00:50

estar aqui no YouTube toda semana a

play00:52

gente também vai criar uma playlist

play00:53

então espero que isso ajude muito vocês

play00:55

só que antes a gente começava a pedir

play00:57

para você deixar e curtida seguir aqui

play00:59

se você ainda não e aproveitar para

play01:01

baixar o material que está aqui na

play01:02

descrição desse vídeo e gente curte

play01:04

porque isso ajuda muito a gente saber

play01:05

que vocês estão gostando desse tipo de

play01:07

conteúdo e ajuda a motivar trazer cada

play01:09

vez mais conteúdos como esse Então bora

play01:11

lá ó

play01:13

[Música]

play01:16

bom então para gente conversar fazer

play01:18

ciência de dados mas o que é Ciência de

play01:21

dados e eu gosto muito de conversar com

play01:22

essa definição aqui porque ela é bem

play01:24

completa Ela traz todos os pontos que a

play01:27

gente precisa ter atenção em um projeto

play01:29

como cientistas de dados e essa

play01:30

definição diz que a ciência de dados vai

play01:32

ser o processo de exploração e

play01:34

manipulação e análise dos dados Então a

play01:37

gente vai explorar os dados que a gente

play01:39

tem vai manipular esses dados e analisar

play01:42

e verificar o que que existe ali nos

play01:44

dados como os dados estão se comportando

play01:45

se existe algum padrão e gente faz isso

play01:48

para descoberta e previsão então

play01:51

anteriormente a gente olhava muitos

play01:53

dados para entender o que aconteceu

play01:54

entendeu passado aqui a gente consegue

play01:56

entender o futuro e não só isso a gente

play01:58

consegue encontrar padrões que antes

play02:00

estavam escondidos nos dados então

play02:02

Exatamente esse o diferencial de ciência

play02:04

de dado se você tá conversando com

play02:06

alguém do RH e eles e eles pergunta ahmm

play02:08

por que que você usaria sem assustados

play02:10

na empresa exatamente para isso para

play02:12

encontrar coisas que a empresa nem sabe

play02:14

o problema se ela nem sabe que tem a

play02:16

fazer previsões de venda previsão de

play02:18

demanda previsão de várias coisas que

play02:20

vão melhorar realmente o negócio que

play02:22

você está inserido além disso a ciência

play02:25

de dados é feita através de hipótese

play02:27

teste e validação e isso aqui exatamente

play02:30

o processo científico você vai procurar

play02:33

alguma coisa você vai definir as

play02:35

hipóteses aí você vai testar com seus

play02:37

dados vai validar para verificar se isso

play02:40

que você criou a hipótese respostas que

play02:42

você criou realmente está acontecendo

play02:43

realmente existe nos dados e

play02:45

principalmente se existe no processo que

play02:47

você colocou em produção Então isso é o

play02:49

processo científico é extremamente

play02:51

importante no processo científico também

play02:53

a gente busca hipóteses não só dentro do

play02:56

nosso negócio a gente busca outras

play02:58

pessoas que tiveram o mesmo problema

play02:59

busca-se outros algoritmos de ação fez

play03:02

para solucionar um problema que a gente

play03:03

está lidando então cientista isso Senti

play03:06

até buscar referências buscar

play03:07

informações testar errar a gente vai

play03:10

errar muito a gente tem que estar ciente

play03:12

a gente vai errar e vai encontrar o

play03:14

melhor modelo a partir desses erros

play03:16

o objetivo disso é responder perguntas o

play03:18

negócio do negócio ou até fazer

play03:20

recomendações como eu tinha falado para

play03:21

vocês e o que que é um processo ele tem

play03:25

uma base em três pilares o primeiro

play03:28

Pilar o embasamento estatístico ou

play03:29

matemático muito forte porque não

play03:31

adianta nada você definir um modelo

play03:32

super ótimo que funciona ali só que eu

play03:35

mandei não tem validade estatística a

play03:37

sua mostra não é válida então definir um

play03:39

modelo ali para avaliar alunos por

play03:41

exemplo só que você tem 25 alunos e aí

play03:43

você tava olhando o professor como

play03:45

amostra muito pequena de alunos isso é

play03:47

real isso aconteceu lá nos Estados

play03:48

Unidos e gerou muita discussão sobre a

play03:51

ética nos modelos de aprendizado de

play03:52

máquina que eles usaram uma base muito

play03:54

pequena e não existe uma validade

play03:56

estatística tão grande além disso ele

play03:58

tem que ser diretamente ligado a um

play04:00

negócio adianta nada você falar o melhor

play04:03

produto é esse produto x só que fruste

play04:05

foi descontinuado os produtos x não

play04:08

conseguem ser enviado para as lojas tem

play04:10

que fazer sentido com o negócio que você

play04:12

está e principalmente precisa ter uma

play04:14

base de tecnologia muito forte o que

play04:16

precisa ser feito de forma escalável e

play04:18

replicável não adianta nada você fazer

play04:20

um modelo que demora 5 horas para rodar

play04:23

e você precisa gerar informação uma hora

play04:25

preciso gerar no momento vamos supor que

play04:27

você faz uma análise perfeito ali que o

play04:29

cliente é bom ou ruim só que tu demora 5

play04:31

horas para rodar na hora que você coloca

play04:33

o modelo em produção você acha que o

play04:35

gerente de banco vai ter 5 horas por

play04:37

ficar esperando rodar na frente do

play04:38

cliente isso não é Instalado não é

play04:41

replicado então a gente não pode usar

play04:43

esse modelo que a gente criou por mais

play04:45

que seja um modelo ótimo porque ele não

play04:47

funciona no dia a dia da empresa então

play04:49

esses três pilares que a estatística

play04:51

negócio de tecnologia tem que andar

play04:54

muito juntos para gente ter um bom para

play04:56

jato de ciência de dados e falando em

play04:58

ciência de dado Exatamente isso a gente

play05:01

pode levar por definição essas duas

play05:03

palavras primeiro a parte de ciência diz

play05:05

que existe um método científico Então a

play05:07

gente vai fazer observação hipótese

play05:09

teste validação analisar monitorar

play05:12

depois que ele já tiverem produção e

play05:14

dados é que a gente precisa os dados

play05:16

Então se alguém chegar para você falar

play05:18

eu quero que você faça um projeto de

play05:20

senso de dados e não existem dados não

play05:22

adianta a gente pode fazer outros

play05:24

projetos pode fazer outras coisas mas

play05:26

sem dados a gente não consegue fazer o

play05:28

nosso projeto e agora uma coisa que pode

play05:30

parecer muito simples mas que é uma ser

play05:32

uma peça chave de sucesso de projetos at

play05:34

lado é ter muito claro o que eu quero

play05:36

responder e para fazer uma brincadeira

play05:39

eu gosto muito de utilizar esse livro

play05:41

aqui que alguém do Mochileiro das

play05:42

Galáxias onde eles criam uma super

play05:44

máquina para poder conseguir responder à

play05:46

pergunta qual a resposta da vida do

play05:48

universo e tudo mais e máquina responde

play05:50

42 tem algumas discussões porque 42 mais

play05:53

basicamente a máquina de spray ele que

play05:56

se você não sabe a pergunta qual que é a

play05:58

resposta serve então se você pergunta

play06:00

uma coisa muito mapa você responder

play06:02

qualquer coisa é válido então tomem esse

play06:04

cuidado entendeu com o negócio que vocês

play06:06

querem responder a linha expectativas

play06:09

que vamos supor que você faz um projeto

play06:11

excelente seu projeto que 98 por cento

play06:14

de acurácia e ou seja em novo e os

play06:16

carros ele é certo só que o seu cliente

play06:18

esperava sem por cento e se você não

play06:20

ligou com ele com aquela accuracy aquele

play06:22

espera não é real que a gente não vai

play06:24

conseguir essa coração de 100 porcento

play06:26

ele vai ficar decepcionado porque por

play06:28

mais que o seu resultado ou seja muito

play06:30

bom ainda é inferior ao que ele esperava

play06:32

então não só para definir bem um projeto

play06:34

e para conseguir gerar os dados que

play06:36

fazem sentido de que o negócio que você

play06:38

precisa fazer saneamento mas também que

play06:40

poder entregar o meu projeto entregar o

play06:42

que o seu cliente espera e aí quando a

play06:44

gente fala mesmo de sinceridade a gente

play06:46

tá falando exatamente desses três

play06:47

pilares que a tecnologia e automação

play06:49

negócios e matemática estatística e a

play06:52

ciência de dados é atualizado a mente

play06:54

interseção Entre esses três e se pode me

play06:56

perguntar mas Lucas não existe ali uma

play06:59

relação que tecnologia negócios entre

play07:01

tecnologia e matemática existe existe

play07:04

bastante internacional esses Pilares por

play07:06

exemplo entre tecnologia negócio a gente

play07:08

tem um sofre as tradicionais como Excel

play07:10

sass entre negócio de matemática desde

play07:13

sempre desde do passado que as pessoas

play07:15

USA a soma uma média entre a média de

play07:18

venda e também que tecnologia matemática

play07:20

a gente tem uma shimmy só que a ciência

play07:23

de dados não é só Mach Lane é aplicar

play07:25

Mas isso não há coisas que fazem sentido

play07:28

dentro do negócio e por isso que a gente

play07:30

tem que tomar cuidado porque se a gente

play07:31

olha por exemplo 2 A Dori seus Pilares a

play07:34

gente pode termos muito Absurdos Como

play07:37

por exemplo o banho da base pode não ser

play07:40

viável a gente quer fazer uma análise

play07:42

aqui a gente tem bastante informação a

play07:44

gente tem toda a parte de negócio tem

play07:46

toda a parte matemático só que a base é

play07:48

tão grande tem gente não consegue

play07:50

processar eu tenho que fazer um modelo

play07:52

Excel tenta fazer um modelo em outro

play07:54

programa só que a base é muito grande

play07:56

então a gente precisa Tech tecnologia

play07:58

para conseguir processar ainda mais que

play08:00

atualmente tem cada vez mais dados com

play08:02

dados de Twitter dados do Instagram

play08:04

dados Tik Tok então a gente precisa ter

play08:06

a tecnologia para conseguir processar

play08:08

todos esses dados ou por exemplo se eu

play08:10

tenho a relação entre tecnologia negócio

play08:12

que eu sofre usar o sofre tradicionais

play08:14

eu posso chegar com já estão corretas só

play08:18

que estatisticamente ela tem pouca

play08:19

validade Então vamos supor eu tenho duas

play08:22

cidades eu quero escolher qual o melhor

play08:23

destino então quero sugerir destinos

play08:25

para alguma pessoa ou sugerir destinos

play08:28

um site que eu tenho a sua cidade aqui

play08:30

que tem a primeira cidade tem uma média

play08:31

de temperaturas de 30. 5 a segunda

play08:34

cidade pelo médio temperatura de 31.3

play08:36

seu surgiram para essa pessoa a vai para

play08:39

Cidade dois Porque como você tá indo

play08:41

para uma cidade melhor vamos supor que

play08:43

ela tá indo em abril ou em maio Olha

play08:46

isso daqui ela vai pegar uma temperatura

play08:48

muito fria Então essa sugestão que você

play08:50

deu para ela foi horrível porque você

play08:53

errou então você errou porque você não

play08:55

entende isso conceito estatístico da

play08:56

Média porque só com a média a gente não

play08:58

consegue dizer qual a melhor cidade para

play09:00

ir visitar uma praia a gente tem que

play09:02

entender como que essa temperatura está

play09:04

distribuída se tem um desvio muito

play09:06

grande ali de meus dados se eles estão

play09:08

muito dispersos então só a média não vai

play09:11

nos dizer muita coisa então tem que

play09:13

tomar esse cuidado tem que entender

play09:14

estatística por trás o que a gente e

play09:16

para fazer sentido e fazer sentido

play09:18

principalmente estatisticamente você já

play09:20

tem uma validade nos dados que a gente

play09:22

está gerando esse olho por exemplo

play09:24

somente a parte de tecnologia e de

play09:27

matemática eu posso gerar resultados com

play09:29

validade estatística mas sem nenhuma

play09:31

significância para o negócio então vamos

play09:33

supor que eu tonalizando ele quatro

play09:34

formas de fazer publicidade e uma delas

play09:37

é o Orkut o Orkut na época que a empresa

play09:39

fez a cinco anos atrás geravam retorno

play09:42

muito grande e se eu falo assim a

play09:44

empresa investe no Orkut que é melhor

play09:46

solução a empresa eu vou chegar para mim

play09:48

e falar como assim não faz sentido no

play09:50

que hoje a gente dá um tem mais Orkut eu

play09:52

tô dando um exemplo muito Pizarro para

play09:54

vocês conseguirem se localizar mas a

play09:56

gente vai falar assim a aumenta a venda

play09:58

de tal produto coloca um produto do lado

play10:00

do outro só que quando eu falo coloca um

play10:02

produto lá do outro e se for por exemplo

play10:04

uma roda de carro e um biscoito não faz

play10:07

muito sentido eu vou atrapalhar a

play10:09

circulação da loja então você tem que

play10:11

entender com o negócio se aquilo que

play10:13

você está gerando tá fazendo sentido

play10:15

Então por o centro de dados da

play10:17

exatamente nesses três pilares é fazer

play10:19

coisas como a capacidade tecnológica

play10:21

muito forte que tenham validade

play10:23

estatística então a gente não pode fazer

play10:25

algo simplesmente por fazer porque senão

play10:27

é muito mais fácil usar média usado e um

play10:30

número aleatório uma distribuição

play10:31

aleatória porque se não tem validade

play10:33

estatística o que eu tô gerando não é

play10:35

muito confiável e principalmente que

play10:37

façam sentido com o negócio então tenho

play10:40

que responder as perguntas do negócio

play10:42

então eu chego com um negócio e fala ah

play10:43

à venda de carro elétrico tá bombando

play10:46

você deveria produzir carro elétrico e o

play10:48

negócio em uma fábrica para isso não tem

play10:50

condição de vir a produção para casa

play10:52

elétrica agora não vai adiantar nada

play10:54

projeto que você tá fazendo tudo bem

play10:55

pode ser um projeto daqui a 10 15 anos

play10:57

mas agora ele quer resolver um problema

play11:00

e você tem que entender esse problema

play11:02

que ele quer resolver por isso é tão

play11:03

importante você saber o que eu quero

play11:05

responder tem também outros exemplos

play11:07

Esse é o que a gente poder por exemplo o

play11:08

gato da Alice a quando você não sabe o

play11:11

que o caminho que você quer qualquer

play11:12

caminho serve então saibam se você quer

play11:15

responder Oi gente do com negócio

play11:17

garanto que existe uma validade

play11:18

estatística e garanto que isso vai ser

play11:20

feito de forma escalável então uma base

play11:23

tecnológica muito forte e aí se você tá

play11:25

pensando Nossa mas não ciência de dados

play11:26

está muito longe de mim eu nunca vou

play11:28

usar isso eu não sei nem como que ela

play11:30

não interfere e uma coisa que tá sendo

play11:32

extremamente discutido atualmente

play11:34

exatamente o algoritmo do Instagram as

play11:36

pessoas ao nosso algoritmo está me

play11:38

boicotando o algoritmo funciona o

play11:40

algoritmo tá horrível e tudo isso é

play11:42

aprendizado de máquina o que que será

play11:44

que o algoritmo tá assim será que não é

play11:46

o Instagram que está querendo direcionar

play11:48

o seu conteúdo que dessa forma porque o

play11:50

que acontece o Instagram tem uma forma

play11:53

de determinar como algoritmo funciona e

play11:55

essa forma que determina que o algoritmo

play11:57

funciona consequentemente determina o

play11:59

conteúdo que os criadores produzem

play12:01

porque são goritmo entrega mais Rios os

play12:04

criadores vão produzir mais Rios porque

play12:06

entendem que essa é uma forma de

play12:07

conteúdo que funciona melhor na

play12:08

plataforma o algoritmo começa a reduzir

play12:11

entrega de rios começa a entregar mais

play12:13

históricos os influenciadores vão

play12:15

começar é mais história O que é todos

play12:18

eles querem aumentar o engajamento então

play12:20

Instagram consegue controlar até o que

play12:22

as pessoas estão produzindo para

play12:23

plataforma neste ano nessas informações

play12:25

do algoritmo Então tudo isso que você

play12:27

ganha no seu feed O Rios no explorar é o

play12:30

algoritmo do Instagram está te indicando

play12:32

e ele funciona o tempo real no momento

play12:35

que alguém faz com a publicação Ele

play12:36

termina será relevante ou não para você

play12:38

Em qual posição ela vai aparecer no seu

play12:40

feed não tão instagram' Netflix também

play12:43

faz isso para poder indicar qual vai ser

play12:45

melhor filme A melhor o melhor série

play12:47

para você e todos eles querem te manter

play12:49

mais tempo na plataforma porque o

play12:51

Instagram quando você fica mais tempo

play12:52

ele consegue te vender mais produtos

play12:54

consegue ter mais dados sobre você até

play12:56

para vender por exemplo a sua formação

play12:58

para outra empresa que querem mais KB

play13:00

dados do cliente ou que queira colocar

play13:02

uma propaganda no Instagram o Netflix já

play13:04

é um pouco diferente ele quer manter

play13:06

você na plataforma porque ele é um

play13:08

serviço de assinatura quanto mais você

play13:10

fica na plataforma Mas você sente que tá

play13:12

fazendo sentido aquele dinheiro e a

play13:14

menor chance de você sair aonde há

play13:16

outros exemplos muito maiores do uso de

play13:18

aprendizado de máquinas como por exemplo

play13:20

carros autônomos quando um carro

play13:22

autônomo começa a dirigir sozinho ele tá

play13:25

fazendo isso utilizando aprendizado de

play13:26

máquinas inclusive você tá ajudando o

play13:28

carros autônomos como por exemplo você

play13:30

marca a isso aqui é um sinal de trânsito

play13:32

Isso aqui é uma placa Isso é uma faixa

play13:34

de pedestre você tá ajudando carros

play13:37

autônomos aprender e Essa não é a

play13:39

primeira vez que você tá ajudando

play13:41

algoritmo de aprendizado de máquina

play13:42

aprenderem quando você tava escrevendo

play13:44

lá a qual palavra essa daqui a essa

play13:47

palavra que a banana essa palavra que

play13:49

era maçã isso o Google tava usando você

play13:52

para ajudar a traduzir textos traduzir

play13:54

livros antigos e que a palavra não tava

play13:56

de forma tão legível Então tudo isso é

play13:59

aprendizado de máquinas e a gente está

play14:01

inserido nele mais que a gente imagina e

play14:03

agora só pra gente realmente consolidar

play14:06

essa informação mostrar para vocês as

play14:07

principais fases eu vou te mostrar um

play14:09

passo a passo que a gente sempre pode

play14:11

seguir como boa prática projeto de

play14:13

aprendizado de máquinas e ciência de

play14:15

dados

play14:16

e a gente vai ver um exemplo prático de

play14:18

como organizar de máquina foi usado ou

play14:20

enorme empresa americana de venda de

play14:22

varejo Então vamos apresentar agora os

play14:24

principais passos que a gente deve

play14:26

seguir em um projeto de ciências de

play14:28

dados e só para dar base teórica que a

play14:30

gente usou para poder criar esse porque

play14:33

a gente vai apresentar para vocês a

play14:34

gente começou utilizando crisp DM que é

play14:37

o cross indústria estão nos próximos por

play14:39

data-main e que bastante gente utiliza

play14:41

esse de tapo também o processo de

play14:43

ciência de dados e e diz que basicamente

play14:45

um pros um projeto de data baile deve

play14:47

ter seis etapas fundamentais a primeira

play14:50

delas é o entendimento do negócio depois

play14:52

o entendimento dos dados a preparação

play14:54

dos dados análise e modelagem validação

play14:57

e a preparação e visualização da

play14:59

apresentação do que a gente vai entregar

play15:01

para o nosso cliente eu gosto de

play15:02

adicionar algumas etapas por mais que

play15:04

esse processo seja muito completo eu

play15:06

gosto de deixar muito claro algumas

play15:08

etapas Como por exemplo o entendimento

play15:10

do negócio separar em definir o problema

play15:12

então qual o problema você quer resolver

play15:15

e depois e as expectativas porque eu

play15:18

gosto de separar essas duas formas

play15:20

porque quando você tá definindo o

play15:21

problema é uma coisa muito mais interna

play15:24

que você tá entendendo o que tá

play15:25

acontecendo você tá entendendo o negócio

play15:27

depois que você entendeu sabe o problema

play15:30

que você tem sábado e como que funciona

play15:31

as coisas aí você vai alinhar

play15:33

expectativas Então você volta com o

play15:35

cliente fala óleo para esse problema eu

play15:38

espero um tempo de duas semanas de um

play15:40

mês de três meses 5 meses e aí a gente

play15:43

consegue aqui tem uma acurácia já estou

play15:45

tendo o centro uma curasse os 90 ou qual

play15:48

é o curasse que você espera essa cor

play15:50

acho que você espera a gente não

play15:51

consegue atingir então a quero uma

play15:53

coragem de 100 porcento Olha a gente não

play15:55

consegue atingir o meu coração que tem

play15:56

por cento mas Em contrapartida a gente

play15:58

pode chegar no meu coração de 89 95 96

play16:02

só que para essa curar 196 eu vou ter

play16:05

que ter um tempo um pouco maior Então em

play16:06

vez de três meses você quatro você tá

play16:08

disposto Então você é a linha ali com o

play16:11

cliente o que você vai entregar o que

play16:12

você pretende entregar e deixaram muito

play16:15

Claro não vai ser o único O que você vai

play16:16

fazer esse alinhamento mas é sempre

play16:18

importante que o cliente esteja ciente

play16:20

do que está acontecendo Eu até gosto de

play16:22

superior para mostrar para ele aí eu tô

play16:24

nessa etapa depois eu vou fazer isso

play16:26

depois eu espero fazer isso pode ser que

play16:28

eu volte Então até como forma de começar

play16:31

um projeto de centro de dados esse

play16:32

afirmou que eu tô mostrando aqui para

play16:34

vocês é bem útil então depois que você é

play16:37

linda ou expectativa aí sim você vai

play16:39

entender os seus dados quais dados você

play16:41

tem como esses dados estão e muitas

play16:43

vezes na parte definição do problema e

play16:46

já vai entender esse existem dados a uma

play16:47

desses dados estão como eles funcionam

play16:49

como que está estruturado mas agora que

play16:52

você animou expectativa e definir o

play16:54

problema aí sim você vai mergulhar no

play16:55

dado para verificar baixo vai verificar

play16:58

com qual frequência de atualização como

play17:00

esses dados estão lá esse dado aqui não

play17:02

tá atualizado cidade aqui tem muitos

play17:04

valores nulos E aí se necessário eu

play17:06

gosto de deixar você tava aqui de

play17:08

engenharia de dado que não

play17:09

necessariamente a gente que vai fazer

play17:11

isso mas muitas vezes a gente vai ter

play17:13

que ter as interface com o engenheiro de

play17:15

dados de falar é preciso demais dados eu

play17:17

preciso uma frequência atualização

play17:19

melhor eu preciso que esse tratamento

play17:21

seja feito então a gente vai ter essa

play17:23

interface EA muito importante a gente

play17:24

está ciente disso E aí depois que a

play17:27

gente fez isso aí sim a gente vai

play17:28

preparar os dados e o que que é preparar

play17:30

os dados é tornar os dados prontos para

play17:33

a gente colocar o nosso jupyter nosso

play17:35

arquivo que a gente está analisando

play17:36

Nossa arquivo que a gente vai começar

play17:38

ali a fazer o nosso projeto de ciência

play17:40

de dados E aí depois que a gente coloca

play17:43

esses dados importa coloca tudo aonde

play17:45

deve estar aí sim a gente passa a tratar

play17:48

de análise modelagem e Aqui começa uma

play17:50

das principais etapas do projeto que

play17:52

análises exploratórios agora você vai

play17:55

entender os seus dados seus dados estão

play17:57

jantar ficamos seu arquivo Júpiter Ane

play17:59

você vai começar a tratar ele começar a

play18:01

visualizar o que tem vai conversar com

play18:03

quem tem a correlação entre os dados

play18:04

como que funciona os dados 2 a 2 3 a 3 e

play18:08

tem dados vazios se tem dado informações

play18:10

faltantes se tem informações a gente tá

play18:13

discrepante demais que a gente chama de

play18:15

Out Live e você vai começar a entender

play18:17

agora até para você conseguir preparar

play18:19

também o tratamento que vai ser

play18:21

necessário então a por exemplo acho que

play18:23

nesse dado aqui eu vou ter que tirar os

play18:25

valores vazios e trocar aquela média

play18:27

nesses dados aqui faz mais sentido eu só

play18:30

eliminar todos os colonos que tem valor

play18:31

vazio porque a média não faz sentido

play18:33

Então você precisa entender os dados que

play18:36

são na sua base para conseguir garantir

play18:38

que vai ser um bom projeto de ciência de

play18:40

dados e depois que você entendeu Aí sim

play18:42

você vai tratar Então vamos supor a eu

play18:45

tenho que uma informação que não está

play18:47

fazendo muito sentido essa coluna aqui

play18:49

tá me atrapalhando eu posso tirar essa

play18:51

coluna ou a eu tenho uma coluna que é um

play18:53

valor diferente para cada para cada um

play18:55

já que faz sentido a manter porque isso

play18:57

não me ajuda em nada a fazer previsão

play18:59

tão tudo isso vocês tem que entender tem

play19:01

que estar muito bem claro na cabeça de

play19:03

vocês porque Somente depois de entender

play19:06

e tratar os dados a gente vai colocar as

play19:08

informações do modelo e Tem um ditado

play19:10

que eu gosto muito que é lixo entra lixo

play19:13

sai se você coloca na descrição sou

play19:15

modelo de nada mas é fazendo o quê

play19:17

entregar dados ruins para vocês então

play19:20

tomem cuidado e gasto muito tempo em

play19:22

geral a gente vai gastar setenta por

play19:23

cento do tempo nosso projeto nessas

play19:26

etapas aqui porque a parte de modelo a

play19:28

parte de depois apresentar não é tão

play19:30

demorada mas a parte de tratar o dado é

play19:32

muito demorada porque ela é muito

play19:34

importante e aí quando a gente fala

play19:36

dessa sequência de etapas como se fosse

play19:38

uma coisa linear Às vezes a gente vai

play19:40

precisar voltar com o por exemplar eu

play19:42

olhei na análise exploratória que eu

play19:44

achava que tinham dado mas eu não tenho

play19:45

então você pode entender melhor esse

play19:47

dado pode voltar a levar nossa Na

play19:49

verdade eu preciso de outro dado porque

play19:51

eu achei que essa coluna que era uma

play19:52

coisa e na verdade a outra Nossa Na

play19:55

verdade agora o que eu preciso não essa

play19:57

coluna é a coluna X é a coluna Y Então

play20:00

essa etapa aqui pode ser que você volte

play20:02

depois você vai de novo fazer análise

play20:04

exploratória depois você perceba que

play20:06

precisa de mais alguma coisa e isso

play20:08

também é muito importante alinhado com o

play20:09

cliente o que ele tem que entender que

play20:11

no tratamento de dados Pode ser que

play20:13

surja alguma coisa que você precisa e

play20:14

voltar um pouco e ah tá oi oi mas tudo

play20:17

bem não vai demorar o tempo que demorou

play20:19

essa primeira vez que você fez Então

play20:21

esse vai ser um pouco mais rápido mas

play20:23

isso acontece isso é normal no projeto

play20:25

de ciência de dados e se você não vai

play20:27

ganhar isso com cliente também ele pode

play20:29

achar que Nossa você tá perdendo tempo

play20:30

tá fazendo coisas necessário ou a você

play20:32

não sabia o que estava acontecendo Então

play20:34

deixa isso muito claro a linha

play20:36

expectativas porque agora você não teria

play20:38

problema nenhum se expectativas tivessem

play20:40

bem alinhadas e aí beleza garantiu que o

play20:43

tratamento Tá feito garantiu que tá tudo

play20:44

certo aí sim você vai colocar o dado no

play20:47

modelo e definir o melhor modelo quando

play20:50

a gente fala de destino melhor modelo

play20:51

não é só ficar colocando vários modelos

play20:53

é colocar os modelos que visem é

play20:55

analisar o erro é verificar se o erro tá

play20:58

acontecendo mesmo não só nos dados de

play21:00

treino mas não dados de teste

play21:01

verificasse os meus o meu modelo não só

play21:04

de cor ou aqueles dados meu modelo está

play21:06

sendo generalizado Ou seja que ele

play21:08

funciona os meus dados de tem mais

play21:09

funciona para qualquer outro dado porque

play21:11

basicamente a gente quer fazer é prever

play21:14

com os novos dados que vão entrar só que

play21:15

a gente com esses novos dados ir para

play21:18

garantir que vai funcionar nesse

play21:19

novidade a gente separa os dados para

play21:21

gente treinar o modelo os dados para

play21:23

gente testar e esse dado de teste é como

play21:25

se fosse novos dados entraram e ele e o

play21:28

modelo precisa funcionar também nesses

play21:30

dados Então beleza garante que o modelo

play21:32

funciona então tem os dados de treino

play21:34

quando nos dados de teste e aí sim eu

play21:37

faço essa validação o meu modelo

play21:39

funciona tá funcionando os áudio teste

play21:41

tá funcionando saúde teste não tem

play21:43

problema nenhum beleza aí a gente

play21:45

validou o modelo e o modelo tá pronto

play21:47

para ir para produção e antes de ir para

play21:49

produção claramente a gente vai

play21:51

apresentar esse modelo ele não sabe o

play21:53

nosso chefe de a a gente conseguiu gerar

play21:55

isso daqui esse aqui foi o resultado

play21:56

gerado Esse aqui foi a melhor em relação

play21:58

à Média a melhor em relação ao modelo

play22:01

que existe atualmente a empresa isso tá

play22:03

ok para vocês e aí nesse momento pode

play22:06

acontecer duas coisas ou ele fala que tá

play22:08

beleza perfeito funcionou então a gente

play22:11

pode implementar ou ele não tem algum

play22:13

problema eu preciso que você revise na

play22:15

ver e o Eric você conseguiu escrever a

play22:18

venda mas consegui escrever Qual o

play22:20

melhor item para enviar para loja e por

play22:22

isso o entendimento do negócio é tão

play22:24

importante que imagina você fazer todo

play22:26

esse processo chegar aqui no final de

play22:28

ver que não era aquilo que o cliente

play22:28

queria saber ou ver que o que ele te

play22:30

falou não era exatamente o que ele tinha

play22:32

na cabeça então deixa muito claro o que

play22:35

tá na cabeça do cliente no papel e de

play22:37

confirme com ele é isso aqui olha o meu

play22:40

modelo vai gerar isso daqui formalize

play22:43

isso nosso isso para ele porque depois

play22:45

você evita muito problemas com preservar

play22:46

mas eu perguntei isso mas na verdade eu

play22:49

queria saber outra coisa a você não

play22:51

gerou que eu tava esperando então deixe

play22:53

tudo muito alinhado porque esse final

play22:55

aqui você garante que beleza Vai dar

play22:57

tudo certo e você vai direto para a

play22:58

implementação e claro Aline durante o

play23:01

projeto olha outra gerando isso daqui é

play23:03

isso o que que você espera Olha lá na

play23:05

área exploratória eu consegui encontrar

play23:07

isso isso isso tá fazendo sentido com o

play23:09

negócio ou não pode ser algum problema

play23:11

no dado que se tiver problema não dá aí

play23:13

você vai precisar voltar lá né tapa de

play23:15

engenharia fazer os os pássaros E aí sim

play23:18

tratar com os dados corretos então

play23:20

garanto que você tava torcendo muito bem

play23:22

feita e depois que a gente implementou a

play23:24

gente vai fazer etapa de melhoria

play23:25

contínua e monitoramento e ajuste então

play23:29

nosso modelo ele pode funcionar

play23:31

perfeitamente caracterizado Mas vamos

play23:33

supor que a gente criou o modelo antes

play23:34

da anemia quando chega a pandemia os

play23:36

dados mudam completamente toda a

play23:38

situação Muda então você precisa

play23:40

continuar melhorando seu modelo e fazer

play23:42

essa melhoria contínua garante ficar

play23:45

agora com os dados a poder isso aqui

play23:47

muda isso aqui muda eu não posso mais

play23:49

vai dar uma base de cinco anos eu tenho

play23:51

que fazer a vontade de três meses porque

play23:52

o perfil da LTDA ME empresa mudou muito

play23:55

então garanto um sempre que o seu modelo

play23:57

está sendo melhorado tá sendo ajustado

play23:59

quando necessário e se for preciso se

play24:01

vocês estão fazendo as melhorias que

play24:03

vocês precisam fazer um modelo e eu

play24:05

gosto muito exatamente de mostrar esses

play24:07

Passos O que são passos que a gente pode

play24:09

seguir junto com o cliente olha agora eu

play24:11

vou definir um problema a gente vai

play24:13

passar por essas etapas aqui hora essa

play24:15

etapa e os dados e de engenharia talvez

play24:18

a gente precisa voltar quando eu tiver

play24:20

aqui fazendo tratamento E aí Vocês

play24:22

conseguem até mostrar para levar agora

play24:24

eu tenho preparação dos dados hora que

play24:26

eu tô encontrando Nossa eu terminei

play24:28

minha análise exploratória é um Marco

play24:30

aqui do projeto então quando eu terminar

play24:31

eu vou te apresentar o que eu encontrei

play24:33

porque muitas vezes as informações que a

play24:35

gente acha Na hora do Oratório tem um

play24:37

cliente sabia então aqui a gente já pode

play24:40

começar a Gerar valor para a empresa

play24:41

então a minha com ele mostra em tudo e

play24:45

usem essas etapas aqui até preguear em

play24:47

vocês também ah eu tô esquecendo de

play24:49

fazer alguma coisa a Será que eu deveria

play24:51

ter feito isso olha essa etapa aqui são

play24:54

máquina etapas que vão ser extremamente

play24:55

útil nos projetos de ciência de dados de

play24:58

vocês é isso só para a gente fechar de

play25:00

forma bem rápida eu vou dar um exemplo

play25:01

prático de como a ciência de dados foi

play25:03

usado e é um exemplo é exatamente do

play25:05

Walmart que ele tava vendo ali que tinha

play25:08

um furacão e ele queria prever o que que

play25:10

seria o melhor item para ele mandar para

play25:12

as lojas e um outro furacão que também

play25:14

estava se aproximando e como e é isso o

play25:17

Walmart já tinha dados guardados ele já

play25:20

tinha essa cultura de ciência de dados E

play25:23

aí com isso ele começou a pesquisar ali

play25:25

nos dados históricos dele em relação à

play25:27

último furacão que aconteceu qual seria

play25:30

o melhor item para mandar para loja e

play25:31

realmente itens de primeiros socorros

play25:33

claramente estavam sendo mais vendidos

play25:35

então isso ele já sabia porque não

play25:37

queria procurar nos dados é se tinha

play25:39

algum padrão que ele não conseguia

play25:41

perceber algum padrão escondido nos

play25:43

dados e ele encontrou exatamente uma

play25:45

sugestão de aumentar o estoque desse tem

play25:47

que desse pop-tarts o que que esse pop

play25:50

tá é basicamente um biscoitinho que você

play25:53

consegue colocar na torradeira consegue

play25:56

congelar consegue comer de várias formas

play25:57

e ele percebeu que no último furacão a

play26:00

procura por esse tipo aumentou muito

play26:02

então a sugestão dele foi a aumento

play26:06

estoque desse item e o que eles fizeram

play26:07

foi exatamente enviar caminhões para as

play26:10

lojas de se ele tem aqui que é o pop

play26:12

tart e qual foi o resultado um aumento

play26:15

de venda desses e Esse aumento não seria

play26:18

possível se eles não tivessem feito

play26:20

envios Exatamente porque não ter estoque

play26:22

E aí na verdade eles poderiam perceber

play26:25

que é um item de alta demanda com a

play26:27

ciência de dados e encontraram padrões

play26:29

que tava meio ocultos nos dados

play26:30

apontavam de forma tão Clara então Eles

play26:33

aceitaram esses padrões aceitaram a

play26:35

sugestão cientistas de dados fizeram

play26:37

Esse aumento de estoque e verificaram

play26:39

que realmente aconteceu que a ciência de

play26:41

dados prever e poderia não ter

play26:43

acontecido poderia ter aumentado em duas

play26:44

vezes a venda ou poderia nem ter

play26:46

aumentado só que a cultura de uma

play26:48

empresa que a data vivem que é muito

play26:50

voltada dados permite essa sugestões

play26:52

permite esse acertos e até novos erros e

play26:55

isso aqui é exatamente um ótimo exemplo

play26:57

de um projeto de ciência de dados e só

play26:59

para explicar para vocês isso foi feito

play27:00

em 2004 então Walmart já tá usando essa

play27:03

cultura do centro de dados há muitos

play27:06

anos a 20 anos atrás praticamente E é

play27:09

isso que está crescendo cada vez mais só

play27:11

que na verdade com empresas grandes

play27:13

empresas que estão tomando a liderança

play27:14

já usou isso é como um Marco Netflix

play27:17

Instagram e várias outras empresas que

play27:20

hoje a gente olha assim admira muito

play27:22

inclusive a Amazon em só para a gente

play27:24

fechar Olha como todas essas etapas de

play27:27

ciência de dados estão aqui a primeira

play27:29

entendimento do problema do negócio o

play27:31

que que ele queria entender ele queria

play27:32

saber de como aumentavam as vendas em

play27:34

relação a períodos pré furacão ele tinha

play27:37

um histórico de dados então existem

play27:39

dados que ele poder analisar Ele criou

play27:42

uma hipótese com os dados ali ele

play27:43

colocou a hipótese de que provavelmente

play27:45

esses em Pop tá não aumentar as vendas

play27:48

no próximo furacão e ele fez o teste

play27:50

então não foi só a isso aqui vai

play27:52

aumentar isso é um review mas eu não sei

play27:54

se isso realmente acontecer mas ele

play27:57

testou ele enviou esse tem para as lojas

play27:58

aumentou o estoque e ele validou isso

play28:01

então Teve um aumento real tiverem 7 por

play28:04

cento e a validação não quer dizer

play28:06

apenas que funcionou pode ser uma

play28:08

validação de cá essa hipótese é que deve

play28:11

ser descartada porque ela não funciona

play28:12

mas isso é testar isso o processo

play28:15

científico Eu não me importo de baseada

play28:17

nos seus dados você testou isso se

play28:19

realmente acontecer na prática e você é

play28:21

válida e pode ser humano para validação

play28:23

positiva que realmente aconteceu uma

play28:25

validação negativa e aí se for

play28:26

localização negativo Você vai procurando

play28:28

outros itens esse aqui é um exemplo que

play28:31

deu certo mas pode ser qual Marcos

play28:33

tentou outros itens entre outras

play28:35

situações e não deu certo esse aqui é só

play28:37

exemplo muito conhecido e a um exemplo

play28:39

Muito bom até para vocês conversarem com

play28:40

vocês tiverem fazer uma entrevista DH

play28:42

quando estiverem conversando com alguém

play28:44

ou quando entrar em uma empresa e ele

play28:45

pensou que não da nossa mas aonde foi

play28:47

usado ciência de dados Nossa tem um caso

play28:50

muito famoso então caso do mar porque é

play28:52

um caso também muito conhecido Inclusive

play28:54

eu comprei o pop está se estudar para

play28:56

ver para provar Exatamente isso daqui é

play28:57

um biscoitinho que vem no saquinho assim

play29:00

e aí você abre você pode comer tanto ele

play29:02

puro ponto colocar na geladeira

play29:04

Exatamente isso aqui o pop star para

play29:06

quem tem curiosidade você está dando

play29:07

para ver mas era isso então eu queria

play29:10

mostrar isso tudo para vocês para nós a

play29:11

importância da ciência de dados que como

play29:13

ela está extremamente presente o nosso

play29:15

dia a dia e também dá um pontapé inicial

play29:17

nesse processo de cientistas de dados de

play29:20

vocês Espero muito que tenha ajudado na

play29:22

próxima aula a gente vai falar sobre o

play29:24

pandas e a gente vai realmente começar a

play29:26

colocar a mão na massa Espero muito que

play29:29

vocês tenham gostado desse vídeo se você

play29:30

ainda não deixou a curtida deixa curtida

play29:32

segue a gente aqui se você ainda não

play29:34

segue compartilha esse vídeo com os

play29:35

amigos também e eu vou deixar aqui na

play29:37

tela algumas outras sugestões de vídeos

play29:38

sobre Ciência de dados e na próxima

play29:40

semana a gente traz mais conteúdos dessa

play29:43

playlist Beleza Espero muito que vocês

play29:45

tenham gostado tchau

Rate This

5.0 / 5 (0 votes)

Related Tags
Machine LearningData ScienceProject DevelopmentReal-world ApplicationsCiência de DadosAprendizado de MáquinasModel DeploymentBusiness AnalyticsStatistical AnalysisData Manipulation