Análise de dados - Gráfico de Dispersão

FM2S Educação e Consultoria
30 May 202210:04

Summary

TLDRThe transcript discusses the importance of understanding the association and correlation of variables in process improvement. It explains how analyzing quantitative data can help predict outcomes based on input variables. The speaker introduces various analytical tools such as scatter plots and regression analysis to examine relationships between variables. The summary also touches on the concepts of positive and negative correlations and the strength of these relationships, emphasizing their significance in enhancing business processes.

Takeaways

  • 📊 Understanding the quantitative aspect of business involves analyzing the association and correlation of variables to identify how changes in input variables impact output variables.
  • 🔍 The process of analyzing variables involves observing how altering a controllable variable (like force applied in a machine) affects the outcome (such as size of the product).
  • 📈 Data collection and observation are crucial for drawing meaningful conclusions. Each data point represents an observation (e.g., a processed item), and noting the input and output variables helps in understanding their relationship.
  • 🛠️ Tools like scatter plots can be used to visually represent the correlation between two variables, such as force applied and the resulting size of the product.
  • 📞 Linear and multiple regression analyses are sophisticated methods for understanding the relationship between variables, especially when dealing with large datasets and random variations.
  • 🎯 Regression analysis helps quantify the percentage of variation in the output variable that is explained by changes in the input variable.
  • 🤔 When the output variable is categorical, techniques like stratified histograms and logistic regression can be used to understand the influence of numerical variables (e.g., income) on categorical outcomes (e.g., credit card purchase).
  • 🔢 It's important to know the type of variable you're dealing with (numerical or categorical) to select the appropriate correlation technique.
  • 🔍 Correlation can be positive (both variables increase together) or negative (one increases while the other decreases), and the strength of the correlation indicates how well one variable predicts the other.
  • 📝 The script also mentions advanced statistical tests for further analysis, which can be explored in-depth at higher levels of study, such as Green Belt and beyond.
  • 🚀 The power of simple tools like scatter plots lies in their ability to help quantify changes and correlations, providing valuable insights for improvement projects.

Q & A

  • What is the main focus of the script?

    -The main focus of the script is to discuss the association and correlation of variables, which is the quantitative part of business processes, and how understanding these relationships can lead to improvements.

  • Why is it important to understand the correlation between variables in a process?

    -Understanding the correlation between variables is important because it helps to identify how changes in input variables impact the output variables, allowing for better control and optimization of the process.

  • What is an example of a variable of interest in the script?

    -An example of a variable of interest in the script is the size of the 'taruguinho' (small grill), which is measured in a process and is impacted by the force applied to the machine.

  • How does the script illustrate the relationship between force and size?

    -The script illustrates the relationship between force and size by showing that as the force applied to the machine increases, the size of the 'taruguinho' also increases, indicating a positive correlation.

  • What is the role of a scatter plot in analyzing the correlation between two variables?

    -A scatter plot is used to visually represent the relationship between two variables, showing how one variable changes in relation to the other, which can help in identifying patterns such as positive or negative correlations.

  • What is linear regression analysis mentioned in the script?

    -Linear regression analysis is a statistical method used to model the relationship between a dependent variable (Y) and one or more independent variables (X), helping to understand and predict the behavior of the dependent variable based on the independent variables.

  • How does the script differentiate between numerical and categorical variables?

    -The script differentiates between numerical and categorical variables by stating that numerical variables are those that can take on a range of values (like force or income), while categorical variables have distinct categories (like whether or not someone has a credit card or bought a product).

  • What is logistic regression mentioned in the script, and how is it used?

    -Logistic regression is a statistical method used for binary outcomes (categorical variables with two categories). It estimates the probability of the outcome based on the input variables and creates a binary curve to show the relationship between the independent variable and the probability of the dependent variable.

  • How can the script's discussion on correlation be applied to real-world scenarios?

    -The discussion on correlation can be applied to real-world scenarios by analyzing various factors that impact a certain outcome, such as understanding how machine settings affect product quality or how individual characteristics influence consumer behavior.

  • What is the significance of positive and negative correlations as explained in the script?

    -Positive correlation means that as one variable increases, the other also increases, while negative correlation means that as one variable increases, the other decreases. Understanding these relationships helps in predicting outcomes and making informed decisions.

  • How does the script emphasize the importance of correlation analysis in process improvement projects?

    -The script emphasizes that correlation analysis is crucial in process improvement projects as it helps to identify which factors have the most significant impact on the outcomes, allowing for targeted interventions and more effective use of resources.

Outlines

00:00

📊 Introduction to Variable Association and Correlation

This paragraph introduces the concept of variable association and correlation, which is the quantitative aspect of understanding business processes. It emphasizes the importance of understanding how changes in one variable can impact another. The speaker uses the example of a process, such as producing a product on a machine, and explains how measuring the input variables (like the force applied to the machine) can help predict the output variable (the size of the product). The speaker also discusses the practical aspect of collecting data and using it to draw conclusions about the relationship between variables.

05:00

📈 Methods for Analyzing Variable Relationships

In this paragraph, the speaker delves into different methods for analyzing the relationship between variables. It discusses the use of various statistical tools depending on the type of variables being analyzed, such as numerical or categorical. The speaker provides examples of how to use these tools, like scatter plots and regression analysis, to understand the correlation between variables. The paragraph also touches on the concept of predictive power, explaining how one can forecast outcomes based on input variables. Additionally, it mentions more advanced statistical tests for further analysis.

Mindmap

Keywords

💡Qualitative Analysis

Qualitative analysis refers to the method of understanding and interpreting non-numerical data, such as words, images, and observations. In the context of the video, it is mentioned as a part of the business process that focuses on improving qualitative aspects of the process. The speaker transitions from qualitative to quantitative analysis, emphasizing the importance of understanding variables and their relationships in process improvement.

💡Quantitative Analysis

Quantitative analysis involves the use of numerical data to analyze a problem or a process. It is the focus of the video, where the speaker explains the importance of understanding the correlation and association between variables to make improvements in the business process. This type of analysis helps in making informed decisions based on data-driven insights.

💡Variables

In the context of the video, variables are the factors or elements that can be manipulated or measured in a process. Understanding how changes in one variable (input) affect another (output) is crucial for process improvement. Variables can be numerical or categorical, and their relationship can be explored through various statistical methods.

💡Correlation

Correlation is a statistical term that describes the degree and direction of a relationship between two variables. It helps in understanding whether changes in one variable are associated with changes in another. In the video, the speaker emphasizes the importance of correlation in analyzing the impact of process variables on the output.

💡Scatter Plot

A scatter plot is a graphical representation used to display the values of two variables for a set of data. It shows the relationship between two numerical variables, allowing for the visualization of patterns, trends, or outliers. In the video, the speaker mentions using a scatter plot to analyze the relationship between force and size in a production process.

💡Regression Analysis

Regression analysis is a statistical method used to examine the relationship between variables. It helps in understanding how the variation in one variable can be explained by other variables. In the video, the speaker refers to regression analysis as a technique to understand and predict the behavior of variables, especially when dealing with large datasets and random variations.

💡Categorical Variables

Categorical variables are data types that represent distinct categories or groups. Unlike numerical variables, they do not have a numerical value and are often used to represent text or labels. In the video, the speaker discusses the analysis of categorical variables, such as whether a person has a credit card or not, in relation to another variable, like income.

💡Numerical Variables

Numerical variables are those that can take on a range of numerical values. They are often used in statistical analysis to quantify data and identify patterns or relationships. In the video, the speaker explains how numerical variables, such as force applied to a machine or a person's income, can be analyzed to understand their impact on other variables.

💡Process Improvement

Process improvement refers to the systematic approach of enhancing the efficiency and effectiveness of a process or a set of processes within an organization. It involves identifying areas of weakness, analyzing data, and implementing changes to increase productivity and quality. In the video, the speaker discusses the importance of understanding the correlation and association between variables as a key part of process improvement.

💡Data Collection

Data collection is the process of gathering information and data points for analysis. It is a critical step in any quantitative analysis as it provides the raw material for identifying patterns, relationships, and trends. In the video, the speaker mentions collecting data on variables such as force and size in a production process, which is essential for subsequent analysis and improvement.

💡Regression Curve

A regression curve is a graphical representation of the relationship between a dependent variable and one or more independent variables in regression analysis. It helps visualize the predicted values of the dependent variable based on the values of the independent variables. In the video, the speaker refers to the regression curve in the context of logistic regression, which is used to model the probability of a categorical outcome.

Highlights

The importance of understanding the association and correlation of variables in qualitative and quantitative business processes.

The concept of variables and how changes in one variable can impact another within a process.

The example of how the force applied in a press affects the size of a product, illustrating the relationship between input and output variables.

The practical application of collecting data and observing the relationship between each input and output in a database.

The selection of analytical tools based on the type of variables and their characteristics.

The use of scatter plots to visually represent the correlation between two variables.

The explanation of linear and multiple regression analysis for large databases with random variations.

The capability of regression analysis to measure the percentage of variation explained by the independent variable.

The use of stratified histograms and logistic regression for numeric versus categorical variable analysis.

The creation of a binary curve in logistic regression to predict probabilities based on variable values.

The discussion of hypothesis testing for categorical variables and its relevance in the Green Belt level.

The demonstration of how a simple scatter plot can help quantify changes and correlations in data.

The explanation of positive and negative correlations and how they affect the strength of the relationship between variables.

The use of color stratification in scatter plots to compare correlations across different groups or machines.

The impact of project delay on satisfaction levels, showing the practical application of correlation in project management.

The promise of teaching how to create scatter plots and their powerful technique in the next session.

Transcripts

play00:00

Olá pessoal então agora que a gente já

play00:02

viu aqui no nosso análise várias

play00:04

ferramentas para nós ele qualitativa né

play00:07

dos nossos processos e na busca pelas

play00:09

mudanças agora a gente vai falar um

play00:11

pouquinho sobre a associação e

play00:13

correlação de variáveis que é a parte

play00:15

quantitativa do negócio né então quê que

play00:18

é isso daqui por quê que isso é

play00:20

importante entre as melhorias bom a

play00:23

ideia simples e Fundamental a dessa

play00:26

abordagem é nós usarmos as variáveis e

play00:30

entender como que quando eu mexo em uma

play00:32

variável afeto trabalhável basicamente a

play00:35

gente tem entender como que uma série de

play00:37

variáveis de entrada né o impulso de

play00:39

entrada de um processo impacto em uma

play00:41

variável de saída por exemplo supomos

play00:44

que esse processo seja produzir alguma

play00:46

coisa numa máquina o taruguinho lá do

play00:49

churrasco esteja medindo o tamanho

play00:51

daquele taruguinho na e daí eu posso ver

play00:53

por exemplo a força que eu aplico na

play00:55

máquina por uma prensa Qual que é o

play00:57

impacto da força no tamanho né então a

play01:00

gente você pode ver tanta variação o

play01:02

tamanho quando pode ver o tamanho mesmo

play01:05

lá a gente pode também ver qual que é a

play01:07

influência da temperatura Ltda prensa é

play01:10

na saída que são todos os dados que são

play01:13

todas é fatores ali observava então na

play01:16

prática eu consigo na coletar esses

play01:20

dados em desenhar esses dados no banco

play01:22

de dados então eu vou lá e coloco lá

play01:24

Nossa vou fazer vários carrinhos

play01:27

observar cada linha é um taruguinho e

play01:30

observo qual que era a força que eu

play01:32

tinha né que eu coloquei e qual foi o

play01:35

tamanho resultante do processamento ali

play01:38

naquela força lá então a gente faz é

play01:41

isso aí nessa maneira tá então a gente

play01:43

sabe é então é justamente isso que a

play01:46

gente coloca ali né Então como que a

play01:48

gente faz isso né eu vou ter que

play01:50

escolher uma das várias ferramentas de

play01:54

análise que a gente tem e para eu saber

play01:56

qual ferramenta que eu vou analisar eu

play01:58

tenho que basicamente saber a a a minha

play02:01

variável é por exemplo o tamanho aqui

play02:04

ela é uma variável y a variável x Não é

play02:08

só para gente ir lá ver com a convenção

play02:10

aqui todos que falar Y é a variável de

play02:12

resposta verdade que eu quero comprar lá

play02:14

em toda vez que eu falar X é aquela

play02:16

variável que eu tô tentando né top Y

play02:19

variáveis de saída coisa comportamento

play02:21

Eu quero explicar Ele tem um modelo para

play02:23

entender e variável x são variáveis de

play02:25

processo de entrada candidatas a

play02:28

explicar o comportamento daquela minha

play02:29

variável resposta né então tem que saber

play02:32

se a y a chance e eu tenho que saber o

play02:34

tipo daquela variadas tramou variável

play02:36

numérica ou se ela é uma variável

play02:38

categórica se eu sei disso eu posso

play02:41

selecionar uma técnicas de correlação né

play02:44

a gente tem aqui muitas técnicas e com

play02:47

relação né Vocês ficam Ele trabalha

play02:49

muito forte essas técnicas de correlação

play02:51

mas ele trabalha isso a partir do nível

play02:53

do Green Belt e depois muito errado lá

play02:56

já no nível do BlackBerry né mas

play02:58

basicamente eu tenho uma a chave x

play03:01

numérica contra o mar Y numérica eu vou

play03:04

né então por exemplo assim a força é

play03:07

numérico Então olha força sem aqui força

play03:10

120 força 130 por cento e quarenta e daí

play03:15

eu tô medindo o tamanho faz aqui três e

play03:17

dez vezes aqui teve 12 tamanho daqui

play03:20

deve 13 daqui teve 14 Nossa então eu vou

play03:23

correlacionar os dois e a ferramenta

play03:25

mais simples para fazer isso eu gráfico

play03:27

de dispersão né então gráfico de

play03:30

dispersão posso vir aqui né Eu

play03:32

simplesmente pronto olha aqui o tamanho

play03:35

e aqui é a força então força quando ela

play03:38

é sem então o tamanho ele é 10 força

play03:41

quando ela é 120 tamanho 12 assim eu

play03:45

tenho né um gráfico né que vai mostrar

play03:47

para mim né Essa correlação entre é a

play03:51

força e o tamanho nesse caso conforme o

play03:54

aumentando a força vou aumentando também

play03:56

o tamanho ali do meu Carolyn também é o

play04:00

ensinar essa análise né usando por

play04:02

exemplo uma análise de regressão linear

play04:04

uma análise de regressão múltipla essa

play04:07

análise de regressão ela vai sofisticar

play04:09

a nossa medida geralmente a gente usa

play04:12

isso quando eu tenho um banco de dados

play04:13

muito grande e eu tenho também variação

play04:16

aleatória dentro do meu horário de sair

play04:18

ou seja né ai eu fiz um franguinho com

play04:21

força sem deu 10 eu fiz outro dia com

play04:23

força sem deu 11 eu fiz outro com força

play04:26

sem de 19 Eu fiz 8 com força sem e deu

play04:30

9,8 Ou seja eu não tenho exatamente o

play04:33

número eu tenho uma variação aqui

play04:36

análise de regressão ela consegue também

play04:39

ver pô Quantos por cento dessa variação

play04:42

que eu tô tendo aqui é responsável pela

play04:45

mudança DF né Ou seja a quanto de essa

play04:49

eu tô mudando que vai em paz Cala a

play04:51

navegação ou até indo mas a frente como

play04:53

a gente viu lá no Case é do ano que a

play04:56

gente deu lá de exemplo no começo do

play04:58

curso

play05:00

o quanto que eu consigo explicar disso é

play05:02

o quanto que eu consigo prever dado uma

play05:05

entrada né Essa saída esse daqui é

play05:08

quando a gente tem numérico conta no

play05:09

médico quando eu tenho um X numérico

play05:11

contra um Y categórico por exemplo Será

play05:14

que a renda de uma pessoa isso é uma

play05:17

variável numérica

play05:18

interfere nela ter ou não ter um cartão

play05:21

de crédito o dela comprar não comprar no

play05:23

cartão de crédito dela comprar não

play05:24

comprar no meu produto Isso é uma

play05:27

variável Y categórico a saída é comprou

play05:30

não comprou ela é sim não né eu posso

play05:33

usar o histograma estratificado onde

play05:35

olha as pessoas que compraram tem uma

play05:37

renda maior do que se não comprar já viu

play05:40

logo esse programa e até vimos já

play05:41

exemplo dessa correlação o apóstolo

play05:44

visitar uma regressão logística né a

play05:47

regressão logística ela cria uma curva

play05:51

né que a gente chama de curva binária

play05:54

onde eu tenho aqui a minha variável que

play05:57

no caso vai ser a renda eu tenho os dois

play06:00

e ver 10 é não tem um cartão de crédito

play06:02

e um até um cartão de crédito vai pegar

play06:04

lá pessoas com renda até mil de mil

play06:07

reais tem gente que teve tem gente que

play06:10

não teve então ele vai ter lá o modelo

play06:12

né ele coloca uma curva de probabilidade

play06:16

né então aqui a gente colocar dentro

play06:18

diferente olha uma pessoa que ganha r$

play06:20

3000

play06:22

a probabilidade é de setenta por cento

play06:25

né Foi isso que a regressão logística

play06:27

faz a mesma coisa então é she's no Mere

play06:30

contra a impressão que até agora quando

play06:32

eu tenho yx categórico contribuição no

play06:35

médico de maneira simples eu posso usar

play06:37

esse programa e de maneira avançada a

play06:39

gente tem os testes de hipóteses e a

play06:41

nova tá você fala bastante disso no

play06:43

Green Belt Só se você quiser saber mais

play06:45

surgiram a seguir lá procure se lembrar

play06:47

da gente vai aprender ferramenta bem

play06:49

assunto eu esses categórico compromisso

play06:52

não até agora também a gente pode fazer

play06:54

testes e Postos avançados ou

play06:56

simplesmente um parede certificado como

play06:58

a gente já viu um grave é classificado

play07:01

como também a gente já viu tudo bem

play07:05

aqui nesse curso a gente vai dar um

play07:07

pouquinho de enfoque e mostrar como

play07:09

mesmo simples gráfico de dispersão pode

play07:12

ajudar a gente a quantificar esses

play07:13

mudança então é o gráfico dispersão é

play07:15

aquilo lá que eu já falei ele vai

play07:17

simplesmente o relacionar as observações

play07:20

né então aqui nesse caso eu tenho um

play07:23

banco de dados onde observei várias

play07:25

pessoas medir a altura e medir o peso

play07:27

Leite conforme a altura vai aumentando o

play07:30

peso também tende a aumentar a ele vai

play07:33

mostrar essa correlação certo um gráfico

play07:36

de dispersão ele pode dar um resultado é

play07:39

onde eu vejo que não tem correlação né

play07:42

Então olha Nossa essas duas variáveis

play07:44

uma que tá aqui a outra que tá aqui não

play07:46

tem correlação nenhuma então nós ó eu

play07:48

tenho uma pessoa que tem o x muito baixo

play07:50

é ele pessoa muito baixo eu tenho uma

play07:53

pessoa que tem um X muito baixo e pessoa

play07:55

muito ao assim como eu tenho gente que

play07:57

tem Oxe salto e eu são baixo e os X Olá

play08:00

pessoal né Eu não tenho ali um

play08:03

comportamento padrão Eu posso também a

play08:06

correlação EA gente vê duas coisas com

play08:08

relação primeiro ou sentido né a gente

play08:11

chama de correlação positiva quando eu

play08:14

aumento a variável x EA Y Aumenta também

play08:18

e negativa que é quando o aumento x eu

play08:21

diminuo a minha variáveis sexo eu posso

play08:25

ver a força da minha regressão da minha

play08:28

correlação então quanto mais dispersos

play08:31

os dados maior a variação em Y explicada

play08:35

por x na toalha a aqui ó se eu tivesse

play08:39

estado aqui olha a incerteza que eu

play08:40

tenho esse do valor disso daqui é fraco

play08:42

e é menor que tem certeza que eu tenho

play08:44

esse outro Passos né eu posso ter fraca

play08:47

positivo e fraca negativo é isso o

play08:49

sentido e a força da nossa correlação

play08:53

correta também aqui alguns exemplos para

play08:55

mostrar como a gente entende né primeiro

play08:57

gráfico é um gráfico que está

play09:00

e eu fiz vários projetos cada projeto

play09:02

observei os dias de atrás né seu atraso

play09:06

negativo significa que eu entreguei o

play09:08

projeto antes do prazo e o índice de

play09:10

satisfação que a nota dada pelo tem

play09:12

história conforme o atrasando a minha

play09:15

satisfação vai caindo e tem também esse

play09:18

outro exemplo o que é de uma máquina

play09:20

então conforme do a pressão a espessura

play09:23

da peça produzida muda eu posso até

play09:25

estratificar Norte em vermelho eu tenho

play09:29

aqui os pontos da máquina a em laranja

play09:31

eu tenho os pontos na máquina b então

play09:33

nós para o vermelho tem uma correlação e

play09:35

o a máquina B tem outra com relação

play09:38

certo então também tem que saber se a

play09:40

variável para conseguir analisar

play09:42

Prefeito tem outras correlações outros

play09:45

exemplos aí que eu coloquei eh mil

play09:48

também vou na próxima aula sentar com

play09:50

vocês ensinar tanto fazer o gráfico

play09:53

quanto mostrar aí o poder desta técnica

play09:55

em projetos de melhoria tudo bem até a

play09:57

próxima

Rate This

5.0 / 5 (0 votes)

Related Tags
Variable CorrelationProcess ImprovementQualitative AnalysisQuantitative MethodsData InterpretationRegression AnalysisMachine LearningProject ManagementContinuous ImprovementStatistical Tools