Análise de dados - Gráfico de Dispersão
Summary
TLDRThe transcript discusses the importance of understanding the association and correlation of variables in process improvement. It explains how analyzing quantitative data can help predict outcomes based on input variables. The speaker introduces various analytical tools such as scatter plots and regression analysis to examine relationships between variables. The summary also touches on the concepts of positive and negative correlations and the strength of these relationships, emphasizing their significance in enhancing business processes.
Takeaways
- 📊 Understanding the quantitative aspect of business involves analyzing the association and correlation of variables to identify how changes in input variables impact output variables.
- 🔍 The process of analyzing variables involves observing how altering a controllable variable (like force applied in a machine) affects the outcome (such as size of the product).
- 📈 Data collection and observation are crucial for drawing meaningful conclusions. Each data point represents an observation (e.g., a processed item), and noting the input and output variables helps in understanding their relationship.
- 🛠️ Tools like scatter plots can be used to visually represent the correlation between two variables, such as force applied and the resulting size of the product.
- 📞 Linear and multiple regression analyses are sophisticated methods for understanding the relationship between variables, especially when dealing with large datasets and random variations.
- 🎯 Regression analysis helps quantify the percentage of variation in the output variable that is explained by changes in the input variable.
- 🤔 When the output variable is categorical, techniques like stratified histograms and logistic regression can be used to understand the influence of numerical variables (e.g., income) on categorical outcomes (e.g., credit card purchase).
- 🔢 It's important to know the type of variable you're dealing with (numerical or categorical) to select the appropriate correlation technique.
- 🔍 Correlation can be positive (both variables increase together) or negative (one increases while the other decreases), and the strength of the correlation indicates how well one variable predicts the other.
- 📝 The script also mentions advanced statistical tests for further analysis, which can be explored in-depth at higher levels of study, such as Green Belt and beyond.
- 🚀 The power of simple tools like scatter plots lies in their ability to help quantify changes and correlations, providing valuable insights for improvement projects.
Q & A
What is the main focus of the script?
-The main focus of the script is to discuss the association and correlation of variables, which is the quantitative part of business processes, and how understanding these relationships can lead to improvements.
Why is it important to understand the correlation between variables in a process?
-Understanding the correlation between variables is important because it helps to identify how changes in input variables impact the output variables, allowing for better control and optimization of the process.
What is an example of a variable of interest in the script?
-An example of a variable of interest in the script is the size of the 'taruguinho' (small grill), which is measured in a process and is impacted by the force applied to the machine.
How does the script illustrate the relationship between force and size?
-The script illustrates the relationship between force and size by showing that as the force applied to the machine increases, the size of the 'taruguinho' also increases, indicating a positive correlation.
What is the role of a scatter plot in analyzing the correlation between two variables?
-A scatter plot is used to visually represent the relationship between two variables, showing how one variable changes in relation to the other, which can help in identifying patterns such as positive or negative correlations.
What is linear regression analysis mentioned in the script?
-Linear regression analysis is a statistical method used to model the relationship between a dependent variable (Y) and one or more independent variables (X), helping to understand and predict the behavior of the dependent variable based on the independent variables.
How does the script differentiate between numerical and categorical variables?
-The script differentiates between numerical and categorical variables by stating that numerical variables are those that can take on a range of values (like force or income), while categorical variables have distinct categories (like whether or not someone has a credit card or bought a product).
What is logistic regression mentioned in the script, and how is it used?
-Logistic regression is a statistical method used for binary outcomes (categorical variables with two categories). It estimates the probability of the outcome based on the input variables and creates a binary curve to show the relationship between the independent variable and the probability of the dependent variable.
How can the script's discussion on correlation be applied to real-world scenarios?
-The discussion on correlation can be applied to real-world scenarios by analyzing various factors that impact a certain outcome, such as understanding how machine settings affect product quality or how individual characteristics influence consumer behavior.
What is the significance of positive and negative correlations as explained in the script?
-Positive correlation means that as one variable increases, the other also increases, while negative correlation means that as one variable increases, the other decreases. Understanding these relationships helps in predicting outcomes and making informed decisions.
How does the script emphasize the importance of correlation analysis in process improvement projects?
-The script emphasizes that correlation analysis is crucial in process improvement projects as it helps to identify which factors have the most significant impact on the outcomes, allowing for targeted interventions and more effective use of resources.
Outlines
📊 Introduction to Variable Association and Correlation
This paragraph introduces the concept of variable association and correlation, which is the quantitative aspect of understanding business processes. It emphasizes the importance of understanding how changes in one variable can impact another. The speaker uses the example of a process, such as producing a product on a machine, and explains how measuring the input variables (like the force applied to the machine) can help predict the output variable (the size of the product). The speaker also discusses the practical aspect of collecting data and using it to draw conclusions about the relationship between variables.
📈 Methods for Analyzing Variable Relationships
In this paragraph, the speaker delves into different methods for analyzing the relationship between variables. It discusses the use of various statistical tools depending on the type of variables being analyzed, such as numerical or categorical. The speaker provides examples of how to use these tools, like scatter plots and regression analysis, to understand the correlation between variables. The paragraph also touches on the concept of predictive power, explaining how one can forecast outcomes based on input variables. Additionally, it mentions more advanced statistical tests for further analysis.
Mindmap
Keywords
💡Qualitative Analysis
💡Quantitative Analysis
💡Variables
💡Correlation
💡Scatter Plot
💡Regression Analysis
💡Categorical Variables
💡Numerical Variables
💡Process Improvement
💡Data Collection
💡Regression Curve
Highlights
The importance of understanding the association and correlation of variables in qualitative and quantitative business processes.
The concept of variables and how changes in one variable can impact another within a process.
The example of how the force applied in a press affects the size of a product, illustrating the relationship between input and output variables.
The practical application of collecting data and observing the relationship between each input and output in a database.
The selection of analytical tools based on the type of variables and their characteristics.
The use of scatter plots to visually represent the correlation between two variables.
The explanation of linear and multiple regression analysis for large databases with random variations.
The capability of regression analysis to measure the percentage of variation explained by the independent variable.
The use of stratified histograms and logistic regression for numeric versus categorical variable analysis.
The creation of a binary curve in logistic regression to predict probabilities based on variable values.
The discussion of hypothesis testing for categorical variables and its relevance in the Green Belt level.
The demonstration of how a simple scatter plot can help quantify changes and correlations in data.
The explanation of positive and negative correlations and how they affect the strength of the relationship between variables.
The use of color stratification in scatter plots to compare correlations across different groups or machines.
The impact of project delay on satisfaction levels, showing the practical application of correlation in project management.
The promise of teaching how to create scatter plots and their powerful technique in the next session.
Transcripts
Olá pessoal então agora que a gente já
viu aqui no nosso análise várias
ferramentas para nós ele qualitativa né
dos nossos processos e na busca pelas
mudanças agora a gente vai falar um
pouquinho sobre a associação e
correlação de variáveis que é a parte
quantitativa do negócio né então quê que
é isso daqui por quê que isso é
importante entre as melhorias bom a
ideia simples e Fundamental a dessa
abordagem é nós usarmos as variáveis e
entender como que quando eu mexo em uma
variável afeto trabalhável basicamente a
gente tem entender como que uma série de
variáveis de entrada né o impulso de
entrada de um processo impacto em uma
variável de saída por exemplo supomos
que esse processo seja produzir alguma
coisa numa máquina o taruguinho lá do
churrasco esteja medindo o tamanho
daquele taruguinho na e daí eu posso ver
por exemplo a força que eu aplico na
máquina por uma prensa Qual que é o
impacto da força no tamanho né então a
gente você pode ver tanta variação o
tamanho quando pode ver o tamanho mesmo
lá a gente pode também ver qual que é a
influência da temperatura Ltda prensa é
na saída que são todos os dados que são
todas é fatores ali observava então na
prática eu consigo na coletar esses
dados em desenhar esses dados no banco
de dados então eu vou lá e coloco lá
Nossa vou fazer vários carrinhos
observar cada linha é um taruguinho e
observo qual que era a força que eu
tinha né que eu coloquei e qual foi o
tamanho resultante do processamento ali
naquela força lá então a gente faz é
isso aí nessa maneira tá então a gente
sabe é então é justamente isso que a
gente coloca ali né Então como que a
gente faz isso né eu vou ter que
escolher uma das várias ferramentas de
análise que a gente tem e para eu saber
qual ferramenta que eu vou analisar eu
tenho que basicamente saber a a a minha
variável é por exemplo o tamanho aqui
ela é uma variável y a variável x Não é
só para gente ir lá ver com a convenção
aqui todos que falar Y é a variável de
resposta verdade que eu quero comprar lá
em toda vez que eu falar X é aquela
variável que eu tô tentando né top Y
variáveis de saída coisa comportamento
Eu quero explicar Ele tem um modelo para
entender e variável x são variáveis de
processo de entrada candidatas a
explicar o comportamento daquela minha
variável resposta né então tem que saber
se a y a chance e eu tenho que saber o
tipo daquela variadas tramou variável
numérica ou se ela é uma variável
categórica se eu sei disso eu posso
selecionar uma técnicas de correlação né
a gente tem aqui muitas técnicas e com
relação né Vocês ficam Ele trabalha
muito forte essas técnicas de correlação
mas ele trabalha isso a partir do nível
do Green Belt e depois muito errado lá
já no nível do BlackBerry né mas
basicamente eu tenho uma a chave x
numérica contra o mar Y numérica eu vou
né então por exemplo assim a força é
numérico Então olha força sem aqui força
120 força 130 por cento e quarenta e daí
eu tô medindo o tamanho faz aqui três e
dez vezes aqui teve 12 tamanho daqui
deve 13 daqui teve 14 Nossa então eu vou
correlacionar os dois e a ferramenta
mais simples para fazer isso eu gráfico
de dispersão né então gráfico de
dispersão posso vir aqui né Eu
simplesmente pronto olha aqui o tamanho
e aqui é a força então força quando ela
é sem então o tamanho ele é 10 força
quando ela é 120 tamanho 12 assim eu
tenho né um gráfico né que vai mostrar
para mim né Essa correlação entre é a
força e o tamanho nesse caso conforme o
aumentando a força vou aumentando também
o tamanho ali do meu Carolyn também é o
ensinar essa análise né usando por
exemplo uma análise de regressão linear
uma análise de regressão múltipla essa
análise de regressão ela vai sofisticar
a nossa medida geralmente a gente usa
isso quando eu tenho um banco de dados
muito grande e eu tenho também variação
aleatória dentro do meu horário de sair
ou seja né ai eu fiz um franguinho com
força sem deu 10 eu fiz outro dia com
força sem deu 11 eu fiz outro com força
sem de 19 Eu fiz 8 com força sem e deu
9,8 Ou seja eu não tenho exatamente o
número eu tenho uma variação aqui
análise de regressão ela consegue também
ver pô Quantos por cento dessa variação
que eu tô tendo aqui é responsável pela
mudança DF né Ou seja a quanto de essa
eu tô mudando que vai em paz Cala a
navegação ou até indo mas a frente como
a gente viu lá no Case é do ano que a
gente deu lá de exemplo no começo do
curso
o quanto que eu consigo explicar disso é
o quanto que eu consigo prever dado uma
entrada né Essa saída esse daqui é
quando a gente tem numérico conta no
médico quando eu tenho um X numérico
contra um Y categórico por exemplo Será
que a renda de uma pessoa isso é uma
variável numérica
interfere nela ter ou não ter um cartão
de crédito o dela comprar não comprar no
cartão de crédito dela comprar não
comprar no meu produto Isso é uma
variável Y categórico a saída é comprou
não comprou ela é sim não né eu posso
usar o histograma estratificado onde
olha as pessoas que compraram tem uma
renda maior do que se não comprar já viu
logo esse programa e até vimos já
exemplo dessa correlação o apóstolo
visitar uma regressão logística né a
regressão logística ela cria uma curva
né que a gente chama de curva binária
onde eu tenho aqui a minha variável que
no caso vai ser a renda eu tenho os dois
e ver 10 é não tem um cartão de crédito
e um até um cartão de crédito vai pegar
lá pessoas com renda até mil de mil
reais tem gente que teve tem gente que
não teve então ele vai ter lá o modelo
né ele coloca uma curva de probabilidade
né então aqui a gente colocar dentro
diferente olha uma pessoa que ganha r$
3000
a probabilidade é de setenta por cento
né Foi isso que a regressão logística
faz a mesma coisa então é she's no Mere
contra a impressão que até agora quando
eu tenho yx categórico contribuição no
médico de maneira simples eu posso usar
esse programa e de maneira avançada a
gente tem os testes de hipóteses e a
nova tá você fala bastante disso no
Green Belt Só se você quiser saber mais
surgiram a seguir lá procure se lembrar
da gente vai aprender ferramenta bem
assunto eu esses categórico compromisso
não até agora também a gente pode fazer
testes e Postos avançados ou
simplesmente um parede certificado como
a gente já viu um grave é classificado
como também a gente já viu tudo bem
aqui nesse curso a gente vai dar um
pouquinho de enfoque e mostrar como
mesmo simples gráfico de dispersão pode
ajudar a gente a quantificar esses
mudança então é o gráfico dispersão é
aquilo lá que eu já falei ele vai
simplesmente o relacionar as observações
né então aqui nesse caso eu tenho um
banco de dados onde observei várias
pessoas medir a altura e medir o peso
Leite conforme a altura vai aumentando o
peso também tende a aumentar a ele vai
mostrar essa correlação certo um gráfico
de dispersão ele pode dar um resultado é
onde eu vejo que não tem correlação né
Então olha Nossa essas duas variáveis
uma que tá aqui a outra que tá aqui não
tem correlação nenhuma então nós ó eu
tenho uma pessoa que tem o x muito baixo
é ele pessoa muito baixo eu tenho uma
pessoa que tem um X muito baixo e pessoa
muito ao assim como eu tenho gente que
tem Oxe salto e eu são baixo e os X Olá
pessoal né Eu não tenho ali um
comportamento padrão Eu posso também a
correlação EA gente vê duas coisas com
relação primeiro ou sentido né a gente
chama de correlação positiva quando eu
aumento a variável x EA Y Aumenta também
e negativa que é quando o aumento x eu
diminuo a minha variáveis sexo eu posso
ver a força da minha regressão da minha
correlação então quanto mais dispersos
os dados maior a variação em Y explicada
por x na toalha a aqui ó se eu tivesse
estado aqui olha a incerteza que eu
tenho esse do valor disso daqui é fraco
e é menor que tem certeza que eu tenho
esse outro Passos né eu posso ter fraca
positivo e fraca negativo é isso o
sentido e a força da nossa correlação
correta também aqui alguns exemplos para
mostrar como a gente entende né primeiro
gráfico é um gráfico que está
e eu fiz vários projetos cada projeto
observei os dias de atrás né seu atraso
negativo significa que eu entreguei o
projeto antes do prazo e o índice de
satisfação que a nota dada pelo tem
história conforme o atrasando a minha
satisfação vai caindo e tem também esse
outro exemplo o que é de uma máquina
então conforme do a pressão a espessura
da peça produzida muda eu posso até
estratificar Norte em vermelho eu tenho
aqui os pontos da máquina a em laranja
eu tenho os pontos na máquina b então
nós para o vermelho tem uma correlação e
o a máquina B tem outra com relação
certo então também tem que saber se a
variável para conseguir analisar
Prefeito tem outras correlações outros
exemplos aí que eu coloquei eh mil
também vou na próxima aula sentar com
vocês ensinar tanto fazer o gráfico
quanto mostrar aí o poder desta técnica
em projetos de melhoria tudo bem até a
próxima
5.0 / 5 (0 votes)