Estadística Datos Bivariados
Summary
TLDREn esta clase de estadística, se introducen los conceptos de datos bivariados, su representación mediante diagramas de dispersión y el análisis de correlación. Se explica la covarianza y su relación con la correlación lineal, destacando el uso del coeficiente de correlación de Pearson para determinar la fuerza y dirección de la relación entre dos variables. A través de ejemplos prácticos, como el análisis de resultados de exámenes, se demuestra cómo calcular y analizar la covarianza y el coeficiente de Pearson, concluyendo con una correlación positiva y fuerte entre las variables estudiadas.
Takeaways
- 📊 En esta lección de estadística, se explica el concepto de datos variados, los cuales analizan dos variables sobre un mismo individuo o una variable sobre dos individuos.
- 🧮 Los datos variados se expresan mediante pares ordenados y se pueden representar en tablas o diagramas de dispersión para su análisis.
- 📉 En un diagrama de dispersión, los puntos que forman una línea recta inclinada a la derecha indican una correlación positiva y fuerte, mientras que si están dispersos, la correlación es débil.
- ⬇️ Si la nube de puntos está inclinada hacia la izquierda, esto indica una relación lineal negativa fuerte, pero si los puntos están más dispersos, la relación es débil.
- 📈 Cuando no hay una tendencia clara en los puntos, se considera que no existe una relación lineal entre las variables.
- 🔄 La covarianza es una medida que indica la relación lineal entre dos variables, y puede ser positiva (relación directa), cero (sin relación), o negativa (relación inversa).
- 📏 El coeficiente de correlación de Pearson establece una relación entre la covarianza y las desviaciones estándar de las variables, y varía entre -1 y 1.
- 📐 Si el coeficiente de correlación de Pearson es -1, hay una correlación negativa perfecta, si es 0, no hay correlación, y si es 1, es una correlación positiva perfecta.
- 📝 El ejercicio presentado analiza la relación entre los puntajes de simulacro y selección de 20 estudiantes mediante la covarianza y el coeficiente de correlación de Pearson.
- 🔍 El resultado final muestra un coeficiente de correlación de 0.93, lo que indica una correlación lineal positiva fuerte entre los puntajes, con un 93% de relación entre las variables.
Q & A
¿Qué se entiende por datos variados en estadística?
-Los datos variados se refieren a trabajar con dos variables sobre un único individuo o una variable sobre dos individuos simultáneamente. Esto implica el análisis de pares ordenados en una distribución bidimensional.
¿Cómo se representa gráficamente la relación entre dos variables?
-La relación entre dos variables se puede representar en un plano cartesiano mediante un diagrama de dispersión, donde cada par ordenado de datos corresponde a un punto en el plano.
¿Qué indica una relación lineal positiva y fuerte en un diagrama de dispersión?
-Una relación lineal positiva y fuerte se presenta cuando los puntos del diagrama de dispersión están inclinados hacia la derecha y se alinean casi en una línea recta, lo que indica una correlación positiva entre las variables.
¿Qué es la covarianza y qué nos indica su valor?
-La covarianza es una medida que indica la relación lineal entre dos variables. Si es mayor a 0, hay una relación lineal positiva; si es igual a 0, no hay relación lineal; y si es menor a 0, existe una relación lineal negativa.
¿Cuál es la fórmula para calcular la covarianza?
-La covarianza se calcula con la fórmula: Cov(xy) = sumatoria de (xi - x̄)(yi - ȳ) / n, donde x̄ y ȳ son las medias aritméticas de las variables x e y, respectivamente.
¿Qué representa el coeficiente de correlación de Pearson?
-El coeficiente de correlación de Pearson, representado por 'r', mide la fuerza y dirección de la relación lineal entre dos variables, con valores que oscilan entre -1 y 1.
¿Qué valores puede tomar el coeficiente de correlación de Pearson y qué significan?
-El coeficiente puede ser -1 (correlación negativa perfecta), 0 (sin correlación), o 1 (correlación positiva perfecta). Cuanto más cercano esté a -1 o 1, más fuerte es la correlación.
¿Cómo se calcula el coeficiente de correlación de Pearson?
-Se calcula como la covarianza dividida por el producto de las desviaciones estándar de las variables x e y. La fórmula es: r = Cov(xy) / (σx * σy).
¿Qué pasos se siguen para calcular la desviación estándar de una variable?
-La desviación estándar se calcula mediante la fórmula: σ = √[1/(n-1) * Σ(xi - x̄)²], donde 'n' es el número de datos, 'xi' son los valores individuales y 'x̄' es la media de esos valores.
¿Cuál fue la conclusión del ejercicio práctico sobre la correlación entre las pruebas de simulacro y selección?
-La conclusión fue que existe una correlación lineal positiva creciente y fuerte entre las pruebas de simulacro y selección, con un coeficiente de correlación de Pearson de 0.93, lo que indica un 93% de correlación.
Outlines
📊 Introducción a los datos variados en estadística
En este párrafo se introduce el concepto de datos variados en estadística, explicando que se refiere al análisis de dos variables en un solo individuo o una variable en dos individuos. Estos datos se representan como pares ordenados y se analizan a través de tablas o diagramas de dispersión. Se mencionan diferentes tipos de relaciones entre las variables, como la lineal positiva, lineal negativa, o la ausencia de relación, dependiendo de la disposición de los puntos en el plano cartesiano. Además, se introduce la covarianza como medida para evaluar la relación entre las variables.
📉 Fuerza, sentido y forma en la correlación de Pearson
Este párrafo describe cómo se puede evaluar la relación entre dos variables mediante la fuerza, el sentido y la forma. La fuerza se refiere a la proximidad de los puntos a una línea recta en el diagrama de dispersión; el sentido indica si la relación es positiva o negativa; y la forma revela si la relación es lineal o de otro tipo. El coeficiente de correlación de Pearson se utiliza para cuantificar esta relación, con valores que van de -1 (correlación negativa perfecta) a 1 (correlación positiva perfecta), y 0 indica la ausencia de correlación.
📝 Aplicación de los conceptos en un ejercicio práctico
En este párrafo se presenta un ejercicio práctico donde se comparan los resultados de dos pruebas aplicadas a 20 estudiantes. Los resultados se ordenan en una tabla, y a partir de ellos, se elabora un diagrama de dispersión. Luego, se calcula la covarianza y el coeficiente de correlación de Pearson, con el fin de analizar la relación lineal entre los datos de las pruebas. Se concluye que existe una relación lineal positiva y fuerte, ya que los puntos en el diagrama se alinean hacia la derecha.
🔢 Cálculo de covarianza y desviación estándar
Este párrafo explica en detalle el cálculo de la covarianza y las desviaciones estándar de las variables X e Y. Se proporcionan las fórmulas utilizadas para obtener estos valores, y se presentan los resultados finales. Finalmente, se calcula el coeficiente de correlación de Pearson dividiendo la covarianza entre el producto de las desviaciones estándar, obteniendo un valor de 0.93, lo que indica una fuerte correlación lineal positiva entre las variables.
Mindmap
Keywords
💡Datos variados
💡Diagrama de dispersión
💡Correlación lineal
💡Covarianza
💡Coeficiente de correlación de Pearson
💡Relación positiva
💡Relación negativa
💡Fuerza de la correlación
💡Medias aritméticas
💡Desviación estándar
Highlights
Revisión de datos variados en estadística, incluyendo variables sobre dos individuos y dos variables sobre un individuo.
Explicación de la distribución bidimensional de información y cómo se ordenan en tablas de datos.
Representación de datos variados en un diagrama de dispersión en un plano cartesiano.
Descripción de diferentes casos de nubes de puntos y su interpretación en términos de relaciones lineales.
Relación lineal positiva creciente y fuerte representada por puntos inclinados hacia la derecha.
Relación lineal negativa decreciente fuerte representada por puntos inclinados hacia la izquierda.
Explicación de la covarianza y su relación con la correlación y la pendiente en un diagrama de dispersión.
Fórmula de la covarianza y su interpretación cuando es mayor, igual o menor a cero.
Descripción del coeficiente de correlación de Pearson y su fórmula.
Interpretación del coeficiente de correlación de Pearson en términos de valores entre -1 y 1.
Ejemplo práctico de análisis de datos de pruebas de simulacro y selección para el ingreso a una universidad.
Elaboración de una tabla de datos para calcular la covarianza y el coeficiente de correlación de Pearson.
Cálculo de la covarianza con valores obtenidos de la tabla de datos.
Cálculo de las desviaciones estándar de las variables involucradas en el análisis.
Conclusión de una correlación lineal positiva creciente y fuerte entre las variables analizadas.
Transcripts
buenos días estimados estudiantes en
esta ocasión vamos a revisar dentro de
estadística los datos variados
hasta el momento hemos analizado una
variable en un determinado individuo
cuando trabajamos una variable sobre dos
individuos simultáneamente o empleamos
dos variables sobre un único individuo
estamos hablando de datos variados
si yo tengo una población y una muestra
de la población nosotros hemos trabajado
con una variable sobre un individuo
ahora lo que vamos a hacer es con dos
variables sobre uno individuo oa su vez
de una variable sobre dos individuos a
esto se le denomina como el tema que
estamos viendo datos variados
los datos variados se expresan con pares
ordenados a ver por lo que nos referimos
a una distribución bidimensional de la
información a analizar estos pares de
valores se pueden ordenar en tablas de
datos las mismas que permiten condensar
la información que necesitamos y
realizar un análisis que den origen a la
relación entre ambos elementos
estos datos también los podemos
representar en un plano cartesiano
conocido en estadística como
diagrama de dispersión si nosotros
tenemos una tabla de valores con datos x
que es la variable independiente y que
es la variable dependiente y dibujamos
en el plano cartesiano cada uno de estos
pares ordenadas que representan un punto
dentro del plano cartesiano vamos a
obtener una nube de puntos
de acuerdo a las características que
tengan pueden darse los siguientes casos
el primer caso sería cuando tenemos este
tipo de gráfica donde los puntos así
representan una línea recta y están
inclinados hacia la derecha ahí decimos
que las variables tienen una relación
lineal positiva creciente y fuerte puede
existir el caso donde la nube se abra un
poco más ahí decimos que es débil
otro caso es cuando tenemos la nube de
puntos inclinado hacia la izquierda que
casi representan una línea recta
en este caso decimos que las variables
tienen una relación lineal negativa
decreciente fuerte y cuando están más
dispersos los puntos podemos decir que
es débil
y la última es cuando tenemos este caso
donde no representa una línea ni
inclinada en la derecha en la izquierda
donde los puntos se ven que no tienen
relación a una tendencia a una línea
recta entonces decimos en este caso que
las variables no tienen ninguna relación
este tipo de diagrama es común en en el
análisis de diferentes datos con
respecto al tiempo para estudios
científicos estudios demográficos
etcétera
y los datos a analizar como corresponden
a dos tipos de individuos o dos tipos de
variables tienen un análisis particular
que establecen relaciones entonces se
buscan correlaciones y a su vez se
buscan co desviaciones es decir
covarianza
hay una relación entre la correlación y
la covarianza puesto que esta busca el
establecimiento de una relación lineal
entre las variables x
la covarianza la covarianza entre que
sigue se obtiene a través de la
siguiente fórmula sigma xy es igual a la
sumatoria de xy - x media que multiplica
ya y menos de media dividido para m
sigma xy es mayor a 0 o sea si la
covarianza es mayor a 0 hay una relación
lineal directa positiva con la pendiente
m mayor que ser por lo tanto estará
inclinada hacia la derecha
y la covarianza es igual a cero no
existe una relación lineal entre xy y
por último si la covarianza es menor a
cero o es negativa hay una correlación
lineal negativa inversa con la pendiente
de menor a cero o sea que está inclinada
hacia la izquierda
necesitamos el valor de la covarianza
para el análisis de los datos mediante
una correlación
en la correlación se buscan tres
elementos que nos permitirán indicar las
características de la relación entre los
dos datos y son fuerza se refiere a la
cercanía de los datos en el diagrama de
dispersión que hace referencia a la
línea recta porque es una correlación
lineal
el sentido indica si la correlación es
positiva o negativa y la forma que
indica si la correlación es lineal
exponenciales o cuadráticas el mismo que
se analiza con el coeficiente de
correlación de pearson el cual establece
un vínculo entre la covarianza con el
producto de las desviaciones de las
muestras
el coeficiente de correlación de pearson
que se lo representa con la letra r
minúscula cuya fórmula es r igual
la covarianza / para la desviación
estándar de la una variable x la
desviación estándar de la otra variable
que se está analizando
este coeficiente se analiza a través de
tres valores fundamentales que están
entre menos uno y uno
y el coeficiente de correlación de
persona es igual a menos 1 es una
correlación negativa perfecta
si el coeficiente de correlación de
pearson es igual a 0 no hay correlación
alguna entre las variables no hay
vínculos entre las variables xy
analizadas y si el coeficiente de
correlación de pearson es igual a 1 se
dice que es una relación positiva
perfecta
a continuación vamos a hacer un
ejercicio de aplicación de todos estos
conceptos y fórmulas
para el ingreso a una universidad se
toman dos pruebas a 20 estudiantes una
de simulacro y la otra de selección
obteniendo hacer los siguientes
resultados
en donde en una tabla hemos ordenado
estos resultados y tenemos que el
estudiante 1 en el simulacro ha sacado
75 y en la prueba de selección 80 el
estudiante 2 ha sacado 83 en el
simulacro y en la prueba de selección 85
y así sucesivamente hasta llegar al
estudiante 20 que en el simulacro ha
cercado 61 y en la prueba de selección
64 a continuación lo que queremos hacer
es realizar el análisis con el diagrama
de dispersión
como segunda parte calcular la
covarianza y el coeficiente de
correlación de pearson para realizar la
correlación que existe entre las
variables
ubicamos en el plano cartesiano cada uno
de los padres ordenados de la tabla de
valores y obtenemos el siguiente
diagrama de dispersión
como podemos observar
se disponen casi en una línea recta está
inclinada hacia la derecha por lo que
decimos que hay una relación lineal
positiva creciente y fuerte ya que los
puntos están unidos casi a la línea
recta
para comprobar si se da una correlación
lineal sin utilizar el diagrama de
dispersión ya que este sólo se utiliza
cuando hay pocos puntos pero si hay
muchos puntos o muchos datos no podemos
utilizar el diagrama de dispersión por
lo cual se utiliza la covarianza y el
coeficiente de correlación de pearson
como nosotros sabemos la covarianza se
calcula con esta fórmula
el coeficiente de correlación de pearson
se calcula con era igual a la covarianza
dividido para las desviaciones estándar
de cada una de las variables en donde
para recordar la desviación estándar se
calculaba con esta fórmula sigma x es
igual a la raíz cuadrada de 1 sobre n 1
que multiplica la sumatoria de xy - x
media y todo elevado al cuadrado igual
para la otra variable sigma y es igual a
la misma fórmula sólo que ahora iría 1
sobre n menos 1 con la sumatoria de los
ye y menos de media elevado al cuadrado
siendo x media y media las medias
aritméticas de los datos
la media genética se calcula con la
siguiente fórmula sumatoria de que si
sobre n pero cuando no hay datos
repetidos o sea cuando no hay las
frecuencias entonces por lo tanto de
acuerdo a la tabla tenemos que la
sumatoria de los x 10 mil 516 y el
número de datos son 20 al realizar esta
división nos queda que la media
aritmética para la variable x de 75 a 80
lo mismo hacemos para la variable y en
donde ahora tendríamos la sumatoria de
jay sobre él es donde la sumatoria de dj
fijándonos en la tabla es mil 549 sobre
el número de datos que es 20 al realizar
esta división tendría que la media
aritmética para la variable y es 77
45
a continuación procedemos a elaborar una
tabla de datos con todos los elementos
que intervienen en las fórmulas que
vamos a utilizar en donde la primera
columna sería xy menos la media
aritmética de la variable x la segunda
columna necesitamos un jay menos la
media aritmética de la variable y en la
siguiente necesitamos la multiplicación
de xy menos equis media por menos de
media en la siguiente necesitamos el x y
menos x media todo elevado al cuadrado y
en la última necesitamos un jay menos de
media y todo elevado al cuadrado
entonces al resolver esto tendríamos
entonces cada dato de equis y restarle
la media aritmética de xy en estos
resultados nos queda lo siguiente - 0 87
20 menos 21 80 16-20 229 20 220 menos 10
80 menos 16 como 80 menos 180 13.20
menos 380 14.20 menos 8 80 -0 80 18 20 -
11 como 80 12,20 menos 280 y menos 14 80
como tuvimos estos resultados al restar
cada variable o elemento de xy menos la
media aritmética
lo mismo hacemos con otra variable y
obtenemos
de resultados
y luego una vez que hemos obtenido estos
resultados los multiplicamos 0.80 por
255 y así con los demás elementos y
obtenemos el xy - x media por jay menos
de media obteniendo estos resultados
podemos observar en la tabla
luego también necesitamos el xx media
elevado al cuadrado
el libro y yo tenemos estos resultados
que podemos observar y por último lo
mismo hacemos con jay menos de media y
elevamos al cuadrado y tenemos estos
resultados
nosotros necesitamos la sumatoria de la
tercera cuarta y quinta columna no sea
del xy - x media x y menos y media
tenemos que hallar la sumatoria que nos
queda 2.136 como 80 del es x del xy - x
media elevado al cuadrado cuya sumatoria
sale de 2600 1.20 y por último de jay
menos media elevado al cuadrado cuya
sumatoria sale mil 848 90
con los datos ya obtenidos en las tablas
podemos calcular ya la covarianza cuya
fórmula de sigma xy es igual a la
sumatoria de los xy - x mediante por jay
menos de media sobre en cuyos valores ya
obtuvimos anteriormente y tendríamos que
reemplazar pues nos quedaría que la
covarianza es igual a dos mil 136 como
80 dividido para el número de datos que
es 20 al realizar esta división
tendríamos que la covarianza es igual a
106 84
luego para calcular el coeficiente de
correlación de pearson primero
necesitamos calcular las desviaciones
estándar de las dos variables de x y con
la fórmula que ya hemos realizado
anteriormente sigma x es igual a la raíz
cuadrada de 1 sobre n menos 1 por la
sumatoria del x y menos x media elevado
al cuadrado estos valores ya obtuvimos
en la tablet por lo tanto al reemplazar
tendríamos sigma x o desviación estándar
de x es igual a la raíz cuadrada de 1
sobre 20 menos 1 x 2600 1.20
al hacer 20 menos 1 que nos da 19
entonces tendríamos que la desviación
estándar de x es igual a la raíz
cuadrada de 1 sobre 19 que multiplica a
2600 120 resolvemos esta operación en la
calculadora y obtenemos que la
desviación de estándar para la variable
x es igual a 11 70 igual calculamos la
desviación estándar para la otra
variable en este caso es la variable i y
tenemos
lo siguiente al reemplazar los valores
tenemos que desviación estándar para y
es igual a la raíz cuadrada de 1 sobre
20 menos 1 a 1848 90 igual 20 menos unos
19 por lo tanto tenemos que la
desviación estándar para la variable y
es igual a la raíz cuadrada de 1
dividido para 19 y esto por 1848 como 90
igual al aplicar en la calculadora estos
datos tendríamos que la desviación
estándar para la variable y es igual a
9,86
una vez calculado la covarianza y las
desviaciones estándar de cada una de las
variables podemos calcular el
coeficiente de correlación de pearson
donde eres igual a la covarianza
dividido para el producto de las
desviaciones estándar reemplazando los
valores tendría que eres igual a 106
como 84 que era la covarianza dividido
para la desviación estándar de x que
salió a 11,70 y la desviación estándar
de allí que salió un 9,86 al resolver
esta operación en la calculadora
llegamos a obtener que el coeficiente de
correlación de pearson es igual a cero
93
entonces podemos concluir que existe una
correlación lineal positiva creciente y
fuerte entre las variables analizadas ya
que está cerca a 1 y si hacemos en forma
de porcentaje tenemos un 93% que es muy
cerca al 100%
muchas gracias por la atención prestada
nos veremos en un próximo vídeo pasen un
excelente día
5.0 / 5 (0 votes)