CORRELACIÓN y REGRESIÓN LINEAL con EJEMPLOS
Summary
TLDREn este video, se explica el concepto de correlación y regresión lineal con dos variables. Se utiliza un ejemplo práctico donde se analiza la relación entre la edad de los estudiantes y el tiempo que pasan conectados a Internet. A través de un diagrama de dispersión y la construcción de una línea de regresión, se muestra cómo predecir la cantidad de horas de conexión a partir de la edad. El coeficiente de correlación de Pearson, con un valor de 0.77, indica una relación lineal positiva y fuerte entre ambas variables, demostrando que a mayor edad, los estudiantes tienden a conectarse más al día a Internet.
Takeaways
- 📚 La clase trata sobre correlación y regresión lineal con dos variables, utilizando una línea recta para estimar datos de una variable a partir de otra.
- 🔗 Dos variables están correlacionadas si cambian juntas de manera consistente; si una aumenta, la otra también lo hace, y viceversa.
- 📈 Se utiliza un diagrama de dispersión para visualizar la relación entre la edad de los estudiantes y el tiempo que pasan conectados a Internet.
- 📊 El diagrama de dispersión se construye en un plano cartesiano, con la edad en el eje X e horas de conexión en el eje Y.
- 📉 Se identifica un patrón lineal en el diagrama de dispersión, lo cual indica una relación entre las variables; en este caso, la relación es positiva.
- ✍️ Para trazar la línea de regresión, se utiliza la fórmula lineal \( y = a + bx \), donde \( a \) es el punto de intersección con el eje Y y \( b \) es la pendiente de la línea.
- 🔢 Se emplean fórmulas específicas para calcular los coeficientes \( a \) y \( b \), basándose en los promedios y sumas de los datos.
- 📐 La línea de regresión es aquella que se ajusta lo más cerca posible a todos los puntos del diagrama, permitiendo estimaciones precisas.
- 📝 El coeficiente de correlación de Pearson (\( r \)) se utiliza para medir la fuerza y dirección de la relación entre las variables; un valor cercano a 1 indica una relación fuerte.
- 🤖 Se calcula el valor de \( r \) a través de una fórmula que involucra las sumas y promedios de los datos, lo que ayuda a entender la naturaleza de la correlación.
- 🔮 El ejemplo práctico de la clase muestra cómo la edad de los estudiantes está correlacionada positivamente con el tiempo de conexión a Internet, lo que puede ser útil para futuras predicciones o análisis.
Q & A
¿Qué temas trata la clase sobre correlación y regresión lineal?
-La clase trata sobre la correlación y regresión lineal con dos variables, cómo utilizar una línea recta para estimar los datos de una variable dada la información de otra, y cómo analizar la relación entre la edad de un estudiante y el tiempo que pasa conectado a internet.
¿Qué es la correlación y cómo se identifica en los datos?
-La correlación es la relación entre dos variables que cambian juntas de manera consistente. Si al aumentar una variable, la otra también aumenta, se dice que están correlacionadas positivamente. En los datos, se identifica mediante un diagrama de dispersión, donde los puntos tienden a seguir una tendencia lineal.
¿Cómo se construye un diagrama de dispersión?
-Para construir un diagrama de dispersión, se utiliza un plano cartesiano, colocando los datos de la variable independiente (por ejemplo, la edad) en el eje X y los datos de la variable dependiente (las horas de conexión a internet) en el eje Y. Luego, se marcan los puntos correspondientes a cada par de datos y se conectan para visualizar la relación entre las variables.
¿Qué es la línea de regresión y cómo se utiliza en la predicción?
-La línea de regresión es una línea recta que mejor se ajusta a los datos en un diagrama de dispersión, permitiendo estimar los valores de una variable dada la otra. Se utiliza para hacer predicciones basadas en la relación lineal entre las variables.
¿Cómo se calcula el coeficiente de regresión (a y b) para la línea de regresión?
-El coeficiente de regresión b se calcula usando la fórmula b = (n * Σ(xy) - Σx * Σy) / (n * Σ(x^2) - (Σx)^2), y el punto de corte a se calcula con a = (Σy - b * Σx) / n. Estos valores se utilizan en la función lineal y = a + bx para determinar la línea de regresión.
¿Cómo se determina si la relación entre dos variables es lineal?
-Se determina si la relación es lineal observando el diagrama de dispersión, donde si los puntos tienen una tendencia lineal, se puede dibujar un óvalo que los contenga, lo que indica una relación lineal directa o inversa.
¿Qué significa el coeficiente de correlación de Pearson (r) y cómo se calcula?
-El coeficiente de correlación de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables. Se calcula con la fórmula r = [(n * Σ(xy) - Σx * Σy) / sqrt((n * Σ(x^2) - (Σx)^2) * (n * Σ(y^2) - (Σy)^2))]. Un valor cercano a 1 o -1 indica una relación fuerte, mientras que un valor cercano a 0 indica una relación débil o nula.
¿Cómo se usan los promedios para calcular el valor de a en la línea de regresión?
-Para calcular el valor de a, se utiliza la fórmula a = (Σy - b * Σx) / n, donde los promedios de x (x̄) y y (ȳ) son necesarios para encontrar los valores de Σx y Σy, respectivamente.
¿Qué valores se utilizaron para graficar la línea de regresión en el ejemplo?
-Se utilizaron los valores de x = 13 y x = 17 para encontrar los correspondientes valores de y en la línea de regresión, obteniendo los puntos (13, 0.68) y (17, 4.32), que se usaron para graficar la línea.
¿Cuál es la interpretación del coeficiente de correlación de Pearson calculado en el ejemplo?
-El coeficiente de correlación de Pearson calculado fue 0.77, lo que indica una relación lineal bastante fuerte y positiva entre la edad de los estudiantes y el tiempo de conexión a internet.
¿Cómo se relaciona el tiempo de conexión a internet con la edad de los estudiantes según el ejemplo?
-Según el ejemplo, existe una relación positiva entre la edad de los estudiantes y el tiempo de conexión a internet, lo que significa que a medida que aumenta la edad, también tiende a aumentar el tiempo de conexión diaria a internet.
Outlines
📚 Introducción a Correlación y Regresión Lineal
El primer párrafo introduce el tema de la correlación y regresión lineal, enfocándose en el análisis de dos variables. Se describe cómo, al utilizar una línea recta, se puede estimar la cantidad de una variable dada la otra. Se menciona que dos variables están correlacionadas si cambian juntas de manera consistente. Se utiliza un ejemplo práctico de la edad de los estudiantes y el tiempo que pasan conectados a internet, tomando una muestra de 11 estudiantes para ilustrar cómo se representan estos datos en un diagrama de dispersión y cómo se identifica un patrón lineal en los datos.
📈 Construcción del Diagrama de Dispersión y Análisis de la Tendencia Lineal
Este párrafo detalla el proceso de construcción de un diagrama de dispersión para visualizar mejor la relación entre la edad y el tiempo de conexión a internet de los estudiantes. Se describe cómo se ubican los datos en el plano cartesiano, utilizando la edad como variable independiente (eje X) y las horas de conexión como variable dependiente (eje Y). Se procede a identificar si hay un patrón lineal entre los datos, utilizando un óvalo para señalar la tendencia y determinar si es positiva o negativa. En el ejemplo, se observa una relación positiva, lo que indica que a mayor edad, se tiende a conectar más horas a internet.
🔍 Cálculo de la Línea de Regresión y Análisis de la Relación
El tercer párrafo se enfoca en el cálculo de la línea de regresión para predecir el tiempo de conexión a internet a partir de la edad. Se explican las fórmulas para calcular la pendiente (coeficiente de regresión) y el punto de intersección de la línea con el eje Y. Se utiliza una tabla para organizar y realizar los cálculos necesarios, incluyendo la sumatoria de los productos de las edades y horas de conexión, y la sumatoria de los valores elevados al cuadrado. Se calcula el coeficiente de correlación de Pearson (r) para medir la fuerza y dirección de la relación entre las variables, obteniendo un valor de 0.77 que indica una relación lineal fuerte y positiva.
Mindmap
Keywords
💡Correlación
💡Regresión lineal
💡Diagrama de dispersión
💡Variable independiente
💡Variable dependiente
💡Ecuación de la línea de regresión
💡Coeficiente de correlación de Pearson
💡Pendiente
💡Punto de corte
💡Muestra
Highlights
La clase discute sobre correlación y regresión lineal con dos variables.
Se utiliza una línea recta para estimar datos de una variable dada otra.
Se define correlación como una relación consistente de cambio entre dos variables.
Ejemplo práctico: Analizar la relación entre la edad de un estudiante y el tiempo de conexión a Internet.
Se toma una muestra de 11 estudiantes del liceo para el estudio.
Se construye un diagrama de dispersión para visualizar mejor los datos.
Se describe el proceso de ubicación de datos en el plano cartesiano.
Se identifica la existencia de un patrón lineal en los datos.
El patrón lineal muestra una relación positiva entre la edad y el tiempo de conexión a Internet.
Se ajusta una línea de regresión para predecir los valores de la variable dependiente.
Se introduce la función lineal y sus componentes: a (intercepción) y b (pendiente).
Se explican las fórmulas para calcular a y b, los coeficientes de la línea de regresión.
Se realiza un cálculo detallado para determinar los valores de a y b con una tabla.
Se dibuja la línea de regresión en el diagrama de dispersión.
Se calcula el coeficiente de correlación de Pearson para medir la fuerza de la relación.
El valor de r de Pearson es 0.77, indicando una relación lineal fuerte y positiva.
Se concluye que la edad está positivamente correlacionada con el tiempo de conexión a Internet.
La clase destaca la importancia de la matemática para entender el mundo.
Transcripts
[Música]
hola chicos bienvenidos a la clase de
ista a continuación hablaremos sobre
correlación y regresión lineal
i
con dos variables y haciendo uso de las
matemáticas en especial usando una línea
recta podemos estimar los datos de una
variable dado los datos de la otra es
esto lo que se conoce como correlación
dos variables están correlacionadas si
sus medidas cambian juntas de manera
consistente y de escaso en caso es decir
al aumentar una variable aumenta la otra
o al disminuir una variable disminuye la
otra analicemos la relación que tiene la
edad de un estudiante con la cantidad de
horas que se conecta a internet para
ello se toma una muestra de 11
estudiantes del liceo se les pregunta su
edad y cuántas horas promedio se
conectan a internet altino por lo que se
establecen datos como
[Música]
aquí podemos observar por ejemplo que el
estudiante 1 tiene 15 años y se conecta
a internet dos horas bien el estudiante
8 tiene 13 años y se conecta una hora
diaria estos datos pueden visualizarse
mejor en una gráfica a la que llamaremos
diagrama de dispersión para construir el
diagrama de dispersión procedemos a usar
el plano cartesiano en el eje x
colocamos los datos de la variable
independiente es decir la variable que
vamos a utilizar para predecir los datos
de la otra en nuestro caso la variable
independiente será la edad la variable
que ubicaremos en el eje y es la
variable dependiente es decir la
variable a predecir o explicar entonces
ubicaremos las horas diarias de conexión
a internet fíjense que no hace falta
colocar todos los valores de los ejes
del plano se pueden utilizar los valores
más
a los datos de la variable a
continuación procedemos a ubicar los
datos de cada estudiante el primer
estudiante de 15 años se conecta a
internet por dos horas el 15 lo ubicamos
en el eje x y el 2 en el eje y luego
señalamos el punto lo mismo hacemos con
el segundo estudiante el 14 lo ubicamos
en el eje x y el 0 en el eje y en este
caso el punto quedó ubicado sobre el eje
x continuamos repitiendo el
procedimiento para los otros estudiantes
cuando los puntos se repitan se les
dibuja un círculo concéntrico a su
alrededor tantas veces se repite una vez
ubicado todos los pares ordenados en el
estudio procedemos a identificar la
existencia si fuese el caso de un patrón
lineal y se señala con un óvalo alargado
que envuelva a todos los pares ordenados
este óvalo se utiliza para evidenciar
que los puntos tienen una tendencia
lineal y al sentido de esa tendencia la
cual puede ser hacia arriba o hacia
abajo si tiende hacia arriba es positiva
o directa y si tiende hacia abajo es
negativa o inversa si el óvalo presenta
forma circular u otra forma que no sea
lineal entonces se dice que no existe
una relación lineal entre las variables
en nuestro caso se puede dibujar el
óvalo por lo que existe un patrón lineal
este patrón está inclinado hacia arriba
entonces la relación es positiva
por lo que conforme aumenta la edad en
el eje x las horas de conexión a
internet tienden a aumentar a lo largo
del eje y conocer el patrón genial nos
prepara para ajustar las estimaciones de
que conociendo el patrón lineal podemos
ajustar el patrón de las coordenadas por
lo que trazar una línea de regresión
será indispensable esta línea es aquella
que cae lo más cerca posible de cada
coordenada y se llama lidere mejor
ajuste o técnicamente la línea de
regresión para trazar la línea de
regresión necesitamos emplear la función
lineal jesse igual a más vez por x donde
ya se representa el valor de ye dado un
valor de x
y es el punto de intersección con el eje
y cuando x es igual a 0 y b representa
la pendiente o la inclinación de la
línea de regresión llamada coeficiente
de regresión para determinar los valores
de a&b se emplean las fórmulas a es
igual al promedio de y menos el
coeficiente de regresión por el promedio
de x el promedio de g es igual a la suma
de todos los valores de ayer entre la
cantidad de datos y el promedio de x es
igual a la suma de todos los valores de
x entre la cantidad de datos
por su parte ve es igual a n por la
sumatoria de equipos menos la sumatoria
de x por la sumatoria de ya / n por la
sumatoria de las x al cuadrado menos la
sumatoria de x al cuadrado
para nuestro ejemplo iniciemos
calculando la vez para mayor comodidad
los cálculos lo realizaremos haciendo
uso de una tabla para ello colocamos la
cantidad de estudiantes que es 11
ahora sumamos los valores de todas las x
por lo que colocamos las edades de cada
estudiante y las sumamos en nuestro caso
resulta 170 sumamos ahora los valores de
todas las entonces colocamos las horas
de conexión de cada estudiante y las
sumamos resultando 32 seguimos
realizando los productos de cada x por
cada y así multiplicamos 15 por 2 es 30
14 por 0 es 0 17 por 3 51 y así
sucesivamente
al finalizar sumamos todos los productos
resultando 508 ahora elevemos al
cuadrado cada valor de x es decir 15 al
cuadrado en 225 14 al cuadrado es 196 17
al cuadrado de 289 y así sucesivamente
al finalizar sumamos los valores de cada
x al cuadrado resultando 2.642 una vez
llena todas las celdas de la tabla y
calculado todas las sumas procedemos a
sustituir cada valor en la fórmula para
determinar b entonces b es igual a n n
es el tamaño de la muestra en nuestro
caso la cantidad de estudiantes
encuestados es decir 11 estudiantes
multiplicado por la sumatoria de los
productos de todas las x por todas las
lo buscamos en nuestra tabla que es 508
menos la sumatoria de todas las x en
este caso es 170 x la sumatoria de todos
los ya si lo buscamos en la tabla
esto es 32 entre n que es 11 x la
sumatoria de cada x al cuadrado esto es
2 mil 642 menos la sumatoria de x al
cuadrado es decir 170 al cuadrado
resolviendo esta operación resulta 091
lo que indica que la pendiente de
nuestro caso es 0 91
ahora vamos a calcular el punto de corte
de la recta con el eje y es decir a para
ello utilizamos la fórmula donde llega a
ra representa la media o el promedio de
la variable que pendiente 5b es el
coeficiente de regresión que calculamos
anteriormente y x barra es la media o el
promedio de la variable independiente x
para calcular los promedios de las
variables basta con sumar todos los
datos y dividirlo entre la cantidad de
datos por lo que el promedio de x es
igual a la sumatoria de las x que es 170
entre la cantidad de estudiantes que 11
resultando 15,45 y el promedio en 10 es
igual a la sumatoria de las que es 32
entre la cantidad de estudiantes es
decir 11 resultando 291 ya podemos
calcular el valor de a tenemos promedio
de x promedio de iu y bng
sustituyamos los valores en la fórmula
así a es igual a llevar la cual tiene un
valor de 2,91 menos b que vales 091
multiplicada por equis barra que es
15,45 al resolver la operación resulta
que a es igual a menos
11,15
ahora tenemos todo lo necesario para
obtener la función de la línea de
regresión tenemos a hebe procedamos a
sustituir en jesse los datos obtenidos
por lo que s es igual a que tiene un
valor de menos 11,15 más b que es
equivalente a 0 91 por x esta expresión
representa nuestra línea de regresión
a continuación dibujemos la recta en el
diagrama de dispersión hacer la
expresión una función lineal basta con
tomar dos puntos para hacer su gráfica
por lo que tomaremos dos valores
distintos de x para determinar y
nosotros tomaremos 13 y 17 sustituimos
en la expresión de la recta de regresión
cada uno de estos valores iniciamos con
x igual 3 así y ese es igual a menos 11
15 + 0,91 por 3 resolviendo obtenemos
0.68 entonces nuestro primer punto a
graficar será en x 13 y en yes se harán
60 y hacemos lo mismo para x igual 17
sustituyendo tenemos y ese es igual a
menos 11 15 091 por 17 resolviendo
obtenemos 4 32 entonces nuestro segundo
punto a graficar será en x 17 y en 10
432 ubicamos estos puntos en el plano
cartesiano cuando x vale 13
llévales 0 68 y cuando x vale 17 lleva
el 4 32 unimos los dos puntos y así
obtenemos nuestra línea de mejor ajuste
o nuestra línea de regresión la cual nos
permitirá predecir los valores de ella
dado cualquier valor de x
por ejemplo si x es igual a 15 5
aproximadamente ayer será 3 lo que
quiere decir que un estudiante de 15
años y 6 meses es probable que en la
realidad se conecte alrededor de 3 horas
al día
para conocer el grado o la fuerza de la
relación entre las variables se emplea
el coeficiente de correlación de peso o
la r de piso es decir con la r de peso
podemos conocer si la relación es
positiva o negativa y si los datos
tienen una fuerte relación o no para
calcular la rd persona empleamos la
fórmula
la fórmula será sencilla de utilizar si
hacemos los cálculos en una tabla la
misma que utilizamos para calcular la
recta de regresión sólo tendríamos que
agregar el cálculo para llegar al
cuadrado es sumarlo utilizando los
valores de la tabla podemos determinar
la r de pearson por lo que r es igual a
n que es igual a 11 x la sumatoria de
todas las x por todas las cuales 508
menos la sumatoria de todas las x que es
170 por la sumatoria de todas las ya que
es 32 entre la raíz cuadrada de n que es
11 por la sumatoria de cada x al
cuadrado que es 2 mil 642 menos la
sumatoria de x al cuadrado por la raíz
cuadrada de n que es 11 por la sumatoria
de calle al cuadrado que es 114 menos la
sumatoria de ye al cuadrado realizando
los cálculos obtenemos que la erre de
pearson es 0.77
este valor es bastante cercano a 1 por
lo que la relación lineal entre las
variables es bastante fuerte al ser 0.77
un número positivo nos está indicando
que la relación es positiva o directa
esto significa que muchas veces el mayor
número de horas de conexión a internet
está asociado a adolescentes de mayor
edad o que a menor edad se espera que
muchos adolescentes tengan menor tiempo
de conexión diaria a internet
chicos hasta aquí nuestra clase de hoy
recuerden que conocer matemática es
conocer el mundo hasta la próxima
5.0 / 5 (0 votes)