M3 Seminario de investigación Jamovi parte II
Summary
TLDREl guion del video ofrece una sesión de análisis de datos en un contexto médico, enfocado en la hemoglobina glucosilada y factores relacionados con la diabetes. Se discuten técnicas de limpieza de bases de datos, análisis descriptivo y pruebas de normalidad para evaluar la distribución de la edad de los pacientes. Se exploran las diferencias entre hombres y mujeres en términos de edad y se sugieren variables para predecir la hemoglobina glucosilada. Además, se abordan modelos de regresión para predecir esta última y se planea la creación de un modelo de daño renal para el análisis en la próxima clase.
Takeaways
- 😀 El script es una clase sobre análisis de datos en el contexto de la medicina familiar, utilizando una herramienta llamada 'hobi'.
- 🔍 Se discute la importancia de mantener la información anónima al trabajar con datos de pacientes, destacando la privacidad de los correos y los apellidos.
- 📊 Se realiza un análisis descriptivo inicial, enfocado en la edad de los pacientes, para entender la distribución de la edad y su relación con la normalidad.
- 📚 Se mencionan conceptos estadísticos como media, mediana, desviación estándar, mínimos y máximos, y cómo estos se relacionan con los supuestos de normalidad.
- 📉 Se utiliza gráficos como histogramas, diagramas de cajas y gráficos de violín para visualizar la distribución de datos y detectar valores atípicos.
- 📝 Se destaca la necesidad de 'limpieza de la base de datos' para asegurar que los datos sean precisos y útiles para el análisis.
- 🤔 Se cuestiona la utilidad de ciertos gráficos y pruebas estadísticas, como el gráfico de cuartiles (qq plot), en función de su capacidad para ser interpretados y su relevancia en el análisis.
- 👥 Se explora la posibilidad de comparar la edad entre hombres y mujeres utilizando pruebas de T, destacando la importancia de entender si las muestras son independientes o dependientes.
- 📐 Se realiza una prueba de homogeneidad de varianzas (Levene's test) para determinar si las varianzas entre grupos son iguales antes de proceder con pruebas de comparación.
- 📈 Se introduce el concepto de regresión para predecir variables cuantitativas como la hemoglobina glucosilada, utilizando variables independientes como la edad y la glucosa.
- 📚 Se asignan tareas a los estudiantes para construir modelos de regresión para predecir la hemoglobina glucosilada y para calcular la tasa de filtrado glomerular para el daño renal.
Q & A
¿Qué es lo que están analizando en la segunda parte del hobi de uso de hobi?
-Están analizando una base de datos con identificadores, correos electrónicos y unidades de Medicina familiar, buscando realizar un análisis descriptivo y determinar si hay distribución normal en los datos.
¿Por qué es importante mantener los correos electrónicos y los datos anónimos?
-Mantener los datos anónimos es crucial para proteger la privacidad de las personas involucradas y evitar el rastrear de información sensible.
¿Qué tipo de análisis descriptivo están realizando con la edad de los pacientes?
-Están realizando un análisis descriptivo que incluye la edad del paciente, cambiando la variable de texto a enteros para poder analizar estadísticamente.
¿Cómo cambian la variable 'edad del paciente' de cualitativa a cuantitativa?
-Lo hacen dando doble click en la variable 'edad del paciente' y seleccionando la opción para cambiarla a un tipo de variable continua y marcarla como enteros.
¿Qué estadísticas descriptivas están buscando calcular para la edad de los pacientes?
-Están buscando calcular la media, mediana, desviación estándar, mínimos y máximos, y también están buscando evaluar la asimetría y curtosis para determinar si la distribución es normal.
¿Qué pruebas adicionales están considerando para verificar la normalidad de la distribución de la edad de los pacientes?
-Están considerando la prueba de Shapiro-Wilk para verificar la normalidad de la distribución de la edad de los pacientes.
¿Cuáles son los supuestos de normalidad que deben cumplirse para aceptar que la distribución es normal?
-Los supuestos incluyen que la media y mediana sean iguales, que la asimetría no toque el cero absoluto y que el valor máximo no se llame 'cero' ni 'infinito'.
¿Qué gráficos están utilizando para visualizar la distribución de la edad de los pacientes?
-Están utilizando histogramas de frecuencias, diagramas de cajas y gráficos de violín para visualizar la distribución de la edad de los pacientes.
¿Qué gráficos deciden no utilizar y por qué?
-Deciden no utilizar histogramas de frecuencias con bigotes y gráficos de barras porque no son adecuados para representar la edad de los pacientes y podrían dar información errónea.
¿Qué prueba estadística están considerando para comparar la edad entre hombres y mujeres?
-Están considerando la prueba de T de Student para muestras independientes para comparar la edad entre hombres y mujeres.
¿Qué pruebas adicionales están considerando para verificar la homogeneidad de las varianzas y la normalidad de los datos?
-Están considerando la prueba de Levene para homogeneidad de las varianzas y gráficos QQ para verificar la normalidad de los datos.
¿Qué tipo de regresión están planeando utilizar para predecir la hemoglobina glucosilada?
-Están planeando utilizar una regresión lineal para predecir la hemoglobina glucosilada a partir de variables como la edad, la edad con diabetes y la glucosa capilar.
¿Qué tareas les quedan para la próxima clase en relación con los modelos de regresión?
-Tarea uno: Construir un modelo para predecir la hemoglobina glucosilada. Tarea dos: Calcular la tasa de filtrado glomerular para hacer modelos de regresión logística.
Outlines
😀 Análisis descriptivo y manejo de datos anónimos
Se discute cómo realizar un análisis descriptivo en una base de datos anónima que contiene datos médicos familiares. Se enfatiza la importancia de mantener la información confidencial eliminando detalles como apellidos y nombres. Se describe el proceso de configuración de variables y la limpieza de datos, incluyendo el cambio de datos cualitativos a cuantitativos y la exploración de la distribución de la edad de los pacientes.
📊 Comprobación de normalidad y estadísticos descriptivos
El párrafo se centra en la verificación de la normalidad de la distribución de la edad de los pacientes y cómo obtener estadísticos descriptivos como la media, mediana, desviación estándar, mínimos y máximos. Se mencionan las reglas para determinar si los datos siguen una distribución normal, incluyendo la comparación entre la media y mediana, y el uso de pruebas de normalidad como la de Shapiro-Wilk.
📈 Análisis gráfico de datos y revisión de asimetría y curtosis
Se abordan técnicas gráficas para analizar la distribución de datos, incluyendo histogramas de frecuencias y diagramas de cajas. Se discute la importancia de interpretar correctamente estos gráficos para determinar características como la asimetría y la curtosis. Además, se sugiere la utilización de gráficos de violín para obtener una mayor comprensión de la distribución de los datos.
🚫 Identificación y manejo de datos atípicos
Este párrafo se enfoca en la detección de datos atípicos y su impacto en el análisis estadístico. Se describe cómo un paciente joven con diabetes puede ser un outlier y cómo manejar ese dato atípico en la base de datos. También se discute el significado de los diferentes elementos del diagrama de cajas y cómo se pueden interpretar.
🔍 Análisis de comparación entre hombres y mujeres
Se realiza un análisis de comparación de la edad media entre hombres y mujeres utilizando la prueba T de Student para muestras independientes. Se discuten los resultados de la prueba, incluyendo el valor de p y su interpretación, y se abordan las implicaciones clínicas de las diferencias encontradas entre los grupos de género.
📉 Discusión sobre la importancia de la interpretación de resultados
Este párrafo destaca la importancia de interpretar los resultados estadísticos en el contexto clínico y la diferencia entre lo que es estadísticamente significativo versus lo que tiene relevancia clínica. Se sugiere que una diferencia que es estadísticamente significativa puede no ser necesariamente significativa desde un punto de vista clínico.
📚 Aprendizaje sobre pruebas no paramétricas y su aplicación
Se mencionan pruebas estadísticas no paramétricas como la U de Mann-Whitney cuando los datos no cumplen con los supuestos de normalidad. Se discuten las ventajas de estas pruebas y cómo son más robustas incluso cuando los datos tienen una distribución normal, pero muestran mayor sensibilidad cuando los datos no son normales.
📉 Análisis de varianzas (ANOVA) y pruebas post hoc
Se realiza un análisis de varianzas para comparar la edad promedio de pacientes en diferentes unidades de medicina familiar. Se discuten los resultados de la ANOVA y se sugieren pruebas post hoc para determinar qué grupos son significativamente diferentes. Se enfatiza la importancia de comprobar la homogeneidad de varianzas antes de realizar estas pruebas.
🔧 Construcción y evaluación de modelos de regresión
Se describe el proceso de construcción de un modelo de regresión lineal para predecir la hemoglobina glucosilada basándose en variables como la edad y la glucosa capilar. Se evalúa la capacidad del modelo para predecir y se sugieren mejoras para el modelo, como incluir variables adicionales y ajustar los datos.
🛠️ Tareas futuras y模型建设
Se asignan tareas futuras que incluyen la construcción de modelos para predecir la hemoglobina glucosilada y el cálculo de la tasa de filtrado glomerular para la identificación de daño renal. Se sugiere explorar diferentes modelos de regresión y se fomenta la práctica con la base de datos para mejorar las habilidades de análisis estadístico.
Mindmap
Keywords
💡Análisis descriptivo
💡Anónimo
💡Unidades de Medicina Familiar
💡Identificador
💡Curva de normalidad
💡Prueba de Shapiro-Wilk
💡Diagrama de cajas
💡Gráfico de violín
💡Regresión
💡Hemoglobina glucosilada
Highlights
Proceso de anonimato de datos médicos para proteger la identidad de los pacientes.
Conversión de datos cualitativos a cuantitativos para análisis estadístico.
Limpieza de la base de datos para análisis descriptivo.
Análisis descriptivo de la edad de los pacientes con diabetes.
Uso de gráficos de caja para identificar datos atípicos.
Interpretación de gráficos QQ para evaluar la normalidad de la distribución de datos.
Aplicación de la prueba de Shapiro-Wilk para verificar la normalidad de la distribución.
Diferenciación entre significancia estadística y clínica en el análisis de datos.
Uso de prueba T de Student para comparar la edad entre hombres y mujeres.
Discusión sobre la robustez de la prueba U de Mann-Whitney frente a la normalidad de los datos.
Importancia de la homogeneidad de varianzas en el análisis de varianza (ANOVA).
Selección de pruebas estadísticas apropiadas según los supuestos de los datos.
Construcción de un modelo de regresión para predecir la hemoglobina glucosilada.
Influencia de la edad y la duración de la diabetes en la hemoglobina glucosilada.
Incorporación de variables adicionales en el modelo de regresión para mejorar la predicción.
Evaluación de la capacidad predictiva del modelo de regresión.
Tareas para la próxima clase: construcción de modelos de regresión y análisis de daño renal.
Uso de la calculadora de daño renal UK para calcular la tasa de filtrado glomerular.
Preparación para la siguiente clase con tareas de modelado estadístico.
Transcripts
Cuál tonali pues estamos en la segunda
parte de hobi de usando hobi Entonces
tenemos esta base de datos que tiene ese
identificador que tiene Están son
anónimos los correos muy bien No tiene
nombre tiene nada más las unidades de
Medicina familiar las iniciales que lo
que hace es que sea más difícil rastrear
Y entonces lo que vamos a intentar hacer
ahorita son nuestros primeros pininos de
análisis Entonces lo primero que
tendríamos que hacer es eh hacer una
tabla Ay Ay Ay cuidado con los cuidado
con los nombres Esa esa hay que quitarla
lo que dice el apellido eso Gracias
Sí sí acuérdense que tiene que ser todo
todo anónimo entonces hay que quitarle
los apellidos si aparecen no hay que hay
que
desaparecerlos pero vamos a intentar
hacer la primera parte del Análisis la
primera parte del Análisis sería un
análisis descriptivo con la edad de los
pacientes y entonces vamos a intentar
hacerlo entonces vamos a irnos a donde
dice eh donde dice
datos Y entonces ahí en datos Vamos a
ponerle donde dice
configuración perfecto y entonces aquí
en configuración nos va diciendo Qué
tipo de variables es por ejemplo aquí en
edad del paciente te dice mira aquí está
como texto como sí y no una opción es lo
podemos dejar ahí porque j lo puede
detectar como lo puede meter como
cuantitativo o lo podemos cambiar a que
sean enteros y convertirlo en en no Y sí
no este cero Y sí un uno okay esa es una
opción ahorita no lo vamos a hacer Pero
lo que sí vamos a hacer Es irnos ahora a
análisis vamos a analizar nuestra
primera
variable Entonces en este análisis de la
primera variable Vámonos a donde dice
exploración bien y vamos a hacer nuestro
primer nuestra primera estadística
descriptiva bien perfecto y entonces
aquí vamos a meter Qué les parece si
ponemos
eh A ver vamos a ver si tiene
edad iniciales del paciente el paciente
presenta Este ahí está edad del paciente
ojo ahí edad del paciente está como como
cualitativa Entonces tenemos que
cambiarla Entonces vamos a buscar en la
base de datos edad del paciente
Sí entonces claro cerramos ahí bien Y
entonces esto se le llama limpieza de la
base de datos dulce sí Entonces lo
primero que haríamos ahí
sería edad por ahí está sexo cuánto
tiempo tiene de diabetes A qué edad
empezó estado civil creo que edad está
antes
eh creo que d est anes
Ahí está edad muy bien Entonces a esa
edad lo único que hacemos que le damos
doble click
dentro Sí y la cambiamos Qué tipo de
variable
sería claro variable continua Sí y le
ponemos entero Muy bien Entonces ahora
vamos a hacer nuestro primer análisis
Este primer análisis sería este Qué les
parece si para este análisis
e vamos vamos a ver si tiene si Qué tipo
de distribución tiene
sale Entonces vamos a ver exploración
bien perfecto metemos ya est edad del
paciente Okay Bravo y ahora vamos a ver
los resultados los resultados están aquí
a tu mano
derecha adelante
adelante sí Entonces vamos aquí a donde
dice estadística
donde dicen
estadísticas bien Y entonces nos da la
media la mediana la desviación estándar
los mínimos y máximos y con eso vamos a
buscar Cuáles son los primeros supuestos
de normalidad Si quieres lo lo que
necesitamos es que nos muestres esta
parte de acá de los
resultados si quieres muéstranos esta
parte de acá de los
resultados Ya viste Dónde están los
resultados los resultados están acá
claro acá están los resultados Y
entonces Para eso vas a tener que tomar
esto y hacerlo un poquito más chico o
Mejor aún tomar esto y Ah claro ahí está
perfecto Me parece muy bien bravo Y
entonces ya vemos los resultados
Entonces le pedimos que nos dé la
estadística
descriptiva la la media la mediana la
desviación estándar Y qué otra cosa le
pedirían ustedes para saber si tiene
distribución normal Jorge qué otra cosa
le pediríamos para saber si tiene
distribución
normal
asimetría yosis tú te vas con asimetría
y curtosis OK Porque eres setentero Te
gustan los bis no entonces el curtosis
muy bien intervalo de Med Ah okay okay
okay ya eres más de grunch más por acá
más
roquero entonces é pide intervalo de
confianza 99%
para qué Laura para qué se pedí este
intervalo confianza 95 en estos análisis
descriptivos para saber el valor de si
son iguales la media y la mediana Bravo
perfecto y y después viene el error
estandarizado de la media si quieren lo
pueden pedir si no no porque ya viene
dentro del intervalo de confianza no
entonces pudiera No pedirlo y todavía
ahí pudiéramos
este jugar un poquito más y ser
noventeros y pedirle pruebas de
normalidad con con shapiro wilk Sí claro
que ahí te había pedido Jorge que si le
pedías este esas ondas setenteras de
curtosis
no por no Y entonces ahora sí tenemos
que emitir un
juicio
Joaquín distribución normal o libre
distribución y creo que la media tiene
54.9 la mediana 56 se parecen pero hay
que ver cómo está la el intervalo de
confianza entre la media y la mediana y
estás 56 está dentro del Rango de
intervalo de confianza en la mediana
Pareciera que sí Ahora vamos a la
desviación estándar que son 10 Okay
entonces aquí la mediana está en 56
perfecto entra Perfecto aquí entonces
aquí le ponemos palomita la mediana este
a la primera regla la primera regla es
que media y la media y la mediana sean
iguales si son iguales Bravo Cuál sería
la segunda regla
dulce eh que que sea asintótica es decir
que no eh toque el cero el Val cuál
sería el cero absoluto de edad de este
grupo no de edad de este grupo mí no
sería el mínimo que es 25 ese sería el
cero no tiene que tocar este 25 Okay y
el máximo
eh es 82 que le llamamos infinito es le
llamamos cero y es le llamamos infinito
bien okay Y entonces cómo sé si es
simétrico y
estimado dulce Ah no iba a decir la
respuesta Venga di la
respuesta que a partir de la media se
miden dos desviaciones estándar hacia
abajo y dos
hacia Ya está
54.9 no ya estás desiones estándar de
cuánto dice que es laón estándar de 10
10 + 10
20
20 no Y entonces 20 men
54 cuánto da 34 36
34 da 34 o
36 34
que OK Y entonces 34 es más chiquito
verad entonces 34 está bien y ahora para
arriba
74
cuánto 74 74 Entonces cumple con todos
los requisitos no perfecto ya una vez
que cumple con los requisitos ya cumplió
con estos supuestos de normalidad
Entonces ahora sí voy a ver lo que dice
este si el cesg curtosis cuánto haber
amante de sesg curtosis Jorge Ruiz
Romero Cómo ves el sesg y curtosis
cuántos son los límites del sesg y
curtosis
no lo
s pide pero no se
lo Qué les parece este hombre bueno se
lo dejamos de tarea para Cuáles son los
límites de sesgo Y curtosis si alguien
se lo
sabe sí se lo sabe no Uno más menos
1.5 Y entonces aquí el sesgo dice
asimetría pun 30 cumple y curtosis pun
033 requete cumple sí Entonces los dos
cumplen Perfecto entonces cumplió con
todas las reglas de la normalidad todas
las reglas de normalidad quedan aquí
cumplidas sí
perfecto Perfecto perfecto Perfecto
perfecto ahora vamos a ver la curva
ahora vamos a ver la de normalidad les
parece la de shapiro wilk qué dice tiene
esa está más
abajo es está más
abajo Qué dice ya tiene distribución
normal a ver dónde está yo no la veo Ah
ya la vi ya la vi de cuánto tendría que
ser para que tenga distribución
normal mayor de
0.5 mayor dice punto pun 277
distribución o libre
distribución normal la hipótesis nula o
la
hipótes normal a la hipótesis
alterna
Ay Jorge
Luis oh Dios Bueno rápidamente
rápidamente te explico rápidamente aquí
en la pantalla no entonces hipótesis
nula Cuál sería la hipótesis nula o
hipótesis
cero ar
Por qué por qué le hicimos así a
George José Miguel porque no hay
diferencia claro entonces lo que dices
es que mi muestra tomada es Exactamente
igual a la descrita por car freder gaus
de normalidad Y si eso es cierto si si
tengo la hipótesis nula de Cuánto tiene
que ser la p
George o José Miguel menor de 0. men de
mayor de05 porque no hay
diferencias si me explico cuando no hay
diferencias entre los grupos la p es no
significativa estadísticamente es decir
se debe alazar pero cuando yo tengo la
hipótesis alterna Cuál sería la
hipótesis alterna estimado
George O sea que si hay diferencia con
que mi
no la tomé lo suficientemente bien Y
entonces es distinta a la normalidad
cuando encuentro diferencias de cuánto
es el valor de la
p menor
de5 menor
de05 Y entonces cuando tengo una p menor
de05 acepto normalidad y aquí Qué
pasó
es mayor y entonces
eh se asemeja a la curva de gaus pues no
Y entonces acepto la hipótesis nula
porque la p es mayor de05
Okay
sí sí
sí sí sí sí perfecto muy bien pasado
este momento ya tenemos nuestro primer
análisis Bravo y así lo podemos hacer
con todas las variables no muy bien
Ahora ya ya que sé que tiene
distribución normal este qué es lo que
tendría que empezar a
hacer claro mis primeras tablas no pero
Y entonces ahora Qué les parece si
empezamos a ver los gráficos que nos da
hobi entonces Vámonos abajo donde dice
gráficos no del otro lado donde está Ajá
las variables dice gráficos no Y
entonces tenemos vamos a picar todos
tenemos un histograma de frecuencias
para ver cómo se
ve si gráficos
qq gráfico de
violín primero Pon el gráfico qq
sí perfecto vamos uno por uno antes de
que le siga picando esta mujer no
entonces Vámonos uno por uno y Ajá
Perfecto entonces este gráfico sería la
edad de la paciente Entonces ese gráfico
que tenemos en frente qué gráfico es
estimado José Miguel
cómo se llama ese
gráfico es de son diagramas histograma
histogr Este es el histograma de
frecuencias este se utiliza solamente
cuando son frecuencias como presente
ausente como del sexo masculino sexo
femenino Sí entonces un error muy común
que hacen los que se dedican a ciencias
básicas es que utilizan estos
histogramas de frecuencia por para el
edad y le ponen estos bigotes en la
parte de arriba no le ponen estos
bigotes que marcaría como una desviación
estándar o alguna cosa así entonces esto
no está bien porque diría que la edad va
desde cero aquí
hasta los hasta la edad que está De este
otro lado y entonces este no es el
adecuado Y entonces aquí lo que diríamos
es este gráfico simplemente se va Vamos
a quitarlo histograma de frecuencia se
va
bien ay perdón el histogram era el otro
este le pusieron de densidad a Quítale
la densidad bien
perfecto y vamos a ver el de
abajo Ah no este le pusieron Okay este
de aquí Ese es el histograma de
frecuencias ese es el que nos dice si
tiene distribución normal o es de libre
distribución aquí mira y entonces este
tendría que decir si tiene una forma
acampanada y no toca el cero absoluto y
nosotros ya lo comprobamos
matemáticamente vimos los números y
dijimos que esto sí tiene distribución
normal o sea que esta curva sí tiene
distribución normal Así es que ahora
vamos a quitarlo este que dice no vamos
a quitar
histograma Okay ahora vamos a quitar
también el gráfico de barras que era el
de
arriba muy bien
ahora sí tenemos el que sigue el que
sigue el que está Arribita si me puedes
bajar un poquito este gráfico que está
aquí se llama diagrama de cajas Qué
representa este diagrama de cajas
primero quítale el violín vamos a
quitarle el
violín perfecto y nos queda el diagrama
de de cajas primero quiero saber qué
demonios es esto qué es esto de El
63
Laura es un dato atípico es un dato
atípico y Qué significa ese
63 número el dato que el paciente 63 es
el dueño de ese dato Sí entonces lo que
tendríamos que hacer nosotros es ir a
buscar al paciente 63 en la base de
datos
sí acá si quieras vamos al paciente 63 y
ese va a ser el paciente más joven
entonces Vámonos a la base de datos Y
dice paciente 63 aquí en la columna más
abajo más abajo más más más más abajo
más más más más más más más más y ese
paciente Ese es el de 25 años ya vieron
Entonces el 63 no significa para nada no
significa que sea el 63 sino solo es el
paciente Okay regresemos a la
análisis claro estábamos en exploración
Okay bien
sí okay Y entonces en este caso lo que
vamos a hacer es que vamos a decirle muy
bien ya no quiero las etiquetas Uy Hay
que hacerlo de nuevo ponle aquí diagrama
de
cajas claro le metes la la edad
Un poquito más arriba Un poquito más
arriba sexo edad del
paciente sí le mete la edad del paciente
y entonces aquí veníamos más abajo para
ver los gráficos y le pedimos el de
diagrama de cajas
ya sabemos que ya no queremos
identificar ese atípico ya sabemos que
si es un paciente de 25 años con
diabetes y le podemos quitar los valores
atípicos Sí entonces quítale los valores
atípicos para que no salga ese 63 queda
perfecto y entonces queda como outliner
ahí Okay ahora quítale el diagrama de
cajas no perdón déjalo déjalo déjalo
porque vamos a hacer un poquito de
examen y vamos a ver qué significa el
diagrama de cajas
Okay Qué
significa vamos a ver qué significa
estimado José Miguel esta línea de
Aquí Cuál
línea la de
medio es la media No no no no
tache no es la
media
Jorge es la mediana Bravo es el
percentil 50 o llamado la mediana
Ari cuál que es esta línea de aquí
abajo la de percentil
25 muy bien Laura el de arriba percentil
75 bien y cuál sería este este borde de
hasta acá arriba dulce
el valor
máximo este no
[Música]
tach cuál sería ese valor de hasta allí
arriba el 95 percentil 95 muy bien muy
bien Y entonces aquí se ve más claro
este bigote de aquí abajo es queé
pertiles cinco cco
cinco y el mínimo en realidad es este
outliner de paciente diabético que tiene
25 años este sería un valor
este extremo sí un valor raro Okay sí
sí 25 años pero este este le llamamos
extremo o
outliner
okay O valores
extremos
correcto bien bien huracan Ahora hay una
forma de hacerlo todavía más bonito esto
que es haciéndolo con un gráfico que se
llama gráfico de violín y entonces ahora
ponle ahí donde dice
violín perfecto fíjense ustedes como
ahora lo que nos da es un gráfico que
nos permite ver muchas más cosas no nos
permite ver qué tanto se distribuye la
mediana como si estuviera dibujando una
curva normal de cada uno de los lados ya
vieron sí Entonces qué tanto se expresa
y si le quito el diagrama de caja de
adentro miren Cómo se ve y si le pongo
los
datos
Ah qué tal eh entonces vemos cómo se
distribuyen en en la parte de medio los
datos Y entonces ahí dice difusos vamos
a seguirle picando vamos a ponerlos
alineados para que todos queden
derechitos no no
aá entonces ya vemos cómo cómo se van
distribuyendo los datos alrededor de la
mediana y cómo cómo se van presentando
estos datos y abajo Vamos a ponerle para
lo que para que José Miguel tenga rayita
Vamos a ponerle la media que nos calcule
la media ahí está perfecto entonces la
media es ese punto negro que está ahí
enfrente para que este Jorge nos diga
qué
onda George
Perdón este eh Por ejemplo en este
diagrama es como o sea como si combinar
eh o sea la distribución de los datos
con las frecuencias Por decirlo así así
es está siendo mucho más descriptivo
está siendo descriptivo de cómo se mueve
Y entonces aquí puedes decir que casi
toda la muestra estab estaba entre los
60 años no y que tienes un un pico
también de 45 por ejemplo
no que sería más o menos puesto
aquí o sea tienes está la mayor parte de
la población está aquí a los 60 años
pero tienes un pico nada despreciable de
45 y otro pico acá arriba sí Entonces te
permite ver más que la pura el puro
diagrama de cajas Mira pon el diagrama
de cajas pícale en donde dice diagrama
de
cajas y entonces en el diagrama de cajas
así ya super puesto no entonces fíjate
como no te dice tantas cosas
Ya viste el diagrama de cajas este dice
poquito Comparado con lo que sería el
gráfico de
violín Sí vamos un poquito más abajo de
donde donde dice gráficos Sí gracias ahí
donde dice gráficos Ajá Baja un poquito
más no al lado ahí
ahí ya no baja más okay Si ya no baja
más entonces quitémosle este todos esos
y vamos a ver ahora el gráfico
cucu Está padre No este gráfico George
mucho más descriptivo
este más amigable o sea digo puedes
decir más con solo una figura Claro
claro claro muchísimo más no que hacer
un gráfico normal de este de cajas bien
ahora viene este que es el de residuos
estandarizados y Dulce pone un un
Qué es este dulce Qué es este gráfico
que le decimos que es gráfico de cuq Qué
significa este gráfico
cucu no estoy segura si bueno es el que
usamos se parece al que usamos en las
correlaciones no se parece pero no no no
tiene nada que ver ese gráfico qq es
para ver si tiene normalidad Y entonces
lo que dice es Mira Tengo
estos cuartiles teóricos que en realidad
sería la estándar no la desviación
estándar es el Z de 0 que no hay
diferencias que será igual a la media
después -1 menos una desviación estándar
después tendríamos -2 desviación
estándar más 1 y + 2 y entonces lo que
dice aquí es que esta línea que está
aquí en medio esta línea que está aquí
en medio sería la normalidad
teórica esta línea de que está aquí en
medio sería la normalidad teórica aquí
la normalidad de gaus
sí Y entonces que los números que se van
van hacia los lados son lo que
representaría serían si se acerca la
normalidad o no se acerca y entonces
diríamos Híjole pues claramente tenemos
este grupo que está en medio entre menos
una y más una desviaciones estándar
aquí que se pegan a la distribución
normal
perfecto y tenemos otros que se que no
están tan bonitos no que son estos Y
estos sin embargo lo que no nos gusta lo
que no nos gusta de este gráfico es que
se tiene que hacer mucho la
interpretación no O sea qué tanto es
tantito qué tanto se mueve entre este y
este Sí entonces por eso es que casi yo
creo que nadie lo
utiliza
Sí muy bien entonces ya estamos
completamente seguros de que de que
tiene distribución normal no Y entonces
como tiene distribución normal ya este
ya sabemos cómo vamos a hacer los
análisis y todo lo demás okay vamos a
hacer nuestro primer análisis si
quisiéramos comparar si hombres y
mujeres tienen la misma edad qué
análisis
haríamos si quisiéramos comparar que
hombres y mujeres tienen la misma edad
qué qué análisis haríamos prueba de T la
prueba de T de estudi Por qué t de
estudante cuál de todas las pruebas de T
de
estud hay un anonal
no este señor silig goset se aventó un
montón de pruebas no se aventó pruebas
para muestras independientes se aventó
la prueba de muestras dependientes se
aventó la prueba de antes y después o
sea cuál de todas Cuál de todos los
análisis que él inventó este tú estarías
contento Joaquín
Joaquín está diciendo que como ser
hombre y ser mujer es son mutuamente
excluyentes o eres hombre o eres
mujer verdad
Joaquín me
escucha haban dicho que la tele student
pero si son muestras relacionadas
tendría que ser pareada no relon sexo
Sería pareado bueno aear No ya cada vez
menos hombres y mujeres Pero
y si no es pues es este no relacionada
no tuden no pareada Claro son grupos
mutuamente excluyentes aquí aparear
joquin no significa
este convivir amistosamente no pareado
significa antes y después sí se entiende
Joaquín él dice que sí lo entiende
espero que sí lo entiendas bien que te
quede claro para los análisis y también
para tu vida no entonces muy bien Vamos
a hacerlo entonces vamos ahora a donde
dice análisis y vamos a donde dice
pruebas de
T perfecto y entonces dice para muestras
independientes o para muestras apareadas
Sí también hay prueba t para una sola
muestra pero no la vamos a ver ahorita
vamos a a ver ahorita para muestras para
muestras independientes
Bravo Y entonces primero vamos a poner
la variable de agrupación Cuál sería la
variable de
agrupación José Miguel sexo no sexo sexo
dice
George bien la metemos metemos el sexo
okay Y vamos a meter esta variable que
nosotros habíamos
considerado
perfecto y entonces aquí nos da nuestro
valor de de P y lo que él diseñó junto
con Carl pirson en el artículo publicado
en biométrica fue que te daba un
estadístico de - 2.10 y después de eso
te daba los grados de libertad Qué es
eso de los grados de libertad
ariatna Qué es eso de los grados de
libertad aquí
esto Qué es ah no me acuerdo no Okay es
el número de pacientes menos un es n
men1 es qué tanto puede variar qué tanto
puede variar la muestra sí no Y entonces
te acabas de ganar una espantosa x muy
bien Y entonces aquí una no nos permite
ver qué tan diferentes son los grupos lo
único que nos da es este valor de p Qué
significa este valor de p estimado
estimada Laura
ubaldo eh si hay diferencia dentro grupo
que sí hay diferencias entre hombres y
mujeres
Sí sí
sí el gran problema es que no nos no
sabemos qué tanto es tantito porque
puede ser que haya diferencias que
hacían estadísticamente significativas
pero que no sean clínicamente
significativas se entiende
esto se entiende esto
Ari dulce
O sea sí nos dice que son diferentes los
grupos pero no podríamos saber si las
mujeres son no sé una vez más No sé qué
tanto por cento más grandes o más
jóvenes Así es Entonces como no sabemos
Entonces vamos a ponerle estadísticas
adicionales y vamos a ponerle Cuáles son
las diferencias de
medias sí Y además de las diferencias de
medias le vamos a pedir el intervalo de
confianza 95 por y vamos a ver qué nos
dice otra vez le vamos a pedir Ari que
nos muestre los datos si pudieras hacer
un poquito más chiquito gracias gracias
gracias gracias Y entonces qué es eso de
la diferencia de medias Qué es eso de A
qué te suena la diferencia de medias
dulce Pues que está compar es que estud
compara las varianzas no y
aquí stud es una diferencia de medias
Ah okay okay compara las varianzas el
análisis de varianzas se llama anova Sí
perdón no no sé porque me sonaría lo
mismo No te preocupes entonces sería la
media de los
hombres menos la media de las
mujeres una Ahora sí de y dice que la
diferencia es de 3.87 años Qué opinan
hay diferencia entre hombres y
mujeres pues clínicamente no parece
tanto por qué no Bueno pues porque es
muy pequeña 3 años es muy pequeño Aunque
Depende depende de que estemos
observando no son pacientes con diabetes
Ajá para la diabetes 3 años no parece
tanto como si fueran 10 no genial
entonces aquí lo que decimos es fíjense
ustedes que este eh el intervalo de
confianza de Esa diferencia va de menos
pun2 años o sea dos meses de diferencia
ya vieron Ari dice así Ari mueve la
cabeza Y dice Bueno o sea pensemos en o
sea cuántos años te lleva tu novio tu
esposo este meses le lleva meses sería
este nivel inferior No sí sería este
nivel inferior de meses y entonces a mí
mi esposa me lleva 7 años
no O sea yo digo que por eso me manda y
me maltrata y me pega y me no por eso me
trae así y vete a trabajar todos los
días y a checar no y que cheques
temprano ya sabes no no Pero porque me
lleva muchos años Jorge Jorge aquí viene
una gran enseñanza para ti tú que
todavía estás joven y te puedes salvar
No si te llevas 7 años ten cuidado eh
ten cuidado es mejor no Laura cuántos
años te lleva te llevan a ti cinco cinco
aquí est No a ti
dulcecita aún nos hemos salvado Ah bien
tú Tú igual eh tú así tú no das tu brazo
a torcer hasta terminar el doctorado
dulce nada de pensar en malos
pensamientos eh okay registrado nú mal
pensamiento o sea se te acerca aquel
canijo Ay vamos a cenar no Ay vamos aquí
nada Sácate haste para allá el doctor
Rivas me prohíbe tener Cualquier
relación así de nada hasta terminar
hasta que esté ya la maestría y el
doctorado y ya está publicado todo en
serio eh Así pon la mano dulce Pon la
mano
así dulce ahí está la mano bien ahí está
la manita y di juro por esculapio hijo
de
Apolo no doctor no me haga
eso estás en las cámaras tienes que
decir juro por esculapio hijo de Apolo
está grabando esta
clase qué temes
temes que canijo vea las clases o que
nadie las vea sea tenemos cinco
followers o sea nadie nos sigue en el
mundo cuando esté en el altar y digan
habrá alguien que se oponga va a decir
Apolo
y a ver voy a poner el video miren
ustedes como dulce juró por esculapio
hijo de Apolo que primero iba a acabar
la maestría antes de estar teniendo
malos pensamientos
Okay Muy bien pues entonces no le
pudimos sacar esa buena información que
hubiera sido muy bonita pero lo que sí
nos ayudó a decir que esta TD student
tenemos que interpretarla a la luz de
las diferencias Entonces sí tiene una
diferencia que es estadísticamente
significativa pero no es clínicamente
significativa sí es estadísticamente
significativa pero no es clínicamente
significativa queda
clarísimo esos dos términos muy bien
Vamos muy bien Ahora vamos a seguir
vamos a seguir este picándole aquí qué
tal que los datos no tuvieran
distribución normal si los datos no
tuvieran distribución normal estimada
Laura qué análisis Le hubiéramos tenido
que hacer
udne claro y ya viste que está ahí
también
Sí entonces puedes sacar la ud m winey
todo en
uno si tiene distribución normal si no
tiene distribución normal Y entonces lo
que se dice es que es una prueba más
robusta pero si sale significativo en en
la en la en la en la normal cuando tiene
distribución normal sale significativo
cuando es de libre distribución sí es
más sale más significativo okay sí queda
clarísimo Solo que como
ud y Whitney es para variables ordinales
lo que hace es que convierte estas
variables que tenían punto do lo
convierte en grupos ordinales no Y
entonces aquí te dice la diferencia es
de un año a 9 años Sí entonces no sé no
sé este Joaquín 9 años Qué te parece
llevarle 9 años una chava tú qué piensas
está bien o mal qué todavía o o es ya
Rome y su nieta yo creo que está bien Sí
9 años todavía es cancha reglamentaria
todavía no te ven mal en la calle no
dicen ay señor suelte la niña
no no pues he visto hasta de 20 30 años
Sí pero ahí ya le dicen niña ten cuidado
con tu abuelito no o
qué es muy común No eso de sí sobre todo
entre hizo una canción sobre
eso ya cuál quién quién 40 y
20 hay una
canción Hasta 20 años no importa
perfecto lo que diga la gente Exacto muy
bien muy bien muy bien andando contento
Vicente ríase la gente no muy bien muy
bien no Entonces vamos a seguir picando
aquí Vamos a ponerle ahí donde dice
variables
descriptivas Ajá perfecto
Ah genial No ya nos da ahí la variable
descriptiva no la edad de las mujeres
era de 53 en los hombres 57 Entonces es
a favor de los hombres Okay padrísimo
Pero además también le podemos pedir
gráficos de
O sea no manches cansado de luchar con
la tesis harto de luchar con ellos ya
está ahí No perfecto ya te da los
gráficos copy paste lo pones para que
haya para que pongan las diferencias
entre los grupos esto lo aderezas con su
valor de P y ya quedó
no sí sí
sí
Perfecto entonces este y ahora vamos
abajo con los comprobaciones de
supuestos vamos a a ver si tienen si las
pruebas tienen
homogeneidad eso se llama
homocedasticidad de las varianzas no
porque tendríamos que elegir distintas
pruebas ya sea la prueba de levin o
alguna otra prueba para poder
diferenciar vamos a arriba Vamos para
ver la prueba de homogeneidad arriba ahí
está la prueba de levin que dice que es
pun 007 Qué significa
eso varianzas iguales o varianzas
distintas
varianzas
distintas claro entonces este valor de p
indica que son varianzas distintas Y
todavía podemos hacer pruebas de
normalidad al lado y podemos hacer los
gráficos qq que habíamos platicado no
ahí está la prueba de normalidad pun 024
no para la edad de la
paciente sí Y dice un valor de p bajo
suqui la violación de supuestos de
normalidad entonces lo que sucedió es
que no tiene normalidad entonces
tendríamos que haber hecho t de student
no violamos los supuestos de normalidad
aquí tendríamos que haber hecho una t de
student una t Por qué se violaron bueno
porque a la hora de dividirlos ya perdió
la normalidad Sí sí
sí Perfecto entonces aquí tendríamos que
hacer una u manwin no Tendremos que
hacer la t de student y Tendremos que
hacer gráficos de de este de de bigotes
de este de cajas y bigotes
perfecto Muy bien pues hasta aquí No
hasta aquí vamos a dej vamos a a
quitarle ahora vamos a hacer un modelo
de
regresión Sí bueno obviamente podríamos
hacer una Nova Claro si quieres pícale
Nova nada más para
jugar sí Entonces vamos a poner una Nova
sí anova de un
factor ahora vamos a meter la misma edad
por
favor la misma edad Si fueras tan
amable Gracias y ahora vamos a ponerle
en la variable de agrupación las
unidades de Medicina familiar que están
participando Si quieres vete hasta la
parte de
arriba Ahí está y dice Ajá Y entonces
esos son tres unidades vamos a ver si
hay diferencias entre las unidades
Entonces vamos a ver si hay diferencias
entre los grupos Qué dice ese valor de p
estimado José
Miguel es mayor de05 entonces entonces
este que no hay no hay diferencias que
entre las unidades entre las entre las
unidades no hay diferencias Y entonces
aquí Vamos a ponerle vamos a poner los
estadísticos para ver qué es lo que pasa
tablas
descriptivas tablas descriptivas por
favor muy bien y aquí nos dice Cuál es
la media de versión estándar de todas
perfecto a pesar de que de que eh San
Buenaventura este Tiene 18 pacientes
sigue teniendo una media y desviación
estándar perfectamente bien Clara y bien
controlada Sí sí sí perfecto y abajo
vienen las pruebas Pos hoc que
tendríamos que hacer si es que nosotros
quisiéramos
este quisiéramos hacer análisis de
diferencias entre los grupos y entonces
aquí nos recomienda que como son
varianzas iguales podemos hacer este la
prueba de tuki Y entonces ahí le ponemos
la prueba de tuki abajo perfecto y ahí
lo que va a hacer es que nos va a ir
mostrando las diferencias entre las
varianzas entonces San Buenaventura
contra contra la unidad de Medicina
familiar de los abinos vete más para
allá dice que no hay diferencias
y después contra Perote no hay
diferencias sí adelante adelante
adelante miren Quién llegó no manen
quién está aquí me parecen
conocidos la doctora IV Roy está aquí
con nosotros no manches qué bendición No
vientos huracanados sí queda claro Okay
vamos a
hacer dulce H dulce hasta manda este
fuegos
artificiales este qué crees que qué
crees que hizo dulce juró por esculapio
hijo de Apolo que no se iba a enamorar
ni a buscar ningún
aparento este hasta que terminara su
tesis verdad dulce No doctora usted
puede ver este video y yo no accedí a
tal juramento y no cumplió su promesa no
sé todavía no se gradua pero con que te
gradúes ya puedes empezar a buscar una
bueno olvidemos esa parte y vamos a
terminar con regresión les parece s
Entonces entonces vean ustedes qué fácil
está usarlo ahora vamos a usar regresión
vamos a la regresión bien Y entonces
aquí en relación en vamos a vamos a a
poner una una variable vamos a poner que
queremos predecir sexo vamos a ver qué
características tienen los de sexo
Entonces vamos a hacer una regresión
este logística sí o vamos a hacer una
lineal para jugar no vamos a hacer esta
variable lineal y vamos a
predecir para que repasen y vamos a
predecir aquí qué quieren predecir qué
les enseñó la doctora Roy predecir Qué
les parece una variable
cuantitativa busquemos aquí abajo a ver
si hay hemoglobina
glucosilada Ajá más adelante más
adelante más
adelante tensión arterial glucosa y est
hemoglobina glucosilada Y esa vamos a
meter la variable dependiente o
independiente Sí esa sería la
dependiente
No
sup claro es la variable dependiente
Claro sí sin duda Sí Y entonces cómo qué
variables meterían ustedes para predecir
hemoglobina
glucosilada la edad claro la edad puede
ser podemos meter edad yo metería otra
variable más que sería la edad con
diabetes a mayor edad con diabetes no
mayor hemoglobina glucosilada podría ser
no
[Música]
Mm qué otra meterías
este glucosa
capilar
tambi ella dice abajo dice cuánto tiempo
tiene con el diagnóstico después de sexo
ahí lo metemos a covariables
bien y vamos a meterle ahora una
variable extra que sería glucosa el
glucosa
picada bien con eso para nada más para
jugar no Entonces vamos vamos a ver qué
dicen los datos vete de regreso donde
están los es y déjanos verá un poquito
más hacia el
lado okay Y entonces qué nos dice ese
modelo Qué significa ese
r la capacidad del modelo de predecir sí
dulce muy bien la capacidad del modelo
de predecir Y qué tanto
predice Pues un
1% nada no predicen nada
no Okay este Pero lo único es que
este Lo único es que mostramos cómo se
cómo se ve esa esa parte okay pero vamos
a seguirle
picando no Entonces qué les parece se
nos Acaba de terminar la
pero Qué les parece si para la próxima
clase ustedes le van picando y van
buscando algún
modelo que nos ayude a predecir
hemoglobina glucosilada entonces jueguen
con la base y lo que queremos hacer es
predecir hemoglobina glucosilada Sí
entonces vayan metiendo las variables
vayan buscando Cuál es el mejor modelo y
lo discutimos para la siguiente clase
les parece
bien de acuerdo para la siguiente clase
también vamos a hacer modelos de
regresión logística
Entonces como vamos a hacer modelos de
regresión logística Necesito que hagan
una variable a ver déjen ver si está
aquí en esta en esta la variable de de
váyanse hasta abajo hasta abajo hasta
abajo vas abajo más abajo más abajo más
abajo más abajo este no está podrían
hacer una variable que se llame la
variable de daño renal hecha con la
calculadora de de daño renal sí de de UK
a partir de los este del colesterol y a
partir de este de de laurea y la
creatinina les parece bien y contra esa
variable hacemos este las los modelos de
regresión logística entonces son dos
tareas tarea uno construir un
modelo tarea uno construir un
modelo para
predecir hemoglobina
glucosilada sí y en la tarea dos es
calcular tasa de filtrado
glomerular sí para poder hacer en
dicotómico paya
renal o enfermedad renal aguda
enfermedad renal Crónica y la próxima
clase vamos a hacer modelos de regresión
logística sí Sí sí queda
clarísimo Bueno pues ya tienen su tarea
y que les vaya bien dulce ten cuidado
con lo que juras
Laura muy
bien entonces nos vemos amigos Joaquín
amigo Cuídense mucho Gracias Lu
Browse More Related Video
Como escribir el apartado de Análisis estadístico y cálculo de tamaño de muestra.
Metodología de la investigación (Capítulo 10)
Sección 2.12 Ejercicio 01. Regresión y correlación en Excel
Como fazer análise ESTATÍSTICA com Python
T de Student: Muestras Independientes
Hipertensión Arterial - Parte 2 (Valoración inicial y Riesgo Cardiovascular)
5.0 / 5 (0 votes)