[1] 6.25
[1] 6
dias
4 5 6 7 8 9
1 2 2 1 1 1
Estadística Descriptiva
Conjunto completo de individuos que comparten una característica de interés.
Ejemplos: - Todos los pacientes con EPOC en Colombia - Todos los adultos mayores de un municipio - Todas las personas hospitalizadas por fractura de cadera en 2024
Subconjunto de la población, seleccionado para ser estudiado.
Ejemplos: - 300 pacientes con EPOC atendidos en tres IPS - 80 adultos mayores del programa de rehabilitación - 50 pacientes hospitalizados por fractura de cadera
Tip
Trabajamos con muestras por razones de costo, tiempo y factibilidad. El objetivo es que la muestra sea representativa de la población.
Valor que describe una característica de la población. Se denota con letras griegas.
| Característica | Símbolo |
|---|---|
| Media | \(\mu\) |
| Desviación estándar | \(\sigma\) |
| Proporción | \(p\) |
Valor calculado a partir de la muestra. Estima el parámetro poblacional a partir de los valores de la muestra.
| Característica | Símbolo |
|---|---|
| Media muestral | \(\bar{x}\) |
| Desv. estándar muestral | \(s\) |
| Proporción muestral | \(\hat{p}\) |
Usamos los estadísticos (muestra) para estimar los parámetros (población). Esta inferencia es el objetivo del análisis estadístico en salud.
| Escala | Tipo de variable | Tendencia central | Dispersión | Posición |
|---|---|---|---|---|
| Nominal | Cualitativa | Moda | — | — |
| Ordinal | Cualitativa | Moda, Mediana | RIC | Percentiles |
| Intervalo | Cuantitativa | Media, Mediana | \(s\), \(s^2\) | Percentiles |
| Razón | Cuantitativa | Media, Mediana | \(s\), \(s^2\), CV | Percentiles |
Note
Regla fundamental: no calcule la media de variables ordinales. Si el dolor se mide como leve / moderado / severo, la media carece de sentido clínico; use la mediana o los percentiles.
Las medidas de tendencia central indican el valor representativo o típico de un conjunto de datos.
Promedio aritmético. Sensible a valores extremos.
Valor que divide los datos por la mitad. Resistente a atípicos.
Valor más frecuente. Usable en cualquier escala.
\[\boxed{\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}}\]
\[4, \; 6, \; 5, \; 8, \; 7, \; 5, \; 9, \; 6\]
\[\bar{x} = \frac{4+6+5+8+7+5+9+6}{8} = \frac{50}{8} = \mathbf{6.25 \text{ días}}\]
Interpretación: En promedio, los pacientes estuvieron hospitalizados 6.25 días tras la cirugía de rodilla.
La mediana es el valor central cuando los datos están ordenados de menor a mayor.
\(n\) impar: \[\tilde{x} = x_{\left(\frac{n+1}{2}\right)}\]
\(n\) par: \[\tilde{x} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}\]
Datos ordenados: \(4, \; 5, \; 5, \; \mathbf{6}, \; \mathbf{6}, \; 7, \; 8, \; 9\)
\[\tilde{x} = \frac{x_{(4)} + x_{(5)}}{2} = \frac{6 + 6}{2} = \mathbf{6 \text{ días}}\]
La moda es el valor que aparece con mayor frecuencia. Un conjunto puede ser unimodal, bimodal o multimodal.
\[4, \; \mathbf{5, \; 5}, \; \mathbf{6, \; 6}, \; 7, \; 8, \; 9\]
\(\hat{x} = 5\) y \(\hat{x} = 6\) → distribución bimodal
\[0, \; 1, \; \mathbf{3, \; 3, \; 3}, \; 4, \; 5, \; 5, \; 6, \; 7 \qquad \hat{x} = 3\]
El dolor leve-moderado es la puntuación de entrada más frecuente.
\[O^+: 22 \quad A^+: 15 \quad B^+: 8 \quad AB^+: 5 \qquad \hat{x} = O^+\]
Variable nominal: la moda es la única medida de tendencia central válida.
| Situación | Medida recomendada | Justificación |
|---|---|---|
| Variable nominal (diagnóstico, grupo sanguíneo) | Moda | Única opción válida |
| Variable ordinal (dolor, nivel de dependencia) | Mediana | Escala sin aritmética real |
| Cuantitativa, distribución simétrica, sin atípicos | Media | Usa toda la información |
| Cuantitativa con datos atípicos | Mediana | Resistente a extremos |
| Cuantitativa con distribución muy asimétrica | Mediana | Más representativa |
\[10, \; 15, \; 18, \; 20, \; 25, \; 28, \; 32, \; \mathbf{65}\]
Sin el dato extremo (65 min):
\[\bar{x} = \frac{10+15+18+20+25+28+32}{7} = \frac{148}{7} \approx 21.1 \text{ min}\]
Con el dato extremo (65 min):
\[\bar{x} = \frac{148 + 65}{8} = \frac{213}{8} \approx 26.6 \text{ min}\]
Mediana (con los 8 datos): \(\tilde{x} = \dfrac{20+25}{2} = 22.5\) min → no se afecta
La media se desplazó 5.5 minutos por un solo caso extremo. La mediana permanece estable.
En distribuciones con cola larga a la derecha, la media es mayor que la mediana porque queda “jalada” hacia los valores extremos. El tiempo de espera, los días de estancia y los costos hospitalarios suelen tener esta forma.
La media sola no es suficiente. Un paciente del Grupo A oscila entre 68 y 76 lpm (estable); uno del Grupo B entre 50 y 94 lpm (alarmante). Sin medir la dispersión, esta diferencia clínica queda oculta.
\[\boxed{R = x_{\max} - x_{\min}}\]
\[4, \; 5, \; 5, \; 6, \; 6, \; 7, \; 8, \; 9\]
\[R = 9 - 4 = \mathbf{5 \text{ días}}\]
Note
El rango es muy sensible a valores extremos, un solo dato atípico lo infla completamente. Es una medida preliminar; siempre complemente con la desviación estándar o el RIC.
\[\boxed{s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}\]
\[\boxed{s = \sqrt{s^2}}\]
El divisor es \(n-1\) (no \(n\)) porque usamos la muestra para estimar la varianza poblacional, esto es lo que corrige el sesgo.
La desviación estándar \(s\) está en las mismas unidades que los datos originales, lo que facilita la interpretación clínica.
\[3, \; 5, \; 4, \; 6, \; 5, \; 7, \; 4, \; 6 \qquad \bar{x} = \frac{40}{8} = 5\]
| \(x_i\) | \(x_i - \bar{x}\) | \((x_i - \bar{x})^2\) |
|---|---|---|
| 3 | \(-2\) | 4 |
| 5 | \(0\) | 0 |
| 4 | \(-1\) | 1 |
| 6 | \(+1\) | 1 |
| 5 | \(0\) | 0 |
| 7 | \(+2\) | 4 |
| 4 | \(-1\) | 1 |
| 6 | \(+1\) | 1 |
| Total | 12 |
\[s^2 = \frac{12}{8-1} = \frac{12}{7} \approx 1.71 \quad \Rightarrow \quad s = \sqrt{1.71} \approx \mathbf{1.31 \text{ puntos EVA}}\]
Tip
Regla práctica: en distribuciones aproximadamente simétricas, alrededor del 95% de los datos cae en el intervalo \([\bar{x} - 2s, \;\bar{x} + 2s]\).
Ejemplo EVA: \(\bar{x} = 5\), \(s = 1.31\)
\[[\bar{x} - 2s, \;\bar{x} + 2s] = [5 - 2.62, \;5 + 2.62] = [2.38, \;7.62]\]
La mayoría de los pacientes tendrá una puntuación EVA entre 2.4 y 7.6 al inicio del tratamiento.
Un paciente con EVA = 9 quedaría fuera de ese rango → podría ser un caso que requiere atención especial antes de iniciar el protocolo habitual.
\[\boxed{CV = \frac{s}{\bar{x}} \times 100\%}\]
Expresa la desviación estándar como porcentaje de la media. Permite comparar variabilidades entre variables en diferentes unidades.
Variabilidad de dos signos vitales en 20 pacientes:
| Variable | \(\bar{x}\) | \(s\) | \(CV\) | Interpretación |
|---|---|---|---|---|
| Frecuencia cardíaca (lpm) | 74 | 9.2 | 12.4% | Alta variabilidad |
| Temperatura corporal (°C) | 36.8 | 0.4 | 1.1% | Muy estable |
Conclusión: La FC es mucho más variable (12.4%) que la temperatura (1.1%), lo cual es fisiológicamente esperable. El CV permite esta comparación aunque las unidades sean completamente distintas.
El percentil \(k\) (\(P_k\)) es el valor por debajo del cual se encuentra el \(k\%\) de las observaciones.
| Percentil | Aplicación clínica |
|---|---|
| \(P_{50}\) | Mediana: 50% de valores por debajo |
| \(P_{25}\) | Primer cuartil (Q1) |
| \(P_{75}\) | Tercer cuartil (Q3) |
| \(P_{90}\) | Curvas de crecimiento pediátrico: 90% de niños pesa menos |
| \(P_{95}\) | Punto de corte para HTA en pediatría (PAS > P95) |
| \(P_{97}\) | Límite superior en valores de referencia de laboratorio |
Los cuartiles son los percentiles 25, 50 y 75. Dividen los datos en cuatro partes iguales.
\[\boxed{RIC = Q_3 - Q_1}\]
El Rango Intercuartílico (RIC) mide la dispersión del 50% central de los datos. Es resistente a valores atípicos.
Datos ordenados: \(10, \; 15, \; 18, \; 20, \; 25, \; 28, \; 32, \; 65\)
Mediana (\(Q_2\)): \[\tilde{x} = \frac{x_{(4)} + x_{(5)}}{2} = \frac{20 + 25}{2} = \mathbf{22.5} \text{ min}\]
\(Q_1\): mediana de la mitad inferior \(\{10, 15, 18, 20\}\): \[Q_1 = \frac{15 + 18}{2} = \mathbf{16.5} \text{ min}\]
\(Q_3\): mediana de la mitad superior \(\{25, 28, 32, 65\}\): \[Q_3 = \frac{28 + 32}{2} = \mathbf{30} \text{ min}\]
\[RIC = 30 - 16.5 = \mathbf{13.5} \text{ min}\]
El 50% central de los pacientes esperó entre 16.5 y 30 minutos.
Caja: contiene el 50% central de los datos (de Q1 a Q3).
Línea interna: mediana (\(Q_2\)).
Bigotes: se extienden hasta el valor más extremo que no sea atípico (dentro de las vallas de Tukey).
Puntos separados: datos atípicos más allá de \(Q_1 - 1.5 \times RIC\) o \(Q_3 + 1.5 \times RIC\).
0% 25% 50% 75% 100%
10.00 17.25 22.50 29.00 65.00
[1] 11.75
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 17.25 22.50 26.62 29.00 65.00
Un dato atípico (outlier) es una observación que se aleja notablemente del patrón general de los datos.
\[\boxed{\text{Atípico si: } x < Q_1 - 1.5 \times RIC \quad \text{o} \quad x > Q_3 + 1.5 \times RIC}\]
\[Q_1 = 16.5, \quad Q_3 = 30, \quad RIC = 13.5\]
\[\text{Valla superior} = 30 + 1.5 \times 13.5 = 30 + 20.25 = \mathbf{50.25} \text{ min}\]
Como \(65 > 50.25\) → el tiempo de 65 minutos es atípico \(\checkmark\)
La mediana pasa de 22.5 a 20 (cambio leve). La media pasa de 26.6 a 21.1 (cambio importante). La mediana es más robusta frente a valores extremos.
1. Investigar, no eliminar automáticamente
2. Reportar su presencia
3. Usar estadísticos robustos
Note
En salud, un dato atípico puede ser el caso clínicamente más importante: el paciente que esperó 65 minutos merece atención especial, no ser descartado del análisis.
Una tabla de contingencia muestra la distribución conjunta de dos variables categóricas.
60 pacientes de fisioterapia. Variables: Sexo × Adherencia al tratamiento
| Alta | Media | Baja | Total | |
|---|---|---|---|---|
| Hombres | 12 | 10 | 8 | 30 |
| Mujeres | 22 | 10 | 8 | 40 |
| Total | 34 | 20 | 16 | 60 |
Esta tabla muestra frecuencias absolutas (conteos). Para comparar grupos necesitamos frecuencias relativas (porcentajes por fila o columna).
Los perfiles fila expresan los porcentajes dentro de cada fila (respecto al total de esa fila).
\[\text{Perfil fila}_{ij} = \frac{n_{ij}}{n_{i \cdot}} \times 100\%\]
| Alta | Media | Baja | Total | |
|---|---|---|---|---|
| Hombres | 12/30 = 40.0% | 10/30 = 33.3% | 8/30 = 26.7% | 100% |
| Mujeres | 22/40 = 55.0% | 10/40 = 25.0% | 8/40 = 20.0% | 100% |
Interpretación: La adherencia alta es más frecuente en mujeres (55%) que en hombres (40%). Los hombres presentan mayor proporción de adherencia baja (26.7% vs 20.0%).
Los perfiles fila responden: ¿Cómo se distribuye la adherencia dentro de cada sexo?
Los perfiles columna expresan los porcentajes dentro de cada columna (respecto al total de esa columna).
\[\text{Perfil columna}_{ij} = \frac{n_{ij}}{n_{\cdot j}} \times 100\%\]
| Alta | Media | Baja | |
|---|---|---|---|
| Hombres | 12/34 = 35.3% | 10/20 = 50.0% | 8/16 = 50.0% |
| Mujeres | 22/34 = 64.7% | 10/20 = 50.0% | 8/16 = 50.0% |
| Total | 100% | 100% | 100% |
Interpretación: Entre los pacientes con adherencia alta, el 64.7% son mujeres. En los niveles media y baja, la distribución es exactamente 50/50 entre sexos.
Los perfiles columna responden: ¿Cómo se compone cada nivel de adherencia según sexo?
adherencia
sexo Alta Baja Media
Hombres 12 8 10
Mujeres 22 8 10
adherencia
sexo Alta Baja Media
Hombres 40.0 26.7 33.3
Mujeres 55.0 20.0 25.0
| Variable(s) | Gráfico recomendado | En R (ggplot2) |
|---|---|---|
| Una cualitativa | Barras / Circular | geom_bar() |
| Dos cualitativas | Barras apiladas / agrupadas | geom_bar() |
| Una cuantitativa | Histograma / Densidad | geom_histogram() |
| Cuantitativa por grupos | Diagrama de caja | geom_boxplot() |
| Dos cuantitativas | Dispersión | geom_point() |
| Evolución temporal | Líneas | geom_line() |
Tip
Regla de oro al leer artículos: verifique que el gráfico es apropiado para el tipo de variable. Un gráfico de barras con el promedio y barras de error no muestra la distribución real, prefiera el diagrama de caja.
El tratamiento intensivo tiene mediana más alta y caja más pequeña (menor variabilidad). Los resultados son mejores y más homogéneos.
Tabla 1. Características de los participantes al inicio del estudio (n = 80)
| Variable | Total (n=80) | Convencional (n=40) | Intensivo (n=40) |
|---|---|---|---|
| Edad (años), media ± DE | 52.3 ± 14.1 | 53.1 ± 13.8 | 51.5 ± 14.4 |
| ROM rodilla (°), media ± DE | 104.8 ± 18.2 | 95.3 ± 15.0 | 112.1 ± 11.8 |
| Dolor EVA, mediana (RIC) | 5 (3–7) | 6 (4–7) | 4 (2–6) |
| Sexo femenino, n (%) | 50 (62.5%) | 25 (62.5%) | 25 (62.5%) |
| Diagnóstico principal, n (%) | |||
| — Artrosis | 38 (47.5%) | 20 (50.0%) | 18 (45.0%) |
| — Post-fractura | 26 (32.5%) | 13 (32.5%) | 13 (32.5%) |
| — Ligamentoso | 16 (20.0%) | 7 (17.5%) | 9 (22.5%) |
El dolor (EVA) usa mediana (RIC) porque es una escala ordinal. Las variables continuas con distribución aproximadamente normal usan media ± DE.
Al revisar la Tabla 1:
Al revisar gráficos:
Note
Un gráfico de barras que muestra solo la media oculta la distribución real de los datos. Al ver este tipo de gráfico en un artículo, pregunte: ¿cuál era la variabilidad? ¿Había valores extremos?
Las medidas descriptivas que aprendimos aparecen en la Tabla 1 de cualquier artículo publicado en ciencias de la salud. Analizamos tres estudios reales para ver qué estadísticos se usan, por qué y qué nos dicen clínicamente.
Artículo 1
Actividad física en EPOC
Am J Respir Crit Care Med, 2005
Fisioterapia respiratoria
Artículo 2
Prevención de caídas hospitalarias
JAMA, 2010
Enfermería hospitalaria
Artículo 3
Riesgo cardiovascular en América Latina
Am J Med, 2008
Salud pública y preventiva
Diseño: Estudio observacional transversal.
Objetivo: Caracterizar los patrones de actividad física en pacientes con EPOC comparados con controles sanos, usando sensores de movimiento durante dos semanas.
Participantes:
Pregunta clave: ¿Cuánto se mueven realmente los pacientes con EPOC fuera del hospital?
Note
Referencia
Pitta F, Troosters T, Spruit MA, Probst VS, Decramer M, Gosselink R. Characteristics of physical activities in daily life in chronic obstructive pulmonary disease. Am J Respir Crit Care Med. 2005;171(9):972–977.
Características demográficas y funcionales al inicio del estudio
| Variable | EPOC (n = 50) | Controles (n = 25) |
|---|---|---|
| Edad (años), media ± DE | 67 ± 7 | 64 ± 7 |
| Sexo masculino, n (%) | 39 (78%) | 21 (84%) |
| IMC (kg/m²), media ± DE | 23,8 ± 4,5 | 25,7 ± 3,4 |
| FEV₁ (% predicho), media ± DE | 42 ± 13 | 106 ± 12 |
| Prueba de marcha 6 min (m), media ± DE | 449 ± 82 | 548 ± 64 |
| Disnea mMRC, mediana (RIC) | 2 (1–3) | 0 (0–0) |
| Tiempo de caminata diaria (min/día), mediana (RIC) | 26 (11–48) | 72 (50–107) |
Tip
¿Por qué dos estadísticos en la misma tabla? FEV₁, IMC, 6MWT y edad son continuas simétricas → media ± DE. La disnea (escala ordinal mMRC 0–4) y el tiempo de caminata (distribución fuertemente asimétrica) → mediana (RIC).
Adaptado de: Pitta et al. Am J Respir Crit Care Med. 2005;171:972–977.
Hallazgo principal
Los pacientes con EPOC caminaron solo 26 min/día frente a 72 min/día en controles (p < 0,001). Una diferencia de casi 3 veces que no se captura en el laboratorio.
Implicación para fisioterapia
El 6MWT en laboratorio (449 m EPOC vs. 548 m controles) subestima la inactividad real: el paciente puede completar el test pero permanecer casi sedentario en su vida cotidiana.
Lectura crítica de la tabla:
Diseño: Ensayo clínico controlado aleatorizado por conglomerados.
Objetivo: Evaluar si el programa FALL TIPS (planes de prevención individualizados impresos al lado de la cama del paciente) reduce la tasa de caídas durante la hospitalización.
Participantes:
Pregunta clave: ¿Una intervención de enfermería basada en información personalizada reduce las caídas?
Note
Referencia
Dykes PC, Carroll DL, Hurley A, et al. Fall prevention in acute care hospitals: a randomized trial. JAMA. 2010;304(17):1912–1918.
| Variable | Intervención (n = 4.813) | Control (n = 5.238) |
|---|---|---|
| Edad (años), media ± DE | 62,6 ± 18,0 | 61,2 ± 18,4 |
| Sexo femenino, n (%) | 2.127 (44,2%) | 2.322 (44,3%) |
| Escala de Morse, media ± DE | 40,3 ± 22,5 | 37,9 ± 22,7 |
| Estancia hospitalaria (días), mediana (RIC) | 3 (2–6) | 3 (2–6) |
| Caídas / 1.000 días-paciente | 3,15 | 4,18 |
| Reducción ajustada de caídas | 24,6% (p = 0,03) | — |
Warning
La estancia usa mediana (RIC), no media ± DE: la mayoría de los pacientes tiene estancias cortas, pero algunos permanecen semanas → cola derecha pronunciada. Reportar la media daría una imagen distorsionada del paciente típico.
Adaptado de: Dykes et al. JAMA. 2010;304:1912–1918.
Comparabilidad línea de base
Ambos grupos son similares en edad, sexo y escala de Morse al inicio: la aleatorización funcionó. Verificar esta comparabilidad es el primer paso al leer cualquier ensayo clínico.
La tasa ajusta por tiempo de observación
Caídas por 1.000 días-paciente es la métrica correcta porque los pacientes tienen tiempos de estancia muy diferentes. Reportar solo el recuento absoluto sería engañoso.
Lectura crítica de la tabla:
Diseño: Estudio transversal de base poblacional con muestreo probabilístico en cada ciudad.
Objetivo: Estimar la prevalencia de factores de riesgo cardiovascular en adultos de 7 ciudades de América Latina.
Participantes: 11.550 adultos de 25 a 64 años de Barquisimeto, Bogotá, Buenos Aires, Lima, Ciudad de México, Quito y Santiago.
Relevancia local: Es uno de los estudios comparativos más importantes con datos propios de Colombia sobre riesgo cardiovascular.
Note
Referencia
Schargrodsky H, Hernández-Hernández R, Champagne BM, et al. CARMELA: assessment of cardiovascular risk in seven Latin American cities. Am J Med. 2008;121(1):58–65.
| Ciudad | n | HTA | Diabetes | Dislipidemia | Obesidad |
|---|---|---|---|---|---|
| Barquisimeto | 1.849 | 25,0 | 6,3 | 47,0 | 28,7 |
| Bogotá | 1.553 | 14,0 | 7,4 | 51,3 | 17,5 |
| Buenos Aires | 1.428 | 28,3 | 6,8 | 53,9 | 23,2 |
| Lima | 1.668 | 11,0 | 7,0 | 47,8 | 17,1 |
| Cd. de México | 1.728 | 17,5 | 9,7 | 53,4 | 30,2 |
| Quito | 1.710 | 16,4 | 7,2 | 37,9 | 16,2 |
| Santiago | 1.614 | 27,8 | 7,5 | 51,7 | 25,2 |
Adaptado de: Schargrodsky et al. Am J Med. 2008;121:58–65.
¿Por qué solo n (%)?
Todas las variables son dicotómicas (tiene/no tiene el factor de riesgo). El único estadístico válido es la proporción reportada como porcentaje.
Bogotá destaca por:
HTA más baja de las ciudades no andinas (14%) → efecto protector de la altitud (2.640 m s.n.m.) sobre la presión arterial en reposo.
Dislipidemia alta (51,3%), esta alteración del metabolismo de las grasas que afecta los niveles de colesterol y triglicéridos en la sangre es el principal factor de riesgo en la capital colombiana.
| Situación en el artículo | Estadístico | Justificación |
|---|---|---|
| Continua simétrica (edad, FEV₁, 6MWT) | Media ± DE | Usa toda la información; DE tiene unidades del dato original |
| Continua asimétrica (estancia, caminata diaria) | Mediana (RIC) | Resistente a la cola larga; RIC describe el 50% central |
| Ordinal (disnea mMRC, dolor EVA) | Mediana (RIC) | La aritmética de escalas ordinales carece de sentido clínico |
| Dicotómica (sexo, HTA, diabetes) | n (%) | Solo puede ser proporción; la media no aplica |
| Tasa de eventos con tiempo variable | Tasa / 1.000 días | Ajusta por el tiempo de observación diferente entre sujetos |
Tip
Regla para la práctica profesional: Antes de elegir la estadística, responda dos preguntas: ¿qué tipo de variable es? y ¿cómo es su distribución? Las respuestas determinan si debe reportar media ± DE, mediana (RIC) o n (%).
Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.
Cualquier copia parcial o total de este material, debe citar la fuente como:
Babativa-Márquez, J.G. Diapositivas del curso de Estadística Fundamental para Ciencias de la Salud. URL: https://jgbabativam.github.io/EstadFundSalud/