Rango y desviación: medidas de dispersión estadística

Rango y desviación: medidas de dispersión estadística

📏 Rango y Desviación: Midiendo la variabilidad de los datos

¿Alguna vez dos grupos han tenido la misma media pero uno era mucho más consistente que otro? O ¿has visto datos donde todos los valores están cerca del promedio frente a otros muy dispersos? Las medidas de dispersión como el rango, la desviación media y la desviación típica te permiten cuantificar esa variabilidad. Mientras las medidas de centralización te dicen «dónde está el centro», las medidas de dispersión te dicen «cuánto se alejan los datos de ese centro».

🎯 En este post aprenderás: Cómo calcular e interpretar el rango, la desviación media, la varianza y la desviación típica. Cuándo usar cada medida, sus ventajas y limitaciones, y cómo complementan a la media, mediana y moda.

🔍 ¿Por qué necesitamos medidas de dispersión?

🎯 Dos grupos con misma media pero diferente dispersión

Imagina dos clases con las mismas notas medias pero distribuciones muy diferentes:

  • Clase A (homogénea): 6, 6, 7, 7, 7, 7, 8, 8 → Media = 7.0
  • Clase B (heterogénea): 2, 4, 6, 7, 7, 8, 10, 12 → Media = 7.0

¡Ambas tienen la misma media (7.0)! Pero en la Clase A todos están cerca de 7, mientras que en la Clase B hay desde suspensos (2) hasta sobresalientes (12). Las medidas de dispersión capturan esta diferencia fundamental que la media por sí sola oculta.

💡 Regla de oro: Nunca reportes solo la media. Siempre acompaña una medida de centralización (media, mediana) con una medida de dispersión (desviación típica, rango intercuartílico). Por ejemplo: «La nota media fue 7.2 con una desviación típica de 1.5 puntos.»

📊 El Rango (o Amplitud)

📏 DEFINICIÓN

  • Concepto: Diferencia entre valor máximo y mínimo
  • Fórmula: R = Máx – Mín
  • Interpretación: «Espacio total» que cubren los datos
  • Ventaja: Sencillo de calcular y entender
  • Desventaja: Solo usa 2 valores, sensible a outliers
  • Símbolo: R

🎯 CUÁNDO USAR

  • Análisis preliminar rápido
  • Cuando outliers no son problema
  • Para datos con pocos valores extremos
  • Cuando solo interesa el «span» total
  • En control de calidad simple
  • Como primera aproximación

❌ CUÁNDO NO USAR

  • Datos con valores extremos (outliers)
  • Cuando la mayoría está concentrada
  • Para comparar dispersión entre grupos
  • Análisis estadístico serio
  • Cuando outliers distorsionan
  • Para inferencias estadísticas

Cálculo y ejemplo del rango

📝 Ejemplo: Temperaturas diarias en una ciudad

Temperaturas máximas (°C) durante una semana: 18, 20, 22, 19, 25, 21, 17

  1. Identificar valor máximo: 25°C (viernes)
  2. Identificar valor mínimo: 17°C (domingo)
  3. Calcular diferencia: R = 25 – 17 = 8°C
  4. Interpretación: La temperatura varió 8°C durante la semana.
Rango = Valor máximo – Valor mínimo
R = xₘₐₓ – xₘᵢₙ

⚠️ Problema del rango con outliers
Grupo A: 5, 6, 7, 8, 9 → Rango = 9 – 5 = 4
Grupo B: 5, 6, 7, 8, 20 → Rango = 20 – 5 = 15

¡El Grupo B parece mucho más disperso (R=15 vs R=4)! Pero en realidad, 4 de 5 valores son iguales en ambos grupos (5,6,7,8). Solo un outlier (20) infla el rango del Grupo B. Esta es la gran limitación del rango.

📊 Rango Intercuartílico (IQR)

📏 DEFINICIÓN MEJORADA

  • Concepto: Diferencia entre tercer y primer cuartil
  • Fórmula: IQR = Q₃ – Q₁
  • Interpretación: Rango del 50% central de datos
  • Ventaja: Robusto contra outliers
  • Desventaja: Ignora el 50% de datos (25% inferior + 25% superior)
  • Símbolo: IQR

📝 CÁLCULO

  1. Ordenar datos de menor a mayor
  2. Calcular Q₁ (percentil 25)
  3. Calcular Q₃ (percentil 75)
  4. IQR = Q₃ – Q₁
  5. Para outliers: Q₁ – 1.5×IQR y Q₃ + 1.5×IQR

📝 Ejemplo: Calcular IQR

Datos: 2, 4, 5, 6, 7, 8, 10, 12, 15, 20 (n=10)

  1. Ya están ordenados
  2. Calcular Q₁ (posición 25%): 0.25 × 10 = 2.5 → promedio posiciones 2 y 3: (4+5)÷2 = 4.5
  3. Calcular Q₃ (posición 75%): 0.75 × 10 = 7.5 → promedio posiciones 7 y 8: (10+12)÷2 = 11
  4. Calcular IQR: 11 – 4.5 = 6.5
  5. Interpretación: El 50% central de los datos se encuentra en un rango de 6.5 unidades.

📊 Desviación Media

📐 DEFINICIÓN

  • Concepto: Promedio de desviaciones absolutas respecto a la media
  • Fórmula: DM = Σ|xᵢ – x̄| ÷ n
  • Interpretación: «En promedio, cuánto se alejan los datos de la media»
  • Ventaja: Fácil de interpretar, usa todos los datos
  • Desventaja: Matemáticamente menos útil (valor absoluto)
  • Símbolo: DM

🎯 CUÁNDO USAR

  • Para enseñanza (concepto intuitivo)
  • Cuando se busca interpretación simple
  • En contextos no matemáticos avanzados
  • Como paso previo a desviación típica
  • Para comparar dispersión en misma unidad
  • Cuando outliers son moderados

Cálculo paso a paso de la desviación media

📝 Ejemplo: Notas de 5 estudiantes

Datos: 7, 8, 6, 9, 5 (media x̄ = 7)

Nota (xᵢ)xᵢ – x̄|xᵢ – x̄|
77-7=00
88-7=11
66-7=-11
99-7=22
55-7=-22
Total6
  1. Calcular media: x̄ = (7+8+6+9+5)÷5 = 35÷5 = 7
  2. Calcular desviaciones: xᵢ – x̄ (con signo)
  3. Tomar valor absoluto: |xᵢ – x̄| (sin signo, todas positivas)
  4. Sumar desviaciones absolutas: 0+1+1+2+2 = 6
  5. Dividir entre n: 6 ÷ 5 = 1.2
  6. Resultado: DM = 1.2

Interpretación: En promedio, las notas se alejan 1.2 puntos de la media (7).

Desviación Media = Σ|xᵢ – x̄| ÷ n

📊 Varianza

📐 DEFINICIÓN

  • Concepto: Promedio de desviaciones al cuadrado
  • Fórmula muestral: s² = Σ(xᵢ – x̄)² ÷ (n-1)
  • Fórmula poblacional: σ² = Σ(xᵢ – μ)² ÷ N
  • Interpretación: «Dispersión en unidades cuadradas»
  • Ventaja: Bases para análisis estadístico
  • Desventaja: Unidades cuadradas, difícil interpretar
  • Símbolo: s² (muestra), σ² (población)

🎯 CUÁNDO USAR

  • Como paso para desviación típica
  • En cálculos estadísticos avanzados
  • Para análisis de varianza (ANOVA)
  • En fórmulas de regresión
  • Cuando se necesita propiedad aditiva
  • En pruebas de hipótesis

¿Por qué n-1 en la varianza muestral?

🧠 Explicación intuitiva del «n-1»
Cuando calculamos la varianza de una muestra (s²), usamos n-1 en lugar de n para corregir un pequeño sesgo. Esto se llama corrección de Bessel.

  • Problema: La media muestral (x̄) se calcula de los mismos datos, por lo que está «demasiado ajustada» a ellos
  • Resultado: Las desviaciones (xᵢ – x̄) tienden a ser ligeramente menores que si usáramos la media poblacional real (μ)
  • Solución: Dividir entre n-1 en lugar de n compensa esta subestimación
  • Intuición: Con n-1 «grados de libertad», después de calcular x̄, solo n-1 datos pueden variar libremente

Regla práctica: Para población (σ²) dividir entre N. Para muestra (s²) dividir entre n-1.

Cálculo paso a paso de la varianza

📝 Ejemplo: Varianza muestral

Datos: 2, 4, 6, 8, 10 (n=5, muestra)

xᵢxᵢ – x̄(xᵢ – x̄)²
22-6=-416
44-6=-24
66-6=00
88-6=24
1010-6=416
Total40
  1. Calcular media: x̄ = (2+4+6+8+10)÷5 = 30÷5 = 6
  2. Calcular desviaciones: xᵢ – x̄
  3. Elevar al cuadrado: (xᵢ – x̄)²
  4. Sumar cuadrados: 16+4+0+4+16 = 40
  5. Dividir entre n-1: 40 ÷ (5-1) = 40 ÷ 4 = 10
  6. Resultado: Varianza muestral s² = 10

Interpretación: La varianza es 10 «unidades cuadradas». ¡Difícil de entender! Por eso sacamos raíz cuadrada para obtener desviación típica.

Varianza muestral: s² = Σ(xᵢ – x̄)² ÷ (n-1)
Varianza poblacional: σ² = Σ(xᵢ – μ)² ÷ N

📊 Desviación Típica (o Estándar)

📏 DEFINICIÓN

  • Concepto: Raíz cuadrada de la varianza
  • Fórmula muestral: s = √[Σ(xᵢ – x̄)² ÷ (n-1)]
  • Fórmula poblacional: σ = √[Σ(xᵢ – μ)² ÷ N]
  • Interpretación: «Dispersión en unidades originales»
  • Ventaja: Misma unidad que datos, muy útil
  • Desventaja: Sensible a outliers (aunque menos que rango)
  • Símbolo: s (muestra), σ (población)

🎯 CUÁNDO USAR

  • En la mayoría de situaciones
  • Para reportar con media
  • Comparar dispersión entre grupos
  • En regla empírica (68-95-99.7)
  • Para cálculos de intervalo de confianza
  • En análisis estadístico general

Cálculo paso a paso de la desviación típica

📝 Continuación del ejemplo anterior

Ya calculamos: s² = 10

  1. Tomar raíz cuadrada de varianza: √10 ≈ 3.16
  2. Resultado: Desviación típica muestral s ≈ 3.16

Interpretación: Los datos se desvían en promedio unos 3.16 unidades de la media (6).

Desviación típica muestral: s = √[Σ(xᵢ – x̄)² ÷ (n-1)]
Desviación típica poblacional: σ = √[Σ(xᵢ – μ)² ÷ N]

📚 Ejemplo completo: Notas de dos clases
Clase A: 6, 6, 7, 7, 7, 7, 8, 8
• Media: 7.0, Desviación típica: ≈0.76
Clase B: 2, 4, 6, 7, 7, 8, 10, 12
• Media: 7.0, Desviación típica: ≈3.24

¡Ambas tienen media 7.0! Pero la Clase A tiene desviación pequeña (0.76) → notas muy consistentes. Clase B tiene desviación grande (3.24) → notas muy dispersas. Sin desviación típica, no veríamos esta diferencia crucial.

📊 Regla Empírica (68-95-99.7)

🎯 Para distribuciones aproximadamente normales

Si los datos siguen una distribución normal (en forma de campana de Gauss), entonces:

  • 68% de los datos están dentro de 1 desviación típica de la media (x̄ ± 1s)
  • 95% de los datos están dentro de 2 desviaciones típicas de la media (x̄ ± 2s)
  • 99.7% de los datos están dentro de 3 desviaciones típicas de la media (x̄ ± 3s)

📏 Ejemplo aplicado: Alturas de estudiantes
Supongamos que las alturas de estudiantes tienen distribución normal con:
• Media: 170 cm
• Desviación típica: 10 cm

Aplicando regla empírica:
68% miden entre 160-180 cm (170 ± 10)
95% miden entre 150-190 cm (170 ± 20)
99.7% miden entre 140-200 cm (170 ± 30)

Si un estudiante mide 195 cm, está a 2.5 desviaciones de la media (195-170=25, 25÷10=2.5). Esto es bastante inusual (solo ~1% estarían más lejos).

📊 Coeficiente de Variación (CV)

📈 DEFINICIÓN

  • Concepto: Desviación típica relativa a la media
  • Fórmula: CV = (s ÷ x̄) × 100%
  • Interpretación: «Dispersión relativa» en porcentaje
  • Ventaja: Compara dispersión entre grupos con diferentes unidades o escalas
  • Desventaja: Solo para datos con escala de razón (con cero absoluto)
  • Símbolo: CV

🏭 Ejemplo: Comparando variabilidad en fábricas
Fábrica A (tornillos): Longitud media=5.0cm, s=0.5cm → CV=(0.5÷5.0)×100%=10%
Fábrica B (tuercas): Peso medio=50g, s=8g → CV=(8÷50)×100%=16%

¡Aunque la desviación absoluta es mayor en la fábrica B (8g vs 0.5cm), la variabilidad relativa es mayor en B (16% vs 10%). La fábrica B es menos consistente relativamente.

📊 Comparación completa de todas las medidas de dispersión

Medida Fórmula Ventajas Desventajas ¿Cuándo usar?
Rango Máx – Mín Sencillo, rápido Solo 2 valores, sensible a outliers Análisis preliminar
Rango Intercuartílico Q₃ – Q₁ Robusto contra outliers Ignora 50% de datos Datos con outliers, diagramas caja
Desviación Media Σ|xᵢ-x̄|÷n Fácil interpretación Valor absoluto, menos útil matemáticamente Enseñanza, interpretación simple
Varianza Σ(xᵢ-x̄)²÷(n-1) Bases estadísticas, propiedades algebraicas Unidades cuadradas, difícil interpretar Cálculos estadísticos
Desviación Típica √Varianza Misma unidad, muy útil, regla empírica Sensible a outliers (aunque menos) En la mayoría de situaciones
Coef. Variación (s÷x̄)×100% Compara dispersión entre escalas diferentes Solo para escalas de razón Comparar variabilidad relativa

⚠️ Errores comunes con medidas de dispersión

Error Ejemplo incorrecto Corrección Consecuencia
Confundir varianza con desviación Decir «desviación=25» cuando es varianza Desviación=√25=5 Interpretación exagerada (5 veces mayor)
Usar rango con outliers 1,2,3,4,5,100 → Rango=99 (engañoso) Usar IQR o mencionar outlier Impresión de gran dispersión cuando 5/6 datos están entre 1-5
Comparar desviaciones de medias muy diferentes s=5 con x̄=10 vs s=5 con x̄=100 Usar coeficiente de variación Primer grupo tiene 50% dispersión relativa, segundo solo 5%
Olvidar n-1 en varianza muestral Usar n en lugar de n-1 para muestra Dividir entre n-1 para muestra Subestimación de varianza poblacional
Aplicar regla empírica a distribuciones no normales Usar 68-95-99.7 en datos muy sesgados Verificar normalidad primero Porcentajes incorrectos, conclusiones erróneas
Reportar media sin dispersión «La media es 7» sin desviación «Media=7, s=1.5» o «Media=7, rango=4-10» Información incompleta, puede llevar a malas decisiones
Interpretar desviación como rango «Los datos van de x̄-s a x̄+s» (68% no todos) x̄±s contiene ~68% de datos (si normales) Expectativas incorrectas sobre datos individuales

🧮 Cálculos con datos agrupados

Varianza y desviación para datos agrupados

📝 Ejemplo: Horas de estudio semanales

HorasEstudiantes (f)Marca (x)f×xf×x²
0-5102.525.062.5
5-10157.5112.5843.75
10-152012.5250.03,125.0
15-20517.587.51,531.25
Total50475.05,562.5
  1. Media aproximada: x̄ = Σ(f×x) ÷ n = 475 ÷ 50 = 9.5 horas
  2. Varianza aproximada: s² = [Σ(f×x²) – (Σf×x)²/n] ÷ (n-1)
    = [5,562.5 – (475)²/50] ÷ 49
    = [5,562.5 – 225,625/50] ÷ 49
    = [5,562.5 – 4,512.5] ÷ 49
    = 1,050 ÷ 49 ≈ 21.43
  3. Desviación típica: s = √21.43 ≈ 4.63 horas

Interpretación: Los estudiantes estudian en promedio 9.5 horas/semana, con una desviación típica de 4.63 horas.

🌍 Aplicaciones reales en diferentes campos

🏭 Control de calidad

  • Tolerancias: Desviación típica para especificar límites aceptables
  • Proceso estable: Desviación pequeña indica consistencia
  • Six Sigma: Meta: desviación tan pequeña que 6σ quepa dentro de especificaciones
  • Gráficos control: Líneas en x̄±3σ para detectar variación anormal

📈 Finanzas e inversiones

  • Riesgo: Desviación típica de rendimientos = volatilidad
  • Diversificación: Reducir desviación de cartera combinando activos
  • Value at Risk (VaR): Basado en desviación para estimar pérdidas potenciales
  • Ratio Sharpe: (Rendimiento – libre riesgo) ÷ desviación = rendimiento por riesgo

🔬 Investigación científica

  • Error experimental: Desviación de mediciones repetidas
  • Significancia estadística: Comparar medias considerando desviaciones
  • Intervalos confianza: x̄ ± t×(s/√n) para estimar parámetro poblacional
  • Reproducibilidad: Desviación baja entre experimentos similares

🧠 Ejercicios prácticos

Ejercicio 1: Cálculo de todas las medidas

Calcula rango, desviación media, varianza y desviación típica para:

  1. Edades: 14, 15, 16, 17, 18 (años)
  2. Notas: 5, 7, 6, 8, 9 (sobre 10)
  3. Precios: 10, 20, 15, 25, 30 (euros)
  4. Tiempos: 4.5, 5.2, 4.8, 5.0, 5.5 (minutos)

Para cada conjunto: 1) Calcula todas las medidas, 2) Interpreta la desviación típica, 3) Compara rango con desviación típica.

✅ Ver solución
  1. Edades: 14,15,16,17,18
    • Media: (14+15+16+17+18)÷5 = 80÷5 = 16 años
    • Rango: 18-14 = 4 años
    • Desviación media: |14-16|+|15-16|+|16-16|+|17-16|+|18-16| = 2+1+0+1+2 = 6 → 6÷5 = 1.2 años
    • Varianza: (4+1+0+1+4)÷4 = 10÷4 = 2.5 años²
    • Desviación típica: √2.5 ≈ 1.58 años
    • Interpretación: Las edades se desvían en promedio 1.58 años de la media (16). Rango (4) es más del doble que desviación (1.58).
  2. Notas: 5,7,6,8,9
    • Media: (5+7+6+8+9)÷5 = 35÷5 = 7
    • Rango: 9-5 = 4 puntos
    • Desviación media: |5-7|+|7-7|+|6-7|+|8-7|+|9-7| = 2+0+1+1+2 = 6 → 6÷5 = 1.2 puntos
    • Varianza: (4+0+1+1+4)÷4 = 10÷4 = 2.5 puntos²
    • Desviación típica: √2.5 ≈ 1.58 puntos
    • Interpretación: Similar al anterior, desviación 1.58 puntos.
  3. Precios: 10,20,15,25,30
    • Media: (10+20+15+25+30)÷5 = 100÷5 = 20€
    • Rango: 30-10 = 20€
    • Desviación media: |10-20|+|20-20|+|15-20|+|25-20|+|30-20| = 10+0+5+5+10 = 30 → 30÷5 = 6€
    • Varianza: (100+0+25+25+100)÷4 = 250÷4 = 62.5€²
    • Desviación típica: √62.5 ≈ 7.91€
    • Interpretación: Mayor dispersión: desviación 7.91€, rango 20€.
  4. Tiempos: 4.5,5.2,4.8,5.0,5.5
    • Media: (4.5+5.2+4.8+5.0+5.5)÷5 = 25÷5 = 5.0 min
    • Rango: 5.5-4.5 = 1.0 min
    • Desviación media: |4.5-5.0|+|5.2-5.0|+|4.8-5.0|+|5.0-5.0|+|5.5-5.0| = 0.5+0.2+0.2+0+0.5 = 1.4 → 1.4÷5 = 0.28 min
    • Varianza: (0.25+0.04+0.04+0+0.25)÷4 = 0.58÷4 = 0.145 min²
    • Desviación típica: √0.145 ≈ 0.38 min
    • Interpretación: Tiempos muy consistentes: desviación solo 0.38 min.

Ejercicio 2: Comparación de grupos

Dos métodos de enseñanza fueron evaluados. Las notas finales (sobre 20) fueron:

  • Método A: 12, 14, 15, 16, 18
  • Método B: 8, 14, 15, 16, 22
  1. Calcula media y desviación típica para cada método
  2. ¿Qué método tiene mejor rendimiento medio?
  3. ¿Qué método es más consistente (menos dispersión)?
  4. Si fueras director, ¿qué método preferirías? Justifica considerando ambas medidas
  5. ¿Cómo afecta el outlier (22 en Método B) a las medidas?
✅ Ver solución
  1. Cálculos:
    • Método A: Media = (12+14+15+16+18)÷5 = 75÷5 = 15. Varianza: (9+1+0+1+9)÷4 = 20÷4 = 5. s = √5 ≈ 2.24
    • Método B: Media = (8+14+15+16+22)÷5 = 75÷5 = 15. Varianza: (49+1+0+1+49)÷4 = 100÷4 = 25. s = √25 = 5.00
  2. Rendimiento medio: Ambos tienen misma media (15).
  3. Consistencia: Método A es más consistente (s=2.24 vs s=5.00). Menos dispersión.
  4. Preferencia como director: Depende de objetivos:
    • Si quiero consistencia (todos aprenden similar): Método A (menor desviación)
    • Si quiero excelencia (algunos sobresalgan aunque otros fallen): Método B (tiene máximo 22)
    • Generalmente se prefiere menor dispersión (Método A): más predecible, menos estudiantes en riesgo
  5. Efecto del outlier (22):
    • Media: Ambas son 15 (el outlier 22 compensa el 8)
    • Desviación: Aumenta mucho en Método B (5.00 vs 2.24)
    • Rango: Método B: 22-8=14, Método A: 18-12=6 (outlier infla rango)
    • Sin outlier (quitando 22): Media B sería (8+14+15+16)÷4 = 53÷4 = 13.25 (menor)

Ejercicio 3: Aplicación de regla empírica

El peso de paquetes en una empresa de mensajería sigue distribución normal con:

  • Media: 2.5 kg
  • Desviación típica: 0.5 kg
  1. ¿Entre qué pesos está el 68% de los paquetes?
  2. ¿Entre qué pesos está el 95% de los paquetes?
  3. ¿Qué porcentaje pesa más de 3.0 kg?
  4. ¿Qué porcentaje pesa entre 2.0 y 3.0 kg?
  5. Si un paquete pesa 3.5 kg, ¿a cuántas desviaciones está de la media?
  6. ¿Es inusual un paquete de 1.8 kg? Justifica
✅ Ver solución
  1. 68% de paquetes: 2.5 ± 0.5 = entre 2.0 y 3.0 kg
  2. 95% de paquetes: 2.5 ± (2×0.5) = 2.5 ± 1.0 = entre 1.5 y 3.5 kg
  3. Más de 3.0 kg: 3.0 kg está a +1σ (3.0-2.5=0.5, 0.5÷0.5=1). Por regla empírica, fuera de ±1σ hay 32% (100%-68%), la mitad en cada cola → 16% pesa más de 3.0 kg.
  4. Entre 2.0 y 3.0 kg: Es exactamente ±1σ → 68% (por regla empírica).
  5. 3.5 kg: (3.5-2.5)÷0.5 = 1.0÷0.5 = 2 desviaciones estándar.
  6. 1.8 kg: (2.5-1.8)÷0.5 = 0.7÷0.5 = 1.4σ. No es muy inusual (dentro de 2σ que contiene 95%). Más específicamente: entre -1.4σ y media hay ~42% (tabla Z), más 50% sobre media = 92% pesan más que 1.8kg, solo ~8% pesan menos.

Ejercicio 4: Análisis de datos agrupados

Esta tabla muestra ingresos mensuales de 100 familias:

Ingreso (€)Familias
500-100010
1000-150020
1500-200035
2000-250025
2500-300010
  1. Calcula la media aproximada de ingresos
  2. Calcula la varianza y desviación típica aproximadas
  3. ¿En qué intervalo está la moda?
  4. Calcula el coeficiente de variación
  5. Interpreta los resultados en contexto
✅ Ver solución
  1. Media aproximada:
    IntervaloMarca (x)Fam (f)f×xf×x²
    500-1000750107,5005,625,000
    1000-150012502025,00031,250,000
    1500-200017503561,250107,187,500
    2000-250022502556,250126,562,500
    2500-300027501027,50075,625,000
    Total100177,500346,250,000
    Media: 177,500 ÷ 100 = 1,775 €
  2. Varianza y desviación:
    Varianza: s² = [Σ(f×x²) – (Σf×x)²/n] ÷ (n-1)
    = [346,250,000 – (177,500)²/100] ÷ 99
    = [346,250,000 – 315,062,500] ÷ 99
    = 31,187,500 ÷ 99 ≈ 315,025.25 €²
    Desviación: s = √315,025.25 ≈ 561.27 €
  3. Intervalo modal: 1500-2000 € (mayor frecuencia: 35 familias).
  4. Coeficiente variación: CV = (561.27 ÷ 1,775) × 100% ≈ 31.6%
  5. Interpretación:
    • Ingreso medio: 1,775 €/mes
    • Desviación: 561 € (los ingresos se desvían en promedio 561€ de la media)
    • CV 31.6%: Variabilidad relativa moderada-alta
    • Distribución: Mayor concentración en 1500-2000€ (moda), pero hay dispersión considerable

Ejercicio 5: Proyecto de investigación

Imagina que estudias el tiempo diario que estudiantes dedican a redes sociales:

  • Recolectas datos de 15 compañeros (o inventa datos realistas)
  • Los tiempos en horas: 1, 2, 3, 4, 2, 5, 1, 3, 4, 2, 6, 1, 3, 2, 4
  1. Calcula media, mediana y moda
  2. Calcula rango, desviación media, varianza y desviación típica
  3. Crea una tabla de frecuencias simple
  4. Aplica regla empírica (si es aproximadamente normal)
  5. Compara con estudio nacional que dice: media=2.8h, s=1.2h
  6. Escribe un breve informe con conclusiones
✅ Ver solución
  1. Medidas centralización:
    • Datos: 1,1,1,2,2,2,2,3,3,3,4,4,4,5,6 (ordenados)
    • Media: (1×3 + 2×4 + 3×3 + 4×3 + 5 + 6) ÷ 15 = (3+8+9+12+5+6)÷15 = 43÷15 ≈ 2.87 horas
    • Mediana: 15 datos → posición 8 → 3 horas
    • Moda: 2 horas (aparece 4 veces)
  2. Medidas dispersión:
    • Rango: 6-1 = 5 horas
    • Desviación media: calcular |xᵢ-2.87|, sumar, dividir 15 ≈ 1.28 horas
    • Varianza: calcular (xᵢ-2.87)², sumar=38.93, dividir 14 ≈ 2.78 horas²
    • Desviación típica: √2.78 ≈ 1.67 horas
  3. Tabla frecuencias:
    HorasEstudiantes
    13
    24
    33
    43
    51
    61
    Total15
  4. Regla empírica (aproximada):
    • Media±s: 2.87±1.67 = 1.20 a 4.54 horas → debería contener ~68% datos
    • Datos en ese intervalo: 1,2,2,2,2,3,3,3,4,4,4 (11 de 15 = 73%) → cercano a 68%
    • Media±2s: 2.87±3.34 = -0.47 a 6.21 → todos los datos (100%) dentro (esperado 95%)
  5. Comparación nacional:
    • Nuestro grupo: media=2.87h, s=1.67h
    • Nacional: media=2.8h, s=1.2h
    • Nuestra media similar (2.87 vs 2.8)
    • Nuestra desviación mayor (1.67 vs 1.2) → más variabilidad en nuestro grupo
  6. Informe breve:
    «Estudio sobre uso redes sociales – Muestra: 15 estudiantes
    • Media: 2.87 horas/día (similar a nacional: 2.8h)
    • Mediana: 3 horas (mitad usa menos, mitad más)
    • Moda: 2 horas (lo más común)
    • Desviación típica: 1.67 horas (mayor que nacional 1.2h → más variabilidad)
    • Rango: 1-6 horas (amplia diferencia entre estudiantes)
    • Conclusión: Uso similar al promedio nacional pero con mayor dispersión, indicando hábitos muy diferentes entre estudiantes.»

📖 Glosario de términos de dispersión

Término Definición Símbolo/Fórmula
Rango Diferencia entre máximo y mínimo R = xₘₐₓ – xₘᵢₙ
Rango Intercuartílico Diferencia entre tercer y primer cuartil IQR = Q₃ – Q₁
Desviación Media Promedio de desviaciones absolutas DM = Σ|xᵢ-x̄| ÷ n
Varianza Promedio de desviaciones al cuadrado s² = Σ(xᵢ-x̄)² ÷ (n-1) (muestra)
Desviación Típica Raíz cuadrada de la varianza s = √[Σ(xᵢ-x̄)² ÷ (n-1)]
Coeficiente Variación Desviación relativa a la media CV = (s ÷ x̄) × 100%
Outlier Valor extremadamente diferente Generalmente fuera de Q₁-1.5×IQR o Q₃+1.5×IQR
Regla Empírica 68-95-99.7 para distribuciones normales x̄±1s:68%, x̄±2s:95%, x̄±3s:99.7%
Dispersión Variabilidad o esparcimiento de datos Opuesto a concentración
Homogeneidad Grado en que datos son similares Baja desviación = alta homogeneidad
Heterogeneidad Grado en que datos son diferentes Alta desviación = alta heterogeneidad

📚 Serie completa: Estadística Descriptiva

Continúa aprendiendo sobre estadística descriptiva con nuestros posts especializados:

🔍 Actividad práctica: El periodista de datos

  1. Elige un tema de actualidad (ej: precios vivienda, salarios, notas acceso universidad).
  2. Busca datos reales (pueden ser inventados pero realistas).
  3. Calcula medidas de centralización y dispersión.
  4. Analiza: ¿Qué es más interesante: la media o la dispersión? ¿Hay outliers?
  5. Escribe un titular: «Los salarios varían más de lo que crees: desviación de X€»
  6. Crea una visualización que muestre tanto centro como dispersión.

¡Conviértete en un experto detectando no solo promedios, sino también variabilidad!

Trasteando en la escuela está formado por un grupo de docentes titulados en diversas áreas. Somos amantes del conocimiento y de la enseñanza, tratando de ayudar a los estudiantes y todo aquel que desee aprender. Escribimos sobre materias de escuelas, institutos y universidades. También sobre noticias relacionadas con la enseñanza. Si quieres aprender, síguenos.

Publicar comentario