viernes, 15 de junio de 2012

IX. MEDIDAS DE DISPERSIÓN O VARIABILIDAD.

MEDIDAS DE DISPERSIÓN O VARIABILIDAD.
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores están próximas entre sí o si por el contrario están o muy dispersas.
Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil de calcular y sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes:
·         No utiliza todas las observaciones (sólo dos de ellas);
·         Se puede ver muy afectada por alguna observación extrema;
·         El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye.
En el transcurso de esta sección, veremos medidas de dispersión mejores que la anterior. Estas se determinan en función de la distancia entre las observaciones y algún estadístico de tendencia central.
Desviación Intercuartil.
Esta medida de dispersión se construye basándose en la diferencia entre el tercer y primer cuartil. En realidad es la mitad de esa diferencia.
Si se escribe Q1 y Q3 para el primer y tercer cuartil respectivamente, entonces la 'desviación intercuartil' está definida por:

Esta estadística cumple una función similar a la desviación estándar, pero es mucho más resistente al efecto de valores extremos en los datos. De hecho, los cuartiles primero y tercero dejan entre sí la mitad de la muestra, La otra mitad se encuentra fuera y por lo tanto la presencia de un bajo número de datos extremos no cambia el valor de la desviación intercuartil.

Desviación media, Dm

Se define la desviación media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x1, ..., xn, entonces
 

Como se observa, la desviación media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente, esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.

Varianza y desviación típica

Si las desviaciones con respecto a la media las consideramos al cuadrado, (X1 - X)2, de nuevo

obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles de utilizar.
Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso: La varianza y la desviación típica.
Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso: La varianza y la desviación típica.
La varianza, , se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir


Para datos agrupados en tablas, usando las notaciones establcidas en los capítulos anteriores, la varianza se puede escibir como


Una fórmula equivalente para el cálculo de la varianza es                              

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros cuadardos). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define la desviación típica, S, como:
S = √S2




No hay comentarios:

Publicar un comentario