sábado, 23 de junio de 2012

OAXACA Y SUS MUNICIPIOS!

OAXACA Y SUS MUNICIPIOS!

El estado de Oaxaca de Juárez esta compuesto por 570 municipios y de ellos 457 tiene nombres de santos.

jueves, 21 de junio de 2012

XV. ESTADÍSTICA NO PARAMÉTRICA

ESTADÍSTICA NO PARAMÉTRICA
La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.
Las principales pruebas no paramétricas son las siguientes:

PRUEBA BINOMIAL
La prueba binomial analiza variables dicotómicas y compara las frecuencias observadas en cada categoría con las que cabría esperar según una distribución binomial de parámetro especificado en la hipótesis nula.
La secuencia para realizar este contraste es:
Analizar
Pruebas no paramétricas
Binomial
PRUEBA DE RACHAS
El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si las sucesivas observaciones son independientes. Este contraste se basa en el número de rachas que presenta una muestra. Una racha se define como una secuencia de valores muestrales con una característica común precedida y seguida por valores que no presentan esa característica. Así, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte).
Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la distribución muestral del número de rachas, R, puede aproximarse mediante una distribución normal de parámetros:
donde n1 es el número de elementos de una clase, n2 es el número de elementos de la otra clase y n es el número total de observaciones.
LA PRUEBA DE LA MEDIANA.
La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso especial de la prueba de chi-cuadrado, pues se basa en esta última. Su objetivo es comparar las medianas de dos muestras y determinar si pertenecen a la misma población o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y otro para los que se sitúen por debajo. La prueba de chi-cuadrado determinará si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras.

LA PRUEBA DE LOS SIGNOS
La prueba de los signos de Wilcoxon es una prueba no paramétrica para comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la normalidad de dichas muestras. Debe su nombre a Frank Wilcoxon, que la publicó en 1945.[]
Se utiliza cuando la variable subyacente es continua pero presupone ningún tipo de distribución particular.

Planteamiento
Supóngase que se dispone de n pares de observaciones, denominadas (x_i, y_i). El objetivo del test es comprobar si puede dictaminarse que los valores x_i e y_i son o no iguales.

Suposiciones
  1. Si z_i=y_i-x_i, entonces los valores z_i son independientes.
  2. Los valores z_i tienen una misma distribución continua y simétrica respecto a una mediana común \theta.
Método
La hipótesis nula es H_0: \theta=0. Retrotrayendo dicha hipótesis a los valores x_i, y_i originales, ésta vendría a decir que son en cierto sentido del mismo tamaño.
Para verificar la hipótesis, en primer lugar, se ordenan los valores absolutos |z_1|,\dots,|z_n| y se les asigna su rango R_i. Entonces, el estadístico de la prueba de los signos de Wilcoxon, W^+, es
W^+=\sum_{z_i > 0} R_i,
es decir, la suma de los rangos R_i correspondientes a los valores positivos de z_i.
La distribución del estadístico W^+ puede consultarse en tablas para determinar si se acepta o no la hipótesis nula.

La prueba de Mann-Whitney
En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras independientes. Es, de hecho, la versión no paramétrica de la habitual prueba t de Student.

Planteamiento de la prueba

La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras ordinales. El planteamiento de partida es:
  1. Las observaciones de ambos grupos son independientes
  2. Las observaciones son variables ordinales o continuas.
  3. Bajo la hipótesis nula, las distribuciones de partida de ambas distribuciones es la misma.
  4. Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra: P(X > Y) + 0.5 P(X = Y)  > 0.5.

Cálculo del estadístico

Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango para construir

Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango para construir
U_1=R_1 - {n_1(n_1+1) \over 2}
U_2=R_2 - {n_2(n_2+1) \over 2}
donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2.

Distribución del estadístico

La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20 observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por la expresión:


Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas:

XIV. ASOCIACIÓN ENTRE VARIABLES NOMINALES DE CORRELACIÓN PHI

 ASOCIACIÓN ENTRE VARIABLES NOMINALES DE CORRELACIÓN PHI

Definición de variable

Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población.

Variables cualitativas

Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:
  • Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, grave.
  • Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.

Coeficiente Phi φ

El coeficiente Phi (también llamado coeficiente de correlación de cuatro campos) φ (también rφ) es una medida para la intensidad de la relación entre variables dicotómicas.

Cálculo

Para estimar la correlación de cuatro campos entre dos características dicotómicas A y B, se construye primeramente una tabla de contingencia que contiene la distribución de frecuencia conjunta de las variables.


A=0
A=1
Total
B=0
A
b
a+b
B=1
C
d
c+d
Total
a+c
b+d
a+b+c+d


Con los datos de la tabla se puede calcular  φ según la fórmula

PHI (Ø) =            




Ejemplos:

Medida de la asociación entre
  • Aprobación o rechazo de una decisión política acerca del género,
  • Presentación o en su defecto, no presentación de un aviso publicitario y compra o no-compra de un producto.
  • Aplicación de φ a una matriz de confusión con dos clases.

XIII. ASOCIACIÓN ENTRE VARIABLES ORDINALES, MÉTODO DE CORRELACIÓN DE SPEARMAN

 ASOCIACIÓN ENTRE VARIABLES ORDINALES, MÉTODO DE CORRELACIÓN DE SPEARMAN

Una variable ordinal es definida simplemente como un conjunto de categorías mutuamente excluyentes que están ordenadas en términos de la característica de interés. Aunque son posibles varios refinamientos a la medición ordinal, tales como asignar rangos a distancias entre varias categorías así como a las propias categorías, tales complicaciones no se considerarán aquí. Ocasionalmente, será útil asignar nombres numéricos a las categorías de una variable ordinal tales como (1) alto, (2) medio, (3) bajo.
Las variables ordinales son importantes por una serie de razones. Primero, al menos en algunas situaciones ciertos conceptos sólo pueden ser medidos en el nivel ordinal (o, al menos, fácil y económicamente). Segundo, en algunas situaciones sólo importa el ordenamiento de las observaciones de una variable cuantitativa; valores numéricos específicos no tienen importancia.

En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:
 \rho = 1- {\frac {6 \sum D^2}{N(N^2 - 1)}}

donde D es la diferencia entre los correspondientes estadísticos de orden de x - yN es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student





La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

miércoles, 20 de junio de 2012

XII. ASOCIACIÓN ENTRE VARIABLES DE INTERVALOS: MÉTODO DE CORRELACIÓN, MOMENTO DE PEARSON

ASOCIACIÓN ENTRE VARIABLES DE INTERVALOS: MÉTODO DE CORRELACIÓN, MOMENTO DE PEARSON

Coeficiente de correlación de Karl Pearson
El coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
Dado dos variables, la correlación permite hacer estimaciones del valor de una de ellas conociendo el valor de la otra variable.
Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2 variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables; los valores ± 1 son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y).

Para datos no agrupados se calcula aplicando la siguiente ecuación:


Para datos agrupados, el coeficiente de Correlación de Pearson se calcula aplicando la siguiente fórmula:
 

Donde
n = número de datos.
f = frecuencia de celda.
fx = frecuencia de la variable X.
fy = frecuencia de la variable Y.
dx = valores codificados o cambiados para los intervalos de la variable X, procurando que al intervalo central le corresponda dx = 0, para que se hagan más fáciles los cálculos.
dy = valores codificados o cambiados para los intervalos de la variable X, procurando que al intervalo central le corresponda dy = 0, para que se hagan más fáciles los cálculos.

XI. MEDIDAS DE ASOCIACIÓN

 MEDIDAS DE ASOCIACIÓN
La correlación es la medida de asociación entre variables. En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa.
El coeficiente de correlación sirve para medir la correlación entre 2 variables. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación, como puede ser la covarianza, es que los resultados del coeficiente de correlación están acotados entre -1 y +1. Esta característica nos permite comparar diferentes correlaciones de una manera más estandarizada.
El coeficiente de correlación se puede calcular con Excel mediante el comando “COEF.DE.CORREL”. También se puede calcular mediante la fórmula:
El coeficiente de correlación se puede calcular con Excel mediante el comando “COEF.DE.CORREL”. También se puede calcular mediante la fórmula:
Siendo Cov (X,Y) la covarianza entre las series temporales X e Y, y σX e σY las desviaciones estándar de X e Y.
Tipos de correlación:
La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y  por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
1.   Correlación simple: se estudia la dependencia únicamente entre dos variables.
2.   Correlación múltiple: se estudia la dependencia entre mas de 2 variables.
3.   Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
1.   Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.
2.   Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente.
Diagrama de dispersión:
Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.[1] Un diagrama de dispersión se llama también gráfico de dispersión.