lunes, 28 de febrero de 2011

Chi Cuadrada

Esta prueba se usa cuando se quiere probar la hipótesis de que unos datos muéstrales provienen de una determinada distribución.

La prueba chi cuadrado se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la hipótesis nula formulada. Es decir, se quiere determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula.

Para esta prueba es necesario agrupar o distribuir las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño. El estadístico de prueba está definido como:

Donde: Oi = Total de valores que caen en el intervalo i.
Ei = Número esperado de valores en el intervalo i.
k = Número de intervalos de clase en que se distribuyen las observaciones.

Si los límites del intervalo de clase i están dados por Xi-1 y Xi, como lo ilustra la presente gráfica, el número esperado de observaciones para ese intervalo está dado por:
Ei =nPi

Donde Pi representa la probabilidad de que una observación quede en el intervalo i, de acuerdo con función de densidad que se esté analizando, y n es el número total de observaciones.

La probabilidad de que una observación caiga en el intervalo i está dada por:

Donde f0(x, θ) es la función de densidad de la variable aleatoria X, bajo la hipótesis nula.

Para ver que distribución sigue el estadístico X², considere la siguiente situación:

Suponga que las observaciones de la muestra pueden clasificarse en dos intervalos o categorías. Sea Y1 el número de observaciones que caen en la categoría 1, y sea P1 su respectiva probabilidad.

Si el tamaño de muestra es lo suficientemente grande, Y1 (que sigue una distribución binomial) puede aproximarse por una distribución normal con valor esperado nP1 y varianza nP1 (1-P1). Por lo tanto, la variable Z definida a continuación sigue una distribución normal estándar, y Z² una distribución chi cuadrado con un grado de libertad.


Si definimos Y2 como Y2 = n - Y1, y P2 = 1 - P1, se tiene que Z² se puede desarrollar  de la siguiente manera:

Ahora suponga que las observaciones pueden clasificarse no en dos sino en k clasificaciones mutuamente excluyentes, y sean Yi y Pi el número de variables que caen en la categoría i y la probabilidad respectiva. La distribución conjunta de Y1, Y2,...,Yk tiene una distribución multinomial con parámetros n, P1, P2,... y Pn, donde Pk = 1 - P1 - P2 -... -Pk-1. Se puede demostrar que la variable Z2 definida a continuación sigue una distribución chi cuadrado con k-1 grados de libertad:



Comparando la expresión anterior con el estadístico X² definido previamente, vemos que este estadístico sigue también la distribución chi cuadrado con k - 1 - p grados de libertad, siendo p el número de parámetros estimados para definir completamente la función f0(x,θ). Sin embargo para que esta suposición sea válida se requiere que el número esperado de observaciones en cada intervalo de clase sea por lo menos 5. Si esta condición no se cumple, es necesario agrupar en uno los resultados de varios intervalos de clase.

Algunas consideraciones que hay que tener en cuenta con respecto a la aplicación de esta prueba son las siguientes:

1. El número de intervalos de clase debe ser por lo menos cinco. Para facilidad de los cálculos y la identificación de la posible distribución tampoco debería ser muy grande.

2. El número esperado de observaciones en cada intervalo debe ser mayor o igual a cinco; en caso contrario, deberían agruparse varios intervalos para lograr esto.

3. Al realizar los cálculos para Pi hay que tener en cuenta los intervalos extremos como casos especiales, a saber:

Cálculo de P1. Aunque el primer intervalo incluye aquellos valores observados que están ente X0 y X1, sólo corresponde a los resultados de una muestra. El hecho de que no se hayan observado en la muestra valores menores o iguales que x0 no implica que en la población de donde se toma la muestra no se puedan presentar valores menores o iguales que x0. Por lo tanto, el cálculo de P1 corresponde a la probabilidad de que la variable aleatoria sea menor o igual que X1, y no únicamente entre X0 y X1.

Es decir,

Cálculo de Pn. De manera similar, el último intervalo corresponde no sólo a los valores que están entre Xk-1 y Xk, sino que comprende también los valores de la población que sean mayores que Xk, así éstos no se hayan presentado en la muestra. Por lo tanto, Pk se calcula como:


No hay comentarios:

Publicar un comentario