Análisis de datos categóricos

En el análisis de datos, especialmente del área biológica (Cs. Naturales, Medicina, Farmacología, etc.) a menudo nos encontramos con mediciones de respuestas que son de naturaleza categórica. Éstas respuestas reflejan información de categorías más que mediciones en escala de intervalos o razón.

Extenderemos los principios básicos de la prueba de hipótesis a situaciones que implican variables categóricas.

Trataremos información que se obtiene del recuento del número de casos que se presentan al estudiar caracteristicas cualitativas

Para el desarrollo de los contenidos correspondientes a esta presentación se ha considerado un hilo conductor según se presenta en el mapa conceptual.

La distribución χ² que hemos visto en los capítulos sobre Estimación de Parámetros y de Pruebas de hipótesis con relación a variancias muestrales, tiene un gran campo de aplicación en el análisis de variables de naturaleza categórica,

Mapa conceptual del método estadístico

Introducción

Si consideramos la situación más sencilla de esta unidad donde cada observación de una muestra se clasifica como pertenecientes a un número finito de categorías:

Ejemplo n° 1

Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales 42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la herencia implican que estas tres categorías presentan un modelo genético 9:3:4, es decir que deben tener probabilidades 9/16; 3/16 y 4/16 de aparecer en cada cruzamiento. ¿Son los datos consistentes con el modelo teórico propuesto?

Ejemplo n° 2

En la frontera fitosanitaria de la Patagonia se revisaron cargamentos de frutas de distinta procedencia para evaluar la posibilidad de introducción de mosca de las frutas (Ceratitis capitata), una plaga importante de los frutales, en áreas no infestadas. La información de cargamentos con presencia de la plaga se resume en la siguiente tabla:

Datos por región
Presencia de la plagaRegión de procedencia del cargamento
CuyoNOANEA
Con mosca
Sin mosca
22
67
32
5
33
10

¿Existe alguna dependencia entre la región de procedencia y la presencia de la plaga?

Ejemplo n° 3

Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la nueva medicación y a los otros 150, con la medicación tradicional. Luego de un tiempo se analizaron nuevamente los animales con el siguiente resultado:

Tratamiento empleado
Estado de los animales luego del tratamiento
EmpeoróSin efectoMejoróTotales
Nuevo
Tradicional
16
20
30
42
104
88
150
150
Totales3672192300

¿Considera que estos medicamentos se comportan de manera similar?

Distribución χ²-cuadrado

Para resolver estos problemas utilizaremos la distribución χ²-cuadrado.

La aplicaremos básicamente:

χ²-cuadradoBondad de AjustePruebas con probabilidades de cada categoría completamente especificada
Bondad de ajuste a una variable discreta
Bondad de ajuste a una variable contínua
Tablas de contingenciaPruebas de Homogeneidad
Pruebas de Independencia

Propiedades χ²-cuadrado

Antes de dar una descripción más detallada de estas pruebas repasemos algunas propiedades de esta distribución:

No toma valores negativos

Tiene una distribución diferente para cada número de grados de libertad

Gráfico de la distribución χ-cuadrado

Pruebas de Bondad del Ajuste

(Inferencias acerca del Experimento Multinomial)

Se desea contrastar una distribución de frecuencias observada en una muestra con una distribución de frecuencias teórica

Verificar si responde a un determinado modelo o situación preconcebida

Es una generalización del experimento binomial

Para aplicar la prueba se necesita una tabla donde se encuentren registradas las frecuencias observadas y las frecuencias teóricas o esperadas según el modelo. El estadístico que se utiliza en estas pruebas es el siguiente:

χv² =k

i = 1
(oi - ei
ei

Donde k es el número de categorías y oi y ei son las frecuencia observada y esperada en la i-ésima categoría, respectivamente.

Características de la multinomial

Consta de n ensayos independientes e idénticos

El resultado de cada ensayo cae en una de las k categorías posibles (medidas en escala nominal) de la única variable, donde k > 2

Hay una probabilidad asociada a cada categoria, la cual es constante de un ensayo a otro

Las categorias son exhaustivas y excluyentes, por lo cual la suma de sus probabilidades es 1

Se obtienen frecuencias observadas para cada categoría, siendo su suma igual a n

El número esperado de intentos que resulten en la categoría i es E(Ni) = n·πi, donde πi es la probabilidad de que cualquier observación en particular pertenezca a la categoría i

Prueba de hipotesis para el experimento multinomial

Hipotesis nulaH0: π1, π2, …, πk poseen valores especificados (iguales o no)
Hipotesis alternativaHa: alguna probabilidad de las celdas. Difiere de los valores especificados en H0
Estadístico de pruebaFórmula del estadístico de prueba
donde o y e representan las frecuencias observadas y esperadas para cada celda
Región de rechazoEsta determinada por la distribución χ², con un determinado α y k - 1 grados de libertad
SupuestoLas frecuencias esperadas no pueden ser en ningún caso inferiores a 5

Prueba de hipotesis para el experimento multinomial

Bajo la hipótesis nula los ni deben estar razonablemente cerca de n·πi

Cuando los valores de πi difieran marcadamente de lo especificado en la hipótesis nula, los valores observados diferirán de los esperados

El procedimiento de prueba implica medir las discrepancias entre ni y n·πi, rechazando la hipótesis nula cuando la discrepancia sea suficientemente grande

Hay solo k - 1 valores de celda determinadas libremente y por lo tanto k - 1 grados de libertad

Dado que grandes discrepancias entre valores observados y esperados conducen a gran valor de ji-cuadrado el rechazo de H0 es apropiado cuando χ² ≥ χ²α, k -1 (unilateral a la derecha)

Veamos un ejemplo utilizado en genética acerca de los experimentos clásicos conducidos por Mendel resuelto en la guía teórica.

Mendel tenía arvejas con dos tipos de tegumento, rugoso y liso y, según su hipótesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la proporción 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento rugoso.

Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 125, de tegumento rugoso. ¿Sería razonable, con α = 0,05, pensar que esa proporción observada no está demasiado alejada de la proporción 3:1 dictada por la ley de Mendel?

Hipótesis. H0: La proporción es 3:1; H1: La proporción no es 3:1

Nivel de significación. α = 0,05

Estadística de la prueba. Que se distribuye compuesto que, para esta prueba k = 2 y, por consiguiente, υ = 2 - 1 = 1

Regla de decisión. Rechazamos H0 si, y solo si, el valor de χ2 calculado es mayor que 3,84. En caso contrario, se acepta H0

Cálculos
Tegumentooieioi - ei(oi - ei)²/ei
Liso
Rugoso
285
115
400·¾ = 300
400·¼ = 100
15
15
0,75
2,25
Total400400-3,00

Decisión. Puesto que 3,0 < 3,84 no puede rechazarse H0 con α = 0,05. Los datos de la muestra no constituyen una prueba suficiente como para dudar de que las proporciones verdaderas son 3:1.

Aún cuando hemos desarrollado la prueba χ²-cuadrado para situaciones donde k > 2, también se puede utilizar cuando k = 2.

La hipótesis nula en este caso se puede expresar como H0: π1 = π10

Estas hipótesis también se pueden probar utilizando una prueba z de dos colas con estadísticos de prueba.

Fórmula del estadístico de prueba

De manera sorprendente, los dos procedimientos de prueba son completamente equivalentes. Esto es porque se puede demostrar que Z² = χ² y (zα/2) = χ²1 α de modo que χ² ≥ χ²α, k - 1 si y sólo si Z ≥ zα/2

Tablas de contingencia con dos criterios de clasificación

En una tabla de contingencia la información está representada por conteos o frecuencias organizadas en i-filas y j-columnas (dos criterios de clasificación). Se presentan dos situaciones:

Hay i-poblaciones de interés ubicadas cada una en una fila de la tabla y en cada población se describen j-categorías o atributos. Se toma una muestra de cada población y las frecuencias se anotan en la celda de la tabla

Hay una sola población de interés, y cada individuo es clasificado respecto a dos factores diferentes (i-categorías de un factor j-categorías de otro). Se toma una sola muestra y se anota el número de individuos en cada categoría de ambos factores

Características de las tablas de contingencia

Consta de n ensayos independientes e identicos

Hay 2 variables en juego y se representa una tabla de doble entrada

El resultado de cada ensayo cae en una de las celdas, las cuales resultan de las combinaciones posibles de categorias (medidas en escala nominal) de ambas variables

Hay una probabilidad asociada a cada celda, la cual es constante de un ensayo a otro

La probabilidad asociada a cada celda resulta del producto de sus probabilidades marginales

La suma de las probabilidades asociadas a cada celda es 1

Se obtienen frecuencias observadas para cada categoria, siendo su suma igual a n

Caso 1: Prueba de homogeneidad

Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los totales por fila o por columna están predeterminados

El analisis es idéntico al de las tablas de contingencia para independencia

La hipotesis nula que se plantea en este caso consiste en sostener que la distribución de proporciones entre las categorias de la variable no controlada (por fila o por columna) es la misma para cada categoria de la variable controlada

Otra manera de abordar el mismo problema es preguntarse si las muestras provienen de la misma población

Prueba de hipótesis para prueba de homogeneidad

Hipótesis. H0: las i-muestras son extraídas de la misma población. H1: son extraídas de diferentes poblaciones

H0: π1j = π2j = π3j = … = πij

H1: H0 no es verdadera

Nivel de significación. α = 0,05

Estadística de la prueba. Que se distribuye aproximadamente como. Aquí υ = (i - 1)·(j - 1)

Regla de decisión. Rechazamos H0 si, y solo si, el valor de χ² calculado es mayor que χ²α,(i - 1)·(j - 1). En caso contrario, se acepta H0

χv² =k

i = 1
(oi - ei
ei

El esperado es estimado en cada celda.

êij =ni·nj
nij

Ejemplo para prueba de homogeneidad

Objetivo: establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres

Preferencias de envase para hombres y mujeres
EnvaseLataPlásticoCartonVidrioTotal
Varones
Mujeres
27 (19,5)
12 (19,5)
30 (29,5)
29 (29,5)
19 (22,5)
26 (22,5)
24 (28,5)
33 (28,5)
100
100
Total39594557200

h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres

ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres

Estadístico χ²*: 8,296 χ² tabla (α = 0,05; gl = 3): 7,81

Valor p: 0,0402

Conclusión: se rechaza h0: las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres

Caso 2: Prueba de independencia.

Este tipo de prueba se aplica cuando existe interés en determinar si dos atributos categóricos presentan algún tipo de asociación entre ellos o, por el contrario, son independientes

Este tipo de información se suele presentar en tablas de doble entrada

El estadístico que se utiliza en estas pruebas es el mismo que el empleado en las pruebas de bondad del ajuste y homogeneidad

Se estudia la relación entre dos factores diferentes de la misma población

A diferencia de las pruebas de homogeneidad donde en general los totales de filas están fijos por anticipado, en las pruebas de independencia solo el tamaño muestral es fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias

Hipotesis nulaH0: πij = πi* πj las variables son independientes
Hipotesis alternativaHa: πij ≠ πi* πj las variables no son independientes
Estadístico de pruebaχ² = ∑(O - E)²/E
donde O y E representan las frecuencias observadas y esperadas para cada celda
Región de rechazoEsta determinada por la distribución χ², con un determinado α y (i - 1)·(j - 1) grados de libertad (gl)

Ejemplo para prueba de independencia.

Una muestra de 500 estudiantes ingresantes en una universidad participó en un estudio diseñada con el fin de evaluar el grado de conocimiento en matemáticas. La siguiente tabla muestra los estudiantes clasificados según su formación secundaria (escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas (bueno = aprobó el examen; deficiente = no aprobó el examen):

Datos para prueba de independencia
BuenoDeficiente
Técnicas
Bachiller
Otras
20
15
25
60
150
230

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de los estudios secundarios?

H0: La aptitud en matemáticas es independiente de la orientación del secundario

H1: La aptitud en matemáticas es dependiente de la orientación del secundario

Estadístico χ²*: 15,289 χ² tabla (α = 0,05; gl = 2): 5,99

Valor p: 0,00047845

Conclusión: se rechaza h0: La aptitud en matemáticas es independiente de la orientación del secundario, por lo tanto las variables son dependientes.

Precauciones en la interpretación de resultados

Los grados de libertad dependen de la cantidad de categorías de las variables y no del número de casos, de modo que el valor de tabla no se modifica al aumentar el número de casos

Utilizando muestras grandes, se dice poca cosa al decir que una relación es significativa, ya que es relativamente fácil establecer significación, aún en el caso de que la relación existente sea muy superficial

Autor: Olga Susana Filippini. Argentina.

Editor: Ricardo Santiago Netto (Administrador de Fisicanet)

¿Qué es una prueba de bondad?

Éste sitio web usa cookies, si permanece aquí acepta su uso.

Puede leer más sobre el uso de cookies en nuestra política de privacidad.