Análisis de datos categóricos

En el análisis de datos, especialmente del área biológica (Cs. Naturales, Medicina, Farmacología, etc.) a menudo nos encontramos con mediciones de respuestas que son de naturaleza categórica. Éstas respuestas reflejan información de categorías más que mediciones en escala de intervalos o razón.

Extenderemos los principios básicos de la prueba de hipótesis a situaciones que implican variables categóricas.

Trataremos información que se obtiene del recuento del número de casos que se presentan al estudiar caracteristicas cualitativas

Para el desarrollo de los contenidos correspondientes a esta presentación se ha considerado un hilo conductor según se presenta en el mapa conceptual.

La distribución χ² que hemos visto en los capítulos sobre Estimación de Parámetros y de Pruebas de hipótesis con relación a variancias muestrales, tiene un gran campo de aplicación en el análisis de variables de naturaleza categórica,

Mapa conceptual del método estadístico

Introducción

Si consideramos la situación más sencilla de esta unidad donde cada observación de una muestra se clasifica como pertenecientes a un número finito de categorías:

Ejemplo nº 1

Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales 42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la herencia implican que estas tres categorías presentan un modelo genético 9:3:4, es decir que deben tener probabilidades 9/16; 3/16 y 4/16 de aparecer en cada cruzamiento. ¿Son los datos consistentes con el modelo teórico propuesto?

Ejemplo nº 2

En la frontera fitosanitaria de la Patagonia se revisaron cargamentos de frutas de distinta procedencia para evaluar la posibilidad de introducción de mosca de las frutas (Ceratitis capitata), una plaga importante de los frutales, en áreas no infestadas. La información de cargamentos con presencia de la plaga se resume en la siguiente tabla:

Datos por región
Presencia de la plagaRegión de procedencia del cargamento
CuyoNOANEA
Con mosca
Sin mosca
22
67
32
5
33
10

¿Existe alguna dependencia entre la región de procedencia y la presencia de la plaga?

Ejemplo nº 3

Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la nueva medicación y a los otros 150, con la medicación tradicional. Luego de un tiempo se analizaron nuevamente los animales con el siguiente resultado:

Tratamiento empleado
Estado de los animales luego del tratamiento
 EmpeoróSin efectoMejoróTotales
Nuevo
Tradicional
16
20
30
42
104
88
150
150
Totales3672192300

¿Considera que estos medicamentos se comportan de manera similar?

Distribución χ²-cuadrado

Para resolver estos problemas utilizaremos la distribución χ²-cuadrado.

La aplicaremos básicamente:

χ²-cuadradoBondad de AjustePruebas con probabilidades de cada categoría completamente especificada
Bondad de ajuste a una variable discreta
Bondad de ajuste a una variable contínua
Tablas de contingenciaPruebas de Homogeneidad
Pruebas de Independencia

Propiedades χ²-cuadrado

Antes de dar una descripción más detallada de estas pruebas repasemos algunas propiedades de esta distribución:

Gráfico de la distribución χ-cuadrado

Pruebas de Bondad del Ajuste

(Inferencias acerca del Experimento Multinomial)

χᵥ² =k

i = 1
(oᵢ - eᵢ)²
eᵢ

Donde k es el número de categorías y oᵢ y eᵢ son las frecuencia observada y esperada en la i-ésima categoría, respectivamente.

Características de la multinomial

Prueba de hipotesis para el experimento multinomial

Hipotesis nulaH₀: π₁, π₂, …, πₖ poseen valores especificados (iguales o no)
Hipotesis alternativaHₐ: alguna probabilidad de las celdas. Difiere de los valores especificados en H₀
Estadístico de pruebaFórmula del estadístico de prueba
donde o y e representan las frecuencias observadas y esperadas para cada celda
Región de rechazoEsta determinada por la distribución χ², con un determinado α y k - 1 grados de libertad
SupuestoLas frecuencias esperadas no pueden ser en ningún caso inferiores a 5

Prueba de hipotesis para el experimento multinomial

Veamos un ejemplo utilizado en genética acerca de los experimentos clásicos conducidos por Mendel resuelto en la guía teórica.

Mendel tenía arvejas con dos tipos de tegumento, rugoso y liso y, según su hipótesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la proporción 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento rugoso.

Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 125, de tegumento rugoso. ¿Sería razonable, con α = 0,05, pensar que esa proporción observada no está demasiado alejada de la proporción 3:1 dictada por la ley de Mendel?

Cálculos
Tegumentooᵢeᵢoᵢ - eᵢ(oᵢ - eᵢ)²/eᵢ
Liso
Rugoso
285
115
400·¾ = 300
400·¼ = 100
15
15
0,75
2,25
Total400400-3,00

Decisión. Puesto que 3,0 < 3,84 no puede rechazarse H₀ con α = 0,05. Los datos de la muestra no constituyen una prueba suficiente como para dudar de que las proporciones verdaderas son 3:1.

Aún cuando hemos desarrollado la prueba χ²-cuadrado para situaciones donde k > 2, también se puede utilizar cuando k = 2.

La hipótesis nula en este caso se puede expresar como H₀: π₁ = π₁₀

Estas hipótesis también se pueden probar utilizando una prueba z de dos colas con estadísticos de prueba.

Fórmula del estadístico de prueba

De manera sorprendente, los dos procedimientos de prueba son completamente equivalentes. Esto es porque se puede demostrar que Z² = χ² y (zα/2) = χ²1 α de modo que χ² ≥ χ²α, k - 1 si y sólo si Z ≥ zα/2

Tablas de contingencia con dos criterios de clasificación

En una tabla de contingencia la información está representada por conteos o frecuencias organizadas en i-filas y j-columnas (dos criterios de clasificación). Se presentan dos situaciones:

Características de las tablas de contingencia

Caso 1: Prueba de homogeneidad

Prueba de hipótesis para prueba de homogeneidad

χᵥ² =k

i = 1
(oᵢ - eᵢ)²
eᵢ

El esperado es estimado en cada celda.

êij =nᵢ·nj
nij

Ejemplo para prueba de homogeneidad

Objetivo: establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres

Preferencias de envase para hombres y mujeres
EnvaseLataPlásticoCartonVidrioTotal
Varones
Mujeres
27 (19,5)
12 (19,5)
30 (29,5)
29 (29,5)
19 (22,5)
26 (22,5)
24 (28,5)
33 (28,5)
100
100
Total39594557200

h₀: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres

hₐ: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres

Estadístico χ²*: 8,296 χ² tabla (α = 0,05; gl = 3): 7,81

Valor p: 0,0402

Conclusión: se rechaza h₀: las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres

Caso 2: Prueba de independencia.

Hipotesis nulaH₀: πij = πᵢ* πj las variables son independientes
Hipotesis alternativaHₐ: πij ≠ πᵢ* πj las variables no son independientes
Estadístico de pruebaχ² = ∑(O - E)²/E
donde O y E representan las frecuencias observadas y esperadas para cada celda
Región de rechazoEsta determinada por la distribución χ², con un determinado α y (i - 1)·(j - 1) grados de libertad (gl)

Ejemplo para prueba de independencia.

Una muestra de 500 estudiantes ingresantes en una universidad participó en un estudio diseñada con el fin de evaluar el grado de conocimiento en matemáticas. La siguiente tabla muestra los estudiantes clasificados según su formación secundaria (escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas (bueno = aprobó el examen; deficiente = no aprobó el examen):

Datos para prueba de independencia
 BuenoDeficiente
Técnicas
Bachiller
Otras
20
15
25
60
150
230

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de los estudios secundarios?

H₀: La aptitud en matemáticas es independiente de la orientación del secundario

H₁: La aptitud en matemáticas es dependiente de la orientación del secundario

Estadístico χ²*: 15,289 χ² tabla (α = 0,05; gl = 2): 5,99

Valor p: 0,00047845

Conclusión: se rechaza h₀: La aptitud en matemáticas es independiente de la orientación del secundario, por lo tanto, las variables son dependientes.

Precauciones en la interpretación de resultados

Editor: Ricardo Santiago Netto (Administrador de Fisicanet).

¿Qué es una prueba de bondad?

Éste sitio web usa cookies, si permanece aquí acepta su uso.
Puede leer más sobre el uso de cookies en nuestra política de privacidad.