Fisicanet ®

Contenido: Análisis de regresión y correlación. Relación funcional y relación estadística entre dos variables. ¿Qué es la correlación y regresión?

Análisis de Regresión y Correlación

Introducción

Muchas veces las decisiones se basan en la relación entre dos o más variables. Ejemplos:

Distinguiremos entre relaciones funcionales y relaciones estadísticas.

Relación funcional entre dos variables

Una relación funcional se expresa mediante una función matemática.

Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:

Y = ƒ(X)

Ejemplo n° 1

ParcelaDosisRendimiento (kg/h)
1
2
3
75
25
130
150
50
260

Gráfica de la relación funcional perfecta entre dosis y rendimientos
Figura 1: Relación funcional perfecta entre dosis y rendimientos

• Nota: Las observaciones caen exactamente sobre la línea de relación funcional

Relación estadística entre dos variables

A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la curva de relación entre las variables

Ejemplo n° 2

Lote de productosTamaño del loteHoras hombre
1
2
3
4
5
30
20
60
80
40
73
50
128
170
87

Gráfica de la relación estadística entre tamaño del lote y horas hombre
Figura 2: Relación estadística entre tamaño del lote y horas hombre

• Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.

Esta dispersión de punto alrededor de la línea representa la variación aleatoria.

Gráfica de una relación estadística es de tipo curvilínea
Figura 3: Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen satelital

• Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relación estadística es de tipo curvilínea.

Conceptos básicos

Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la/s otra/s.

Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables

Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés.

Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimar

Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes.

Regresión lineal: La función es una combinación lineal de los parámetros.

Regresión no lineal: La función que relaciona los parámetros no es una combinación lineal

Gráfico de dispersión

Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Gráfico de dispersión entre bandas
Gráfico de dispersión entre bandas

Coeficiente de correlación lineal

El Coeficiente de Correlación (r) requiere variables medidas en escaLa de intervalos o de proporciones

Gráfico de una correlación negativa perfecta
Gráfico de una correlación negativa perfecta

Gráfico de una correlación positiva perfecta
Gráfico de una correlación positiva perfecta

Gráfico de ausencia de correlación
Ausencia de correlación

Gráfico de una correlación fuerte y positiva
Correlación fuerte y positiva

Fórmula para el coeficente de correlación (r) Pearson:

Fórmula para el coeficente de correlación Pearson

Modelos de Regresión

Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:

Estas dos características están implícitas en un modelo de regresión, postulando que:

Representación gráfica del modelo de regresión lineal
Representación gráfica del modelo de regresión lineal

• Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Análisis de Regresión

Supuestos de Regresión Lineal Clásica

• Cada error está normalmente distribuido con:

Proceso de estimación de la regresión lineal simple

Modelo de regresión

y = β0 + β1x + ε

Ecuación de regresión

E(y) = β0 + β1·x

Parámetros desconocidos

β0·β1

Datos de la muestra.

xy
x1
x2
.
.
.
xn
y1
y2
.
.
.
yn

b0 y b1

Proporcionan estimados

β0 y β1

Ecuación estimada de regresión

y = b0 + b1·x

Estadísticos de la muestra

b0·b1

Líneas posibles de regresión en la regresión lineal simple

Sección A

Gráfica de la ecuación de regresión
Relación lineal positiva

Sección C

Gráfica de la ecuación de regresión
No hay relación

Sección B

Gráfica de la ecuación de regresión
Relación lineal negativa

Estimación de la ecuación de regresión simple

Y' = a + b·X, donde:

Fórmula para la pendiente de la línea

a = (∑Y)/n - b·(∑X)/n

Mínimos cuadrados - supuestos

El modelo de regresión es lineal en los parámetros.

Los valores de X son fijos en muestreo repetido.

El valor medio de la perturbación εi es igual a cero.

Homocedasticidad o igual variancia de εi

No autocorrelación entre las perturbaciones.

La covariancia entre εi y Xi es cero.

El número de observaciones n debe ser mayor que el número de parámetros a estimar.

Variabilidad en los valores de X.

El modelo de regresión está correctamente especificado.

No hay relaciones lineales perfectas entre las explicativas.

Estimación de la variancia de los términos del error (σ²)

Debe ser estimada por varios motivos.

Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

La lógica del desarrollo de un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea una sola población.

La variancia de cada observación Yi es σ², la misma que la de cada término del error

Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yi.

Yi - Ŷi = ei

Por tanto, las desviaciones son los residuales.

Y la suma de cuadrados es:

Fórmula para la suma de cuadrados

La suma de cuadrados del error, tiene n - 2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios:

Fórmula de los cuadrados medios

Donde CM es el cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²

Análisis de variancia en el análisis de regresión

El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

La variación de los Yi se mide convencionalmente en términos de las desviaciones

(Yi - Yi)

La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado

∑(Yi - Yi

Desarrollo formal de la partición

Consideremos la desviación

(Yi - Yi)

Podemos descomponerla en

(Yi - Y)=i - Y)+(Yi - Ŷi)
TRE

(T): desviación total

(R): es la desviación del valor ajustado por la regresión con respecto a la media general

(E): es la desviación de la observación con respecto a la línea de regresión

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

∑(Yi - Y=∑(Ŷi - Y+∑(Yi - Ŷi
SCtotSCregSCer

(SCtot): Suma de cuadrados total

(SCreg): Suma de cuadrados de la regresión

(SCer): Suma de cuadrados del error

Dividiendo por los grados de libertad, (n - 1), (k) y (n - 2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.

Coeficiente de Determinación

Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X.

El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Cálculo del R² a través de la siguiente fórmula.

R² = [∑(Ŷc - Y)²]/[∑(Ŷ0 - Y)²]

Inferencia en Regresión

Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de regresión (prueba de hipótesis e intervalos de confianza), ya que los estimadores de β0 y β1 pueden cambiar su valor si cambia la muestra.

Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipótesis e intervalos de confianza.

Ejemplo: Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se presentan a continuación:

Ejemplo de inferencia en regresión

¿Qué sensor refleja mejor el rendimiento de esa zona?

Solución

Descripción gráfica y cuantitativa de la relación entre cada sensor y el rendimiento

Gráfico del ejemplo de inferencia en regresión

Y = 338,71·X - 4,87

R² = 0,32

Gráfico del ejemplo de inferencia en regresión

Y = 155,37·X - 13,25

R² = 0,57

Gráfico del ejemplo de inferencia en regresión

Y = -1004,34·X +112,24

R² = 0,44

Editor: Ricardo Santiago Netto (Administrador de Fisicanet)

Éste sitio web usa cookies, si permanece aquí acepta su uso.

Puede leer más sobre el uso de cookies en nuestra política de privacidad.