Ajustes al modelo de regresión lineal

Al momento de emplear el método de regresión lineal, se obtiene un modelo matemático en forma de ecuación de la línea recta, pero para conocer su nivel de aplicabilidad se hacen mediciones para saber qué tan preciso es el modelo. Esto da pauta para hacerle ajustes.

Extrapolación e Interpolación.

La ecuación de la recta obtenida describe lo que pasa dentro del rango de los datos, a esto se le llama interpolación, pero el modelo no sólo se limita al rango de datos, ya que se puede extender sin límites, a esto se le llama, extrapolación del modelo, pues se infieren eventos que no han sucedido.

Distribución residual.

Como todo modelo, la regresión lineal también tiene sus limitantes, y en este caso es la distribución residual, este concepto se refiere a la dispersión de los datos, se le llama residual porque mide qué tanto los eventos se alejan del modelo de la línea recta de todos los datos. Normalmente son los casos de menor ocurrencia.

Una distribución residual grande significa que los datos están muy dispersos, es importante decir que esta distribución toma en cuenta ambas variables, no solo una.

Rango de error.

Así como la distribución residual es global, hay otro concepto muy parecido que puede ser aplicado localmente, llamado rango de error, este rango indica la diferencia que hay de uno o varios puntos con respecto al modelo. Puede ser global o sólo de algunos datos.

Un error grande es visible cuando el modelo no es confiable, al tener una dispersión grande, significa que la regresión lineal se equivocará en mayor medida. Esto se conoce como error cuadrático medio y su función es la misma que la desviación estándar, pero toma en cuenta las dos variables de dispersión con base en la línea de regresión. Para calcularlo, se necesita la desviación estándar de la variable y multiplicarla por un factor de la correlación σy*√1-r2.

Afortunadamente, tanto en el software con enfoque matemático como en el lenguaje de programación, se puede calcular con un comando.

Confiabilidad.

Una de las técnicas que se usan para construir un modelo más completo es dividir la gráfica en varias partes según se presente el error, de esta forma, puedes tener varios modelos dependiendo de la zona en la que te encuentres dentro de tus datos, esto hace más confiable el análisis.

Como la finalidad de la regresión lineal es predecir eventos para tomar mejores decisiones, siempre debes de tomar en cuenta el error de tu modelo, esto se traducirá en expectaciones más sensibles, un mayor conocimiento, y por tanto, mejores decisiones.  

Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

Análisis de Amparo Dávila – Alta Cocina

Infografía 4. Mapa Conceptual de Antecedentes de los Filósofos de la Calidad