Ideas Interesantes


Regresión Lineal Simple

Miguel Angel Carrasco
8 de enero de 2021

Resumen

Derivación de las fórmulas de regresión lineal simple

Introducción

La regresión lineal simple se suele enseñar en la academia en cursos de introducción a la estadística. Normalmente se presentan métodos para calcular los coeficientes de la regresión, pero pocas veces se presenta el origen de dichas fórmulas.

En esta publicación se mostrará la derivación de estas fórmulas para el caso más básico, usando la aproximación por mínimos cuadrados ordinarios (abreviado OLS por las siglas en inglés Ordinary Least Squares). La aproximación por mínimos cuadrados fué publicada por Legendre en 1805 y Gauss en 1809 para determinar, dadas ciertas observaciones astronómicas, las órbitas de cuerpos celestes respecto al sol.

Definición del problema

Dado un conjunto de pares de datos que se presupone se ajustan a un modelo de regresión

Donde es una variable dependiente, la esperanza matemática de esa variable y una variable aleatoria que representa el error. Si asumimos que se sigue una relación lineal en estos datos y por lo tanto se aproxima a una función lineal de la forma . La regresión lineal consiste en encontrar los coeficientes y tales que se ajusten mejor al modelo minimizando el error.

Tenemos entonces que

Donde es un coeficiente llamado "intercepto", otro coeficiente llamado "pendiente" de la línea de regresión, los valores que toma la variable dependiente, los valores que toma la variable independiente y los errores respectivos.

Se asume que con una varianza constante .

Fórmulas para hayar los coeficientes

En la literatura se pueden encontrar las siguientes fórmulas para obtener los coeficientes aplicando minimos cuadrados ordinarios

donde y , representan los promedios de y respectivamente, i.e.

Derivación de las fórmulas

Existen diferentes maneras de llegar a este resultado. En este caso usaremos el cálculo y en otra publicación se presentará una generalización usando el álgebra lineal.

Como estamos asumiendo que los datos se ajustan a un modelo de regresión tenemos que el error está dado por

por simplicidad denotaremos a por lo que , es decir

Podríamos entonces tratar de hayar los valores de y que minimizen la suma de estos errores. Sin embargo como el valor esperado de los errores es 0, i.e. y , para todo , los errores podrían tomar valores tanto negativos como postivos, por lo que simplemente sumar no funcionaría. Podríamos en su lugar optar por minimizar la suma de los valores absolutos de estos errores en su lugar, sin embargo, aún tendríamos problemas, ya que su manipulación algebráica se complicaría. Por esta razón se opta mas bien por minimizar la suma de los cuadrados del error, a esto se le conoce como minimos cuadrados ordinarios (en inglés Ordinary Least Squeares abreviado OLS) y se describe así

Podemos entonces usar el teorema de fermat para puntos estacionarios respecto de y . Dicho teorema nos dice que si una funcion tiene un extremum local o punto crítico, entonces ese punto se haya cuando la derivada de esa función es 0. Aunque no se demuestra en esta publicación, sabemos que siempre existe solo un extremum y este es mínimo o minimum global para este problema, ya que este es un problema de optimización convexa. Por el momento se tendrá que asumir este hecho como verdadero, en una siguiente publicación compartiré la demostración.

Dado que usando el teorema de fermat para puntos estacionarios para y respectivamente obtendremos los mínimos resolviendo el sistema de ecuaciones

Dado que

y que

El problema se reduce a resolver el sistema de ecuaciones

Note que si en ambas ecuaciones dividimos ambas partes por obtendríamos el sistema

De la primera ecuación obtenemos

y resolviendo para obtenemos

Que es justamente la primera fórmula a la que queríamos llegar, hace falta la fórmula para . De la segunda ecuación del sistema de ecuaciones sustituyendo por obtenemos

y resolviendo para obtenemos que

Esta en efecto es una fórmula equivalente. Para demostrar esto vemos que solo hace falta comprobar que el numerador es equivalente a y el denominador a respectivamente.

Para el primer caso tenemos que

De igual manera tenemos que

De donde claramente tenemos que

que justamente son las fórmulas que queríamos encontrar.

Referencias

siguiente →