sábado, 20 de marzo de 2010

REGRESIÓN LINEAL =D






La regresión es un método de análisis de los datos de la realidad económica que sirve para poner en evidencia las relaciones que existen entre diversas variables.


El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente (Y) y una o más variables independientes ( , ... ). Para poder realizar esta investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe una variable independiente.


La regresión y los análisis de correlación nos muestran como determinar tanto la naturaleza como la fuerza de una relación entre dos variables.
En el análisis de regresión desarrollaremos una ecuación de estimación, esto es, una formula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación .



· Principales técnicas utilizadas en el análisis de regresión lineal simple

1) Ordenamiento y análisis de la información original

3) Diagrama de dispersión e interpretación


El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión. Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.


Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, o ajustar una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.


Diagrama de dispersión


· Estimación mediante la línea de regresión : Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:


Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.



Recta de regresión por el método de mínimos cuadrados: Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.
Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como.Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.


La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulación de los signos positivos y negativos, pero ya que estamos buscando el menor error debemos buscar un método que nos muestre la magnitud del error, decimos que la suma de los valores absolutos no pone énfasis en la magnitud del error.


Parece razonable que mientras más lejos este un punto de la línea e estimación, mas serio seria el error, preferiríamos tener varios errores pequeños que uno grande. En efecto, deseamos encontrar una forma de penalizar errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los errores individuales antes de sumarlos. Con estos se logran dos objetivos:· penaliza los errores más grandes· cancela el efecto de valores positivos y negativos. Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores a esto llamamos método de mínimos cuadrados. Si usamos el método de mínimos cuadrados, podemos determinar si una línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto de puntos de datos a través de los cuales podríamos trazar un numero infinito de líneas de estimación, ¿cómo podemos saber cuando hemos encontrado la mejor línea de juste?


Los estadísticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la intersección Y de la línea de regresión del mejor ajuste. La primera formula calcula la pendiente.

· b = pendiente de la línea de estimación de mejor ajuste

· X = valores de la variable independiente

· Y = valores de la variable dependiente

· = media de los valores de la variable independiente

· = media de los valores de la variable dependiente

· n = numero de puntos de datos


La segunda ecuación calcula la intersección en Y

· a = intersección en Y

· b = pendiente de la ecuación anterior

· = media de los valores de la variable dependiente

· = media de los valores de la variable independiente

No hay comentarios:

Publicar un comentario