




























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Esta es una guía completa para comprender los fundamentos teóricos de la regresión lineal simple, y su utilidad a la hora de realizar pronósticos con ella.
Tipo: Guías, Proyectos, Investigaciones
1 / 36
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
En el análisis estadístico de variables financieras o económicas es frecuente el estudio de la relación entre dos o más variables, y se define entonces el análisis de correlación, como una herramienta básica para medir cómo dos variables se relacionan entre sí. Por ejemplo,
GRÁFICO DE DISPERSIÓN Un diagrama de dispersión es un gráfico, en dos dimensiones, q series de datos. El diagrama de dispersión presenta los valores observados de dos variableue muestra la relación entre las observaciones de doss, “x” e “y”, donde la variable “x” exógena , mientras que la variable “y” es conocida como la es conocida como la variable independiente , variable explicativa variable dependiente , variable p , variableredeterminada explicada o, variablevariable respuesta no) entre las variables. En o variable endógena el caso del modelo de MCO se tratará de hallar una relación lineal entre la variable endógena. El diagrama de dispersión permite determinar si existe algún tipo de relación (lineal o y las variables exógenas. Supongamos, por ejemplo, que queremos graficar la relación entre el crecimiento del dinero a largo plazo y la a largo plazo en seis países industrializados para ver qué tan estrechamente están relacionadas las dos variables. La inflación tabla adjunta muestra la tasa de crecimiento anual promedio de la oferta monetaria y la tasa de inflación anual promedio de los últimos 6 años para los seis países.
País (^) de la oferta monetariaTasa de crecimiento (%) inflación^ Tasa de (%) 12 12.114.22 4.430. 34 18.435.60 5.492. 56 13.276.57 4.312.
Para realizar el gráfico como un diagrama de dispersión, usam gráfico. Para cada punto, la coordenada del eje horizontal es el crecimiento promedio anual de la oferta monetaria delos los datos de cada país para marcar un punto en un país, y la coordenada del eje vertical es la tasa de inflación promedio anual del país, como a continuación se muestra
0
1
2
3
4
5
6
(^4 6 8) OFERTA_MONETARIA 10 12 14 16 18 20
INFLACION
Se tiene, en el gráfic punto y los puntos no están conectados. El gráfico de dispersión no muestro, que cada par ordenado de observaciones en el diagrama de dispersión se representa como una las correspondencias entre cada país y los pares observados; solo muestra las observaci datos trazados en la gráfica muestran una correlación positiva alta. A continuación, examinamosones reales de ambas series de datos trazadas como pares ordenados. Los cómo cuantificar esta relación lineal. Este capítulo desarrolla en detalle el modelo de mínimos cuadrados ordinarios univariado, es endógena es explicada por una sola variable explicativa. decir, donde la variable
DEFINICIÓN
( , ) X Y
( (^ ))(^ (^ )^ ) ( ) ( ) ( ) X Y X Y
El coeficiente de correlación se interpreta estableciendo que tan fuerte o dé manera que se hace a modo cualitativo. bil está la relación lineal entre X y Y de
Para interpretar el coeficiente de correlación es útil la siguiente escala:
Valor - 1 (^) Correlación negativa perfecta Significado (^) 0,01 a 0,19 Valor (^) Correlación positiva muy baja Significado
El análisis de regresión es una técnica estadística útil para numerosas aplicaciones de regresión en casi cualquier campo, como por ejemplo en ingeniería financiera, ciencias investigar y modelar la relación entre variables. Existen físicas y químicas, economía, administración, entre otras. De hecho, puede ser que e las más usadas técnicas estadísticas. l análisis de regresión sea una de
La regresión lineal con una variable independiente variables como una línea recta. Cuando la relación lineal entre las, llamada regresión lineal simple, modela la relación entre dos dos variables es estadísticamente significativa, la regresión lineal proporciona un modelo simple para pronosticar el valor de una variable, conocida como variable dependiente o regresada, dado el valor de la segunda variable, conocida como variable independiente o regresora.
Es común, en el análisis estadístico de variables establecer la relación entre variables financieras o económicas, o predecir el valor de una variable utilizando información sobre el valor de otra variable. Por ejemplo, si se quiere e Ministerio de Hacienda y administrados por el Banco de la República) sobre el rendimiento de las ganancias delstimar el impacto de los cambios en el rendimiento de los TES a 10 años (Títulos de Tesorería emitidos por el COLCAP (índice de capitalización Valores de Colombia). que refleja las variaciones de los precios de las acciones más líquidas de la Bolsa de
Si la relación entre estas dos variables es lineal, se puede utilizar la regresión lineal para modelarla. La regresión lineal simple permite entonces usar los datos conocidos de una variable para hacer predicciones sobre los valores de otra, hacer pruebas de significancia estadística entre las dos variables y, entre otras pruebas, cuantificar que tan fuerte es la relación entre las dos variables.
cambios en la variable dependiente. Por ejemplo, podría intentar explicar los rendimientos de las acciones (la variable dependiente) basándose en los rendimientos del COLCAP (la variable independiente). O podría intentar explicar la inflación (la variable dependiente) como una función del crecimiento de la oferta monetaria de un país (la variable independiente).
El modelo de regresión lineal es la variable respuesta y la relación entre las variables se supone es una línea recta. De esta forma se puede decir que simple es un modelo con dos variables, por ejemplo, X y Y en donde X es el regresor, Y
estimar se puede escribir como Yi = 0 + 1 Xi (1.1)
Para el ejemplo descrito, por teoría económica se espera que la pendiente se parámetros permite determinar en cuánto se reduce la demanda al aumentar el precio y también predecir el valor de laa negativa. El conocimiento de estos cantidad demandada, dado un precio. El modelo formulado en la ecuación (1.1) es determinista. Aunque consiste en incorporar una variable aleatoria al modelo que recoja variables omitidas, errores de medida, entre otras. De, el modelo planteado en la ecuación (1.1) parece bastante limitado. Una forma de resolver esta limitación esta forma el modelo pasa a ser estocástico y adquiere la forma:
Antes de presentar el modelo de MCO se presentan los supuestos en los que este se basa. tener en cuenta es que la línea recta no es la descripción perfecta de los eventos observados, es decir, existirán errores. Lo primero que se tiene que Si se de la línea. Esto im definen a los errores como la diferencia entreplica que no se utilizará una ecuación determinística como la presentada en la ecuación (1 los valores observados y los valores obtenidos mediante la ecuación.1), si no que se utilizará la siguiente ecuación estocástica:
la suma de los cuadrados de los errores; pero no siempre est de los más usados. Se requiere entonces aceptar algunos supuestos que hagan que los estimadores de mínimose es el método más adecuado, aunque en la literatura es uno cuadrados cumplan con algunas propiedades estadísticas deseables.
1. regresión es lineal con respecto a los parámetros ( El modelo de regresión es lineal en los parámetros los betas, es deci), puede ser o no lineal en las variables explicativas. Der, el término Regresión Lineal significa que la manera suma, entonces en el modelo no hay linealidad con respecto a los parámetros. Por ejemplo, que, si en el modelo se tienen productos, cocientes u otras operaciones entre los parámetros distintas de la
5. La perturbación estocástica se distribuye normalmente. Es decir (^) i ~ N ( 0,^2 ). Por lo tanto, la distribución de probabilidad de la variable endógena es: Yi ~ N (^) ( 0 + 1 Xi ,^2 ) ¿Por qué suponer normalidad? La distribución de los parámetros estimados por MCO pueden derivarse fácilmente dado que las betas son
7. El número de observa número de observaciones debe ser mayor que el número de variables explicativas. ciones debe ser mayor que el número de parámetros a estimar. De manera alternativa el
ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS ORDINARIOS (MCO)
registros históricos existentes (lo que se llama un estudio retrospectivo).
f ( 0 , 1 ) = (^) i^ n = 1^ i^2 = (^) in = 1 ( Yi − 0 − 1 Xi )^2
e igualando a cero queda
1 0 1 1 0 1 1 0 1
n (^) i n i i i
n nY n n X
= = =
^ −^ −
y por lo tanto,
Derivando ahora parcialmente con respecto a 1 , e igualando a cero, se obtiene ( ) ( )
1 1 0 1 1 0 1
n i i i n i i i^ i^ i
operando se encuentra, 2 i n = 1^^ X Yi i^^ =^ 0 i = n 1^ X^ i + 1 i = n 1 Xi i =^ n 1^^ X Yi i^^ =^ n^^ 0 X^ + 1 i = n 1 Xi^2 (1.4)
1 (^1 )^112 1 1 2 1 1 2 (^11 2 )
n (^) i i i n i i (^) n ni i i^ i^ i i n (^) i n i i i i
X Y X nY n X X nXY n X nX X Y nXY
= = = = = =
y finalmente queda la siguiente expresión
(^112 ) 1
n i i in i i
regresión estimada es
depende de su precio es de aproximadamente 11086 unidades. La ecuación ajustada se puede escribir como:
PROPIEDADES DE LOS ESTIMADORES POR MÍNIMOS CUADRADOS Los estimadores por mínimos cuadrados tienen las siguientes propiedades que son muy importantes en el análisis de regresión lineal:
Demostración
(^1 1 0 1 0 1 ) 0 1 1 1 0 1 1
n (^) i i n (^) i n i i i (^) n ni i i i^ i i^ i xx xx xx xxxx
= = = = =
Demostración
0 1 1 0 1 1 0 1 1 0
La varianza de un estimador permite analizar el grado de dispersión de la estimación con respecto a su valor esperado. En el caso de los estimadores mínimos cuadráticos del modelo de regresión simple, al ser ambos estimadores insesgados, permitirá analizar el grado de dispersión con respecto a su verdadero valor poblacional y proporcionará una idea sobre la precisión de la estimación. Demostración
1 1 1 2 2 (^2 ) 2 2 2
ˆ (^) i n^ i i (^) in i i n i i xx xx xx xx
Var Var C Y C X S S S
2 2 2 1 2
n i
Demostración
( )^ (^ ) ( )^ (^ )
1 1 1 1 1 1
n (^) i n i i i in n i i^ i i
= = = =
n i i Los errores no están co i^ =^ X^ e^ =^. rrelacionados con la variable explicativa, dado que ambos tienen efectos separados sobre la
ortogonales. Demostración Como e i = (^) ( Yi − Y (^) )− ^ ˆ 1 ( Xi − X )entonces ( ) ( ) ( ) ( )
1 1 1 1 1 1 1 1 1 1 2 1
ˆ ˆ ˆ
n (^) i i n i i i i in n i i^ i^ i i^ i n (^) i i n (^) i n (^) i n i i i i i
X X Y Y X X Y Y X Y Y
e X X X X X X X X
= = = = = = = =
− − − − − − − − −
= ^
y teniendo en cuenta que (^) i^ n = 1 Xi = nX , se obtiene
i n = 1^^ Xi^ ei^ =^ i n = 1^ X Yi i^ − n^^ Y X^^ −^ ^ ˆ 1 ^ in = 1 X^ i^2 − nX^2
teniendo en cuenta que Sxy = (^) i =^ n 1 X Yi i − nY X y Sxx = (^) i^ n = 1 X (^) i^2 − nX^2 , se obtiene
1
n (^) i i xy xy xx i (^) xx
=^ X e =^ − S y por lo tanto i =^ n 1 X ei i = 0
Demostración
(^0 1 ) 0
n (^) i i n i i i i n n i i^ i i^ i
= = = =
Demostración
1
n (^) i n (^) i i n (^) i n i i i (^) n i i i i
Demostración
desarrollando el cuadrado de la diferencia queda que,
2 2 1 12 2 (^1 12 ) 1 1 1 12 1 1 12 1 1 12 12
n (^) i n i i i i i in n n i i^ i i^ i^ i i yy xy xx yy xx xx yy xx
= = = = =
ESTIMACIÓN DE LA VARIANZA En las expresiones que se obtuvieron para las varianzas y covarianzas de los estimadores aparece el parámetro poblacional covarianzas de ^2 , el cual es generalmente desconocido y por lo tanto se debe estimar para obtener las varianzas y
estimado no debería depender de la ecuación del modelo ajustado. TEOREMA
n i
Un intervalo de confianza de (^) ( 1 − )100% para los valores del parámetro 0 en la línea de regresión ( Yi )= 0 + 1 Xi^ está dado por
o de igual manera 2 2
y es equivalente a escribir 2 2
( 1 −^ )100%^ con^ n^ −^2 grados de libertad.
S VE ESPERA CON UNA CONFIANZA DEARIABLE Y QUE NO DEPENDE DE LA VARIABLE (^) ( 1 − )100% X EN QUE EL VERDADERO VALOR PROMEDIO D SE ENCUENTRA ENTRE LI y LS E LA
1 T^ ˆ^1 S ˆ^1
CASOS ESPECIALES (Significancia de la 1) Si se tiene Regresión) 0 1 1
No rechazar la hipótesis nula significa que no hay una relación lineal entre la variable exógena y la endógena.
que el hallazgo es estadísticamente significativo.
0
el estadístico de prueba.
Si se tiene H 0 (^) : 0 = (^0) ( 0 ^ = (^0) ) ^ T = S^ ^ ˆ ^0 ˆ 0
que,
Con estas notaciones la identidad fundamental del análisis de varianza se puede reescribir como,
PRUEBA DE HIPÓTESIS DE UTILIDAD DEL MODELO Para contrastar la hipótesis nula
Cuando se rechaza la hipótesis nula se concluye que hay una cantidad significativa de la variable dependiente que es explicada por el modelo planteado. Es decir, el modelo es significativo y la variabilidad en la variable independiente
TABLA ANOVA (Tabla de análisis de varianza)
Fuente de variación S cuadradosuma de los Grados de libertad Cuadrados medios F
es una probabilidad que se define como:
yy
todos los puntos observados caen en la línea de regresión, por lo cual el ajuste sería perfecto.
2 1 2 2 1
n i n i i i
se define como
yy
La expresión anterior muestra que ha de la línea de regresión. Sin embargo,y proporcionan información distinta.una relación estrecha entre el coeficiente de correlación muestral y la pendiente
yy xx yy
yy