Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Guía de Estudio - Regresión Lineal Simple, Guías, Proyectos, Investigaciones de Probabilidad

Esta es una guía completa para comprender los fundamentos teóricos de la regresión lineal simple, y su utilidad a la hora de realizar pronósticos con ella.

Tipo: Guías, Proyectos, Investigaciones

2019/2020

A la venta desde 12/09/2021

pablo-toro-4
pablo-toro-4 🇨🇴

5 documentos

1 / 36

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
REGRESIÓN LINEAL SIMPLE
INTRODUCCIÓN
COEFICIENTE DE CORRELACIÓN
En el análisis estadístico de variables financieras o económicas es frecuente el estudio de la relación entre dos o más
variables, y se define entonces el análisis de correlación, como una herramienta básica para medir cómo dos variables
se relacionan entre sí.
Por ejemplo,
Es posible que se quiera saber si los rendimientos de diferentes índices bursátiles están relacionados y, de ser así,
de qué manera.
Se necesita darle respuesta a la hipótesis de que el diferencial entre el rendimiento del capital invertido de una
empresa y su costo de capital ayuda a explicar el valor de la empresa en el mercado.
GRÁFICO DE DISPERSIÓN
Un diagrama de dispersión es un gráfico, en dos dimensiones, que muestra la relación entre las observaciones de dos
series de datos. El diagrama de dispersión presenta los valores observados de dos variables, “x” e “y”, donde la
variable “x” es conocida como la variable independiente, variable explicativa, variable predeterminada o variable
exógena, mientras que la variable “y” es conocida como la variable dependiente, variable explicada, variable
respuesta o variable endógena. El diagrama de dispersión permite determinar si existe algún tipo de relación (lineal o
no) entre las variables. En el caso del modelo de MCO se tratará de hallar una relación lineal entre la variable endógena
y las variables exógenas.
Supongamos, por ejemplo, que queremos graficar la relación entre el crecimiento del dinero a largo plazo y la inflación
a largo plazo en seis países industrializados para ver qué tan estrechamente están relacionadas las dos variables. La
tabla adjunta muestra la tasa de crecimiento anual promedio de la oferta monetaria y la tasa de inflación anual
promedio de los últimos 6 años para los seis países.
País
Tasa de crecimiento
de la oferta monetaria
(%)
Tasa de
inflación
(%)
1
12.11
4.43
2
4.22
0.22
3
18.43
5.49
4
5.60
2.08
5
13.27
4.31
6
6.57
2.98
Para realizar el gráfico como un diagrama de dispersión, usamos los datos de cada país para marcar un punto en un
gráfico. Para cada punto, la coordenada del eje horizontal es el crecimiento promedio anual de la oferta monetaria del
país, y la coordenada del eje vertical es la tasa de inflación promedio anual del país, como a continuación se muestra
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24

Vista previa parcial del texto

¡Descarga Guía de Estudio - Regresión Lineal Simple y más Guías, Proyectos, Investigaciones en PDF de Probabilidad solo en Docsity!

REGRESIÓN LINEAL SIMPLE

INTRODUCCIÓN
COEFICIENTE DE CORRELACIÓN

En el análisis estadístico de variables financieras o económicas es frecuente el estudio de la relación entre dos o más variables, y se define entonces el análisis de correlación, como una herramienta básica para medir cómo dos variables se relacionan entre sí. Por ejemplo,

  • Es posible que se quiera saber si los rendimientos de diferentes índices bursátiles están relacionados y, de ser así, de qué manera.
  • Se necesita darle respuesta a l empresa y su costo de capital ayuda a explicar el valor de la empresa en el mercado.a hipótesis de que el diferencial entre el rendimiento del capital invertido de una

GRÁFICO DE DISPERSIÓN Un diagrama de dispersión es un gráfico, en dos dimensiones, q series de datos. El diagrama de dispersión presenta los valores observados de dos variableue muestra la relación entre las observaciones de doss, “x” e “y”, donde la variable “x” exógena , mientras que la variable “y” es conocida como la es conocida como la variable independiente , variable explicativa variable dependiente , variable p , variableredeterminada explicada o, variablevariable respuesta no) entre las variables. En o variable endógena el caso del modelo de MCO se tratará de hallar una relación lineal entre la variable endógena. El diagrama de dispersión permite determinar si existe algún tipo de relación (lineal o y las variables exógenas. Supongamos, por ejemplo, que queremos graficar la relación entre el crecimiento del dinero a largo plazo y la a largo plazo en seis países industrializados para ver qué tan estrechamente están relacionadas las dos variables. La inflación tabla adjunta muestra la tasa de crecimiento anual promedio de la oferta monetaria y la tasa de inflación anual promedio de los últimos 6 años para los seis países.

País (^) de la oferta monetariaTasa de crecimiento (%) inflación^ Tasa de (%) 12 12.114.22 4.430. 34 18.435.60 5.492. 56 13.276.57 4.312.

Para realizar el gráfico como un diagrama de dispersión, usam gráfico. Para cada punto, la coordenada del eje horizontal es el crecimiento promedio anual de la oferta monetaria delos los datos de cada país para marcar un punto en un país, y la coordenada del eje vertical es la tasa de inflación promedio anual del país, como a continuación se muestra

0

1

2

3

4

5

6

(^4 6 8) OFERTA_MONETARIA 10 12 14 16 18 20

INFLACION

Se tiene, en el gráfic punto y los puntos no están conectados. El gráfico de dispersión no muestro, que cada par ordenado de observaciones en el diagrama de dispersión se representa como una las correspondencias entre cada país y los pares observados; solo muestra las observaci datos trazados en la gráfica muestran una correlación positiva alta. A continuación, examinamosones reales de ambas series de datos trazadas como pares ordenados. Los cómo cuantificar esta relación lineal. Este capítulo desarrolla en detalle el modelo de mínimos cuadrados ordinarios univariado, es endógena es explicada por una sola variable explicativa. decir, donde la variable

DEFINICIÓN

El coeficiente de correlación entre dos variables aleatorias X y Y denotado como  se define como:

( , ) X Y

^ Cov X Y

o de igual manera =  

( (^ ))(^ (^ )^ ) ( ) ( ) ( ) X Y X Y

^ E^ X^ E X^ Y^ E Y^ E XY^ E X E Y

   

= ^ −^ − ^ = −

Donde  X y  Y son respectivamente las desviaciones estándar de X y Y

Es evidente que, si X y Y son variables aleatorias independientes, entonces: = 0 y además −  1  1

El coeficiente de correlación se interpreta estableciendo que tan fuerte o dé manera que se hace a modo cualitativo. bil está la relación lineal entre X y Y de

Para interpretar el coeficiente de correlación es útil la siguiente escala:

Valor - 1 (^) Correlación negativa perfecta Significado (^) 0,01 a 0,19 Valor (^) Correlación positiva muy baja Significado

  • 0,9 a - 0,99 Correlación negativa muy alta 0,2 a 0,39 Correlación positiva baja
  • 0,7 a - 0,89 Correlación negativa alta 0,4 a 0,69 Correlación positiva moderada
    • 0,4 a0,2 a - -0,690,39 Correlación negativa moderadaCorrelación negativa baja 0,7 a 0,890,9 a 0,99 Correlación positiva altaCorrelación positiva muy alta
MODELO DE REGRESIÓN LINEAL SIMPLE

El análisis de regresión es una técnica estadística útil para numerosas aplicaciones de regresión en casi cualquier campo, como por ejemplo en ingeniería financiera, ciencias investigar y modelar la relación entre variables. Existen físicas y químicas, economía, administración, entre otras. De hecho, puede ser que e las más usadas técnicas estadísticas. l análisis de regresión sea una de

La regresión lineal con una variable independiente variables como una línea recta. Cuando la relación lineal entre las, llamada regresión lineal simple, modela la relación entre dos dos variables es estadísticamente significativa, la regresión lineal proporciona un modelo simple para pronosticar el valor de una variable, conocida como variable dependiente o regresada, dado el valor de la segunda variable, conocida como variable independiente o regresora.

Es común, en el análisis estadístico de variables establecer la relación entre variables financieras o económicas, o predecir el valor de una variable utilizando información sobre el valor de otra variable. Por ejemplo, si se quiere e Ministerio de Hacienda y administrados por el Banco de la República) sobre el rendimiento de las ganancias delstimar el impacto de los cambios en el rendimiento de los TES a 10 años (Títulos de Tesorería emitidos por el COLCAP (índice de capitalización Valores de Colombia). que refleja las variaciones de los precios de las acciones más líquidas de la Bolsa de

Si la relación entre estas dos variables es lineal, se puede utilizar la regresión lineal para modelarla. La regresión lineal simple permite entonces usar los datos conocidos de una variable para hacer predicciones sobre los valores de otra, hacer pruebas de significancia estadística entre las dos variables y, entre otras pruebas, cuantificar que tan fuerte es la relación entre las dos variables.

E explicar. La variable independiente o regresora (denotadal análisis regresión lineal inicia determinando la variable dependiente o regresada (denotada X ), que es la variable que se va a u Y tilizar para explicar los), la variable que busca

cambios en la variable dependiente. Por ejemplo, podría intentar explicar los rendimientos de las acciones (la variable dependiente) basándose en los rendimientos del COLCAP (la variable independiente). O podría intentar explicar la inflación (la variable dependiente) como una función del crecimiento de la oferta monetaria de un país (la variable independiente).

El modelo de regresión lineal es la variable respuesta y la relación entre las variables se supone es una línea recta. De esta forma se puede decir que simple es un modelo con dos variables, por ejemplo, X y Y en donde X es el regresor, Y

la variable También es usual hablar de variable endógena y exógena, respectivamente. Y es una variable dependiente o explicada y la variable X es la variable independiente o explicativa.

Como ejemplo demandada del mismo. Suponga que se dispone de suponga que X es el precio de un determinado bien a lo largo del tiempo, y n observaciones de la variable Y correspondientes Y es la cantida a d n

observaciones de suponga que la relación es lineal y que la cantidad demandada sólo depende del precio. La ecuación que se pretende X y que se desea estimar la relación existente entre la cantidad demandada y su precio. Además,

estimar se puede escribir como Yi =  0 + 1 Xi (1.1)

Los parámetros pendiente de la línea recta, respectivamente.  0 y  1 de la ecuación anterior son desconocidos y representan el intercepto con el eje Y y la

Para el ejemplo descrito, por teoría económica se espera que la pendiente se parámetros permite determinar en cuánto se reduce la demanda al aumentar el precio y también predecir el valor de laa negativa. El conocimiento de estos cantidad demandada, dado un precio. El modelo formulado en la ecuación (1.1) es determinista. Aunque consiste en incorporar una variable aleatoria al modelo que recoja variables omitidas, errores de medida, entre otras. De, el modelo planteado en la ecuación (1.1) parece bastante limitado. Una forma de resolver esta limitación esta forma el modelo pasa a ser estocástico y adquiere la forma:

Yi =  0 +  1 Xi + i (1.2)

Donde  i es una componente aleatoria de error o también llamada variable aleatoria no observable, es decir, es lo que

afecta la variable endógena que no lo e modelo, X la variable exógena y Y la variable endógena.xplica la variable exógena.  0 y  1 son los parámetros desconocidos del

Para que la ecuación (1.2) sistemáticamente en Y sino que, su incidencia es simplemente aleatoria. sea válida, se supone, inicialmente, que los factores recogidos en  i no influyen

En la práctica, se dispone de una muestra aleatori observaciones de la variable X , en n pares ordenados de la formaa de n observaciones de la variable( , ) Y correspondientes a n

parámetros de la regresión.^ X^ i^ Yi a partir de la cual se estiman los

SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL DE MCO

Antes de presentar el modelo de MCO se presentan los supuestos en los que este se basa. tener en cuenta es que la línea recta no es la descripción perfecta de los eventos observados, es decir, existirán errores. Lo primero que se tiene que Si se de la línea. Esto im definen a los errores como la diferencia entreplica que no se utilizará una ecuación determinística como la presentada en la ecuación (1 los valores observados y los valores obtenidos mediante la ecuación.1), si no que se utilizará la siguiente ecuación estocástica:

Los parámetros Yi^ =^ ^0 +^ ^1 Xi^ + i

razonables. Un método de estimación de los parámetros es el método de mínimos cuadrados que consiste en minimizar^ ^0 y^ ^1 se^ pueden estimar de manera formal para que^ la recta de regresión tenga propiedades

la suma de los cuadrados de los errores; pero no siempre est de los más usados. Se requiere entonces aceptar algunos supuestos que hagan que los estimadores de mínimose es el método más adecuado, aunque en la literatura es uno cuadrados cumplan con algunas propiedades estadísticas deseables.

1. regresión es lineal con respecto a los parámetros ( El modelo de regresión es lineal en los parámetros los betas, es deci), puede ser o no lineal en las variables explicativas. Der, el término Regresión Lineal significa que la manera suma, entonces en el modelo no hay linealidad con respecto a los parámetros. Por ejemplo, que, si en el modelo se tienen productos, cocientes u otras operaciones entre los parámetros distintas de la

4. La varianza (o dis varianza de  i es constante. Este supuesto se llama persión) de la perturbación estocástica es la misma en todas la “supuesto de Homocedasticidad ”. (homo = igual, cedasticidad = s observaciones. Es decir, la

varianza). Es decir V (  i )=^2.

La expresión anterior establece entonces que la varianza de cada  i , es algún número positivo constante e igual a ^2.

Nota: ( ) Si la varianza condicional varía, 2 se dice que en el modelo hay presencia de heterocedasticidad y se escribe

V constante.  i = i^. Obsérvese que el subíndice en^ ^2 es el indicador de que la varianza de la población^ Y ya no es

5. La perturbación estocástica se distribuye normalmente. Es decir (^)  i ~ N ( 0,^2 ). Por lo tanto, la distribución de probabilidad de la variable endógena es: Yi ~ N (^) (  0 + 1 Xi ,^2 ) ¿Por qué suponer normalidad?  La distribución de los parámetros estimados por MCO pueden derivarse fácilmente dado que las betas son

 Es muy conocida y sus propiedades han sido bastante estudiadas, además, muchos fenómenos se rigen por^ funciones lineales de los^  i.

 Permite utilizar las prueba^ normalidad. s estadísticas t , F y ^2.

6. Los errores son incorrelacionados. Las variables aleatorias  i y  j son estadísticamente independientes. Es decir,

para todo i^  j se tiene que, Cov(   i , j ) = 0.

7. El número de observa número de observaciones debe ser mayor que el número de variables explicativas. ciones debe ser mayor que el número de parámetros a estimar. De manera alternativa el

ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS ORDINARIOS (MCO)

Como se ha dicho los parámetros  0 y  1 son desconocidos, y se deben estimar con los datos de la muestra. Suponga

que se tienen datos pueden obtenerse en un experimento controlado, diseñado en forma específica para recolectarlos, o a partir de n pares de datos muéstrales tomados de una distribución normal, ( x 1 , y 1 ),( x 2 , y 2 ),...,( xn , yn ), estos

registros históricos existentes (lo que se llama un estudio retrospectivo).

El método de mínimos cuadrados cons errores sea mínima. Es decir, el objetivo del método de mínimoiste en estimar los parámetross cuadrados es minimizar la función dada por  0 y  1 tales que la suma de los cuadrados de los

f (  0 ,  1 ) = (^)  i^ n = 1^  i^2 = (^)  in = 1 ( Yi −  0 − 1 Xi )^2

Para minimizar f se debe derivar parcialmente con respecto a  0 y  1 e igualar a cero las derivadas.

Derivando con respecto a  0 se obtiene ^ ^ f^0^ = − 2  i =^ n 1 ( Yi −  0 − 1 Xi )

e igualando a cero queda

1 0 1 1 0 1 1 0 1

2 i^ n ( i i ) 0

n (^) i n i i i

Y X

n nY n n X

Y X

= = =

^ −^ −  

y por lo tanto,

Y =  0 + 1 X (1.3)

Derivando ahora parcialmente con respecto a  1 , e igualando a cero, se obtiene ( ) ( )

1 1 0 1 1 0 1

n i i i n i i i^ i^ i

f Y X X

Y X X

^ ^ 

=

^ ^ = −^ −^ −

  operando se encuentra, 2  i n = 1^^ X Yi i^^ =^  0  i = n 1^ X^ i + 1  i = n 1 Xii =^ n 1^^ X Yi i^^ =^ n^^  0 X^ + 1  i = n 1 Xi^2 (1.4)

Las ecuaciones (1.3) y (1.4) se llaman simultáneamente para encontrar  0 y ecuaciones normales de mínimos cuadrados  1. Estas ecuaciones se deben resolver

De la ecuación (1.3) se tiene que  0 = Y − 1 X. Este resultado se sustituye en la ecuación (1.4) y se obtiene que

1 (^1 )^112 1 1 2 1 1 2 (^11 2 )

n (^) i i i n i i (^) n ni i i^ i^ i i n (^) i n i i i i

X Y X nY n X X nXY n X nX X Y nXY

X Y X

X

= = = = = =

      y finalmente queda la siguiente expresión

(^112 ) 1

n i i in i i

X Y nXY

 X nX

=

=^ −

 

y sustituyendo la ecuación (1.5) en la ecuación (1.3) se obtiene que ^ ˆ 0 = Y −ˆ 1 X. Por lo tanto, la ecuación de

regresión estimada es

Y ˆ i = ^ ˆ 0 +ˆ 1 Xi (1.6)

Ahora como el denominador en la ecuación (1.5) es la suma corregida de cuadrados de las Xi , denotada Sx x , es decir

INTERPRETACIÓN DE SI LA VARIABLE X SE INCREMENTA EN UNA UNIDAD SE ESPERA QUE EL VALOR PROMEDIO DE LA^ ^ ˆ 1

VARIABLE Y SE INCREMENTE O DISMINUYA EN ^ ˆ 1

INTERPRETACIÓN DE ^ ˆ 0

EL VALOR PROMEDIO DE LA VARIABLE Y QUE NO DEPENDE DE LA VARIABLE X ES ^ ˆ 0

EJEMPLO

Para una muestra meses, se efectuó de la demanla regresión de la demandada mensual de televisores y su precio unitario (en miles de pesos), en los últimos 20 mensual de televisores ( Y ) sobre el precio unitario de los mismos en

pesos, Estos valores tie y se obtuvo quenen los siguientes significados, ˆ 0 =11086.19y ˆ 1 =−0.

El valor demanda  promedio ˆ 1 = −0.094697 de estos se reindica que, por cada aumento de mil pesos en el preciduzca en 0.094697 unidades. o de televisores, se espera que la

Por su parte importante indicar que este valor ˆ 0 =11086.19 indica que hay una demanda de 11086 televisores, cuando el precio de estos es cero; es no tiene interpretación económica. La demanda promedio mensual de TV que no

depende de su precio es de aproximadamente 11086 unidades. La ecuación ajustada se puede escribir como:

Y ˆ i = 11086.19 −0.094697 Xi

De esta forma, sí por ejemplo X i = X = 75625 entonces, Y ˆ i =11086.19 − 0.094697  75625 =3924.

EJEMPLO

Las tazas diarias por persona) y el precio al detal promedio d siguientes estimaciones corresponden a datos sobre el consumo de café en los Estados Unidos (el café ( X ) (medido en dólares). Y ) (medido en

Y ˆ^ i = 2.36 −0.5 Xi

café en los Estados Unidos^ ^ ˆ^1 = −0.5^ : Si^ el^ precio al detal promedio del café disminuya en media taza diaria por persona.^ se incrementa en un dólar, se espera, que el^ consumo^ promedio^ de

persona.^ ^ ˆ^0 =2.36^ :^ el^ consumo^ promedio^ de café en los Estados Unidos^ que no depende del precio es de 2.36 tazas diarias por

PROPIEDADES DE LOS ESTIMADORES POR MÍNIMOS CUADRADOS Los estimadores por mínimos cuadrados tienen las siguientes propiedades que son muy importantes en el análisis de regresión lineal:

1) ^ ˆ 1 es un estimador insesgado de  1. Es decir, E ( ^ ˆ 1 )= 1

Demostración

E ( ^ ˆ 1 ) = E ^  i n = 1^ C Y i i  = in = 1 Ci E ( Yi )

y como se supuso que E (  i )= 0 , entonces,

( )^ (^ )

(^1 1 0 1 0 1 ) 0 1 1 1 0 1 1

n (^) i i n (^) i n i i i (^) n ni i i i^ i i^ i xx xx xx xxxx

E X C X
X X
S S
S S

C C

X X X

S

= = = = =

= −^ + −

2) ^ ˆ 0 es un estimador insesgado de  0. Es decir, E ( ^ ˆ 0 )= 0

Demostración

0 1 1 0 1 1 0 1 1 0

E E Y X

E Y E X

X X E

X X

3) La varianza de ^ ˆ 1 se calcula con la expresión Var ( ^ ˆ 1 )= S^  xx^2

La varianza de un estimador permite analizar el grado de dispersión de la estimación con respecto a su valor esperado. En el caso de los estimadores mínimos cuadráticos del modelo de regresión simple, al ser ambos estimadores insesgados, permitirá analizar el grado de dispersión con respecto a su verdadero valor poblacional y proporcionará una idea sobre la precisión de la estimación. Demostración

( )^ (^ )^ (^ )

1 1 1 2 2 (^2 ) 2 2 2

ˆ (^) i n^ i i (^) in i i n i i xx xx xx xx

Var Var C Y C X S S S

Var Y

X

S

= =

4) La varianza de ^ ˆ 0 se calcula como ( )

2 2 2 1 2

n i

Var  = ^ ^ n + XS xx =^  nS^  i^ = xx^ X

Demostración

( )^ (^ ) ( )^ (^ )

1 1 1 1 1 1

n (^) i n i i i in n i i^ i i

Y Y X
Y Y X

e X

X

= = = =

= ^ 

   

  1. La suma de los residuales, ponderados por el valor correspondiente de la variable regresora, es igual a cero. Es decir 1 0

n i i Los errores no están co i^ =^ X^ e^ =^. rrelacionados con la variable explicativa, dado que ambos tienen efectos separados sobre la

variable respuesta. covarianza de los errores c Si existiese una correlación, sería difícil encontrar sus efectos individualeson las variables exógenas es cero. Es decir, que los errores y las variables sobreexógenas son Y. La

ortogonales. Demostración Como e i = (^) ( YiY (^) )− ^ ˆ 1 ( XiX )entonces ( ) ( ) ( ) ( )

1 1 1 1 1 1 1 1 1 1 2 1

ˆ ˆ ˆ

n (^) i i n i i i i in n i i^ i^ i i^ i n (^) i i n (^) i n (^) i n i i i i i

X X Y Y X X Y Y X Y Y

e X X X X X X X X

= = = = = = = =

− − − − − − − − −

= ^ 

= ^   

       

y teniendo en cuenta que (^)  i^ n = 1 Xi = nX , se obtiene

i n = 1^^ Xi^ ei^ =^  i n = 1^ X Yi i^ − n^^ Y X^^ −^ ^ ˆ 1 ^  in = 1 X^ i^2 − nX^2 

teniendo en cuenta que Sxy = (^)  i =^ n 1 X Yi inY X y Sxx = (^)  i^ n = 1 X (^) i^2 − nX^2 , se obtiene

1

n (^) i i xy xy xx i (^) xx

S S S

 =^ X e =^ − S y por lo tanto i =^ n 1 X ei i = 0

  1. La suma de los residuales, ponderados por el valor ajustado, es igual a cero. Esto es, i^ n = 1 eYi ˆ i = 0 Los errores no están correlacionados con los pronósticos de la variable respuesta.

Demostración

1 1 (^0 1 )

(^0 1 ) 0

n (^) i i n i i i i n n i i^ i i^ i

eY e X

e e X

= = = =

4) La suma de los valores observados es igual a la suma de los valores ajustados. Es decir, i n = 1^ Y i = i = n 1 Y^ ˆ i

Demostración

1 1 (^ ) 1 1

1

n (^) i n (^) i i n (^) i n i i i (^) n i i i i

Y e Y e Y

Y

= = = =

5)  i^ n = 1 ei^2^ = S yy − ^ ˆ 12 Sxx : Suma de los cuadrados de los errores

Demostración

 i =^ n 1^ e i^2^ =^  in = 1 (^^ Yi^ −^ Y^ )−^ ^ ˆ 1 (^ Xi − X )^2

desarrollando el cuadrado de la diferencia queda que,

2 2 1 12 2 (^1 12 ) 1 1 1 12 1 1 12 1 1 12 12

2 ˆ^ ˆ
2 ˆ^ ˆ
2 ˆ^ ˆ^2 ˆ ˆ^ ˆ

n (^) i n i i i i i in n n i i^ i i^ i^ i i yy xy xx yy xx xx yy xx

Y Y X
Y Y X
S S S

e Y Y X X X

Y Y X X X

S S S

S S

        

= = = = =

= ^ 

ESTIMACIÓN DE LA VARIANZA En las expresiones que se obtuvieron para las varianzas y covarianzas de los estimadores aparece el parámetro poblacional covarianzas de ^2 , el cual es generalmente desconocido y por lo tanto se debe estimar para obtener las varianzas y

hacer pruebas de hipótesis y formar estimados de intervalos pertinentes al modelo de regresión. En el caso ideal este^ ^ ˆ^0 y^ ^ ˆ^1 ; además de estimar los parámetros^ ^0 y^ ^1 ,^ se^ requiere un estimador de la varianza para

estimado no debería depender de la ecuación del modelo ajustado. TEOREMA

Un estimador insesgado de ^2 es S^2 , siendo

2 1 2 ˆ^12

n i

S =  ni^ =^ −^ e^ = S^ yy^ n −−^  Sxx

Aquí ^2 es la varianza poblacional y S^2 es la varianza muestral.

INTERVALO DE CONFIANZA PARA LA ORDENADA EN EL ORIGEN CON ^2 DESCONOCIDA

Un intervalo de confianza de (^) ( 1 − )100% para los valores del parámetro  0 en la línea de regresión  ( Yi )=  0 + 1 Xi^ está dado por

^ ˆ 0 − t (  / 2, n −2) S  ˆ 0   0  ˆ 0 + t ( / 2, n −2) S ˆ 0

o de igual manera 2 2

ˆ 0 − t ( / 2, n −2) S^1 n^ +^ XSxx   0  ˆ 0 + t ( / 2, n −2) S^1 n + XSxx

o de manera más compacta ˆ 0  t ( /2, n −2) S^1 n +^ XSxx^2

y es equivalente a escribir 2 2

P^ ^ ˆ 0 − t ( / 2, n −2) S^1 n^ +^ XSxx   0  ˆ 0 + t ( / 2, n −2) S^1 n + XSxx = 1 −

Aquí también t ( / 2, n −2)es un valor de la distribución t de student para un nivel para un nivel de confianza de

( 1 −^ )100%^ con^ n^ −^2 grados de libertad.

LI   0  LS

INTERPRETACIÓN

S VE ESPERA CON UNA CONFIANZA DEARIABLE Y QUE NO DEPENDE DE LA VARIABLE (^) ( 1 − )100% X EN QUE EL VERDADERO VALOR PROMEDIO D SE ENCUENTRA ENTRE LI y LS E LA

si LI <0 y LS  0 indica que la constante no es significativa en el modelo.

PRUEBAS DE HIPÓTESIS PARA LOS PARÁMETROS DEL MODELO CON ^2 DESCONOCIDA

PRUEBA O CONTRASTE DE HIPÓTESIS PARA  1 CON ^2 DESCONOCIDA

Sea  1 *un valor específico de  1 y además el estadístico de prueba T definido como

1 T^ ˆ^1 S ˆ^1 

=^ ^ −^ 

i) Para contrastar la hipótesis nula H 0 :  1 = 1 frente a la hipótesis alternativa Ha :  1  1 , la regla de decisión es

rechazar la hipótesis nula si T  t ( , n −2). Donde t ( , n −2) es el valor de la distribución t de student para un nivel de

significancia de con n^ −^2 grados de libertad.

ii) Para contrastar la hipótesis nula H 0 :  1 = 1 frente a la alternativa Ha :  1  1 la regla de decisión es rechazar

H 0 si T  − t ( , n −2)

iii) Para contrastar la hipótesis nula H 0 :  1 = 1 frente a la alternativa bilateral Ha :  1  1 , la regla de decisión es

rechazar H 0 si| T |  t (  / 2, n −2)

Lo cual es equivalente a tener T  t ( / 2, n −2)o T − t ( / 2, n −2)

CASOS ESPECIALES (Significancia de la 1) Si se tiene Regresión) 0 1 1

a :^0

H

H

No rechazar la hipótesis nula significa que no hay una relación lineal entre la variable exógena y la endógena.

Rechazar la hipótesis nula exógena tiene efecto lineal sobre H 0 indica que la variable exógenalas variaciones de la variable endógena. Cuando la hipótesis nula se rechaza, se dice es significativa en el modelo, es decir, la variable

que el hallazgo es estadísticamente significativo.

  1. Si se tiene 0 1 1

a :^1

H

H

No rechazar la hipótesis nula, H 0 :  1 = 1 significa que hay una relación uno a uno entre las variables. Es decir,

cualquier incremento en la variable exógena genera el mismo incremento, en la variable endógena. Rechazar significa que no existe una relación uno a uno entre las variables endógena y exógena. H 0 ,

PRUEBA O CONTRASTE DE HIPÓTESIS PARA  0 CON ^2 DESCONOCIDA

Sea  0 un valor específico para  0 , en la recta de regresión y sea además

0

T^ ˆ^0 S^ ˆ^0

=^ ^ −^ 

el estadístico de prueba.

i) Para contrastar la hipótesis nula H 0 :  0 = 0 frente a la alternativa Ha :  0  0 , la regla de regresión es rechazar

H 0 si T  t (  , n −2)

ii) Para contrastar la hipótesis nula H 0 :  0 = 0 frente a la alternativa Ha :  0  0 la regla de decisión es rechazar

H 0 si T  − t ( , n −2)

iii) Para contrastar la hipótesis nula H 0 :  0 = 0 frente a la alternativa bilateral Ha :  0  0 la regla de decisión es

rechazar H 0 si | T |  t ( / 2, n −2), lo cual es equivalente a decir que H 0 se rechaza si T  t (  / 2, n −2) o T  − t (  / 2, n −2)

Si se tiene H 0 (^) :  0 = (^0) (  0 ^ = (^0) ) ^ T = S^ ^ ˆ ^0 ˆ 0 

SST =  i^ n = 1 ( Yi − Y )^2

Las dos componentes de ( por la línea de regresión ( SSRSST ) y la variación residual que queda sin explicar por la línea de regresión () miden, respectivamente, la cantidad de variabilidad en las observaciones SSE ). De manera Yi explicada

que,

SSR =  i^ n = 1^ ( Y^ ˆ i^ − Y ) 2 , SSE =  in = 1 ( Yi − Y ˆ i )^2

Con estas notaciones la identidad fundamental del análisis de varianza se puede reescribir como,

SST = SSR + SSE

Donde, SST = S yy , SSR = ^ ˆ 12 Sxx y SSE = S yy − ^ ˆ 12 Sxx

PRUEBA DE HIPÓTESIS DE UTILIDAD DEL MODELO Para contrastar la hipótesis nula

es significativo, la regla de decisión es rechazar^ H^0 : el modelo lineal no es significativo, frente a la alternativa^ Ha : el modelo lineal

n − 2 grados de libertad.^ H^0 si^ F^  f (^ ,1,^ n −2), donde^ SSR^ tiene^ un grado de libertad y^ SSE^ tiene

Cuando se rechaza la hipótesis nula se concluye que hay una cantidad significativa de la variable dependiente que es explicada por el modelo planteado. Es decir, el modelo es significativo y la variabilidad en la variable independiente

ayuda a explicar la variabilidad en la variable dependiente. Si no se rechaza la hipótesis nula, es decir región de aceptación, se concluye que los datos no reflejan suficiente evidencia para apoyar el modelo po stulado. F está en la

Los cálculos para encontrar el estadístico de prueba F = MSE^ SSR^ = SSRS 2 , se resumen en la siguiente tabla:

TABLA ANOVA (Tabla de análisis de varianza)

Fuente de variación S cuadradosuma de los Grados de libertad Cuadrados medios F

REGRESIÓN SSR 1 SSR F^^ =^ SSRS 2

ERROR SSE n − 2 n^ SSE − 2^ = MSE = S^2

TOTAL SST n^ −^1

COEFICIENTE DE DETERMINACIÓN

El coef dependiente y que puede ser explicado por la variabilidad en la variable independienteiciente de determinación, denotado R^2 , es un estadístico que mide el porcentaje de variación total en la variable. El coeficiente de determinación

es una probabilidad que se define como:

R^2^ = SSRSST^ o de igual forma se puede expresar como^2 ˆ^1 2 xx , 0 2 1

yy

R =  S^ S  R 

La interpretación de este coeficiente está dada por: “la variabilidad de la variable endógena es explicada en la variabilidad de la variable exógena”. Por ejemplo, si se tienen definidas las variables de decisión Y : ingresos por R^2 %por

ventas y ingresos por ventas es explicada en un 97.16 % por la variabilidad en los gastos de promoción. X : gastos en promoción, y se obtuvo que R^2^ =97.16, esto significa que la variabilidad esperada en los

OBSERVACIONES

i) Si R^2^ = 0 entonces  i^ n = !( Y ˆ i − Y )= 0 , es decir Y ˆ i = Y, y esto significa que las variaciones en Y no son explicadas

por las variaciones en X

ii) Si R^2 = 1 entonces SSR = SST , es decir  i =^ n 1^ ( Y^ ˆ i − Y )^2 =  in = 1 ( Yi − Y )^2 y por lo tanto Y ˆ^ = Yi y esto significa que

todos los puntos observados caen en la línea de regresión, por lo cual el ajuste sería perfecto.

Ahora, como SST = SSR + SSE, al dividir, a ambos lados, por la suma de los cuadrados totales se obtiene

1 = SSRSST + SSESST

y como R^2^ = SSRSST entonces R^2^ = 1 − SSESST o de manera equivalente ( )

2 1 2 2 1

n i n i i i

R^ e

Y Y

=

= −^ −

COEFICIENTE DE CORRELACIÓN MUESTRAL El coeficiente de correlación muestral, denotado por r , es una medida de asociación lineal entre las variables X e Y y

se define como

2 ˆ^1 xy

yy

r R S

S

=  =^  , − ^1 r ^1

La expresión anterior muestra que ha de la línea de regresión. Sin embargo,y proporcionan información distinta.una relación estrecha entre el coeficiente de correlación muestral y la pendiente

Si se tiene en cuenta que ^ ˆ 1 =^ SSxyxx , y se reemplaza en la expresión anterior, resulta entonces

ˆ 1 xy xy

yy xx yy

r S^ S

S S S

=  = o también^ ˆ 1 xx

yy

r =  S^ S