Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

introducción a las ecuaciones estructurales en Amos y R, Apuntes de Matemáticas

Tipo: Apuntes

2018/2019
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 09/07/2019

eulogio90
eulogio90 🇲🇽

4.3

(25)

44 documentos

1 / 72

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
INTRODUCCION A LAS
ECUACIONES
ESTRUCTURALES EN
AMOS Y R
Antonio Lara Hormigo
01/01/2014
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
Discount

En oferta

Vista previa parcial del texto

¡Descarga introducción a las ecuaciones estructurales en Amos y R y más Apuntes en PDF de Matemáticas solo en Docsity!

INTRODUCCION A LAS

ECUACIONES

ESTRUCTURALES EN

AMOS Y R

Antonio Lara Hormigo 01/01/

Introducción

Los orígenes de los modelos de ecuaciones estructurales (SEM) se encuentran en las técnicas desarrollado hace 90 años por Stewal Wright (Wright 1921), que lo desarrollo en el campo de la genética, cuyo propósito fue el de permitir ”el examen de un conjunto de relaciones entre una o más variables independientes, sean estas continuas o discretas” desarrollando una forma de romper las correlaciones observadas en un sistema de ecuaciones matemáticas que describían sus hipótesis respecto a unas relaciones causales. Estas relaciones entre las variables fueron representadas en un “path diagram”, conociéndose este método como “path analysis”.

No existe ninguna definición que esté consensuada del concepto de modelo de ecuaciones estructurales, aunque hay numerosas definiciones que se han ido formulando a lo largo del tiempo de la que podemos destacar la de Byrne (1998) “un modelo de SEM es una metodología estadística que utiliza un enfoque confirmatorio del análisis multivalente aplicado a una teoría estructural relacionada con un fenómeno determinado”.

Estos modelos son una serie de técnicas estadísticas, que se pueden considerar como una extensión de la otras técnicas multivalentes entre las que se pueden encontrar las regresión múltiple o análisis factorial que permiten a los investigadores cuantificar y comprobar teorías científicas pertenecientes a campos como la psicología, marketing, econometría o ciencias de la salud. Lo que se intentan conseguir con estos modelos de ecuaciones estructurales, es el estudio de las relaciones casuales entre los datos que sean directamente observables asumiendo que estas relaciones existentes son lineales.

Los modelos de ecuaciones estructurales constituyen una de las herramientas más potentes para los estudios de relaciones casuales sobre datos no experimentales cuando las relaciones son del tipo lineal. Esto hace que se haya convertido en una herramienta popular y generalmente aceptada para probar fundamentos teóricos en un gran número de disciplinas. La más relevante sean la economía y las ciencias sociales y del comportamiento que suelen enfrentarse a procesos cuya teoría es relativamente pobre, y suelen carecer de medios para controlar experimentalmente la recogida de información al fin de controlar las variables recogidas.

Capitulo 1 Ecuaciones estructurales

1.1 Tipos de variables en modelos de ecuaciones estructurales.

En estos modelos se distinguen los distintos tipos de variables según sea su medición o el papel que realizan dentro del modelo:

  • Variable latente, reciben también el nombre de constructos, factores o variables no observadas según los diversos autores. Son normalmente el objeto de interés en el análisis, conceptos abstractos que pueden ser observados indirectamente a través de sus efectos en los indicadores o variables observadas.
  • Variable observada, o también denominada de medidas o indicadoras, son aquellas variables que pueden ser medidas.

Entre las variables latentes, podemos destacar tres tipos de variables, que son:

  • Variable exógena, son variables latentes independientes, es decir, afectan a otras variables y no recibe ningún efecto de ninguna de ellas. Estas variables se pueden detecta en la gráficas porque no salen ninguna de las flecha de esta variable. En la figura 1 se puede observar como V 3 es una variable endógena, puesto que no recibe información de V 1 ni de V 2 , pero si aporta información a estas variables, por tanto V 3 es una variable exógena.
  • Variable endógena, variables latentes dependientes, son aquellas que reciben el efecto de otras variables, es decir, en las graficas son las variables a las que llegan las flechas. Estas variables están afectadas por un término de perturbación o de error. En la figura 1, tenemos que tanto V 1 como V 2 reciben información la una de la otra. De esta forma, V 1 y V 2 son de esta forma variables endógenas.
  • Variable error, este término tiene en cuenta todas las todas las fuentes de variación que no están consideradas en el modelo. Como puede ser en la medición de las variables. Se denominan variables de tipo latente al no ser observables.

Con estas reglas se suelen representar todas las teorías causales y de medición de forma equivalente a la que lo hacen los sistemas de ecuaciones, mientras que cumplan:

  1. Todas las relaciones casuales deben estar representadas en el diagrama
  2. Todas las variables que son causas de las variables endógenas deben de estar incluidas en el diagrama
  3. El diagrama deben ser sencillo, y solo contengan relaciones que puedan justificarse con bases teóricas.

Por este motivo, los diagramas de ecuaciones estructurales siguen unas convenciones particulares para derivar las ecuaciones correspondientes:

  • Las variables observables se representas encerradas en rectángulos
  • Las variables no observables se representan encerradas en óvalos o círculos.
  • Los errores se representan sin círculos ni rectángulos.
  • Las relaciones bidireccionales se representan como líneas curvas terminadas en flechas en cada extremo.
  • Las relaciones unidireccionales se representan con una flecha.

Figura 2. Elementos de la representación visual.

En función de las características de los modelos se pueden diferenciar entre los modelos en los que los errores no están relacionados y todos los efectos causales son unidireccionales, que son los llamados modelos recursivos, y aquellos en los que existen lazos de retroalimentación o pueden tener errores correlacionados, estos se llaman modelos no recursivos. Además, no es necesario aclarar si los modelos son recursivos, o no recursivos ya que esto se puede diferenciar claramente en el diagrama estructural.

1.2 Tipos de relaciones entre las variables.

Para desarrollar este punto, se empezará a definir qué tipos de relaciones casuales pueden establecerse entre dos variables 𝑣𝑣 1 𝑦𝑦 𝑣𝑣 2 :

  • 𝑣𝑣 1 𝑦𝑦 𝑣𝑣 2 pueden estar relacionadas si 𝑣𝑣 1 causa 𝑣𝑣 2 , lo que implicaría asumir un modelo de regresión de 𝑣𝑣 2 a 𝑣𝑣 1 , también pueden estar relacionadas si 𝑣𝑣 2 causa a 𝑣𝑣 1 , lo que asumiría el modelo de regresión de 𝑣𝑣 1 sobre 𝑣𝑣 2 , como se puede observar en figura 3. En ambos casos se esta hablando de relaciones directas, aunque estas también pueden ser reciprocas, como se contemplan la siguiente figura 4, en este caso la casualidad será bidireccional:

Figura 3. Relaciones entre variables.

Figura 4. Relaciones entre variables.

  • 𝑣𝑣 1 𝑦𝑦 𝑣𝑣 2 asimismo estarán relacionadas si ambas se tienen una causa común a una tercera variable interviniente 𝑣𝑣 3 .A esta relación se le denomina relación espurea , y se puede observar en le la figura 5.

Figura 7. Relaciones entre variables.

1.3Tipos de ecuaciones estructurales

Los modelos de ecuaciones estructurales, pueden ser de dos tipos, modelo de medida y modelo de relaciones estructurales. En el modelo de media ver figura 8 se representan las relaciones de las variables latentes con sus variables observadas o indicadoras, y donde las variables latentes están relacionadas mediante una covariación. Este modelo permite corroborar la idoneidad de los indicadores en la medición de las variables latentes. Podemos distinguir este tipos de ecuaciones, porque las variables latentes están relacionadas entre sí por flechas bidireccionales, como en la figura 8.

Figura 8. Modelo de medida.

En el modelo de relaciones estructurales (ver figura 9) contiene los efectos y relaciones entre las variables latentes, es parecido a un modelo de regresión pero puede contener efectos concatenados y bucles entre variables. Además, contienen los errores

de predicción. Como se observan en la figura 9, se pueden distinguir el modelo de relaciones estructurales al tener las variables latentes relaciones de regresión entre sí, como sucede con la variable V3.

Figura 9. Modelo de estructura.

1.4 Construcción del modelo estructural

Etapa de especificación

La especificación es el ejercicio de establecer formalmente un modelo, que en esencia es una explicación teórica plausible de por qué las variables están o no relacionadas. En los modelos las especificaciones implican formular las sentencias sobre un conjuntos de parámetros, que según sean éstas, se distinguirán los parámetros en tres tipos: libres (desconocidos y no restringidos), no restringidos dos o más parámetros que deben de tomar el mismo valor aunque estén restringidos) o fijos (conocidos a los que se les da un valor fijo).

𝜁𝜁 es un vector “q x 1” de errores o términos de perturbación. Indican que las variables endógenas no se predicen perfectamente por las ecuaciones estructurales.

Por otra parte, las variables latentes están relacionadas con variables observables a través del modelo de medida, que está definido tanto por variables endógenas como por variables exógenas de través de las siguientes expresiones:

𝑦𝑦 = Λ (^) 𝑦𝑦 𝜂𝜂 + 𝜀𝜀 𝑦𝑦 𝑥𝑥 = Λ (^) 𝑥𝑥 𝜉𝜉 + 𝛿𝛿 (2)

Donde

𝜂𝜂 es un vector “m x 1” de variables latentes endógenas.

𝜉𝜉 es un vector “k x 1” de variables latentes exógenas.

Λ (^) 𝑥𝑥 es una matriz “q x k” de coeficientes de variables exógenas.

Λ (^) 𝑦𝑦 es una matriz “p x m” de coeficientes de variables endogenas.

𝛿𝛿 es un vector “q x 1” de errores de medición para los indicadores exógenos.

𝜀𝜀 es un vector “p x 1” de errores de medición para los indicadores endógenos.

x es el conjunto de variables observables del modelo de medida.

y es el conjunto de variables observables del modelo de estructura.

1.5 Etapa de estimación

En esta fase se pueden emplear diferentes tipos de estimación de los parámetros, con el objetivo de determinar cuál de ellos presentan un mejor ajuste: máxima verosimilitud, mínimos cuadrados ponderados y mínimos cuadrados generalizados.

Estimación por máxima verosimilitud (ML)

Este método es el más utilizado en el ajuste de modelos de ecuaciones estructurales, al proporcionar estimaciones consistentes, eficientes y no segasdas con tamaños de muestras no suficientemente grandes. La estimación por ML exige que las variables estén normalmente distribuidas, aunque la violación de la condición de normalidad multivariante no afecta a la capacidad del método para estimar de forma no sesgada los parámetros del modelo. Aunque es capaz de facilitar la convergencia de las estimaciones aún con la ausencia de normalidad. Para muestras pequeñas que no cumplan la normalidad de los datos, se puede utilizar este método de estimación con la aplicación de procedimientos de bootstrap, que permite obtener estimaciones de los errores estándar de los parámetros del modelo.

La función de log-verosimilitud es:

log 𝐿𝐿 = − 12 (𝑁𝑁 − 1){log|Σ(𝜃𝜃)| + 𝑡𝑡𝑡𝑡|𝑆𝑆Σ(𝜃𝜃)−^1 |} + 𝑐𝑐 (3)

Para maximizar la función anterior, es equivalente a minimizar la siguiente función:

𝐹𝐹𝑀𝑀𝐿𝐿 = log|Σ(𝜃𝜃)| − log|𝑆𝑆| + 𝑡𝑡𝑡𝑡[𝑆𝑆Σ(𝜃𝜃)−^1 ] − 𝑝𝑝 (4)

Siendo:

L la función de verosimilitud, N el tamaño de la muestra, S la matriz de covarianza de la muestra, Σ(𝜃𝜃)^ es la matriz de covarianzas del modelo y 𝜃𝜃 es el vector de los parámetros.

Estimación por mínimos cuadrados ponderados (WLS)

Este método tiene entre algunas de sus ventajas la posibilidad de introducir en los análisis variables ordinales, variables dicotómicas y variables continuas que no se ajusten a criterios de normalidad, siendo de esta forma unos de los métodos más utilizados y recomendados ante la falta de normalidad de los datos. Este método minimiza la función de ajuste:

𝐹𝐹𝑊𝑊𝐿𝐿𝑆𝑆 = [𝑠𝑠 − 𝜎𝜎(𝜃𝜃)]′^ 𝑊𝑊 −^1 [𝑠𝑠 − 𝜎𝜎(𝜃𝜃)] (5)

1.5 Etapa de identificación

La aplicación de los modelos estructurales tiene por finalidad estimar los parámetros desconocidos del modelo especificado, para después contrastarlo estadísticamente. Un modelo estará identificado si los parámetros del modelo pueden estimarse a partir de los elementos de la matriz de covarianzas de las variables observables.

De esta forma se tiene que el llamado problema de identificabilidad del modelo, consiste en estudiar bajo qué condiciones se pueden garantizar la unicidad en la determinación de los parámetros del modelo.

Por este motivo, se va a definir el concepto de grado de libertad como la diferencia entre el número de varianzas y covarianzas, y el de parámetros a estimar, con lo que g no puede ser negativo para poder realizar el estudio. Si denotamos el número total de variables con 𝑠𝑠 = 𝑝𝑝 + 𝑞𝑞, siendo p las variables endógenas y q las variables exógenas, se

tendrá que el número de elementos no redundantes es igual a 𝑠𝑠(𝑠𝑠 2 +1) , y al número total de

parámetro que han de ser estimados en el modelo como t, se define

𝑔𝑔 = 𝑠𝑠(𝑠𝑠^2 + 1) – 𝑡𝑡

Según el valor de g podemos clasificar los modelos en:

  • Nunca identificado (g<0) modelos en los que los parámetros toman infinitos valores. Y por ellos están indeterminados.
  • Posiblemente identificado (g=0) modelos en los que puede existir una única solución para los parámetros que iguale la matriz de covarianzas observada e implicada.
  • Posiblemente sobreidentificados (g>0) modelos que incluyen menos parámetros que varianzas y covarianzas. En estos modelos no existe ninguna solución para los parámetros que iguale la matriz de covarianzas observada, pero puede existir una única solución que minimice los errores entre ambas matrices.

1.7 Diagnostico de la Bondad de ajuste

Esta puede que sea la etapa más importante de la modelización de una ecuación estructural. En esta etapa se intenta determinar si el modelo es correcto y si es útil para

nuestros propósitos. Debemos entender por modelo correcto aquél que incorpora aquellas restricciones y supuestos implícitos que se cumplen en la población y especifica correctamente las relaciones entre las variables sin omisión de parámetros, prediciendo adecuadamente la realidad, es decir, conduce a diferencias reducidas y aleatorias entre las varianzas y covarianzas observadas y las implícitas del modelo

Se tiene que destacar que hay asociados un gran número de índices adecuados de bondad de ajuste que serán necesarios interpretar para concluir si el modelo es adecuado. Su correcta interpretación, tanto global como individual, hará que aceptemos o rechacemos el modelo planteado.

El estadístico 𝝌𝝌 𝟐𝟐^ de bondad de ajuste

Es la única medida de bondad de ajuste asociada a un test de significación asociado, el resto de medidas e índices son descriptivos. Este estadístico viene proporcionado por el mínimo de la función de ajuste F, el cual sigue una distribución χ^2 , con los mismos grados de libertad que el modelo, y que permite contrastar la hipótesis de que el modelo se ajusta bien a los datos observados. El nivel asociado a este estadístico indica si la discrepancia ente la matriz reproducida y la correspondiente a los datos originales es significativa o no. Para aceptar el modelo se debe de tener que la probabilidad p de obtener un valor χ^2 tan alto como el modelo es inferior a 0.05, el modelo es rechazado.

El gran problema que tiene este estadístico, es que se ve muy influenciado por tres factores que le hacen perder la eficacia:

  • El estadístico χ^2 se ve muy influenciado por el tamaño de la muestra, de forma que, para tamaños me muestras superiores a 200 el valor de χ^2 tiende a ser significativo, rechazando modelos que en la realidad se apartan muy poco de los datos observados. Y contrariamente, si los tamaños de muéstrales son relativamente pequeños, el test no es capaz de detectar discrepancias significativas aceptando modelos que no se ajustan bien a los datos.
  • Si la complejidad del modelo es alta, tiene una mayor probabilidad de que el test acepte el modelo, teniéndose que en los modelos saturados, proporcionara un ajuste perfecto. Esto se debe a que el estadístico χ^2 evalúa la diferencia entre el modelo del

Medidas incrementales

Nos referimos a ellas como las medidas incrementales de ajustes o medidas descriptivas basadas en la comparación de los estadísticos χ^2 con otro modelo más restrictivo llamado modelo base. Convencionalmente se toma como modelo base aquel que no restringe en modelo alguno las varianzas de la variables, pero asume que todas sus covarianzas son cero, al que se le denomina modelo de independencia. Con la realización de los modelos, se busca aproximaciones simplificadas de los datos. Por ese motivo se ha desarrollado una serie de índices que comparan la mejoría en la bondad de ajustes de un modelo base (que usualmente es el modelo nulo con lo que las variables no estarían relacionadas). Las medidas empleadas son el índice de ajuste normado (NFI), el índice no normado (NNFI) y el índice de ajuste comparativo (CFI). Estos índices de bondad de ajustes, al comparar el estadístico χ^2 suelen estar acotados entre 0 y 1, donde el 1 representa un ajuste perfecto.

  • El más sencillo de todos es el NFI, índice ajuste normado (Nomed Fix Index de Benlert y bonnet 1980), este estadístico evalúa la disminución del estadístico χ^2 de nuestro modelo con respecto al modelo nulo. Este índice no es aconsejable porque no tiene en cuenta los grados de libertad, favoreciendo de esta forma la adopción de los modelos sobreparametrizados, ya que aumenta su valor siempre que se añade más parámetros a un modelo. Este índice toma valores entre 0 y 1, siendo mejor el ajuste cuando más próximo este a 1. Por convención, valores inferiores a 0,90 indicaran la necesidad de reespecificar el modelo, aunque algunos autores admiten un punto de corte más relajado. Se representara (donde χ^2 b es el estadístico del modelo base):

𝑁𝑁𝐹𝐹𝑁𝑁 = χ

(^2) b −χ 2 χ^2 b^ (10)

  • El índice de ajuste no normado (NNFI) o también llamado el índice de Tucker- Lewis (TLI) esta corregido para tener en cuenta la complejidad del modelo. Por este motivo no introducen directamente el estadístico χ^2 , sino que los compara previamente con su esperanza, los grados de libertad del modelo nulo con los del modelo en cuestión. Por tanto, si se añaden parámetros al modelo, el índice solo aumentara si el estadístico χ^2 disminuye en mayor medida que los grados de libertad. Los valores del

índice NNFI suelen variar entre 0 y 1, aunque pueden no estar restringidos a este rango, es decir, la cota superior no es la unidad y valores superiores a 1 tienden a indicar sobreparametrización del modelo. Los valores próximos a 1 indican un buen ajuste.

χ^2 b (^) �𝑔𝑔 (^) 𝑙𝑙𝑙𝑙 − χ^2 � 𝑔𝑔

χ^2 b� (^) 𝑔𝑔 (^) 𝑙𝑙𝑙𝑙− 1 (11)

  • El CFI, índice de ajuste comparativo (Comparative Fit Index, de Bentler 1990) compara la discrepancia entre la matriz de covarianzas que predice el modelo y la matriz de covarianzas observada, con la discrepancia entre la matriz de covarianzas del modelo nulo y la matriz de covarianzas observadas para evaluar el grado de perdida que se produce en el ajuste al cambiar del modelo del investigador al modelo nulo. Este modelo esta corregido con respecto a la complejidad del modelo. Los valores del índice varían entre 0 y 1. Por convención, el valor de CFI debe ser superior a 0,90 indicando que a menos el 90% de la covarianza en los datos puede ser reproducida por el modelo.

𝐶𝐶𝐹𝐹𝑁𝑁 = 1 − (^) 𝑀𝑀𝑀𝑀𝑥𝑥 [(𝑀𝑀𝑀𝑀χ 2 𝑥𝑥−𝑔𝑔^ [�χ𝑙𝑙),^2 �χ−𝑔𝑔 2 𝑙𝑙b� −𝑔𝑔,0]𝑙𝑙𝑙𝑙 �,0] (12)

Medidas de selección del modelo

Existen otros índices descriptivos de la bondad de ajuste global que no pertenecen a la familia de los índices de ajustes incrementales y que no están acotados. Al no estar acotados, estos son difíciles de interpretar para un modelo aislado, pero son especialmente útiles cuando se trata de comparar modelos que se basen en las mismas variables y datos, pero con distintos números de parámetros, ya que tienen en cuenta la sencillez del modelo. Estos índices son el AIC y el CAIC. La utilidad de estos índices reside en comparar modelos que poseen diferentes números de variables latentes, siendo mejor modelo aquí que tenga el valor de estos índices más pequeño.

  • AIC (Akaike Informaction Criterion, Akaike 1987) este índice ajusta el estadístico χ^2 del modelo penalizando la sobreparametrización.

𝐴𝐴𝑁𝑁𝐶𝐶 = χ^2 − 2 𝑔𝑔𝑙𝑙 (13)