Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Analisis de datos ii, Monografías, Ensayos de Estadística Descriptiva

análisis de los estudios epidemiológicos centrándonos en las medidas de tendencia central, posición y dispersión

Tipo: Monografías, Ensayos

2014/2015

Subido el 14/07/2015

aelvania
aelvania 🇦🇷

1 documento

1 / 5

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Análisis de datos en los estudios epidemiológicos II
Julia García Salinero
Nure Investigación, nº17, Julio- Agosto 2005 2
Análisis de datos en los estudios epidemiológicos II
Introducción
En este capitulo continuamos el análisis de los estudios epidemiológicos centrándonos en las medidas de
tendencia central, posición y dispersión, índices fundamentales para conocer mejor la distribución de los
datos de un estudio.
Los índices de posición y centralidad
Otro de los aspectos fundamental a conocer de cualquier distribución de datos es la tendencia central y
la posición que ocupan los datos respecto a un determinado valor. Siendo cierto que las distribuciones
de frecuencia son un importante medio para ordenar un conjunto de datos e informar sobre algunos
patrones de grupo, también lo es el hecho de que ofrecen poca información. En muchas investigaciones
interesa mucho más conocer el resumen global de las características del grupo en estudio que podemos
conseguir utilizando las medidas de tendencia central y de posición. Las medidas de tendencia central
más comunes son: la media, la mediana y la moda, cada una de las cuales puede utilizarse como índice
para caracterizar una distribución de datos. Son índices estadísticos que nos indican el valor de la
variable hacia el cual tienden a agruparse los datos.
Las medidas de posición más utilizadas son: los cuartiles y los percentiles, índices que nos informan del
orden o de la posición que ocupa un dato dentro del conjunto de los datos observados en una
distribución.
La moda.
La moda de un conjunto de datos es el valor de la variable que se repite con mayor frecuencia. Es la
medida de tendencia central más sencilla de calcular, ya que en realidad no se calcula sino que se
observa. Se utiliza tanto para variables cualitativas como cuantitativas o cuasicuantitativas. Cuando
estamos trabajando con variables cualitativas y cuasicuantitativas la moda se corresponde con la
modalidad de la variable que más se repite, es decir, la de mayor frecuencia.
Imaginemos que hemos realizado un estudio para valorar el grupo sanguíneo en un grupo de mujeres
embarazadas y obtenemos los siguientes datos:
Grupo sanguíneo Numero de
mujeres
A
B
AB
O
14
11
5
10
TOTAL 40
Como podemos observar la moda se corresponde con el grupo sanguíneo A, ya que hay 14 mujeres con
este grupo sanguíneo.
Cuando trabajamos con variables cuantitativas tenemos que tener en cuenta si los datos obtenidos
están o no agrupados en intervalos.
Cálculo de la moda con datos no agrupados en intervalos
Procedemos de la misma forma que en la situación anterior. En el estudio anterior conocemos las
edades de las mujeres, que es la siguiente:
Edad n Edad n
24
25
26
27
28
29
30
0
1
3
1
1
3
5
31
32
33
34
35
36
37
2
3
2
10
1
7
1
Como podemos observar la moda es 34 años, ya que es la edad que más se repite. Hay 10 mujeres que
tienen 34 años.
Cálculo de la moda con datos agrupados en intervalos
Cuando los datos están agrupados en intervalos la moda corresponde con el punto medio del intervalo
de mayor frecuencia. Imaginemos que en un estudio sobre los valores de colesterol hemos obtenido
unos datos, que hemos procedido a ordenar en una tabla de distribución de frecuencias en intervalos.
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Analisis de datos ii y más Monografías, Ensayos en PDF de Estadística Descriptiva solo en Docsity!

Julia García Salinero

Análisis de datos en los estudios epidemiológicos II

Introducción En este capitulo continuamos el análisis de los estudios epidemiológicos centrándonos en las medidas de tendencia central, posición y dispersión, índices fundamentales para conocer mejor la distribución de los datos de un estudio.

Los índices de posición y centralidad Otro de los aspectos fundamental a conocer de cualquier distribución de datos es la tendencia central y la posición que ocupan los datos respecto a un determinado valor. Siendo cierto que las distribuciones de frecuencia son un importante medio para ordenar un conjunto de datos e informar sobre algunos patrones de grupo, también lo es el hecho de que ofrecen poca información. En muchas investigaciones interesa mucho más conocer el resumen global de las características del grupo en estudio que podemos conseguir utilizando las medidas de tendencia central y de posición. Las medidas de tendencia central más comunes son: la media, la mediana y la moda, cada una de las cuales puede utilizarse como índice para caracterizar una distribución de datos. Son índices estadísticos que nos indican el valor de la variable hacia el cual tienden a agruparse los datos. Las medidas de posición más utilizadas son : los cuartiles y los percentiles, índices que nos informan del orden o de la posición que ocupa un dato dentro del conjunto de los datos observados en una distribución.

La moda. La moda de un conjunto de datos es el valor de la variable que se repite con mayor frecuencia. Es la medida de tendencia central más sencilla de calcular, ya que en realidad no se calcula sino que se observa. Se utiliza tanto para variables cualitativas como cuantitativas o cuasicuantitativas. Cuando estamos trabajando con variables cualitativas y cuasicuantitativas la moda se corresponde con la modalidad de la variable que más se repite, es decir, la de mayor frecuencia. Imaginemos que hemos realizado un estudio para valorar el grupo sanguíneo en un grupo de mujeres embarazadas y obtenemos los siguientes datos:

Grupo sanguíneo Numero de mujeres A B AB O

TOTAL 40

Como podemos observar la moda se corresponde con el grupo sanguíneo A, ya que hay 14 mujeres con este grupo sanguíneo. Cuando trabajamos con variables cuantitativas tenemos que tener en cuenta si los datos obtenidos están o no agrupados en intervalos.

Cálculo de la moda con datos no agrupados en intervalos Procedemos de la misma forma que en la situación anterior. En el estudio anterior conocemos las edades de las mujeres, que es la siguiente:

Edad n Edad n 24 25 26 27 28 29 30

Como podemos observar la moda es 34 años, ya que es la edad que más se repite. Hay 10 mujeres que tienen 34 años.

Cálculo de la moda con datos agrupados en intervalos Cuando los datos están agrupados en intervalos la moda corresponde con el punto medio del intervalo de mayor frecuencia. Imaginemos que en un estudio sobre los valores de colesterol hemos obtenido unos datos, que hemos procedido a ordenar en una tabla de distribución de frecuencias en intervalos.

Julia García Salinero

El punto medio del intervalo de mayor frecuencia es el de 193,5-214,4, ya que hay 9 personas cuyos valores de colesterol están correspondidos en este intervalo, luego la moda será la media de estos dos valores, es decir 204. Tenemos que recordar que las distribuciones de frecuencia con una sola moda se denominan unimodales, con dos modas se denominan bimodales. Una distribución que contenga más de dos modas se denomina multimodal. Imaginemos que en el ejemplo anterior también 9 personas tiene sus valores de colesterol comprendidos en el intervalo 151,5-172,5, estamos frente a una distribución bimodal. La moda es una medida poco utilizada en investigación o, al menos, como medida única de tendencia central, ya que tiene poco peso y fluctúa mucho de una muestra a otra. Sin embargo es frecuente su utilización y descripción en estudios de tipo demográfico, social, etc. Por ejemplo “Los sujetos tipo (modal) de estudio fueron niñas, de colegios privados de Madrid, del área metropolitana, con antecedente de anorexia”.

La media aritmética La media aritmética es una de las medidas de tendencia central más utilizada, ya que en ella se basan muchas de las pruebas de la estadística inferencial.

Se representa por X y se describe como la suma de todos los valores obtenidos de una variable,

divididos por el número total de sujetos en estudio. El cálculo de la media a diferencia del de la moda, solo se puede aplicar a las variables cuantitativas, por lo que tenemos que tener en cuenta también si los datos están o no agrupados en intervalos. La fórmula general para el cálculo de la media es:

N

X X X

N

Xj

X

+ + + n

∑ 1 2 ...

Cálculo de la media con datos no agrupados en intervalos Cuando los datos no están agrupados en intervalos el cálculo es sencillo y se reduce a aplicar la fórmula anterior. Imaginemos que estamos estudiando los niveles de obesidad en un grupo de adolescentes de un instituto de enseñanza superior y tomamos una muestra de 10 niños y niñas, obteniendo los siguientes pesos: 47, 52, 54,48, 40, 45, 50,52, 46, 47

La media sería 48.1, es decir, el peso medio de este grupo es de 48.1 Kilos.

Cálculo de la media con datos agrupados en intervalos Si tenemos los datos agrupados en intervalos el procedimiento varía en algunos aspectos:

  1. Hay que calcular el punto medio de cada intervalo.
  2. Hay que multiplicar este punto medio por la frecuencia correspondiente, es decir, por el número de personas que tiene sus valores en ese intervalo
  3. El resultado del producto anterior se divide por N.

N

n X

X

j j

  • Siendo n (^) j la frecuencia del intervalo
  • Siendo Xj el punto medio de cada intervalo.

La media es una medida muy sensible a la variación de las puntuaciones, basta con que varíe una sola puntuación para que varíe la media. No es recomendable su uso cuando la distribución de frecuencias que estamos estudiando tiene puntuaciones muy extremas.

Intervalos n Frecuencia acumulada 235,5-256, 214,5-235,

Julia García Salinero

La Varianza

Se representa por S

2 X y se define como la media de los cuadrados de las diferencias entre cada valor de la variable en estudio y la media de esa distribución de datos de la variable. La fórmula para su cálculo es la siguiente:

N

X j X

x

2 2

S

Desarrollando la formula podemos obtener esta expresión:

2

2 2

X

N

X

S

j

x =^ −

Siendo

  • Xj : Los valores de la variable

• X : La media

  • N: número de datos de la muestra del estudio

La desviación típica se representa por S (^) x y es igual a la raíz cuadrada positiva de la varianza.

2

Sx = S

Utilizamos la varianza y la desviación típica solamente cuando nuestras variables de estudio son cuantitativas y, tal como indicamos para el cálculo de la media y la mediana, tenemos que tener en cuenta si nuestros datos están o no agrupados en intervalos.

Cálculo de la varianza con datos no agrupados en intervalos

En este caso su cálculo se limita a aplicar la fórmula. Vamos a proceder a su cálculo a través de un ejemplo: Imaginemos que quiero conocer la varianza y la desviación típica de las edades de un grupo de 5 mujeres que acuden a mi consulta de enfermería a un programa de menopausia, cuyas edades son: 44, 58, 62, 50, 52. En primer lugar debemos calcular la media:

N

Xj

X

Para calcular la varianza aplicamos la fórmula:

N

Xj X

S x

2 2 2 2 2

39. 36 años

Puesto que la varianza se obtiene como resultado de una suma de cuadrados, tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. Por ello nuestra varianza se expresará en años al cuadrado.

Cálculo de la varianza con datos agrupados en intervalos

En este caso la fórmula para calcular la varianza es:

N

n X X

S

j j

x

− 2

2

Siendo: nj= frecuencia de cada intervalo Xj = punto medio de cada intervalo N= número total de datos −

X = media

Julia García Salinero

La desviación típica

Se representa por S (^) x y es la raíz cuadrada de la varianza:

S x =

N

X^ j X

− 2

En el ejemplo anterior la desviación típica será √39.36 = 6,27 años, que al venir expresada en las

mismas unidades que la variables resulta más fácil de expresar.

Características de la varianza y la desviación típica

  • Siempre toma valores positivos
  • Si los datos de una distribución son iguales entre sí los valores de varianza y desviación típica serán cero.
  • Son índices muy sensibles a la variación de cualquier puntuación de la variable. Basta que varíe una puntuación para que varíen la varianza y la desviación típica.
  • Sólo se utiliza para variables cuantitativas
  • No se recomienda su cálculo cuando tampoco se recomienda el de la media.
  • De la observación de fórmula se deduce fácilmente que cuando los datos se alejan mucho de la media (muy dispersos) el numerador de la fórmula tendrá un valor muy grande y por tanto una varianza y desviación típica grande.

El coeficiente de variación Es un índice muy utilizado cuando pretendemos comparar la variabilidad de dos o más grupos en estudio. Se representa por CV y es igual a la desviación típica dividida por la media.

CV =

X

S x

Se puede utilizar tanto para comparar el comportamiento de la misma variable en dos grupos distintos, por ejemplo el valor de glucemia en un grupo de niños pequeños y en uno de adultos, como para comparar el comportamiento de dos variables distintas en un mismo grupo. Por ejemplo la altura y el valor de la presión arterial. Veámoslo en el siguiente ejemplo: Imaginemos que hemos realizado un estudio cuyas dos variables principales han sido la edad y el nivel de glucemia y hemos obtenido los siguientes datos:

Edad ( X) Nivel de glucemia ( Y) Media 69,6 años Media 97 mg Desviación típica: 10,44 años Desviación típica: 10,44 mg.

Deseamos comparar la variabilidad de ambas variables y no podemos hacerlo a través del análisis de sus desviaciones típicas, ya que los años nada tienen que ver con los miligramos. Por ello para poder comparar la variabilidad de ambas variables utilizamos el coeficiente de variación.

En nuestro ejemplo: CV =

X

S x

CVx = = 0 , 128

CVy = =

Como el CV de la variable X es mayor que el CV de la variable Y podemos decir que la variable X, la edad, presenta mayor dispersión que la variable Y, el nivel de glucemia.

Bibliografía

  • Carrasc JL. El método estadístico en la investigación médica. 6ª Edición. Editorial Ciencia 3; 1995
  • Rodríguez Miñón P. Estadística Aplicada a la Biología. 3ª Edición. Editorial UNED; 1984.
  • Polit Denise y Hungler Bernadette. Investigación científica en ciencias de la salud. 6ª edición. Edit McGraw-Hill Interamericana; 2000.
  • Fernando Villar et al. Diseño y análisis Epidemiológico. Revista Rol de Enfermería. 1987. 112: 13-17.