Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Ejemplos y formulas, Monografías, Ensayos de Administración de Negocios

Formulas y explicaciones administracion

Tipo: Monografías, Ensayos

2018/2019

Subido el 16/09/2019

julian-daniiel-gomez
julian-daniiel-gomez 🇲🇽

1 documento

1 / 39

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Capítulo 3:
Variabilidad:
El proceso de cuantificar la
observación
Erik Cobo, José Antonio González y Pilar Muñoz
Jordi Cortés, Rosario Peláez , Marta Vilaró y Nerea Bielsa
Septiembre 2014
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27

Vista previa parcial del texto

¡Descarga Ejemplos y formulas y más Monografías, Ensayos en PDF de Administración de Negocios solo en Docsity!

Capítulo 3 :

Variabilidad:

El proceso de cuantificar la

observación

Erik Cobo, José Antonio González y Pilar Muñoz

Jordi Cortés, Rosario Peláez , Marta Vilaró y Nerea Bielsa

Septiembre 2014

Variabilidad

  • Presentación
    1. Medida
    • 1.1. Escala nominal
    • 1.2. Escala ordinal
    • 1.3. Escala de intervalo
    • 1.4. Escala de razón.......................................................................................................
    • 1.5. Escalas de medida y tipos de variables
    • 1.6. Teoría representativa de la medida
    1. Descriptiva
    • 2.1. Gráficos: sectores, barras y diagramas de mosaico..............................................
    • 2.2. Medidas de tendencia central: moda
    • 2.3. Medidas basadas en el orden: cuantiles
    • 2.4. Gráficos: box-plot, histograma y otros
    • 2.5. Gráficos para 2 variables numéricas
    • 2.6. Medidas de tendencia central: media
    • 2.7. Medidas de dispersión
    • 2.8. Medidas de posición relativa................................................................................
    • 2.9. Descripción de los participantes
  • Soluciones a los ejercicios..................................................................................................

Bioestadística para no estadísticos

1. Medida

Una primera definición puede ser “medir es asignar números a objetos siguiendo reglas”.

Ejemplo 1.1: Asignación de 180 centímetros a Erik Cobo.

También podríamos asignar etiquetas —sin significado de número.

Ejemplo 1.2: Asignación de masculino a Erik Cobo. Historieta: Malditas etiquetas que nos encasillan. Dice el Dr. Vives que él no es médico, que él es un corredor de fondo que trabaja como médico. Y yo digo que él es un gran médico.

Quedémonos con la idea de que esta asignación necesita reglas que la hagan reproducible. El proceso científico requiere establecer un lenguaje común, con idéntico significado para cualquier observador.

Historieta: En el lenguaje popular una misma frase puede tener diferentes perspectivas, matices o significados. Un popular “doble sentido” es saludar al amigo preocupado por su imaginaria calvicie con un: “¡Cuánto tiempo sin verte el pelo!” Lecturas: El inicio de este tema sigue la línea de Stevens. Para una definición más formal, consulte la versión inglesa de Wikipedia.

1.1. Escala nominal

Clasificar consiste en agrupar los objetos estudiados: aquellos de la misma categoría deben ser equivalentes entre sí y diferentes de los de otra categoría.

Ejemplo 1.3: Una burda y primera clasificación de las personas las dividiría en enfermos y sanos. Dos enfermos compartirán ciertas características comunes que los hacen diferentes de los sanos.

Definición La escala nominal clasifica a las unidades en grupos o categorías.

Nota: si todas las unidades fueran iguales, entonces todas pertenecerían a la misma categoría y no tendría sentido ni clasificarlas, ni medirlas. Historieta: Un buen profesor consigue que todos sus estudiantes sean excelentes. Un mal evaluador pone a todos los estudiantes la misma nota.

Principios generales

Ejemplo 1.4: Los códigos de identificación personal pertenecen a la escala nominal. Incluso los formados por cifras, porque no tienen significado de número, ya que un valor ‘mayor’ no implica nada. El DNI solo “clasifica” y por tanto está en escala nominal – aunque especial: cada categoría sólo tiene 1 caso.

Ejercicio 1. 1 Proponga ejemplos de otras clasificaciones posibles.

1.2. Escala ordinal

En el ejemplo anterior de enfermo y sano, la inmediata ambición del clínico y del científico es matizar más y, por ejemplo, establecer grados de intensidad: sano, leve, moderado y grave. Igual que antes, dos unidades de la misma categoría serán iguales entre sí y diferentes de las restantes categorías. Pero ahora, además, puede establecer una relación de orden y decir que grave es más que moderado; y como moderado es más que leve; entonces grave también es más que leve.

Definición La escala ordinal cumple las propiedades de la escala nominal y, además, permite ordenar las categorías.

Ejemplo 1.5: El indicador BK de la tuberculosis puede valorarse en una escala ordinal que va desde 0 a 3 cruces (0 / + / ++ / +++).

Ejercicio 1. 2 Proponga algún otro ejemplo de variable en escala ordinal.

1.3. Escala de intervalo

Una vez establecido un orden, la siguiente ambición del científico es comparar las diferencias entre categorías sucesivas. En el ejemplo de la tuberculina, ¿existe el mismo ‘salto’ de + a ++, que de ++ a +++? Si todos los ‘saltos’ tuvieran el mismo significado, se podría hablar de una misma unidad de medida , lo que permitiría comparar diferentes intervalos y decir, por ejemplo, que la diferencia entre + y +++ es mayor (el doble, como veremos) que la diferencia entre 0 y +. Si no hay unidad de medida, los ‘saltos’ tendrán diferente significado: no será lo mismo, por ejemplo, pasar de + a ++, que de ++ a +++.

Principios generales

Ejercicio 1. La variable “fracción de eyección cardíaca”, ¿en qué escala está?

Nota: La escala de razón permite hacer divisiones (razones, cocientes o proporciones) entre los valores, la de intervalo también permitía divisiones pero entre las diferencias de valores, los intervalos.

En general, suele ser irrelevante distinguir entre escala de intervalo y de razón.

1.5. Escalas de medida y tipos de variables

La Tabla 1.1 resume las propiedades de las escalas de medida. Son acumulativas, ya que tener una propiedad superior requiere cumplir las anteriores. Así, una variable en escala de intervalo, además de unidad constante, tiene ordenados sus valores.

Tabla 1.1 Tipos de escala y propiedades acumulativas

En el momento de escoger un tipo de análisis, se puede renunciar a propiedades superiores y utilizar uno que corresponda a las inferiores. Por ejemplo, la edad tiene unidad de medida y permite calcular la media, pero también se pueden hacer categorías (joven, adulto,…) y calcular frecuencias.

Lectura: Las escalas de medida no se deben interpretar como un proceso automático para decidir el análisis estadístico.

Otra clasificación divide a las variables en cualitativas y cuantitativas -con unidad de medida. La escala ordinal puede corresponder a ambas, ya que las propiedades de orden podrían aplicarse a categorías (como la clase social) o a expresiones numéricas (como los puntos obtenidos en una escala o ‘score’ como el índice de Apgar).

Otra división es en discretas o continuas. Un recuento (el número de hermanos, por ejemplo) es una variable discreta ya que sólo puede tomar un número limitado de valores. La escala nominal debe ser discreta, pero las otras escalas pueden ser tanto discretas como continuas.

Nota: No se debe confundir la naturaleza de una variable con su nivel de redondeo. Por ejemplo, aunque podemos dar la altura de forma discreta en cm, en esencia es continua.

Escala Propiedades Nominal Equivalencia Ordinal Orden Intervalo Unidad Razón Cero absoluto

Bioestadística para no estadísticos

1.6. Teoría representativa de la medida

Lectura: En este punto seguimos a Bollen. Guardia introduce el tema en la Sociedad Catalana de Estadística.

Ejemplo 1.8: ¿Podemos utilizar la edad cómo aproximación al grado de maduración? Estudiemos en qué escala de medida se encuentra. La edad que figura en el DNI estará en escala de intervalo; pero la edad como “aproximación” al grado de maduración es muy discutible: ¿representa el mismo incremento de maduración pasar de 2 a 3 años que de 42 a 43? Si la respuesta es no, al no haber unidad de medida, tampoco habrá escala de intervalo. Pero además, se podrían encontrar ejemplos de personas con menos años pero más maduras, con lo que se pondría en entredicho también la propiedad de orden. Finalmente, incluso se podría argumentar que no tienen la misma maduración dos individuos de la misma edad, con lo que ni siquiera se tendría la propiedad de equivalencia y no se podría considerar que la edad es una medida de la maduración. Pero, por otro lado, puede ser útil observar la edad de una persona para considerar qué comportamiento podemos esperar de ella. Así pues, si no se quieren perder estas posibilidades que ofrece la edad, conviene redefinir el proceso de medida.

Las escalas nominal, ordinal y de intervalo corresponden a una visión ‘operativa’ de la medida: se define una variable por la forma de medirla. Esta visión permitiría definir ‘el cociente de inteligencia (CI)’, como la variable con la que se cuantifica la inteligencia. Pero nunca permitiría definir el concepto de inteligencia —intangible en sí mismo.

Definición Medida es el proceso que conecta un concepto con una variable latente y ésta, con variables observables.

Es decir, existe por un lado un atributo latente que no es directamente observable (por ejemplo, la inteligencia) y por otro lado, una o varias variables que pretenden cuantificar dicho atributo (por ejemplo, el CI). El CI será tanto mejor medida de la inteligencia cuanto más intensa sea su relación con la misma y menor dependencia tenga de otros factores.

La teoría representativa de la medida es estadística en el sentido de que acepta variabilidad en los resultados. Dos individuos que obtengan exactamente la misma puntuación en una prueba de

Bioestadística para no estadísticos

Ejercicio 1. 6 La variable “recuento de limfocitos CD4” suele emplearse en el seguimiento del SIDA ¿En qué escala de medida se encuentra? ¿Cree que encaja en una sola escala?

Como indicador de la evolución, ¿qué opina de su validez y de su fiabilidad?

Ejercicio 1. 7 El proceso de aprendizaje universitario, como unos estudios de Medicina, pretende que aquellos que lo finalicen sean capaces de ejercer como profesionales. ¿En relación a la validez y fiabilidad, qué le parece el examen MIR comparado con, por ejemplo, la observación de su trabajo delante de un paciente real?

2. Descriptiva

La escala de medida ayuda a escoger el estadístico y el gráfico para resumir los datos.

En este punto se introducirán los comandos de R que permitirán realizar un análisis descriptivo, Para ello, se empleará el conjunto de datos 'births' del paquete 'Epi' , que contiene los pesos de 500 recién nacidos en un hospital de Londres.

Ejemplo R

Instalar y cargar Epi y cargar datos births

install.packages('Epi') library(Epi) data(births)

Nombres de las variables

names(births) [1] "id" "bweight" "lowbw" "gestwks" [5] "preterm" "matage" "hyp" "sex"

Principios generales

La instrucción names aplicada a nuestro conjunto de datos, permite ver los nombres de las variables. La explicación de cada una de las variables está en la ayuda: ?births.

2.1. Gráficos: sectores, barras y diagramas de mosaico

Lectura: José Antonio González y Lluís Jover: Cuando las relaciones entre variables son complejas o el componente aleatorio enmascara los procesos en estudio, la representación gráfica deviene una herramienta imprescindible. (…) Los gráficos, bien utilizados, permiten una aproximación nueva y enriquecedora a la información disponible.

El gráfico de sectores consiste en un círculo segmentado en sectores de tamaño proporcional a la frecuencia de cada uno de los valores de la variable. Este gráfico es apropiado cuando la variable toma pocos valores.

Ejemplo 2. 1: Tiempo de evolución del trastorno según grupo de pacientes:

Figura 2.1 Tiempo de evolución de pacientes, estables e inestables

Historieta: Éste sí que es un buen pastel.

En R, con la instrucción pie puede realizar un diagrama de pastel habiendo realizado previamente la tabla de frecuencias con el comando table. Con los parámetros labels y col puede especificar las etiquetas y los colores del gráfico.

Nota : Recuerde que puede acceder a una variable de un data.frame por su nombre separado por el símbolo $; o bien accediendo a la posición que ocupa la columna.

Si carga los datos en memoria con la instrucción attach, podrá prescindir del nombre del conjunto de datos y bastará con escribir el nombre de la variable.

Principios generales

Figura 2 .2 Tratamiento de la hipercolesterolemia

Una forma habitual de transmitir información errónea consiste en cambiar la escala de algún eje sin avisar al lector.

Ejemplo 2. 2: La sensación de ventaja en audiencia es diferente en los gráficos siguientes. El izquierdo no avisa del cambio de escala y engaña al lector.

Figura 2.3 Diferente sensación por diferente escalado

Recuerde Antes de mirar el contenido de un gráfico, lea detalladamente el pie de figura y las unidades de los ejes, observando si empiezan en 0.

Bioestadística para no estadísticos

Ejercicio 2. 2 ¿Qué opina del siguiente gráfico?

Lectura: Disfrute (en catalán) de la presentación de Pere Grima y Lluís Marco.

En capítulos sucesivos, con la ayuda de R, veremos gráficos más sofisticados.

Lectura : Vea la mortalidad de la campaña de Napoleón en Rusia.

En R, el comando barplot realiza un diagrama de barras, siendo una tabla su primer parámetro. El argumento legend=TRUE añade una leyenda al gráfico. Con una tabla con 2 variables se obtiene, por defecto un gráfico de barras apiladas, pudiendose adosar las barras asignando TRUE al parámetro beside.

Ejemplo R

Diagrama de barras estratificado

T1 <- table(sex,hyp) colnames(T1)=c("Hombres", "Mujeres") rownames(T1)=c("No", "Sí") barplot(T 1 ,legend=TRUE)

1 2

(^10)

0

50

100

150

200

250

Bioestadística para no estadísticos

Nota: el carácter ~ empleado para separar las dos variables que intervienen en el mosaicplot se obtiene pulsando a la vez la tecla “Alt Gr” (a la derecha de 'espacio') y la tecla “4”.

Ejercicio 2. 3 A) Realice un mosaicplot de las variables peso mayor/menor de 2500 g ( lowbw ) y periodo de gestación mayor/menor a 37 semanas ( preterm ).

B) Hágalo 2 veces, intercambiando el papel de cada variable Y discuta cuál de los 2 le parece más interpretrable.

2.2. Medidas de tendencia central: moda

Las medidas de tendencia central informan dónde se sitúan las observaciones ‘prototípicas’. Si las variables están en escala nominal, el parámetro más relevante para caracterizar su distribución es la frecuencia de las categorías más repetidas. En algunas ocasiones, para resumir estas variables, se las representa por su categoría más frecuente, estadístico conocido por moda.

Recuerde La moda es la categoría más repetida.

Ejemplo 2.3 : Miguel Martín et al para describir a los pacientes de su estudio dicen: “Los tumores de estadio II fueron los más frecuentes (55.5%)”. Nótese que dan la moda pero que, además, concretan a cuántos casos representa.

En estadística, la manera de resumir toda la información contenida en una variable categórica es a través de las tablas. En R, La instrucción table proporciona la frecuencia de cada categoría de una variable.

Diagrama mosaico

Hipertensión

Género

Hombres Mujeres

No

Principios generales

Ejemplo R

Frecuencia de hombres (1) y mujeres (2) en births

table(sex) sex 1 2 264 236

Es posible hacer tablas de dos dimensiones incluyendo las dos variables categóricas separadas por una coma dentro de la instrucción table.

Ejemplo R

Tabla de frecuencias conjuntas de Género e hipertensión

table(sex,hyp) hyp sex 0 1 1 221 43 2 207 29

Esta tabla 2x2 contiene las frecuencias según el género del bebé (filas) y si la madre es hipertensa (0: No ; 1: Sí). La instrucción addmargins añade los marginales de la tabla. Primero se debe crear un objeto que contenga la tabla.

Ejemplo R

Género según hipertensión materna con marginales

T1 <- table(sex,hyp) addmargins(T1) hyp sex 0 1 Sum 1 221 43 264 2 207 29 236 Sum 428 72 500

La instrucción prop.table devuelve las proporciones de una tabla. Por defecto las calcula sobre el total; si añade un 1, sobre la fila; y si añade un 2, sobre la columna.

Principios generales

Ejemplo R

Peso mediano de los bebés según su género

tapply(bweight,sex,median) # 1:hombres; 2:mujeres 1 2 3296 3107

Nota: Los bebés niño tienen una mediana de peso casi 200 gramos superior a los bebés niña.

Ejercicio 2. 4 Obtenga la mediana de peso de los niños según si el período de gestación fue inferior o superior a 37 semanas.

Existen más medidas basadas en el orden de las observaciones. Los cuantiles (con ‘n’) son valores que dividen la población en cierto número k de grupos. El ejemplo de cuantiles más popular son los percentiles , que dividen la muestra en 100 partes. Los deciles lo hacen en 10; los quintiles en 5; y los cuartiles (con ‘r’) en 4.

Nótese que los cuantiles son los límites que dividen los grupos, no los grupos resultantes. Así, para dividir la muestra en cuatro partes con la misma frecuencia, bastan tres cuartiles, el 1, el 2 y el 3.

Recuerde Hay 99 percentiles, 9 deciles, 4 quintiles y 3 cuartiles.

Ejemplo 2.4 : La edad de los pacientes incluidos en un estudio tiene la distribución que muestra la figura 2.4. Por debajo de 43 años hay un 20% de las observaciones. Por tanto, el percentil 20, el 2º decil y el 1r quintil son todos ellos el mismo valor: 43 años.

Figura 2.4. El percentil 20, el decil 2, y el quintil 1 son todos ellos 43 años

Bioestadística para no estadísticos

Ejercicio 2. 5 La mediana, ¿a qué percentil corresponde? ¿Y a que cuartil? Ejercicio 2. 6 ¿Qué percentil es el cuartil 1? ¿Y el cuartil 2? ¿Y el cuartil 3?

Los cuantiles se calculan con: quantile ('nombre de la variable', cuantil)

Ejemplo R

Primer y tercer cuartil de los pesos

quantile(bweight,0.25) # 1r cuartil 25% 2862 quantile(bweight,0.75) # 3r cuartil 75%

La instrucción summary proporciona un resumen de los estadísticos usuales.

Ejemplo R

Descriptiva de los pesos

summary(bweight) Min. 1st Qu. Median Mean 3rd Qu. Max. 628 2862 3188 3137 3551 4553

Nota: Las variables gestwks (semanas de gestación) y preterm (periodo de gestación inferior a 37 semanas) tienen 10 valores ausentes. Este summary no informa sobre el dato más importante: el número de casos resumido. Recuerde que R codifica los datos ausentes ( missings ) con NA (Notavailable).

Ejercicio 2. 7 Obtenga la media, la mediana, el primer y tercer cuartil, el IQR y la desviación típica de los de los datos: 115, 117, 124, 135 y 142.