¡Descarga Ejemplos de probabilidad y más Guías, Proyectos, Investigaciones en PDF de Probabilidad solo en Docsity!
O B J E T I V O S
Al concluir el capítulo,
será capaz de:
1. Elaborar e interpretar un
diagrama de puntos.
2. Crear e interpretar una gráfica de
tallo y hojas.
3. Calcular y comprender los
cuartiles, deciles y percentiles.
4. Construir e interpretar diagramas
de caja.
5. Calcular y entender el coeficiente
de sesgo.
6. Trazar e interpretar un diagrama
de dispersión.
7. Construir e interpretar una tabla
de contingencia.
Descripción de datos Presentación y análisis de datos
McGivern Jewelers recién colocó un anuncio en el periódico local en el que
informaba la forma, el tamaño, precio y grado de corte de 33 de sus diamantes
en bodega. A partir de los datos del ejercicio 37, elabore un diagrama de caja
para la variable precio y haga comentarios sobre el resultado.
Descripción de datos: Presentación y análisis de datos 99
Introducción
El capítulo 2 dio inicio el estudio de la estadística descriptiva. Con el fin de transformar
datos que están en bruto o no agrupados en alguna forma significativa, debe organizar-
los en una distribución de frecuencias; la cual se representa en forma gráfica en un histo-
grama o en un polígono de frecuencias. Esto permite visualizar el lugar en donde tienden
a acumularse los datos, los valores máximo y mínimo y la forma general de los datos.
En el capítulo 3 primero se calcularon diversas medidas de ubicación, tales como
la media y la mediana. Estas medidas de ubicación permiten informar un valor típico de
un conjunto de observaciones. También se calcularon diversas medidas de dispersión,
tales como el rango y la desviación estándar. Estas medidas de dispersión permiten
describir la variación o la dispersión en un conjunto de observaciones.
Este capítulo continúa el estudio de la estadística descriptiva. Se presentan los si-
guientes temas: 1) diagramas de puntos; 2) gráfica de tallo y hojas; 3) percentiles, y 4)
diagramas de caja. Estos diagramas y la estadística proporcionan una idea adicional
del lugar en el que los valores se concentran, así como de la forma general de los datos.
Enseguida se consideran datos bivariados para cada una de las observaciones indivi-
duales o seleccionadas. Algunos ejemplos incluyen: la cantidad de horas que estudia
un alumno y los puntos que obtiene en un examen; si un producto tomado de la muestra
es aceptable o no y el horario en el que se le fabrica; y la cantidad de electricidad que
es consumida en un mes en una casa, así como la temperatura alta media diaria de la
región durante el mes.
Diagramas de puntos
Un histograma agrupa los datos en clases. Recuerde que en los datos de Whitner Auto-
plex de la tabla 2.1, las 80 observaciones se condensaron en siete clases. Una organiza-
ción de datos en siete clases pierde el valor exacto de las observaciones. Un EJBHSBNB
EF QVOUPT , por otra parte, agrupa los datos lo menos posible y evita la pérdida de iden-
tidad de cada observación. Para crear un diagrama de puntos se coloca un punto que
representa a cada observación a lo largo de una recta numérica horizontal, la cual indica
los valores posibles de los datos. Si hay observaciones idénticas o las observaciones
se encuentran muy próximas, los puntos se apilan uno sobre otro para que se puedan
ver de manera individual. Esto permite distinguir la forma de la distribución, el valor en
torno al cual tienden a acumularse los datos y las observaciones máxima y mínima. Los
diagramas de puntos son más útiles en el caso de conjuntos de datos pequeños, mien-
tras que los histogramas lo son para conjuntos grandes de datos, un ejemplo mostrará
cómo construir e interpretar diagramas de puntos.
Ejemplo
Recuerde que en la tabla 2.4 aparecen los datos del precio de venta de 80 vehículos
vendidos el mes pasado en Whitner Autoplex, Raytown, Missouri. Whitner es una de
las muchas concesionarias de AutoUSA, la cual cuenta con muchas otras concesio-
narias localizadas en pequeñas ciudades a lo largo de Estados Unidos. Enseguida
aparece la cantidad de vehículos vendidos durante los pasados 24 meses en Smith
Ford Mercury Jeep, Inc., en Kane, Pennsylvania, y en Brophy Honda Volkswagen,
Greenville, Ohio. Construya un diagrama de puntos y presente un resumen estadísti-
co de los dos lotes de AutoUSA ubicados en estas pequeñas ciudades.
Smith Ford Mercury Jeep, Inc. 23 27 30 27 32 31 32 32 35 33 28 39 32 29 35 36 33 25 35 37 26 28 36 30 Brophy Honda Volkswagen 31 44 30 36 37 34 43 38 37 35 36 34 31 32 40 36 31 44 26 30 37 43 42 33
Descripción de datos: Presentación y análisis de datos 101
llevar a cabo ningún cálculo. En otras palabras, podemos ver dónde se concentran los
datos y, asimismo, determinar si hay valores extremadamente grandes o pequeños. Sin
embargo, hay dos desventajas que se presentan al organizar los datos en la distribución
de frecuencias: a) se pierde la identidad exacta de cada valor; b) no es clara la forma en
que los valores de cada clase se distribuyen. Para mayor precisión, la siguiente distri-
bución de frecuencias muestra la cantidad de espacios publicitarios que compraron los
45 miembros de la Greater Buffalo Automobile Dealers Association el año 2005. Observe
que 7 de las 45 concesionarias compraron de 90 a 100 espacios. Sin embargo, ¿los
espacios comprados en esta clase se acumulan en torno a 90, se distribuyen uniforme-
mente a lo largo de la clase o se acumulan cerca de 99? No es posible afirmar nada.
Otra técnica utilizada para representar información cuantitativa en forma condensa-
da es el EJBHSBNBEFUBMMPZIPKBT. Una ventaja de este diagrama sobre la distribución
de frecuencias consiste en que no pierde la identidad de cada observación. En el ejem-
plo anterior, no se conoce la identidad de los valores en la clase de 90 a 100. Para ilustrar
la forma de construir un diagrama de tallo y hojas a partir de la cantidad de espacios
publicitarios comprados, suponga que las siete observaciones en la clase del 90 a 100
son: 96, 94, 93, 94, 95, 96 y 97. El valor de UBMMP es el dígito o dígitos principales, en este
caso 9. Las IPKBT son los dígitos secundarios. El tallo se coloca a la izquierda de una
línea vertical y los valores de las hojas a la derecha.
Los valores en la clase de 90 a 100 se verían de la siguiente manera:
Estadística en acción
En 1939 John W. Tukey (1915-2000) recibió un doctorado en matemáticas de Princeton. Sin embargo, cuando se unió a la Fire Control Research Office durante la Segunda Guerra Mundial, su interés en la matemática abstracta se orientó a la estadística aplicada. Ideó métodos nu- méricos y gráficos eficaces para estudiar patrones en los datos. Entre las gráficas que creó se encuentran el diagrama de tallo y hojas y el diagrama de caja y bigotes o diagrama de caja. De 1960 a 1980, Tukey encabezó la división de estadística del equipo de proyección nocturno de la NBC de las elecciones. En 1960 se hizo famoso, ya que evitó el anuncio de la victoria anti- cipada de Richard Nixon en las elecciones presidenciales que ganó John F. Kennedy. Cantidad de espacios comparados Frecuencia 80 a 90 2 90 a 100 7 100 a 110 6 110 a 120 9 120 a 130 8 130 a 140 7 140 a 150 3 150 a 160 3 Total 45
También es costumbre ordenar los valores en cada tallo de menor a mayor. Por consi-
guiente, la segunda fila del diagrama de tallo y hojas se vería de la siguiente manera:
Con un diagrama de tallo y hojas es más fácil observar que dos concesionarias compra-
ron 94 espacios y que el número de espacios comprados varía de 93 a 97. Un diagrama
de tallo y hojas se parece a una distribución de frecuencias, pero con mayor informa-
ción, es decir, que la identidad de las observaciones se conserva.
9 ] 6 4 3 4 5 6 7
9 ] 3 4 4 5 6 6 7
DIAGRAMA DE TALLO Y HOJAS Técnica estadística para la prestación de un
conjunto de datos. Cada valor numérico se divide en dos partes. El dígito
principal se convierte en el tallo y los dígitos secundarios en las hojas. El tallo
se localiza a lo largo del eje vertical y los valores de las hojas se apilan unos
contra otros a lo largo del eje horizontal.
102 Capítulo 4
El siguiente ejemplo explica los detalles para elaborar un diagrama de tallo y hojas.
Ejemplo Solución
La tabla 4.1 contiene la lista de la cantidad de espacios publicitarios de 30 segundos
en radio que compró cada uno de los 45 miembros de la Greater Buffalo Automobile
Dealers Association el año pasado. Organice los datos en un diagrama de tallo y
hojas. ¿Alrededor de qué valores tiende a acumularse el número de espacios publi-
citarios? ¿Cuál es el número menor de espacios publicitarios comprados? ¿El número
máximo de espacios comprados?
De acuerdo con los datos de la tabla 4.1, el número mínimo de espacios publicitarios
comprados es de 88. Así que el primer valor de tallo es 8. El número máximo de 156,
así que los valores de tallo comienzan en 8 y continúan hasta 15. El primer número
de la tabla 4.1 es 96, que tendrá un valor de tallo de nueve y un valor de hoja de 6.
Al desplazarnos por el renglón superior, el segundo valor es de 93 y el tercero de 88.
Después de considerar los primeros tres valores de datos, el diagrama queda de la
siguiente manera:
TABLA 4.1 Número de espacios publicitarios comprados por los miembros de la Greater
Buffalo Automobile Dealers Association
Tallo Hoja 8 8 9 6 3 10 11 12 13 14 15 Tallo Hoja 8 8 9 9 6 3 5 6 4 4 7 10 8 7 3 4 6 3 11 7 3 2 7 2 1 9 8 3 12 7 5 7 0 5 5 0 4 13 9 5 2 9 4 6 8 14 8 2 3 15 6 5 5
Al organizar los datos, el diagrama de tallo y hojas queda de la siguiente manera:
El procedimiento acostumbrado consiste en ordenar los valores de las hojas de
menor a mayor. La última línea, la fila que se refiere a los valores próximos a 150, se
vería de la siguiente manera:
La tabla final sería la siguiente, en la cual están ordenados todos los valores de
las hojas:
15 ] 5 5 6
104 Capítulo 4
En realidad esto es cuestión de elección y conveniencia personal. Para la presen-
tación de datos, en especial con una gran cantidad de observaciones, usted se dará
cuenta de que los diagramas de puntos se utilizan con mayor frecuencia. Encontrará
diagramas de puntos en la literatura analítica, informes de marketing y, en ocasiones,
informes anuales. Si realiza un análisis rápido para usted mismo, los diagramas de tallo
y hojas son accesibles y fáciles, en particular en relación con un conjunto pequeño de
datos.
medio es el valor debajo del cual se presenta la mitad de las observaciones. Hay
un total de 45 observaciones, así que el valor medio, en caso de que los datos se
ordenen de menor a mayor, sería la observación vigésimo tercera; este valor es 118.
Después de la mediana, los valores comienzan a decrecer. Estos valores represen-
tan los totales acumulados más que. Hay 21 observaciones de 120 o más, 13 de 130
o más, y así sucesivamente. El 9 entre paréntesis también indica que hay 9 observa-
ciones en la fila de en medio.
Autoevaluación 4.
- El siguiente diagrama muestra el número de empleados en cada una de las 142 tiendas de Home Depot, ubicadas al sureste de Estados Unidos. a) ¿Cuáles son los números máximo y mínimo de empleados por tienda? b) ¿Cuántas tiendas emplean a 91 personas? c) ¿Alrededor de qué valores tiende a acumularse el número de empleados por tienda?
- La tasa de recuperación de 21 acciones es la siguiente: Organice esta información en un diagrama de tallo y hojas. a) ¿Cuántas tasas son menores que 9.0? b) Haga una lista de las tasas en la categoría que va de 10.0 a 11.0. c) ¿Cual es la mediana? d) ¿Cuáles son las tasas máxima y mínima de recuperación?
Número de empleados
Descripción de datos: Presentación y análisis de datos 105
Ejercicios Describa las diferencias entre un histograma y un diagrama de puntos. ¿Cuándo podría resul- tar mejor un diagrama de puntos que un histograma? Explique las diferencias entre un histograma y un diagrama de tallo y hojas. Considere el siguiente diagrama. B ¿Qué nombre recibe este diagrama? C ¿Cuántas observaciones hay en el estudio? D ¿Cuáles son los valores máximo y mínimo? E ¿En torno a qué valores tienden a acumularse las observaciones? El siguiente diagrama informa el número de teléfonos celulares vendidos en Radio Shack durante los pasados 26 días. B ¿Cuáles son los números máximo y mínimo de teléfonos celulares vendidos en un día? C ¿Cuál es el número típico de teléfonos celulares vendidos? La primera fila del diagrama de tallo y hojas es la siguiente: 62 | 1 3 3 7 9. Suponga que se trata de números enteros. B ¿Cual es el posible rango de los valores de esta fila? C ¿Cuántos valores de datos hay en esta fila? D Haga una lista de los valores reales de esta fila de datos. La tercera fila de un diagrama de tallo y hojas aparece de la siguiente manera: 21 | 0 1 3 5 7
- Suponga que los valores son números enteros. B ¿Cuál es el posible rango de los valores de esta fila? C ¿Cuántos valores de datos hay en esta fila? D Elabore una lista de los valores reales de esta fila de datos. El siguiente diagrama de tallo y hojas del software de MINITAB muestra el número de unidades producidas por día en una fábrica. B ¿Cuántos días se registraron? C ¿Cuántas observaciones hay en la primera clase? D ¿Cuál es el valor mínimo y el valor máximo? E Elabore una lista de los valores reales de la cuarta fila. F Elabore una lista de los valores reales de la segunda fila. G ¿Cuántos valores son menores que 70? H ¿Cuántos valores son iguales a 80 o más? I ¿Cuál es la mediana? J ¿Cuántos valores se encuentran entre 60 y 89, inclusive? El siguiente diagrama de tallo y hojas presenta la cantidad de películas rentadas por día en Video Connection, ubicado en la esquina de las calles Forth y Main. B ¿Cuántos días se registraron? C ¿Cuántas observaciones hay en la última clase?
Descripción de datos: Presentación y análisis de datos 107
Asimismo, los EFDJMFT dividen a un conjunto de observaciones en 10 partes iguales
y los QFSDFOUJMFT en 100 partes iguales. Por tanto, si su promedio general en la universi-
dad se encuentra en el octavo decil, usted podría concluir que 80% de los estudiantes
tuvieron un promedio general inferior al de usted y que 20%, un promedio superior. Un
promedio general ubicado en el trigésimo tercer percentil significa que 33% de los estu-
diantes tienen un promedio general más bajo y 67% tienen un promedio general más
alto. Las calificaciones expresadas en percentiles se utilizan a menudo para dar a cono-
cer resultados relacionados con pruebas estandarizadas en Estados Unidos, como SAT,
ACT, GMAT (empleado para determinar el ingreso en algunas maestrías de administra-
ción de empresas) y LSAT (empleado para determinar el ingreso a la escuela de leyes).
Cuartiles, deciles y percentiles
Para formalizar el proceso de cálculo, suponga que Lp representa la ubicación de cierto
percentil que se busca. De esta manera, si quiere encontrar el trigésimo tercer percen-
til, utilizaría L 33 , y si buscara la mediana, el percentil 50o, entonces L 50. El número de
observaciones es n; así que, si desea localizar la mediana, su posición se encuentra en
(n + 1)/2, o podría escribir esta expresión como (n + 1)(P/100), en la que P representa el
percentil que busca.
LOCALIZACIÓN DE UN PERCENTIL <>
Un ejemplo ayudará explicar este hecho.
Solución Ejemplo
Enseguida aparecen las comisiones que ganó el último mes una muestra de 15
corredores de bolsa en la oficina de Salomon Smith Barney’s Okland, California. Esta
compañía de inversiones tiene oficinas a lo largo de Estados Unidos.
Localice la mediana, el primer y el tercer cuartiles de las comisiones ganadas.
El primer paso consiste en ordenar los datos de la mínima comisión a la máxima.
El valor mediano es la observación que se encuentra en el centro. El valor
central, o L 50 , se localiza en (n + 1)(50/100), en la que n representa el núme-
ro de observaciones. En este caso es la posición número 8, determinada
por (15 + 1)(50/100). La octava comisión más grande es de $2 038. Así
que ésta es la mediana y la mitad de los corredores obtienen comisiones
mayores que $2 038, y la mitad ganan menos de $2 038.
Recordemos la definición de cuartil. Los cuartiles dividen a un conjunto
de observaciones en cuatro partes iguales. Por consiguiente, 25% de las
observaciones serán menores que el primer cuartil. Setenta y cinco por
ciento de las observaciones serán menores que el tercer cuartil. Para loca-
lizar el primer cuartil, utilice la fórmula 4.1, en la cual n = 15 y P = 25:
L n
P
para localizar el tercer cuartil, n = 15 y P = 75:
L n
P
Por tanto, los valores del primer y tercer cuartiles se localizan en las posi-
ciones 4 y 12. El cuarto valor en la serie ordenada es $1 721 y el decimose-
gundo es $2 205. Éstos constituyen el primer y tercer cuartiles.
L n
P
p =^ (^ +^1 )^100
108 Capítulo 4
En el ejemplo anterior, la fórmula de localización arrojó un número entero. Es decir
que al buscar el primer cuartil había 15 observaciones, así que la fórmula de localización
indica que debería encontrar el cuarto valor ordenado. ¿Si hubiera 20 observaciones
en la muestra, es decir n = 20, y quisiera localizar el primer cuartil? De acuerdo con la
fórmula de localización 4.1:
L n
P
Localizaría el quinto valor en la serie ordenada y enseguida se desplazaría una distancia
de 0.25 entre los valores quinto y sexto e informaría a éste como el primer cuartil. Como
en el caso de la mediana, el cuartil no necesita ser uno de los valores exactos del con-
junto de datos.
Para explicarlo más a fondo, suponga que un conjunto de datos contiene los seis
valores: 91, 75, 61, 101, 43 y 104. Busca localizar el primer cuartil. Ordene los valores de
menor a mayor: 43, 61, 75, 91, 101 y 104. El primer cuartil se localiza en
L n
P
La fórmula de localzación indica que el primer cuartil se localiza entre el primero y
segundo valores, que representa 0.75 de la distancia entre el primero y segundo valores.
El primer valor es 43 y el segundo 61. De esta manera, la distancia entre estos valores
es 18. Al localizar el primer cuartil, necesita desplazarse una distancia de 0.75 entre el
primero y segundo valores; así, 0.75(18) = 13.5. Para completar el procedimiento, sume
13.5 al primer valor e indique que el primer cuartil es 56.5.
Es posible ampliar la idea para incluir tanto deciles como percentiles. Para localizar
el 23o^ percentil en una muestra de 88 observaciones, busque la posición 18.63.
L n
P
Para determinar el valor correspondiente al 23o^ percentil, localice el 18o^ valor y el 19o, y
determine la distancia entre los dos valores. Enseguida, multiplique esta diferencia por
0.63 y sume el resultado al valor más pequeño. El resultado sería el 23o^ percentil.
Con un paquete de software de estadística, resulta relativamente sencillo ordenar los
datos de menor a mayor y localizar percentiles y deciles. Tanto las salidas de MINITAB
como de Excel generan resúmenes estadísticos. Abajo aparece una salida de MINITAB.
Los datos se registran en miles de dólares. Éstos incluyen el primer y el tercer cuartiles,
así como la media, la mediana y la desviación estándar para los datos de Whitner Auto-
plex (véase tabla 2.4). Concluya que 25% de los vehículos fueron vendidos en menos de
$20 074 y que 75% se vendió en menos de $25 795.
110 Capítulo 4
Thomas Supply Company, Inc., es un distribuidor de generadores de gas. Como en cualquier negocio, el tiempo que les lleva a los clientes pagar sus recibos es importante. En la siguiente lista, en orden de menor a mayor, aparece el tiempo, en días, de una muestra de recibos de Thomas Supply Company, Inc. 13 13 13 20 26 27 31 34 34 34 35 35 36 37 38 41 41 41 45 47 47 47 50 51 53 54 56 62 67 82 38 40 41 45 48 48 50 50 51 51 52 52 53 54 55 55 55 56 56 57 59 59 59 62 62 62 63 64 65 66 66 67 67 69 69 71 77 78 79 79 B Determine el primer y tercer cuartiles. C Determine el segundo decil y el octavo decil. D Determine el 67o^ percentil. Kevin Horn es el gerente nacional de ventas de National Textbooks, Inc. Cuenta con un perso- nal de ventas conformado por 40 personas, las cuales hacen visitas a profesores universita- rios en todo Estados Unidos. Cada sábado por la mañana solicita a su personal que le envíe un informe. Este informe incluye, entre otras cosas, la cantidad de profesores que visitaron la semana anterior. En la lista de abajo, en orden de menor a mayor, aparece la cantidad de visitas de la semana pasada. B Determine la cantidad mediana de llamadas. C Determine el primer y tercer cuartiles. D Determine el primero y el noveno decil. E Determinar el 33o^ percentil. Diagramas de caja
Un EJBHSBNBEFDBKB es la representación gráfica, basada en cuartiles, que ayuda a
exhibir un conjunto de datos. Para construir un diagrama de caja, sólo necesita cinco
estadísticos: el valor mínimo, Q 1 (primer cuartil), la mediana, Q 3 (tercer cuartil) y el valor
máximo. Un ejemplo ayudará a explicarlo.
Ejemplo Solución
Alexander’s Pizza ofrece entregas gratuitas de pizza a 15 millas a la redonda. Alex, el
propietario, desea información relacionada con el tiempo de entrega. ¿Cuánto tiempo
tarda una entrega típica? ¿En qué margen de tiempos deben completarse la mayoría
de las entregas? En el caso de una muestra de 20 entregas, Alex recopiló la siguiente
información:
Valor mínimo = 13 minutos
Q 1 = 15 minutos
Mediana = 18 minutos
Q 3 = 22 minutos
Valor máximo = 30 minutos
Elabore un diagrama de caja para los tiempos de entrega. ¿Qué conclusiones dedu-
ce sobre los tiempos de entrega?
El primer paso para elaborar un diagrama de caja consiste en crear una escala ade-
cuada a lo largo del eje horizontal. Enseguida, dibujamos una caja que inicie en
Q 1 (15 minutos) y termine en Q 3 (22 minutos). Dentro de la caja trazamos una línea
vertical para representar a la mediana (18 minutos). Por último, prolongamos líneas
horizontales a partir de la caja dirigidas al valor mínimo (13 minutos) y al valor máximo
(30 minutos). Estas líneas horizontales que salen de la caja, a veces reciben el nom-
bre de bigotes, en virtud de que se asemejan a los bigotes de un gato.
Descripción de datos: Presentación y análisis de datos 111
El diagrama de caja también revela que la distribución de los tiempos de entrega
tiene un sesgo positivo. En el capítulo 3, página 67, recordemos que definimos el sesgo
como la falta de simetría en un conjunto de datos. ¿Cómo sabe que esta distribución
tiene un sesgo positivo? En este caso hay dos piezas de información que lo sugieren.
Primero, la línea punteada a la derecha de la caja, que va de 22 minutos (Q 3 ) al tiempo
máximo de 30 minutos, es más larga que la línea punteada a la izquierda que va de 15
minutos (Q 1 ) al valor mínimo de 13 minutos. En otras palabras, 25% de los datos mayo-
res que el tercer cuartil se encuentra más disperso que el 25% menor que el primer
cuartil. Una segunda indicación del sesgo positivo es que la mediana no se encuentra al
centro de la caja. La distancia del primer cuartil a la mediana es menor que la distancia
de la mediana al tercer cuartil. El número de tiempos de entrega entre 15 y 18 minutos
es el mismo que el número de tiempos de entrega entre 18 y 22 minutos.
El diagrama de caja muestra que el valor medio de las entregas, 50%, consume
entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el SBO
HPJOUFSDVBSUJM. Este rango es la distancia entre el primer y el tercer cuartil; muestra
la propagación o dispersión de la mayoría de las entregas.
Q 1
Mediana Q 3 Valor mínimo Valor máximo Minutos Ejemplo Solución
Consulte los datos de Whitner Autoplex de la tabla 2.4. Elabore un diagrama de caja
de los datos. ¿Cuál es la conclusión respecto de la distribución de los precios de
venta de los vehículos?
El sistema de software de estadística de MINITAB se utilizó para crear el siguiente
diagrama:
Descripción de datos: Presentación y análisis de datos 113
El diagrama de caja muestra el cargo interestatal de crédito por hora para carreras de cuatro años para estudiantes graduados en universidades públicas. $1 500 1 200 900 600 300 0
B Calcule la mediana. C Calcule el primer y tercer cuartiles. D Determine el rango intercuartil. E ¿Más allá de qué punto se considera dato atípico un valor? F Identifique cualesquiera datos atípicos y calcule su valor. G ¿La distribución es simétrica, o tiene sesgo positivo o negativo? En un estudio sobre el rendimiento en millas por galón de gasolina de automóviles modelo 2005, la media de las millas por galón fue de 27.5 y la mediana de 26.8. El valor más pequeño en el estudio fue de 12.70 millas por galón y el más grande de 50.20. El primer y tercer inter- cuartiles fueron 17.95 y 35.45 millas por galón, respectivamente. Elabore un diagrama de caja y haga algún comentario sobre la distribución. ¿Es una distribución simétrica? Una muestra de 28 departamentos de tiempo compartido en el área de Orlando, Florida, reveló las siguientes tarifas diarias de una suite con una recámara. Por comodidad, los datos se encuentran ordenados de menor a mayor. Construya un diagrama de caja para representar los datos. Haga algún comentario sobre la distribución. Identifique el primer y tercer cuartiles, así como la mediana. Sesgo
En el capítulo 3 se trataron las medidas de ubicación central para un conjunto de obser-
vaciones por medio de la presentación de un informe sobre la media, la mediana y la
moda. También se describieron medidas que muestran el grado de propagación o varia-
ción de un conjunto de datos, como el rango y la desviación estándar.
Otra característica de un conjunto de datos es la forma. Hay cuatro formas: simé-
trica, con sesgo positivo, con sesgo negativo y bimodal. En un conjunto TJNÊUSJDP de
observaciones la media y la mediana son iguales, y los valores de datos se dispersan
uniformemente en torno a estos valores. Los valores de datos debajo de la media y de
la mediana constituyen una imagen especular de los datos arriba de estas medidas.
Un conjunto de valores se encuentra TFTHBEPBMBEFSFDIB o QPTJUJWBNFOUFTFTHBEP
si existe un solo pico y los valores se extienden mucho más allá a la derecha del pico
que a la izquierda de éste. En este caso la media es más grande que la mediana. En
una distribución OFHBUJWBNFOUFTFTHBEB existe un solo pico, pero las observaciones
se extienden más a la izquierda, en la dirección negativa, que a la derecha. En una
distribución negativamente sesgada, la media es menor que la mediana. Las distribucio-
nes positivamente sesgadas son más comunes. Los salarios con frecuencia obedecen
este patrón. Piense en los salarios de los empleados de una pequeña compañía con
aproximadamente 100 personas. El presidente y unos cuantos altos ejecutivos tendrían
salarios muy altos respecto de los demás trabajadores, y de ahí que la distribución de
salarios mostraría un sesgo positivo. Una EJTUSJCVDJÓOCJNPEBM tendrá dos o más picos.
114 Capítulo 4
COEFICIENTE DE SESGO DE PEARSON <>
Con frecuencia éste es el caso cuando los valores provienen de dos o más poblaciones.
Esta información se resume en la gráfica 4.1.
Estadística en acción
El difunto Stephen Jay Gould (1941-2002) fue pro- fesor de zoología y profesor de geología en la Universi- dad de Harvard. En 1982 se le diagnosticó cáncer y le dieron ocho meses de vida. Con todo y sin darse por vencido su investigación mostró que la distribución de tiempos de supervivencia se encuentra drásticamente sesgada a la derecha y de- mostró que no sólo 50% de pacientes de cáncer similares sobreviven más de 8 meses, sino que el tiempo de super- vivencia podía ser de años, no de meses. Sobre la base de su experiencia, escribió un ensayo varias veces publi- cado titulado “The Median Is not the Message”.
En la literatura relacionada con la estadística se utilizan diversas fórmulas para cal-
cular el sesgo. La más sencilla, ideada por el profesor Karl Pearson (1857-1936), se
basa en la diferencia entre la media y la mediana.
De acuerdo con esta expresión, el sesgo puede variar de –3 a 3. Un valor próximo a –3,
como –2.57, indica un sesgo negativo considerable. Un valor como 1.63 indica un sesgo
positivo moderado. Un valor de 0, que ocurre cuando la media y la mediana son iguales,
indica que la distribución es simétrica y que no se presenta ningún sesgo.
En esta obra aparecen resultados obtenidos con paquetes de software de estadísti-
ca en MINITAB y Excel. Con ambos paquetes de software se calcula un valor del coefi-
ciente de sesgo basado en las desviaciones de la media elevadas al cubo. La fórmula
es la siguiente:
La fórmula 4.3 permite comprender la idea de sesgo. El miembro derecho de la fór-
mula es la diferencia entre cada valor y la media, dividida entre la desviación estándar.
Esto corresponde a la porción (X – X
_
)/s de la fórmula. Esta idea recibe el nombre de
FTUBOEBSJ[BDJÓO. El concepto de estandarización de un valor se analiza con más detalle
en el capítulo 7 al describir la distribución de probabilidad normal. En este momento,
observe que el resultado consiste en la diferencia entre cada valor y la media en uni-
dades de desviación estándar. Si la diferencia es positiva, el valor particular es más
grande que la media; si la variación es negativa, la cantidad estandarizada es menor
que la media. Cuando eleva al cubo estos valores, conserva la información relativa a la
diferencia. Recuerde que en la fórmula de la desviación estándar (véase fórmula 3.11),
se elevó al cuadrado la diferencia entre cada valor y la media de tal manera que, como
resultado, todos los valores eran no negativos.
Mediana^ Media
X
Frecuencia Simétrica Edades Años Positivamente sesgada Salarios mensuales Negativamente sesgada Calificaciones en las pruebas Bimodal Diámetro externo Frecuencia Frecuencia Frecuencia $3 000 $4 000 Media Mediana 75 80 Calificación Media 0.98 1.04 Pulgadas
GRÁFICA 4.1 Formas de los polígonos de frecuencias
COEFICIENTE DE SESGO
CALCULADO CON SOFTWARE
sk
X
s
3( −Mediana)
sk
n
n n
X X
s
( 1 )( 2 )^ ∑ ⎥
3
116 Capítulo 4
La conclusión es que los valores de las utilidades por acción se encuentran un
tanto sesgadas positivamente. El siguiente diagrama, de MINITAB, muestra las medi-
das descriptivas, como la media, la mediana y la desviación estándar de los datos
por utilidades por acción. Incluye, asimismo, el coeficiente de sesgo y un histograma
con una curva con forma de campana superpuesta.
TABLA 4.2 Cálculo del coeficiente de sesgo
Utilidades por acción 0.09 Ź0.9310 Ź0. 0.13 Ź0.9234 Ź0. 0.41 Ź0.8697 Ź0. 0.51 Ź0.8506 Ź0. 1.12 Ź0.7337 Ź0. 1.20 Ź0.7184 Ź0. 1.49 Ź0.6628 Ź0. 3.18 Ź0.3391 Ź0. 3.50 Ź0.2778 Ź0. 6.36 0.2701 0. 7.83 0.5517 0. 8.92 0.7605 0. 10.13 0.9923 0. 12.99 1.5402 3. 16.40 2.1935 10.
T
−^9 9
T
Descripción de datos: Presentación y análisis de datos 117
Ejercicios En el caso de los ejercicios 19-22: B Calcule la media, la mediana y la desviación estándar. C Calcule el coeficiente de sesgo con el método de Pearson. D Estime el coeficiente de sesgo con un paquete de software. Los siguientes valores son los sueldos iniciales, en miles de dólares, de una muestra de cinco graduados de contabilidad, quienes aceptaron puestos de contaduría pública el año pasado.
Autoevaluación 4.4 Una muestra de cinco capturistas de datos que laboran en la oficina de impuestos de Horry
County revisó el siguiente número de expedientes fiscales durante la última hora: 73, 98, 60, 92 y
a) Calcule la media, la mediana y la desviación estándar. b) Calcule el coeficiente de sesgo con el método de Pearson. c) Calcule el coeficiente de sesgo usando un paquete de software. d) ¿Qué conclusión obtiene respecto del sesgo de los datos? $ 3.9 $ 5.7 $ 7.3 $10.6 $13.0 $13.6 $15.1 $15.8 $17. 17.4 17.6 22.3 38.6 43.2 87.
En la siguiente lista aparecen los salarios, en miles de dólares, de una muestra de 15 directo- res de finanzas de la industria electrónica. Enseguida aparece una lista de las comisiones (en miles de dólares) percibidas el año pasa- do por representantes de ventas de Furniture Patch, Inc. La lista que sigue está conformada por los salarios de los Yankees de Nueva York para el año
- La información de los salarios se expresa en miles de dólares. Jugador Salario Salario (miles de dólares) Jugador (miles de dólares) Rodriguez, Alex $26 000 Wright, Jaret $ 5 667 Jeter, Derek 19 600 Stanton, Mike 4 000 Mussina, Mike 19 000 Gordon, Tom 3 750 Johnson, Randy 16 000 Rodriguez, Felix 3 150 Brown, Kevin 15 714 Quantrill, Paul 3 000 Giambi, Jason 13 429 Martinez, Tino 2 750 Sheffield, Gary 13 000 Womack, Tony 2 000 Williams, Bernie 12 357 Sierra, Ruben 1 500 Posada, Jorge 11 000 Sturtze, Tanyon 850 Rivera, Mariano 10 500 Flaherty, John 800 Pavano, Carl 9 000 Sanchez, Rey 600 Matsui, Hideki 8 000 Crosby, Bubba 323 Karsay, Steve 6 000 Phillips, Andy 317