Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Ejemplos de probabilidad, Guías, Proyectos, Investigaciones de Probabilidad

Es una guia de los temas que se vieron en la materia

Tipo: Guías, Proyectos, Investigaciones

2016/2017

Subido el 31/05/2023

malisoy451
malisoy451 🇲🇽

4 documentos

1 / 40

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
4
OBJETIVOS
Al concluir el capítulo,
será capaz de:
1. Elaborar e interpretar un
diagrama de puntos
.
2. Crear e interpretar una
gráfica de
tallo y hojas
.
3. Calcular y comprender los
cuartiles
,
deciles
y
percentiles
.
4. Construir e interpretar
diagramas
de caja
.
5. Calcular y entender el
coeficiente
de sesgo
.
6. Trazar e interpretar un
diagrama
de dispersión
.
7. Construir e interpretar una
tabla
de contingencia
.
Descripción de datos
Presentación y análisis de datos
McGivern Jewelers recién colocó un anuncio en el periódico local en el que
informaba la forma, el tamaño, precio y grado de corte de 33 de sus diamantes
en bodega. A partir de los datos del ejercicio 37, elabore un diagrama de caja
para la variable precio y haga comentarios sobre el resultado.

pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28

Vista previa parcial del texto

¡Descarga Ejemplos de probabilidad y más Guías, Proyectos, Investigaciones en PDF de Probabilidad solo en Docsity!

O B J E T I V O S

Al concluir el capítulo,

será capaz de:

1. Elaborar e interpretar un

diagrama de puntos.

2. Crear e interpretar una gráfica de

tallo y hojas.

3. Calcular y comprender los

cuartiles, deciles y percentiles.

4. Construir e interpretar diagramas

de caja.

5. Calcular y entender el coeficiente

de sesgo.

6. Trazar e interpretar un diagrama

de dispersión.

7. Construir e interpretar una tabla

de contingencia.

Descripción de datos Presentación y análisis de datos

McGivern Jewelers recién colocó un anuncio en el periódico local en el que

informaba la forma, el tamaño, precio y grado de corte de 33 de sus diamantes

en bodega. A partir de los datos del ejercicio 37, elabore un diagrama de caja

para la variable precio y haga comentarios sobre el resultado.

Descripción de datos: Presentación y análisis de datos 99

Introducción

El capítulo 2 dio inicio el estudio de la estadística descriptiva. Con el fin de transformar

datos que están en bruto o no agrupados en alguna forma significativa, debe organizar-

los en una distribución de frecuencias; la cual se representa en forma gráfica en un histo-

grama o en un polígono de frecuencias. Esto permite visualizar el lugar en donde tienden

a acumularse los datos, los valores máximo y mínimo y la forma general de los datos.

En el capítulo 3 primero se calcularon diversas medidas de ubicación, tales como

la media y la mediana. Estas medidas de ubicación permiten informar un valor típico de

un conjunto de observaciones. También se calcularon diversas medidas de dispersión,

tales como el rango y la desviación estándar. Estas medidas de dispersión permiten

describir la variación o la dispersión en un conjunto de observaciones.

Este capítulo continúa el estudio de la estadística descriptiva. Se presentan los si-

guientes temas: 1) diagramas de puntos; 2) gráfica de tallo y hojas; 3) percentiles, y 4)

diagramas de caja. Estos diagramas y la estadística proporcionan una idea adicional

del lugar en el que los valores se concentran, así como de la forma general de los datos.

Enseguida se consideran datos bivariados para cada una de las observaciones indivi-

duales o seleccionadas. Algunos ejemplos incluyen: la cantidad de horas que estudia

un alumno y los puntos que obtiene en un examen; si un producto tomado de la muestra

es aceptable o no y el horario en el que se le fabrica; y la cantidad de electricidad que

es consumida en un mes en una casa, así como la temperatura alta media diaria de la

región durante el mes.

Diagramas de puntos

Un histograma agrupa los datos en clases. Recuerde que en los datos de Whitner Auto-

plex de la tabla 2.1, las 80 observaciones se condensaron en siete clases. Una organiza-

ción de datos en siete clases pierde el valor exacto de las observaciones. Un EJBHSBNB

EF QVOUPT , por otra parte, agrupa los datos lo menos posible y evita la pérdida de iden-

tidad de cada observación. Para crear un diagrama de puntos se coloca un punto que

representa a cada observación a lo largo de una recta numérica horizontal, la cual indica

los valores posibles de los datos. Si hay observaciones idénticas o las observaciones

se encuentran muy próximas, los puntos se apilan uno sobre otro para que se puedan

ver de manera individual. Esto permite distinguir la forma de la distribución, el valor en

torno al cual tienden a acumularse los datos y las observaciones máxima y mínima. Los

diagramas de puntos son más útiles en el caso de conjuntos de datos pequeños, mien-

tras que los histogramas lo son para conjuntos grandes de datos, un ejemplo mostrará

cómo construir e interpretar diagramas de puntos.

Ejemplo

Recuerde que en la tabla 2.4 aparecen los datos del precio de venta de 80 vehículos

vendidos el mes pasado en Whitner Autoplex, Raytown, Missouri. Whitner es una de

las muchas concesionarias de AutoUSA, la cual cuenta con muchas otras concesio-

narias localizadas en pequeñas ciudades a lo largo de Estados Unidos. Enseguida

aparece la cantidad de vehículos vendidos durante los pasados 24 meses en Smith

Ford Mercury Jeep, Inc., en Kane, Pennsylvania, y en Brophy Honda Volkswagen,

Greenville, Ohio. Construya un diagrama de puntos y presente un resumen estadísti-

co de los dos lotes de AutoUSA ubicados en estas pequeñas ciudades.

Smith Ford Mercury Jeep, Inc. 23 27 30 27 32 31 32 32 35 33 28 39 32 29 35 36 33 25 35 37 26 28 36 30 Brophy Honda Volkswagen 31 44 30 36 37 34 43 38 37 35 36 34 31 32 40 36 31 44 26 30 37 43 42 33

Descripción de datos: Presentación y análisis de datos 101

llevar a cabo ningún cálculo. En otras palabras, podemos ver dónde se concentran los

datos y, asimismo, determinar si hay valores extremadamente grandes o pequeños. Sin

embargo, hay dos desventajas que se presentan al organizar los datos en la distribución

de frecuencias: a) se pierde la identidad exacta de cada valor; b) no es clara la forma en

que los valores de cada clase se distribuyen. Para mayor precisión, la siguiente distri-

bución de frecuencias muestra la cantidad de espacios publicitarios que compraron los

45 miembros de la Greater Buffalo Automobile Dealers Association el año 2005. Observe

que 7 de las 45 concesionarias compraron de 90 a 100 espacios. Sin embargo, ¿los

espacios comprados en esta clase se acumulan en torno a 90, se distribuyen uniforme-

mente a lo largo de la clase o se acumulan cerca de 99? No es posible afirmar nada.

Otra técnica utilizada para representar información cuantitativa en forma condensa-

da es el EJBHSBNBEFUBMMPZIPKBT.  Una ventaja de este diagrama sobre la distribución

de frecuencias consiste en que no pierde la identidad de cada observación. En el ejem-

plo anterior, no se conoce la identidad de los valores en la clase de 90 a 100. Para ilustrar

la forma de construir un diagrama de tallo y hojas a partir de la cantidad de espacios

publicitarios comprados, suponga que las siete observaciones en la clase del 90 a 100

son: 96, 94, 93, 94, 95, 96 y 97. El valor de UBMMP es el dígito o dígitos principales, en este

caso 9. Las IPKBT son los dígitos secundarios. El tallo se coloca a la izquierda de una

línea vertical y los valores de las hojas a la derecha.

Los valores en la clase de 90 a 100 se verían de la siguiente manera:

Estadística en acción

En 1939 John W. Tukey (1915-2000) recibió un doctorado en matemáticas de Princeton. Sin embargo, cuando se unió a la Fire Control Research Office durante la Segunda Guerra Mundial, su interés en la matemática abstracta se orientó a la estadística aplicada. Ideó métodos nu- méricos y gráficos eficaces para estudiar patrones en los datos. Entre las gráficas que creó se encuentran el diagrama de tallo y hojas y el diagrama de caja y bigotes o diagrama de caja. De 1960 a 1980, Tukey encabezó la división de estadística del equipo de proyección nocturno de la NBC de las elecciones. En 1960 se hizo famoso, ya que evitó el anuncio de la victoria anti- cipada de Richard Nixon en las elecciones presidenciales que ganó John F. Kennedy. Cantidad de espacios comparados Frecuencia 80 a 90 2 90 a 100 7 100 a 110 6 110 a 120 9 120 a 130 8 130 a 140 7 140 a 150 3 150 a 160 3 Total 45

También es costumbre ordenar los valores en cada tallo de menor a mayor. Por consi-

guiente, la segunda fila del diagrama de tallo y hojas se vería de la siguiente manera:

Con un diagrama de tallo y hojas es más fácil observar que dos concesionarias compra-

ron 94 espacios y que el número de espacios comprados varía de 93 a 97. Un diagrama

de tallo y hojas se parece a una distribución de frecuencias, pero con mayor informa-

ción, es decir, que la identidad de las observaciones se conserva.

9 ] 6 4 3 4 5 6 7
9 ] 3 4 4 5 6 6 7

DIAGRAMA DE TALLO Y HOJAS Técnica estadística para la prestación de un

conjunto de datos. Cada valor numérico se divide en dos partes. El dígito

principal se convierte en el tallo y los dígitos secundarios en las hojas. El tallo

se localiza a lo largo del eje vertical y los valores de las hojas se apilan unos

contra otros a lo largo del eje horizontal.

102 Capítulo 4

El siguiente ejemplo explica los detalles para elaborar un diagrama de tallo y hojas.

Ejemplo Solución

La tabla 4.1 contiene la lista de la cantidad de espacios publicitarios de 30 segundos

en radio que compró cada uno de los 45 miembros de la Greater Buffalo Automobile

Dealers Association el año pasado. Organice los datos en un diagrama de tallo y

hojas. ¿Alrededor de qué valores tiende a acumularse el número de espacios publi-

citarios? ¿Cuál es el número menor de espacios publicitarios comprados? ¿El número

máximo de espacios comprados?

De acuerdo con los datos de la tabla 4.1, el número mínimo de espacios publicitarios

comprados es de 88. Así que el primer valor de tallo es 8. El número máximo de 156,

así que los valores de tallo comienzan en 8 y continúan hasta 15. El primer número

de la tabla 4.1 es 96, que tendrá un valor de tallo de nueve y un valor de hoja de 6.

Al desplazarnos por el renglón superior, el segundo valor es de 93 y el tercero de 88.

Después de considerar los primeros tres valores de datos, el diagrama queda de la

siguiente manera:

TABLA 4.1 Número de espacios publicitarios comprados por los miembros de la Greater

Buffalo Automobile Dealers Association

Tallo Hoja 8 8 9 6 3 10 11 12 13 14 15 Tallo Hoja 8 8 9 9 6 3 5 6 4 4 7 10 8 7 3 4 6 3 11 7 3 2 7 2 1 9 8 3 12 7 5 7 0 5 5 0 4 13 9 5 2 9 4 6 8 14 8 2 3 15 6 5 5

Al organizar los datos, el diagrama de tallo y hojas queda de la siguiente manera:

El procedimiento acostumbrado consiste en ordenar los valores de las hojas de

menor a mayor. La última línea, la fila que se refiere a los valores próximos a 150, se

vería de la siguiente manera:

La tabla final sería la siguiente, en la cual están ordenados todos los valores de

las hojas:

15 ] 5 5 6

104 Capítulo 4

En realidad esto es cuestión de elección y conveniencia personal. Para la presen-

tación de datos, en especial con una gran cantidad de observaciones, usted se dará

cuenta de que los diagramas de puntos se utilizan con mayor frecuencia. Encontrará

diagramas de puntos en la literatura analítica, informes de marketing y, en ocasiones,

informes anuales. Si realiza un análisis rápido para usted mismo, los diagramas de tallo

y hojas son accesibles y fáciles, en particular en relación con un conjunto pequeño de

datos.

medio es el valor debajo del cual se presenta la mitad de las observaciones. Hay

un total de 45 observaciones, así que el valor medio, en caso de que los datos se

ordenen de menor a mayor, sería la observación vigésimo tercera; este valor es 118.

Después de la mediana, los valores comienzan a decrecer. Estos valores represen-

tan los totales acumulados más que. Hay 21 observaciones de 120 o más, 13 de 130

o más, y así sucesivamente. El 9 entre paréntesis también indica que hay 9 observa-

ciones en la fila de en medio.

Autoevaluación 4.

  1. El siguiente diagrama muestra el número de empleados en cada una de las 142 tiendas de Home Depot, ubicadas al sureste de Estados Unidos. a) ¿Cuáles son los números máximo y mínimo de empleados por tienda? b) ¿Cuántas tiendas emplean a 91 personas? c) ¿Alrededor de qué valores tiende a acumularse el número de empleados por tienda?
  2. La tasa de recuperación de 21 acciones es la siguiente: Organice esta información en un diagrama de tallo y hojas. a) ¿Cuántas tasas son menores que 9.0? b) Haga una lista de las tasas en la categoría que va de 10.0 a 11.0. c) ¿Cual es la mediana? d) ¿Cuáles son las tasas máxima y mínima de recuperación?

Número de empleados

Descripción de datos: Presentación y análisis de datos 105

Ejercicios  Describa las diferencias entre un histograma y un diagrama de puntos. ¿Cuándo podría resul- tar mejor un diagrama de puntos que un histograma?  Explique las diferencias entre un histograma y un diagrama de tallo y hojas.  Considere el siguiente diagrama. B ¿Qué nombre recibe este diagrama? C ¿Cuántas observaciones hay en el estudio? D ¿Cuáles son los valores máximo y mínimo? E  ¿En torno a qué valores tienden a acumularse las observaciones?  El siguiente diagrama informa el número de teléfonos celulares vendidos en Radio Shack durante los pasados 26 días. B ¿Cuáles son los números máximo y mínimo de teléfonos celulares vendidos en un día? C ¿Cuál es el número típico de teléfonos celulares vendidos?  La primera fila del diagrama de tallo y hojas es la siguiente: 62 | 1 3 3 7 9. Suponga que se trata de números enteros. B ¿Cual es el posible rango de los valores de esta fila? C ¿Cuántos valores de datos hay en esta fila? D Haga una lista de los valores reales de esta fila de datos.  La tercera fila de un diagrama de tallo y hojas aparece de la siguiente manera: 21 | 0 1 3 5 7

  1. Suponga que los valores son números enteros. B ¿Cuál es el posible rango de los valores de esta fila? C ¿Cuántos valores de datos hay en esta fila? D Elabore una lista de los valores reales de esta fila de datos.  El siguiente diagrama de tallo y hojas del software de MINITAB muestra el número de unidades producidas por día en una fábrica. B ¿Cuántos días se registraron? C ¿Cuántas observaciones hay en la primera clase? D ¿Cuál es el valor mínimo y el valor máximo? E Elabore una lista de los valores reales de la cuarta fila. F Elabore una lista de los valores reales de la segunda fila. G  ¿Cuántos valores son menores que 70? H ¿Cuántos valores son iguales a 80 o más? I ¿Cuál es la mediana? J ¿Cuántos valores se encuentran entre 60 y 89, inclusive?  El siguiente diagrama de tallo y hojas presenta la cantidad de películas rentadas por día en Video Connection, ubicado en la esquina de las calles Forth y Main. B ¿Cuántos días se registraron? C ¿Cuántas observaciones hay en la última clase?

Descripción de datos: Presentación y análisis de datos 107

Asimismo, los EFDJMFT dividen a un conjunto de observaciones en 10 partes iguales

y los QFSDFOUJMFT en 100 partes iguales. Por tanto, si su promedio general en la universi-

dad se encuentra en el octavo decil, usted podría concluir que 80% de los estudiantes

tuvieron un promedio general inferior al de usted y que 20%, un promedio superior. Un

promedio general ubicado en el trigésimo tercer percentil significa que 33% de los estu-

diantes tienen un promedio general más bajo y 67% tienen un promedio general más

alto. Las calificaciones expresadas en percentiles se utilizan a menudo para dar a cono-

cer resultados relacionados con pruebas estandarizadas en Estados Unidos, como SAT,

ACT, GMAT (empleado para determinar el ingreso en algunas maestrías de administra-

ción de empresas) y LSAT (empleado para determinar el ingreso a la escuela de leyes).

Cuartiles, deciles y percentiles

Para formalizar el proceso de cálculo, suponga que Lp representa la ubicación de cierto

percentil que se busca. De esta manera, si quiere encontrar el trigésimo tercer percen-

til, utilizaría L 33 , y si buscara la mediana, el percentil 50o, entonces L 50. El número de

observaciones es n; así que, si desea localizar la mediana, su posición se encuentra en

(n + 1)/2, o podría escribir esta expresión como (n + 1)(P/100), en la que P representa el

percentil que busca.

LOCALIZACIÓN DE UN PERCENTIL <>

Un ejemplo ayudará explicar este hecho.

Solución Ejemplo

Enseguida aparecen las comisiones que ganó el último mes una muestra de 15

corredores de bolsa en la oficina de Salomon Smith Barney’s Okland, California. Esta

compañía de inversiones tiene oficinas a lo largo de Estados Unidos.

Localice la mediana, el primer y el tercer cuartiles de las comisiones ganadas.

El primer paso consiste en ordenar los datos de la mínima comisión a la máxima.

El valor mediano es la observación que se encuentra en el centro. El valor

central, o L 50 , se localiza en (n + 1)(50/100), en la que n representa el núme-

ro de observaciones. En este caso es la posición número 8, determinada

por (15 + 1)(50/100). La octava comisión más grande es de $2 038. Así

que ésta es la mediana y la mitad de los corredores obtienen comisiones

mayores que $2 038, y la mitad ganan menos de $2 038.

Recordemos la definición de cuartil. Los cuartiles dividen a un conjunto

de observaciones en cuatro partes iguales. Por consiguiente, 25% de las

observaciones serán menores que el primer cuartil. Setenta y cinco por

ciento de las observaciones serán menores que el tercer cuartil. Para loca-

lizar el primer cuartil, utilice la fórmula 4.1, en la cual n = 15 y P = 25:

L n

P

para localizar el tercer cuartil, n = 15 y P = 75:

L n

P

Por tanto, los valores del primer y tercer cuartiles se localizan en las posi-

ciones 4 y 12. El cuarto valor en la serie ordenada es $1 721 y el decimose-

gundo es $2 205. Éstos constituyen el primer y tercer cuartiles.

L n

P

p =^ (^ +^1 )^100

108 Capítulo 4

En el ejemplo anterior, la fórmula de localización arrojó un número entero. Es decir

que al buscar el primer cuartil había 15 observaciones, así que la fórmula de localización

indica que debería encontrar el cuarto valor ordenado. ¿Si hubiera 20 observaciones

en la muestra, es decir n = 20, y quisiera localizar el primer cuartil? De acuerdo con la

fórmula de localización 4.1:

L n

P

Localizaría el quinto valor en la serie ordenada y enseguida se desplazaría una distancia

de 0.25 entre los valores quinto y sexto e informaría a éste como el primer cuartil. Como

en el caso de la mediana, el cuartil no necesita ser uno de los valores exactos del con-

junto de datos.

Para explicarlo más a fondo, suponga que un conjunto de datos contiene los seis

valores: 91, 75, 61, 101, 43 y 104. Busca localizar el primer cuartil. Ordene los valores de

menor a mayor: 43, 61, 75, 91, 101 y 104. El primer cuartil se localiza en

L n

P

La fórmula de localzación indica que el primer cuartil se localiza entre el primero y

segundo valores, que representa 0.75 de la distancia entre el primero y segundo valores.

El primer valor es 43 y el segundo 61. De esta manera, la distancia entre estos valores

es 18. Al localizar el primer cuartil, necesita desplazarse una distancia de 0.75 entre el

primero y segundo valores; así, 0.75(18) = 13.5. Para completar el procedimiento, sume

13.5 al primer valor e indique que el primer cuartil es 56.5.

Es posible ampliar la idea para incluir tanto deciles como percentiles. Para localizar

el 23o^ percentil en una muestra de 88 observaciones, busque la posición 18.63.

L n

P

Para determinar el valor correspondiente al 23o^ percentil, localice el 18o^ valor y el 19o, y

determine la distancia entre los dos valores. Enseguida, multiplique esta diferencia por

0.63 y sume el resultado al valor más pequeño. El resultado sería el 23o^ percentil.

Con un paquete de software de estadística, resulta relativamente sencillo ordenar los

datos de menor a mayor y localizar percentiles y deciles. Tanto las salidas de MINITAB

como de Excel generan resúmenes estadísticos. Abajo aparece una salida de MINITAB.

Los datos se registran en miles de dólares. Éstos incluyen el primer y el tercer cuartiles,

así como la media, la mediana y la desviación estándar para los datos de Whitner Auto-

plex (véase tabla 2.4). Concluya que 25% de los vehículos fueron vendidos en menos de

$20 074 y que 75% se vendió en menos de $25 795.

110 Capítulo 4

 Thomas Supply Company, Inc., es un distribuidor de generadores de gas. Como en cualquier negocio, el tiempo que les lleva a los clientes pagar sus recibos es importante. En la siguiente lista, en orden de menor a mayor, aparece el tiempo, en días, de una muestra de recibos de Thomas Supply Company, Inc. 13 13 13 20 26 27 31 34 34 34 35 35 36 37 38 41 41 41 45 47 47 47 50 51 53 54 56 62 67 82 38 40 41 45 48 48 50 50 51 51 52 52 53 54 55 55 55 56 56 57 59 59 59 62 62 62 63 64 65 66 66 67 67 69 69 71 77 78 79 79 B Determine el primer y tercer cuartiles. C Determine el segundo decil y el octavo decil. D Determine el 67o^ percentil.  Kevin Horn es el gerente nacional de ventas de National Textbooks, Inc. Cuenta con un perso- nal de ventas conformado por 40 personas, las cuales hacen visitas a profesores universita- rios en todo Estados Unidos. Cada sábado por la mañana solicita a su personal que le envíe un informe. Este informe incluye, entre otras cosas, la cantidad de profesores que visitaron la semana anterior. En la lista de abajo, en orden de menor a mayor, aparece la cantidad de visitas de la semana pasada. B Determine la cantidad mediana de llamadas. C Determine el primer y tercer cuartiles. D Determine el primero y el noveno decil. E Determinar el 33o^ percentil. Diagramas de caja

Un EJBHSBNBEFDBKB es la representación gráfica, basada en cuartiles, que ayuda a

exhibir un conjunto de datos. Para construir un diagrama de caja, sólo necesita cinco

estadísticos: el valor mínimo, Q 1 (primer cuartil), la mediana, Q 3 (tercer cuartil) y el valor

máximo. Un ejemplo ayudará a explicarlo.

Ejemplo Solución

Alexander’s Pizza ofrece entregas gratuitas de pizza a 15 millas a la redonda. Alex, el

propietario, desea información relacionada con el tiempo de entrega. ¿Cuánto tiempo

tarda una entrega típica? ¿En qué margen de tiempos deben completarse la mayoría

de las entregas? En el caso de una muestra de 20 entregas, Alex recopiló la siguiente

información:

Valor mínimo = 13 minutos

Q 1 = 15 minutos

Mediana = 18 minutos

Q 3 = 22 minutos

Valor máximo = 30 minutos

Elabore un diagrama de caja para los tiempos de entrega. ¿Qué conclusiones dedu-

ce sobre los tiempos de entrega?

El primer paso para elaborar un diagrama de caja consiste en crear una escala ade-

cuada a lo largo del eje horizontal. Enseguida, dibujamos una caja que inicie en

Q 1 (15 minutos) y termine en Q 3 (22 minutos). Dentro de la caja trazamos una línea

vertical para representar a la mediana (18 minutos). Por último, prolongamos líneas

horizontales a partir de la caja dirigidas al valor mínimo (13 minutos) y al valor máximo

(30 minutos). Estas líneas horizontales que salen de la caja, a veces reciben el nom-

bre de bigotes, en virtud de que se asemejan a los bigotes de un gato.

Descripción de datos: Presentación y análisis de datos 111

El diagrama de caja también revela que la distribución de los tiempos de entrega

tiene un sesgo positivo. En el capítulo 3, página 67, recordemos que definimos el sesgo

como la falta de simetría en un conjunto de datos. ¿Cómo sabe que esta distribución

tiene un sesgo positivo? En este caso hay dos piezas de información que lo sugieren.

Primero, la línea punteada a la derecha de la caja, que va de 22 minutos (Q 3 ) al tiempo

máximo de 30 minutos, es más larga que la línea punteada a la izquierda que va de 15

minutos (Q 1 ) al valor mínimo de 13 minutos. En otras palabras, 25% de los datos mayo-

res que el tercer cuartil se encuentra más disperso que el 25% menor que el primer

cuartil. Una segunda indicación del sesgo positivo es que la mediana no se encuentra al

centro de la caja. La distancia del primer cuartil a la mediana es menor que la distancia

de la mediana al tercer cuartil. El número de tiempos de entrega entre 15 y 18 minutos

es el mismo que el número de tiempos de entrega entre 18 y 22 minutos.

El diagrama de caja muestra que el valor medio de las entregas, 50%, consume

entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el SBO

HPJOUFSDVBSUJM.  Este rango es la distancia entre el primer y el tercer cuartil; muestra

la propagación o dispersión de la mayoría de las entregas.

Q 1

Mediana Q 3 Valor mínimo Valor máximo Minutos Ejemplo Solución

Consulte los datos de Whitner Autoplex de la tabla 2.4. Elabore un diagrama de caja

de los datos. ¿Cuál es la conclusión respecto de la distribución de los precios de

venta de los vehículos?

El sistema de software de estadística de MINITAB se utilizó para crear el siguiente

diagrama:

Descripción de datos: Presentación y análisis de datos 113

  El diagrama de caja muestra el cargo interestatal de crédito por hora para carreras de cuatro años para estudiantes graduados en universidades públicas. $1 500 1 200 900 600 300 0

B Calcule la mediana. C Calcule el primer y tercer cuartiles. D Determine el rango intercuartil. E ¿Más allá de qué punto se considera dato atípico un valor? F Identifique cualesquiera datos atípicos y calcule su valor. G ¿La distribución es simétrica, o tiene sesgo positivo o negativo?   En un estudio sobre el rendimiento en millas por galón de gasolina de automóviles modelo 2005, la media de las millas por galón fue de 27.5 y la mediana de 26.8. El valor más pequeño en el estudio fue de 12.70 millas por galón y el más grande de 50.20. El primer y tercer inter- cuartiles fueron 17.95 y 35.45 millas por galón, respectivamente. Elabore un diagrama de caja y haga algún comentario sobre la distribución. ¿Es una distribución simétrica?   Una muestra de 28 departamentos de tiempo compartido en el área de Orlando, Florida, reveló las siguientes tarifas diarias de una suite con una recámara. Por comodidad, los datos se encuentran ordenados de menor a mayor. Construya un diagrama de caja para representar los datos. Haga algún comentario sobre la distribución. Identifique el primer y tercer cuartiles, así como la mediana. Sesgo

En el capítulo 3 se trataron las medidas de ubicación central para un conjunto de obser-

vaciones por medio de la presentación de un informe sobre la media, la mediana y la

moda. También se describieron medidas que muestran el grado de propagación o varia-

ción de un conjunto de datos, como el rango y la desviación estándar.

Otra característica de un conjunto de datos es la forma. Hay cuatro formas: simé-

trica, con sesgo positivo, con sesgo negativo y bimodal. En un conjunto TJNÊUSJDP de

observaciones la media y la mediana son iguales, y los valores de datos se dispersan

uniformemente en torno a estos valores. Los valores de datos debajo de la media y de

la mediana constituyen una imagen especular de los datos arriba de estas medidas.

Un conjunto de valores se encuentra TFTHBEPBMBEFSFDIB o QPTJUJWBNFOUFTFTHBEP

si existe un solo pico y los valores se extienden mucho más allá a la derecha del pico

que a la izquierda de éste. En este caso la media es más grande que la mediana. En

una distribución OFHBUJWBNFOUFTFTHBEB existe un solo pico, pero las observaciones

se extienden más a la izquierda, en la dirección negativa, que a la derecha. En una

distribución negativamente sesgada, la media es menor que la mediana. Las distribucio-

nes positivamente sesgadas son más comunes. Los salarios con frecuencia obedecen

este patrón. Piense en los salarios de los empleados de una pequeña compañía con

aproximadamente 100 personas. El presidente y unos cuantos altos ejecutivos tendrían

salarios muy altos respecto de los demás trabajadores, y de ahí que la distribución de

salarios mostraría un sesgo positivo. Una EJTUSJCVDJÓOCJNPEBM tendrá dos o más picos.

114 Capítulo 4

COEFICIENTE DE SESGO DE PEARSON <>

Con frecuencia éste es el caso cuando los valores provienen de dos o más poblaciones.

Esta información se resume en la gráfica 4.1.

Estadística en acción

El difunto Stephen Jay Gould (1941-2002) fue pro- fesor de zoología y profesor de geología en la Universi- dad de Harvard. En 1982 se le diagnosticó cáncer y le dieron ocho meses de vida. Con todo y sin darse por vencido su investigación mostró que la distribución de tiempos de supervivencia se encuentra drásticamente sesgada a la derecha y de- mostró que no sólo 50% de pacientes de cáncer similares sobreviven más de 8 meses, sino que el tiempo de super- vivencia podía ser de años, no de meses. Sobre la base de su experiencia, escribió un ensayo varias veces publi- cado titulado “The Median Is not the Message”.

En la literatura relacionada con la estadística se utilizan diversas fórmulas para cal-

cular el sesgo. La más sencilla, ideada por el profesor Karl Pearson (1857-1936), se

basa en la diferencia entre la media y la mediana.

De acuerdo con esta expresión, el sesgo puede variar de –3 a 3. Un valor próximo a –3,

como –2.57, indica un sesgo negativo considerable. Un valor como 1.63 indica un sesgo

positivo moderado. Un valor de 0, que ocurre cuando la media y la mediana son iguales,

indica que la distribución es simétrica y que no se presenta ningún sesgo.

En esta obra aparecen resultados obtenidos con paquetes de software de estadísti-

ca en MINITAB y Excel. Con ambos paquetes de software se calcula un valor del coefi-

ciente de sesgo basado en las desviaciones de la media elevadas al cubo. La fórmula

es la siguiente:

La fórmula 4.3 permite comprender la idea de sesgo. El miembro derecho de la fór-

mula es la diferencia entre cada valor y la media, dividida entre la desviación estándar.

Esto corresponde a la porción (X – X

_

)/s de la fórmula. Esta idea recibe el nombre de

FTUBOEBSJ[BDJÓO.  El concepto de estandarización de un valor se analiza con más detalle

en el capítulo 7 al describir la distribución de probabilidad normal. En este momento,

observe que el resultado consiste en la diferencia entre cada valor y la media en uni-

dades de desviación estándar. Si la diferencia es positiva, el valor particular es más

grande que la media; si la variación es negativa, la cantidad estandarizada es menor

que la media. Cuando eleva al cubo estos valores, conserva la información relativa a la

diferencia. Recuerde que en la fórmula de la desviación estándar (véase fórmula 3.11),

se elevó al cuadrado la diferencia entre cada valor y la media de tal manera que, como

resultado, todos los valores eran no negativos.

Mediana^ Media

X

Frecuencia Simétrica Edades Años Positivamente sesgada Salarios mensuales Negativamente sesgada Calificaciones en las pruebas Bimodal Diámetro externo Frecuencia Frecuencia Frecuencia $3 000 $4 000 Media Mediana 75 80 Calificación Media 0.98 1.04 Pulgadas

GRÁFICA 4.1 Formas de los polígonos de frecuencias

COEFICIENTE DE SESGO

CALCULADO CON SOFTWARE

sk

X

s

3( −Mediana)

sk

n

n n

X X

s

( 1 )( 2 )^ ∑ ⎥

3

116 Capítulo 4

La conclusión es que los valores de las utilidades por acción se encuentran un

tanto sesgadas positivamente. El siguiente diagrama, de MINITAB, muestra las medi-

das descriptivas, como la media, la mediana y la desviación estándar de los datos

por utilidades por acción. Incluye, asimismo, el coeficiente de sesgo y un histograma

con una curva con forma de campana superpuesta.

TABLA 4.2 Cálculo del coeficiente de sesgo

Utilidades por acción 0.09 Ź0.9310 Ź0. 0.13 Ź0.9234 Ź0. 0.41 Ź0.8697 Ź0. 0.51 Ź0.8506 Ź0. 1.12 Ź0.7337 Ź0. 1.20 Ź0.7184 Ź0. 1.49 Ź0.6628 Ź0. 3.18 Ź0.3391 Ź0. 3.50 Ź0.2778 Ź0. 6.36 0.2701 0. 7.83 0.5517 0. 8.92 0.7605 0. 10.13 0.9923 0. 12.99 1.5402 3. 16.40 2.1935 10.

T
−^9 9 
T

Descripción de datos: Presentación y análisis de datos 117

Ejercicios En el caso de los ejercicios 19-22: B Calcule la media, la mediana y la desviación estándar. C Calcule el coeficiente de sesgo con el método de Pearson. D Estime el coeficiente de sesgo con un paquete de software.   Los siguientes valores son los sueldos iniciales, en miles de dólares, de una muestra de cinco graduados de contabilidad, quienes aceptaron puestos de contaduría pública el año pasado.

Autoevaluación 4.4 Una muestra de cinco capturistas de datos que laboran en la oficina de impuestos de Horry

County revisó el siguiente número de expedientes fiscales durante la última hora: 73, 98, 60, 92 y

a) Calcule la media, la mediana y la desviación estándar. b) Calcule el coeficiente de sesgo con el método de Pearson. c) Calcule el coeficiente de sesgo usando un paquete de software. d) ¿Qué conclusión obtiene respecto del sesgo de los datos? $ 3.9 $ 5.7 $ 7.3 $10.6 $13.0 $13.6 $15.1 $15.8 $17. 17.4 17.6 22.3 38.6 43.2 87.

  En la siguiente lista aparecen los salarios, en miles de dólares, de una muestra de 15 directo- res de finanzas de la industria electrónica.   Enseguida aparece una lista de las comisiones (en miles de dólares) percibidas el año pasa- do por representantes de ventas de Furniture Patch, Inc.   La lista que sigue está conformada por los salarios de los Yankees de Nueva York para el año

  1. La información de los salarios se expresa en miles de dólares. Jugador Salario Salario (miles de dólares) Jugador (miles de dólares) Rodriguez, Alex $26 000 Wright, Jaret $ 5 667 Jeter, Derek 19 600 Stanton, Mike 4 000 Mussina, Mike 19 000 Gordon, Tom 3 750 Johnson, Randy 16 000 Rodriguez, Felix 3 150 Brown, Kevin 15 714 Quantrill, Paul 3 000 Giambi, Jason 13 429 Martinez, Tino 2 750 Sheffield, Gary 13 000 Womack, Tony 2 000 Williams, Bernie 12 357 Sierra, Ruben 1 500 Posada, Jorge 11 000 Sturtze, Tanyon 850 Rivera, Mariano 10 500 Flaherty, John 800 Pavano, Carl 9 000 Sanchez, Rey 600 Matsui, Hideki 8 000 Crosby, Bubba 323 Karsay, Steve 6 000 Phillips, Andy 317