Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

fundamentos basicos de estadistica, Monografías, Ensayos de Estadística Aplicada

definición de estadística y sus fundamentos

Tipo: Monografías, Ensayos

2019/2020

Subido el 03/11/2020

karla-nayibith-gonzalez
karla-nayibith-gonzalez 🇻🇪

1 documento

1 / 17

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
FUNDAMENTOS BASICOS DE ESTADISTICA
Definiciones de Estadística:
1. Ciencia que utiliza conjuntos de datos numéricos para obtener inferencias
basadas en el cálculo de probabilidades: la estadística ofrece conclusiones muy
impersonales que en ocasiones no reflejan la realidad.
2. Ciencia que tiene por objeto reunir y clasificar una serie de hechos con una
determinada característica común: este programa de estadística calcula
automáticamente el PIB de cada país.
3. [Por extensión] Conjunto homogéneo de datos sobre hechos o manifestaciones
de cualquier tipo (social, científico, deportivo, etc.): hay una estadística que dice
que las mujeres españolas fuman más que los hombres; me gustaría tener
las estadísticas del partido para ver los porcentajes de tiro de Štombergas.
Sinónimos
Diagrama, gráfico, esquema, censo, padrón, catastro, lista, natalidad, demografía,
nupcialidad, mortalidad, criminalidad, porcentaje.
(1)[Matemáticas] Estadística.
Rama de las Matemáticas que se basa en la obtención de los métodos adecuados
para obtener conclusiones razonables cuando hay incertidumbre. Esta ciencia
tiene como principal objeto aplicar las leyes de la cantidad a hechos sociales para
medir su intensidad, deducir las leyes que los rigen y hacer un predicción
próxima. Existen dos ramas muy diferentes dentro de la estadística: la estadística
descriptiva y la estadística matemática.
La estadística descriptiva se basa en la recolección de datos de
una muestra representativa de una población de la que se quiere estudiar alguna
característica, en su tratamiento y en la obtención de una serie de resultados y
medidas matemáticas (medias, desviaciones, etc), que posteriormente se analizan
y se extrae una conclusión de las posibles causas que producen la característica
de la población en estudio y su relación con otros fenómenos.
La estadística matemática utiliza el cálculo de probabilidades para establecer
previsiones y conclusiones de los fenómenos colectivos.
(2)[Técnica] Estadística.
Estudio del tratamiento de la información que contienen las series de datos
procedentes de observaciones de fenómenos colectivos (demográficos,
económicos, tecnológicos, etc), en los que el gran número de factores de variación
que intervienen hace necesarios modelos probabilísticos para que a las
conclusiones, leyes o decisiones basadas en los mismos, se les pueda asignar una
confianza mensurable.
Generalidades
La estadística descriptiva incluye al conjunto de tratamientos de los datos de
una muestra, de los que se extraen unos valores que sintetizan o resumen sus
características más importantes, y las técnicas de representación de estos valores
de forma que se facilite su análisis. Los valores que aportan
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga fundamentos basicos de estadistica y más Monografías, Ensayos en PDF de Estadística Aplicada solo en Docsity!

FUNDAMENTOS BASICOS DE ESTADISTICA

Definiciones de Estadística:

1. Ciencia que utiliza conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades: la estadística ofrece conclusiones muy impersonales que en ocasiones no reflejan la realidad. 2. Ciencia que tiene por objeto reunir y clasificar una serie de hechos con una determinada característica común: este programa de estadística calcula automáticamente el PIB de cada país. 3. [Por extensión] Conjunto homogéneo de datos sobre hechos o manifestaciones de cualquier tipo (social, científico, deportivo, etc.): hay una estadística que dice que las mujeres españolas fuman más que los hombres ; me gustaría tener las estadísticas del partido para ver los porcentajes de tiro de Štombergas. Sinónimos Diagrama, gráfico, esquema, censo, padrón, catastro, lista, natalidad, demografía, nupcialidad, mortalidad, criminalidad, porcentaje.

 ( 1 )[Matemáticas] Estadística.

Rama de las Matemáticas que se basa en la obtención de los métodos adecuados para obtener conclusiones razonables cuando hay incertidumbre. Esta ciencia tiene como principal objeto aplicar las leyes de la cantidad a hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer un predicción próxima. Existen dos ramas muy diferentes dentro de la estadística: la estadística descriptiva y la estadística matemática. La estadística descriptiva se basa en la recolección de datos de una muestra representativa de una población de la que se quiere estudiar alguna característica, en su tratamiento y en la obtención de una serie de resultados y medidas matemáticas (medias, desviaciones, etc), que posteriormente se analizan y se extrae una conclusión de las posibles causas que producen la característica de la población en estudio y su relación con otros fenómenos. La estadística matemática utiliza el cálculo de probabilidades para establecer previsiones y conclusiones de los fenómenos colectivos.  ( 2 )[Técnica] Estadística. Estudio del tratamiento de la información que contienen las series de datos procedentes de observaciones de fenómenos colectivos (demográficos, económicos, tecnológicos, etc), en los que el gran número de factores de variación que intervienen hace necesarios modelos probabilísticos para que a las conclusiones, leyes o decisiones basadas en los mismos, se les pueda asignar una confianza mensurable.

Generalidades

La estadística descriptiva incluye al conjunto de tratamientos de los datos de una muestra, de los que se extraen unos valores que sintetizan o resumen sus características más importantes, y las técnicas de representación de estos valores de forma que se facilite su análisis. Los valores que aportan

gran información sobre los datos tomados son las medidas de centralización, dispersión y forma. Se conoce con el nombre de variable cuantitativa , o simplemente variable , a aquella magnitud que toma valores mensurables. Las variables se conocen como discretas si toman valores enteros, como el número de alumnos en un aula o el número de defectos por metro en un cable eléctrico. Las variables continuas pueden variar de forma continua, como por ejemplo el peso de una persona o la longitud de una varilla. Las variables cualitativas o atributos son aquellas cualidades que no son mensurables, por ejemplo si una determinada pieza es o no defectuosa. La Regresión muestra la dependencia entre variables por medio de un modelo matemático que contempla tanto la parte sistemática como la aleatoria de la relación entre dichas variables. El modelo obtenido se contrasta por medio de unas pruebas estadísticas con las que se comprueban las hipótesis formuladas, y así generalizar los resultados a la población.

Medidas de centralización

Estas medidas proporcionan información sobre la tendencia central de las observaciones.

  • Media: La media o media aritmética ( x ) es la suma de un conjunto de valores dividido entre el número total de estos datos. En el caso en el que los datos estén agrupados en intervalos, los valores de una misma clase pueden ser sustituidos por la marca de la clase correspondiente. Las propiedades de la media son las siguientes:
  • La media de una constante es la propia constante.
  • La media de la suma o diferencia de variables es igual a la suma o diferencia de las medias de dichas variables.
  • La media del producto de una constante por una variable, es igual a la constante por la media de la variable.
  • La media de una combinación lineal de dos o más variables es igual a la combinación lineal de las medias de dichas variables.
  • La media es el centro de gravedad de la distribución, ya que las desviaciones respecto a la media suman 0.

Representación gráfica de los datos

Las representaciones gráficas de una distribución de frecuencias permite obtener, de un golpe de vista, información de las características de dicha distribución. A) Histograma El Histograma representa la frecuencia con la que se presentan los diferentes grupos de datos de la variable objeto de estudio. Es un conjunto de rectángulos, los cuales representan a cada una de las clases. En el eje de abscisas se representan las clases definidas y en el eje de ordenadas la frecuencia de cada una de ellas. La amplitud del intervalo de las clases se halla dividiendo el Recorrido entre el número de clases. El Histograma proporciona mucha información respecto a la estructura de los datos. Por tanto, es importante analizar la situación del centro del Histograma y el ancho del mismo que definen la tendencia central y la variabilidad del conjunto de datos respectivamente, así como la forma del Histograma que identifica algunas de las características del proceso en estudio.

- Distribución Simétrica Unimodal: Se caracteriza porque cada una de las observaciones equidistantes al máximo central, tienen aproximadamente la misma frecuencia. Es típico de la mayoría de los procesos industriales. - Distribución Asimétrica: Es típica de datos económicos, y de forma general en distribuciones de renta, consumo de electricidad, población, tamaño de empresas,... - Distribución Triangular : Es totalmente asimétrica y se presenta al estudiar tiempos entre averías, entre llegadas, entre accidentes, o en fabricación donde existe la imposibilidad de superar un valor o bien se ha realizado una selección de 100% de alguna característica. - Distribución Bimodal: Se presenta como dos distribuciones muy separadas. Suele aparecer cuando se han recopilado datos a partir de dos procesos distintos, tales como las características de una pieza suministrada por dos proveedores diferentes. - Distribución Rectangular: Presenta gran variabilidad. Aparece al mezclar datos de Distribuciones Simétricas Unimodales. - Distribución Truncada: Aparece al presentar datos de procesos que no cumplen las especificaciones, después de pasar un control de calidad. Puede ser, también un síntoma de una elección de un número de clases menor al adecuado. - Distribución sin Datos en la Zona Central: Suele aparecer cuando los datos corresponden a un material de mala calidad, y el "material bueno" ha sido seleccionado previamente.

- Distribución con Picos en las Colas: Es una representación típica cuando se han sometido a un reproceso, los elementos que en un primer control cayeron fuera de tolerancias. B) Diagrama de puntos Este gráfico muestra un conjunto de puntos, que son la intersección de las frecuencias (representadas en el eje de ordenadas) y de los valores de la distribución (representados en el eje de abscisas). C) Diagrama de barras Presenta los valores posibles de los datos sin agrupar y sus frecuencias absolutas o relativas. En el eje horizontal aparecen los datos tratados y en el eje vertical las frecuencias. Sobre el eje horizontal se traza un segmento de longitud proporcional al valor de las frecuencias. D) Polígono de frecuencias Es un gráfico que une los puntos que representan la intersección de las marcas de clase con su frecuencia correspondiente. Cabe mencionar también los gráficos de sectores, de rectángulos, pictogramas, etc.

Covarianza y correlación. Análisis gráfico

- Covarianza : Es una medida de asociación que mide la relación lineal entre las variables "x" e "y", y se define como: En el caso de que los datos estén agrupados en clases, la fórmula de la covarianza es la siguiente: - Correlación: Es el resultado de dividir la covarianza por un término de sus mismas dimensiones, obteniendo el coeficiente de correlación (r). Sx y Sy, son las desviaciones típicas de "x" e "y" respectivamente. Las propiedades del coeficiente de correlación son las siguientes:

  • Si multiplicamos "x" e "y". por constantes (aunque éstas sean distintas), el coeficiente de correlación no varía.
  • Cuando no existe una relación lineal exacta entre "x" e "y", el coeficiente de correlación varía entre -1 y 1 (-1 <> r <> 1).
  • Cuando no existe relación lineal r = 0 (en este caso puede ocurrir que exista otro tipo de relación no lineal).

Si de una población se extrae una muestra, se tiene la siguiente relación:

Regresión y correlación múltiples

En la realidad es habitual que exista una dependencia causal entre más de dos variables, con una variable dependiente "y" (efecto) y varias variables independientes "x1", "x2",... (causas). Estimación del modelo: En una población, se considera: La estimación de los coeficientes de regresión

se realiza por el método de los mínimos cuadrados, minimizando la suma de los residuos al cuadrado. También se deben cumplir las hipótesis de linealidad, homocedasticidad, independencia y normalidad de la parte aleatoria.

Ecuaciones temporales

Las series temporales expresan la relación entre dos variables, siendo una de ellas el "tiempo". Estas series permiten describir la evolución en el pasado de una magnitud y formular predicciones para el futuro. Este análisis puede realizarse desde dos puntos de vista, el llamado enfoque clásico y el enfoque causal. El enfoque causal estudia las series temporales en función de las variables que han producido dichas variaciones, ya que el tiempo es sólo el marco donde se producen los hechos, no la causa de los mismos. El enfoque clásico analiza la serie considerando cada variable por separado y en función del tiempo; se ha convertido en un método estándar de estudio de estas series, y es aceptado de forma unánime por los estadísticos; por tanto es el que se describirá en el presente tema. Las series temporales, también denominadas series cronológicas, crónicas o históricas son un conjunto de observaciones de una variable, la cual está relacionada con un conjunto de intervalos o instantes de tiempos. Cuando cada observación se refiere a un período, la variable se denomina "flujo" (por ejemplo, la serie mensual del consumo de electricidad a nivel nacional) y cuando cada observación se refiere a un instante, la variable se denomina "nivel" o "stock" (por ejemplo, serie diaria de las temperaturas recogidas en un punto determinado cada hora). Las observaciones de una serie temporal tienen ciertas peculiaridades, pues con el paso del tiempo pueden perder homogeneidad a causa de factores como son la mejora de los métodos de observación estadística, las variaciones en las definiciones estadísticas, etc. Por otra parte, las observaciones temporales no son del todo independientes y es frecuente que una observación dependa de la precedente, y se suele presentar una correlación entre una serie temporal y la misma pero retardada en el tiempo, fenómeno que se denomina autocorrelación. Por todo ello, es necesario estudiar las series temporales de forma independiente a las series de las observaciones transversales. Al analizar una serie temporal, se puede apreciar que se producen variaciones, y éstas pueden ser:

- Evolutivas: el "nivel medio" de la variable está sometido a cambios muy bruscos. En los siguientes gráficos se aprecian estas variaciones; en la "figura 1" se observa cómo la serie va pasando de unos niveles altos al principio a unos muy bajos después, para volver al final a tener unos niveles semejantes a los del principio. En la "figura 2", se aprecia cómo las observaciones van teniendo niveles cada vez más altos. - Estacionarias: el "nivel medio" de la variable permanece prácticamente constante, lo que no quiere decir que no aparezcan fluctuaciones. En el siguiente gráfico aparece una serie estacionaria, que aunque muestra fluctuaciones, el "nivel medio" permanece constante en el tiempo.

La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones convenientes. En el desarrollo del tema se utilizarán variables aleatorias, que son variables determinadas por el azar. La inferencia estadística parte de un conjunto de observaciones de una variable, y a partir de estos datos "infiere" o genera un modelo probabilístico; por tanto es la consecuencia de la investigación empírica. La inferencia estadística es, en consecuencia, un planteamiento inductivo. Partiendo de los datos recopilados, la inferencia estadística sigue los siguientes pasos:

  • estimar los parámetros (por ejemplo la media y la desviación típica)
  • hallar los intervalos de confianza, es decir el rango de valores donde es probable que se encuentren los parámetros.
  • contrastar las hipótesis (por ejemplo si la media &μ es igual a un valor &μ0 ó no es igual a &μ0). Se entiende por población al conjunto de elementos de los que se analiza una cierta característica. La práctica dice que lo habitual, es no poder estudiar la totalidad de estos elementos, debido a diversas razones, tales como:
  • Económicamente, no es rentable el análisis de toda la población, por ser excesivamente grande.
  • Los elementos, no existen como tales. Como son los casos de los elementos defectuosos.
  • El análisis requiere la destrucción de los elementos. Como, por ejemplo, en los ensayos destructivos. Por todo lo mencionado anteriormente, se selecciona sólo un conjunto de los elementos, que es lo que se denomina muestra. Se entiende por marco el patrón de la población por el cual deben regularse o contrastarse las medidas.

Muestreo aleatorio

Dentro de las técnicas de muestreo aleatorio merecen mención, el muestreo aleatorio simple, el muestreo aleatorio estratificado, el muestreo sistemático y el muestreo polietápico. Todas ellas tienen como objetivo fundamental seleccionar muestras que sean representativas de la población. A) Muestreo Aleatorio Simple

El muestreo aleatorio simple consiste en seleccionar elementos de una población, bajo las siguientes condiciones: -todos los elementos tienen la misma probabilidad de ser elegidos -la población es idéntica en todas las extracciones, es decir una vez seleccionada una población, ésta se reemplaza. La selección de las observaciones de una muestra aleatoria simple, se suele realizar mediante "números aleatorios", que son precisamente, un conjunto de números, los cuales tienen todos ellos la misma probabilidad de aparición. Si x1, x2,...,xn es una muestra aleatoria simple de una variable discreta, la probabilidad de obtener dicha muestra se denomina "probabilidad conjunta" y es igual al producto de las probabilidades de cada observación: P (x1, x2,...,xn) = P (x1) P (x2) ... P (xn) Esta relación se obtiene como consecuencia de la independencia de las observaciones. Si la variable aleatoria es continua, se establece una relación equivalente a la anterior, pero con las funciones de densidad. f (x1, x2,...,xn) = f (x1) f (x2) ... f (xn) Con esta técnica, cada uno de los elementos de la muestra Xi será una variable aleatoria con la misma distribución que la población de la que se ha obtenido. Entre sí, los elementos muestréales también son variables aleatorias independientes. Método de montecarlo El Método de Montecarlo es una forma artificial de realizar el muestreo aleatorio simple, pues se utiliza cuando los elementos de la población no están disponibles. Consiste en seleccionar muestras de cualquier población, siempre y cuando se conozca su distribución de probabilidad. B) Muestreo Aleatorio Estratificado El muestreo aleatorio estratificado se produce cuando los elementos de una población se estructuran en clases (o estratos). Para dividir la población en clases se siguen los siguientes criterios:

  • Se respetan, de forma proporcional, los tamaños relativos en la población. Es decir, si en una población existieran un 60% de mujeres y un 40% de hombres, esta proporción se respetaría en el estrato.
  • Se respeta también, de forma proporcional, la variabilidad de la población en el estrato. Es decir, se toman menos elementos de estratos donde la característica tenga menor dispersión. La muestra se elige de la siguiente manera: -se asigna un número determinado de elementos a cada clase -se elige, por muestreo aleatorio simple, dentro de cada clase C) Muestreo Sistemático

Distribución binomial Una distribución sigue la ley binomial siempre y cuando se cumplan las siguientes hipótesis:

  • Las observaciones se clasifican en dos categorías, que son además excluyentes. Por ejemplo, los elementos se pueden clasificar en aceptables o defectuosos
  • Las observaciones son independientes. Esto significa que la probabilidad de que aparezca un elemento aceptable es siempre la misma y a su vez la probabilidad de aparición de un elemento defectuoso también se mantiene.
  • La proporción de elementos de las dos categorías en las que se ha clasificado la población es siempre constante. El modelo de la distribución binomial se aplica a:
  • poblaciones finitas, de las que se toman elementos al azar, con reemplazamientos.
  • poblaciones consideradas infinitas desde el punto de vista conceptual, como son las piezas que produce una máquina (defectuosas o aceptables), siempre que el resultado de cada momento sea independiente de lo ocurrido con anterioridad. La variable binomial es una variable discreta, de parámetros "n" y "p" que toma los valores enteros: x = 0,1,2,...,n Sean los parámetros, "p" y "q" comprendidos entre 0 y 1, y siendo q=1-p, se cumple también que:

Es una distribución, en general, asimétrica. Sólo es simétrica cuando se verifica que p = 1/ La media, varianza y desviación típica tienen las siguientes expresiones: Su media es igual al producto de los parámetros "n" y "p": Un ejemplo de distribución binomial son los sondeos a una población cuyos individuos se dividen en dos categorías. Distribución binomial negativa La distribución binomial negativa permite hallar un número de "z" elementos de una categoría antes de que aparezca el primer elemento de la otra categoría. Por ejemplo: "z" piezas aceptables antes de la k-ésima defectuosa.

Distribuciones de variables continuas

Una variable aleatoria es continua cuando puede tomar cualquier valor dentro de un intervalo.

La distribución "t" de Student puede tomar valores negativos, pero, en general, sólo interesa su magnitud y no su signo. Es una distribución simétrica y con mayor dispersión que la distribución normal. No obstante, cuando "n" es igual o mayor que 100, la distribución "t" es igual a la normal. Su media y su varianza son respectivamente:

Distribución x

Su media y su varianza son respectivamente: