Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Análise Estatística de Dados: Medidas de Dispersão e Regressão Linear, Notas de estudo de Matemática

Este documento aborda conceitos básicos da análise estatística de dados, incluindo a coleta de dados, medidas de dispersão (moda, média, mediana, variância e desvio padrão), relação linear entre variáveis (coeficiente de regressão e de correlação) e regressão linear múltipla. O texto explica os cálculos e interpretações dessas medidas, além de discutir a importância de verificar relações entre variáveis e a necessidade de testes de significância.

Tipologia: Notas de estudo

2010

Compartilhado em 09/04/2010

fabiola-1
fabiola-1 🇧🇷

5

(1)

5 documentos

1 / 28

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Apostila I
Estatística Básica
Alexandre Diniz
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Pré-visualização parcial do texto

Baixe Análise Estatística de Dados: Medidas de Dispersão e Regressão Linear e outras Notas de estudo em PDF para Matemática, somente na Docsity!

Apostila I

Estatística Básica

Alexandre Diniz

1.0 INTRODUÇÃO À ESTATÍSTICA

1.1 Conceitos básicos:

  • Método Na Grécia antiga,methodos, significava caminho para se chegar a um fim.

Método – é o conjunto de etapas, ordenadamente dispostas, a serem vencidas:

. na investigação da verdade; . no estudo de uma ciência; . ou para alcançar um determinado fim.

  • Técnica Modo de fazer de forma mais hábil, mais segura e mais perfeita algum tipo de atividade, arte ou ofício.
  • Conhecimento

Conhecer é estabelecer uma relação entre a pessoa que conhece e o objeto que passa a ser conhecido. No processo do conhecimento, o sujeito se apropria do objeto – processando-o mentalmente

Conhecer = transformar o objeto em conceito, reconstituindo-lhe em sua mente (semiótica).

Tipos de conhecimento:

. vulgar ou empírico; . filosófico; . teológico/dogmático; . científico.

Dois métodos de raciocínio científico: indução e dedução.

  • Indução . Vai do particular para o geral; . vai dos fatos para as idéias; . vai das observações para as generalizações.
  • Dedução . O raciocínio dedutivo parte do geral para chegar ao particular; . do universal para chegar ao singular; . das idéias para os fatos; . das generalizações para a observação.

. Busca quantificar a incerteza existente em determinada situação.

1.3 Escalas de mensuração:

  • Mensuração Atribuição de um número a qualidades de um objeto ou fenômeno segundo regras definidas. O processo de atribuição de números a qualidades de objetos, forma a escala de mensuração ou escala de medida.
  • Variáveis Características das unidades de análise.
  • Unidades de análise Base da análise. Elementos nos quais se tem interesse.
  • Tipos de variáveis Quatro maneiras básicas, ou níveis básicos, de mensuração (quatro tipos de variáveis):
  1. nominal
  2. ordinal
  3. intervalar
  4. razão

Importante definir os níveis de mensuração para as variáveis, porque as técnicas de análise estatística que podem ser utilizadas dependem da escala de mensuração.

  • Escala nominal

O nível mais simples das escalas de medida; sistema simples de classificação; utilizada para classificar objetos ou fenômenos em termos de igualdade dos seus atributos e numerá-los; Recurso para se classificar e rotular ou dar nomes a objetos.

O caso mais simples é formado pela divisão em duas classes que são identificadas com os números zero ou um - variável binária (0,1). Cada observação na mensuração nominal pertence a uma só classe muito freqüente na análise geográfica; Indica a presença ou não de determinada característica.

Ex: Municípios dentro e fora da área de atuação da SUDENE.

Características

. classes são mutuamente excludentes; . operações aritméticas não podem ser aplicadas (adição e multiplicação); . contagem simples é possível; . pode-se levantar a classe modal (mais freqüente); . a freqüência de cada classe pode ser expressa como porcentagem do número total.

  • Escala ordinal

Utilizada quando os fenômenos ou observações podem ser arranjados segundo uma ordenação (grandeza, preferência, importância, distância, etc..).

Ex: expressões qualitativas arranjadas segundo uma ordem:

. hierarquia dos níveis educacionais: primeiro, segundo e terceiro graus; . níveis de renda: renda baixa, media e alta; . hierarquia urbana; . padrão de habitação; . preferência locacional; . escala de dureza dos minerais.

Possível quando se desenvolve uma seqüência qualitativa na qual é lógico colocar um fato antes do outro.

. Não deve fazer operações aritméticas

Ex: classificação de hotéis em níveis hierárquicos. Não se pode dizer que um hotel quatro estrelas é duas vezes melhor do que um hotel duas estrelas. Sabe-se que os quatro estrelas são melhores, mão não existe meios de se quantificar esta diferença na escala ordinal.

  • Características: . É possível calcular a freqüência de cada classe, para indicar a classe modal; . Classes são mutuamente excludente; . Pode-se calcular coeficientes de correlação - Spearman e Kendall (estatística não paramétrica).
  • Escala intervalar

Características:

. Tem todas as características de uma escala ordinal, porém os intervalos entre os valores são conhecidos exatamente e assim cada observação pode receber um valor numérico preciso. . A extensão de cada intervalo sucessivo é constante: i.e. numeração dos anos, variações de altitude através de curvas de nível e escalas de temperatura; . O ponto zero de uma escala de intervalo é arbitrário e não indica ausência da característica medida. . A falta de zero absoluto é uma desvantagem, pois não é possível afirmar que uma temperatura de 20 ºC é duas vezes mais quente do que uma de 10 ºC. . Adapta-se a todas as operações aritméticas usuais, desde que seja mantida a ordem dos objetos e as diferenças relativas entre elas. . A média e o desvio padrão podem ser calculados.

  • Escala de razão

Características:

. Mais precisa de todas

. é encontrada adicionando-se todos os valores e dividindo-se o resultado pelo número total de ocorrências:

Média =! [i /n

  • Mediana . Valor que divide uma distribuição exatamente em duas metades.

Cálculo

. Primeiramente, arranja-se os dados em ordem crescente ou decrescente e em seguida encontra- se o valor central. . Para os conjuntos com número ímpar de observações, a mediana é encontrada através da fórmula n +1/2, onde n é o número de observações. . O valor encontrado através da fórmula indica a ordem do termo da distribuição que representa a mediana. . Para os conjuntos com números pares, a mediana está entre os dois números centrais n/2 e n+2/2. Após identificar esses números centrais, deve-se somá-los e dividir por dois. . Às vezes é uma medida melhor do que a média, pois esta é influenciada por valore extremos.

  • Moda . Valor que ocorre com maior freqüência; . utilizada mais freqüentemente quando dados estão registrados na escala nominal; . existem conjuntos de dados sem moda; . existem conjuntos de dados com modas múltiplas (bi-modal x unimodal). . A exceção dos dados agrupados, a moda não é uma medida muito útil; . neste caso a classe modal é aquela cuja freqüência supera as demais.
  • Distribuição dos dados . Existem relações mútuas entre as três medidas de tendência central. . Se temos um conjunto de dados com distribuição totalmente simétrica-normal, média, mediana e moda são idênticas. . Se um conjunto de dados tem uma distribuição assimétrica positiva, os três valores médios são diferentes uns dos outros, sendo o valor da média superior ao da mediana. . A simetria positiva é muito freqüente nos conjuntos de dados geográficos. . Se um conjunto de dados apresenta uma distribuição assimétrica negativa, o valor da média é menor do que o da mediana.

1.4.2 Medidas de variabilidade ou dispersão

.Para se descrever um conjunto de dados não basta só indicar a tendência central, especialmente quando se compara dois ou mais conjuntos de dados.

. Um conjunto pode ter todos os valores próximos à média, enquanto outro pode ter os dados mais dispersos . Portanto, o grau de dispersão em torno dos valores centrais é uma informação importante.

  • Amplitude total . Medida mais simples de dispersão. . É rapidamente encontrada e dá uma primeira impressão sobre a dispersão dos dados para os conjuntos de dados:

1, 4, 7, 10, 13 e 4, 5, 7, 8, 11

. os dois têm a média 7, mas a dispersão é bem diferente; . a dispersão do primeiro caso vai de 1 a 13 – amplitude total de 12; . a dispersão do segundo caso vai de 4 a 11 - amplitude total de 7. . Porém, é uma medida imprecisa, pois o cálculo envolve só dois valores observados, não importa se o conjunto de dados tenha 1000 observações;

V=s/x

Como tanto desvio padrão, quanto média são dados na mesma unidade, V é um número independente de unidades de medida.

Uma desvantagem = não é utilizável se a média está próxima de zero;

. fato que ocorre raramente nos dados geográficos, exceto em relação à temperatura e precipitação.

1.5 Probabilidade:

. Impossível fazer inferências estatísticas sem utilizar alguns resultados da teoria de probabilidades. . Embora intimamente associada à estatística, tem suas características próprias. . Busca quantificar a incerteza existente em determinada situação,

  • Experimento aleatório – processo de coleta de dados relativos a um fenômeno que acusa variabilidade em seus resultados
  • Espaço amostral – conjunto de todos os resultados possíveis de um experimento (E) Ex: Dado E={1,2,3,4,5,6} Gênero E={Homem, mulher}

Quando o espaço amostral consiste em um número finito ou infinito contável de eventos – espaço amostral discreto;

Quando espaço amostral consiste em todos os números reais de determinado intervalo – espaço amostral contínuo.

  • Evento – Subconjunto de um espaço amostral
  • Probabilidade – possibilidade de um dado evento ocorrer

Dado – Probabilidade de 1 = 1/ Sexo – Probabilidade de feminino = ½ As de copas – Probabilidade 1/

  • Distribuição de probabilidades – distribuição de probabilidades associadas a um conjunto de eventos (espaço amostral).
  • Distribuição finita ou discreta de probabilidades – baseada em um número contável de eventos

Ex: Experimento com dois dados – soma da combinação dos resultados

Dado 1 Dado 2

6 6 E= (2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12)

36 combinações possíveis, logo

1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/

Associar a cada valor a sua probabilidade – distribuição de probabilidade (variável aleatória).

  • Distribuição infinita ou contínua de probabilidades – número infinito de eventos – a curva se homogeiniza a partir de um número infinito de casos

Ex: altura, temperatura, precipitação, tempo de viagem

A distribuição pode ser encarada como um refinamento de uma distribuição bem grosseira. À medida que aumenta a precisão das medidas, um número maior de classes até que no limite temos uma curva contínua.

Exs: Número de crimes em Belo Horizonte – discreta (valores inteiros) Tempo de percurso – contínuo Quantidade de leite produzida – contínua Número de perueiros – discreta Peso do trigo – contínua Quantidade de grãos de areia – discreta Altura – discreta.

Vários tipos de distribuições contínuas – binomial, poisson e pascal (etc.)

Mais útil e mais utilizada é a normal.

  • Distribuição normal . Distribuição de probabilidade. . A mais importante das distribuições contínuas de probabilidade. . A curva em forma de sino. . Tem sua origem associada aos erros de mensuração. . Quando se efetuam repetidas mensurações de determinada grandeza com um aparelho equilibrado, não se chega ao mesmo resultado todas as vezes. . Obtém-se um conjunto de valores que oscilam, de modo aproximadamente simétrico, em torno do valor verdadeiro. . Ao construir um histograma desses valores e o correspondente polígono de freqüência, obtém-se uma poligonal aproximadamente simétrica. . Supunha-se anteriormente que todos os fenômenos devessem ajustar-se a uma curva em forma de sino. Caso contrário, suspeitava-se de alguma anormalidade no processo de coleta de dados.

1.6 Teste de hipótese:

Nos testes de hipóteses, fazemos suposições acerca dos parâmetros desconhecidos e perguntamos o quão prováveis as nossas estatísticas amostrais seriam caso essas suposições fossem de fato verdadeiras.

O objetivo : decidir se uma conjectura/suposição (hipótese) sobre determinada característica de uma ou mais populações é, ou não, apoiada pela evidência obtida a partir de dados amostrais

  • Parâmetro x Estatística

O objetivo da estatística inferencial é fazer generalizações sobre a população com base em uma amostra retirada da própria população.

Portanto, faz-se necessário diferenciar as características da população e da amostra

  • Parâmetros

População – parâmetros – letras gregas

Os parâmetros são valores fixos associados a população e são geralmente desconhecidos.

Ex: a média de pontos entre os estudantes de geografia pode ser desconhecida, mas o mesmo valor seria encontrado por todos os pesquisadores.

  • Estatísticas

Amostra - estatísticas – letras romanas As estatísticas, por outro lado, variam a cada amostra. Caso 10 amostras de estudantes fossem selecionadas, nós raramente obteríamos os mesmos resultados. Porém, ao contrário dos parâmetros, pode-se calcular facilmente as estatísticas para as amostras.

  • Observações

Entretanto, é a população que nos interessa e não a amostra. As amostras são trabalhadas por conveniência e o objetivo é fazer inferências acerca dos parâmetros da população, com base nas amostras, que são conhecidas. Amostra é um mero caminho, um passo.

Nos testes de hipóteses, fazemos especulações acerca dos parâmetros desconhecidos e então perguntamos quão provável as estatísticas seriam caso as nossas especulações fossem de fato verdadeiras.

Ao fazê-lo tentamos tomar uma decisão racional se os valores especulados para os parâmetros são razoáveis à luz das evidências.

Teste de hipótese é portanto um processo de decisão. Como a lógica no processo é complexa, segue uma discussão do procedimento

Hipótese estatística/real/alternativa (H1): qualquer afirmação sobre os parâmetros da população em estudo.

Hipótese Nula (Ho) – antítese da hipótese real.

A designação nula - Ho é a hipótese de igualdade ou nulidade – não diferença/não relação.

Erros tipo I e tipo II

Conclusão do teste Ho verdadeira Ho falsa

Não rejeitar Ho Correto ( UUR WL S R , ,  $

Rejeitar Ho ( UUR WL S R ,  % Correto

  • Etapas para testar uma hipótese estatística:
  1. Checar os pré-requisitos dos testes.
  2. Formulação das hipóteses Ho e H1.
  3. Escolher uma distribuição adequada aos objetivos e a natureza dos dados.
  4. Escolher o nível de significância (alfa) e estabelecer a região crítica.
  5. Calcular o valor da estatística de teste com base em uma amostra de tamanho n extraída da população.
  6. Tomada de decisão.

Bibliografia:

Blalock, Hubert. 1973. Social Statistics. New York, Mcgraw-Hill.

Gravetter, Frederick e Wallnav, Larry 1992. Statistics for the Behavioral Sciences. New York, West Publishing Company.

Gregory, S. 1973. Statistical Methods and the Geographer. London, Longman.

Hammond, Robert e McCullagh, Patrick. 1974. Quantitative Techniques in Geography – An Introduction. Oxford, Clarendon Press.

Hoel, Paul. 1981. Estatística Elementar. São Paulo, Atlas.

Martins, Gilberto e Donaire, Denis. 1979. Princípios de Estatística. São Paulo, Atlas.

Siegel, Sidney. 1975 – Estatística Não Paramétrica – Rio de Janeiro – McGraw-Hill do Brasil

2.0 REGRESSÃO LINEAR

2.1 Análise bivariada

Problema típico de correlação e análise de regressão:

. Existem relações entre fenômenos distintos em um conjunto de áreas?

Análises envolvem:

  1. variável independente – (representada por x) – causa.
  2. variável dependente – (representado por y) – efeito.

Ex: relação entre: Taxa de fecundidade (número médio de filhos durante idade reprodutiva); População urbana (%); Para uma amostra de países do mundo.

Hipótese: Quanto maior a proporção de habitantes urbanos, menor será a taxa de fecundidade

Ho: Não existe relação entre as duas variáveis

Exame do diagrama de dispersão indica que a tendência geral foi confirmada, porém para uma medição precisa, é necessário que se conheça a relação funcional entre X e Y.

Em outras palavras:

. é importante conhecer o impacto que um aumento em X terá em Y (coeficiente de regressão); . é também necessário mensurar a representatividade da relação, ou o quão bem a linha de regressão define a distribuição de pontos do diagrama de dispersão (coeficiente de correlação).

LiberiaSyria Iran IraqSaudi ArabiaLibya

Jordan

Zambia

Kuwait

Rwanda

U.Arab Em.

Somalia NigeriaSenegal

Bahrain

Pakistan

Afghanistan

Cent. Afri.R

Burkina Faso

Cameroon

Lebanon Venezuela

Gambia

Ethiopia Haiti

Uganda

Israel

Nicaragua

Oman TanzaniaKenya Burundi

Honduras

Argentina Uruguay

South Africa

Mexico

Singapore

Bolivia

Guatemala Paraguay

Chile Iceland

ArmeniaPeru

Cambodia

Belgium

Brazil

Botswana

Gabon

Sweden

Turkey

New ZealandUK

Morocco

Australia Hong Kong

El SalvadorEgypt

Netherlands

Colombia Denmark

Ecuador

India Uzbekistan Domincan R. NorwayUSA

Malaysia

CanadaGermany EstoniaCuba

Bangladesh

Panama Latvia

Philippines Azerbaijan Russia

Costa Rica

LithuaniaFrance

N. Korea UkraineBulgariaS. KoreaJapanSpain

GeorgiaIrelandFinlandPolandHungaryBelarus SwitzerlandGreeceItaly RomaniaAustria

Vietnam Indonesia BarbadosCroatia Thailand Portugal China

Gráfico de dispersão

População urbana (%)

0 20 40 60 80 100 120

Fertilidade (# médio de crianças)

9 8 7 6 5 4 3 2 1

2.1.1 Regressão linear simples:

Pergunta inicial: É possível predizer uma variável (Y) a partir de uma outra (X)?

A quantidade de mudança em uma variável dependente (Y), fomentada pela mudança em uma variável independente (X) é indicada pelos parâmetros da equação da regressão, indicada pela fórmula:

&i = ayx + b yxX i

Onde,

&L  p R YDO RU HVWL P DG R G H < S DUD D iésima observação;

Xi é o valor de X para a iésima observação; ayx é o termo interceptor (ponto da linha de regressão que cruza o eixo dos Y)

byx é a inclinação da reta mudança em Y a cada incremento em unidades de X

Objetivo = prever os valores de Y

O que faz a regressão linear?

. Traça através dos pontos marcados no diagrama de dispersão das variáveis X e Y, uma linha que minimiza as distâncias entre os pontos plotados. . Minimiza a soma dos quadrados de todos os desvios verticais dos valores reais em relação à linha.

A linha de regressão é, portanto, a melhor descrição, a nível de uma reta, de uma tendência inerente a um conjunto de pontos.

Como é colocada para produzir os valores de ayx e byx?

O propósito estatístico por trás da construção da linha de regressão é colocá-la o mais próximo possível de todas as observações, de maneira que minimize os desvios quadrados entre ela e o eixo dos Y. O objetivo é minimizar:

!  Yi-&L 2 (Variação)

O objetivo é atingido ao utilizar o conceito estatístico de:

. variância; . covariância; . método dos quadrados mínimos;

Variância

S^2 y  !  Yi - média de Y) 2 /n

Desvio padrão

Sy =¥6^2 y

Covariância

COVyx = (™  xi - média de X) (Yi – média de Y))

N

r = 1 Correlação positiva perfeita Quanto maiores os valores de x, maiores serão os valores de y

r = - Correlação negativa perfeita Quanto maiores os valores de x, menores serão os valores de y

r = 0 Ausência de relação linear

Coeficiente de determinação (r 2 )

O coeficiente linear de correlação r yx, compara a variância na variável dependente Y com a redução na variância daquela variável, quando uma variável independente X é utilizada para estimar os valores de Y.

A proporção da variação total em Y explicada por X varia de 0 a 1.

r 2 = ™ &i - média de Y) 2 variação explicada

™ Yi- média de Y) 2 variação total

Considerações

. Dificilmente se encontra associações perfeitas (r = +1 ou –1) . Alto valor de r não significa necessariamente uma relação causal (sorvete e criminalidade) . Pode ser utilizada para verificação quantitativa de prováveis relações . Revela o grau de relação estatística, mas não explica o porque da relação . Coeficiente de correlação nulo (r=0), não indica ausência de relação - indica ausência de relação linear . Presença de um ou dois valores extremos podem influenciar fortemente os valores de r

Significância

Vários trabalhos que se utilizaram de regressão e/ou correlação utilizam a frase “com 5% de significância”. Testes de significância estatística são utilizados para inferir características de uma população, com base em uma amostra. Os testes são válidos apenas se:

. a amostra é aleatória; . a população foi completamente especificada.

“A correlação de –0.89 é estatisticamente significante a 5%” Isto indica que existe a chance de 95% de que a relação observada na amostra seja verdadeira para a população. Testes de significância estão ligados a probabilidade de que os resultados observados na amostras não sejam relacionados à população.

Em regressão, existe um modelo para a população

<   %   $ ;        '    FRUUHO Dção

Que é estimado a partir de uma amostra

Y = a + bX r (^) yx = correlação

Teste de significância para o coeficiente de correlação

A maneira de se testar a significância de um coeficiente de correlação é através da razão de F de Snedecor.

Lembrem-se que a variância total na variável dependente é:

S 2

y  ^!^  Yi - média de Y)^

2 /n

A parcela desta variância que é explicada pela regressão é:

(r (^2) yx) (Sy^2 )

A parcela não explicada da variância é:

(1-r 2 yx) (Sy

2 )

Para construir o teste de F de Snedecor corrige-se esses valores, chamados de estimativas de variância, pelos seus respectivos graus de liberdade.