Baixe o app para aproveitar ainda mais
Prévia do material em texto
Métodos quantitativos em geografia: Introdução à estatística Ricardo Alexandrino Garcia Belo Horizonte CAED-UFMG 2011 Métodos quantitativos em geografia: Introdução à estatística UNIVERSIDADE FEDERAL DE MINAS GERAIS Profº Clélio Campolina Diniz Reitor Profª Rocksane de Carvalho Norton Vice-Reitora Profª Antônia Vitória Soares Aranha Pró Reitora de Graduação Profº André Luiz dos Santos Cabral Pró Reitor Adjunto de Graduação CENTRO DE APOIO DE EDUCAÇÃO À DISTÂNCIA Profº Fernando Selmar Rocha Fidalgo Diretor de Educação a Distância Prof º Wagner José Corradi Barbosa Coordenador da UAB/UFMF Profº Hormindo Pereira de Souza Junior Coordenador Adjunto da UAB/UFMG EDITORA CAED-UFMG Profº Fernando Selmar Rocha Fidalgo CONSELHO EDITORIAL Profª. Ângela Imaculada Loureiro de Freitas Dalben Profº. Dan Avritzer Profª. Eliane Novato Silva Profº. Hormindo Pereira de Souza Profª. Paulina Maria Maia Barbosa Profª. Simone de Fátima Barbosa Tófani Profª. Vilma Lúcia Macagnan Carvalho Profº. Vito Modesto de Bellis Profº. Wagner José Corradi Barbosa COLEÇÃO EAD – GEOGRAFIA Coordenador: ??? LIVRO: Métodos quantitativos em geografia: Introdução à estatística Autores: Ricardo Alexandrino Garcia Revisão: Jussara Maria Frizzera Projeto Gráfico: Laboratório de Arte e Tecnologia para Educação/EBA/UFMG Este livro recebeu apoio financeiro do Pró- licenciatura (SEED-MEC) e da UAB/CAPES. Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca da Escola de Belas Artes da UFMG, MG, Brasil) Garcia, Ricardo Alexandrino G216m Métodos quantitativos em geografia: Introdução à estatística / Ricardo Alexandrino Garcia – Belo Horizonte: CAED-UFMG, 2011. 80 p. : il., gráfs., tabs. ; 27 cm. Inclui bibliografia. ISBN: 978-85-64724-18-1 1. Geografia - Métodos estatísticos. 2. Amostragem (Estatística). 3. Probabilidades. 4. Ensino a distância. I. Universidade Federal de Minas Gerais. II. Título. CDD: 910 CDU: 910.1:519.2 Ficha catalográfica elaborada por Luciana de Oliveira M. Cunha, CRB-6/2725 Este livro recebeu apoio financeiro do Pró-licenciatura (SEED-MEC) e da UAB/CAPES. SUMÁRIO APRESENTAÇÃO Editor AULA 01 - ESTATÍSTICA: NOÇÕES GERAIS 1.1 Estatística descritiva 1.2 Interferência estatística AULA 02 - NOÇÕES DE AMOSTRAGEM 2.1 Amostragem aleatória simples 2.2 Amostragem estratificada 2.3 Amostragem sistemática AULA 03 - APRESENTAÇÃO DE DADOS 3.1 Tipos de variáveis 3.2 Distribuição de frequências e representação gráfica 3.2.1 Caso de variáveis nominais ou ordinais 3.2.2 Caso de variáveis discretas 3.2.3 Caso de variáveis contínuas 3.3 Procedimentos para construção de uma distribuição de frequências AULA 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS 4.1 Medidas de tendência central (locação): média aritmética, mediana 4.1.1 Média aritmética 4.1.2 Mediana 4.2 Medidas de variabilidade: variância, desvio padrão, coeficiente de variação 4.3 Assimetria AULA 05 - NOÇÕES DE PROBABILIDADE 5.1 Definições de probabilidade 5.2 Probabilidade condicional e independência AULA 06 - VARIÁVEIS ALEATÓRIAS 6.1 Caso discreto 6.2 Caso contínuo 09 09 10 12 12 14 15 15 16 18 19 20 20 21 22 25 24 25 25 25 26 28 32 33 34 36 37 38 6 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA AULA 07 - MODELOS DISCRETOS 7.1 Distribuição de Bernoulli 7.2 Distribuição Binomial 7.3 Modelo de Poisson 7.4 Modelo hipergeométrico AULA 08 - MODELOS CONTÍNUOS 8.1 Distribuição normal AULA 09 - NOÇÕES DE AMOSTRAGEM / DISTRIBUIÇÕES AMOSTRAIS 9.1 Distribuições amostrais 9.2 Distribuição amostral de médias 9.3 Distribuição amostral de proporções AULA 10 - ESTIMAÇÃO: NOÇÕES GERAIS AULA 11 - TESTES DE HIPÓTESES 11.1 Distribuições amostrais AULA 12 - CORRELAÇÃO E REGRESSÃO 12.1 Diagrama de dispersão 12.2 Interpretação do diagrama de dispersão 12.3 Coeficiente de correlação linear 12.4 Regressão linear simples AULA 13 - ANÁLISE DE VARIÂNCIA REFERÊNCIAS BIBLIOGRÁFICAS e ANEXOS 40 41 41 42 42 44 45 48 49 50 50 52 56 57 60 61 62 63 63 66 70 9 NOTA DO EDITOR A Universidade Federal de Minas Gerais atua em diversos projetos de Educação a Distância, que incluem atividades de ensino, pesquisa e extensão. Dentre elas, destacam-se as ações vinculadas ao Centro de Apoio à Educação a Distância (CAED), que iniciou suas atividades em 2003, credenciando a UFMG junto ao Ministério da Educação para a oferta de cursos a distância. O CAED-UFMG (Centro de Apoio à Educação a Distância da Universidade Federal de Minas Gerais), Unidade Administrativa da Pró-Reitoria de Graduação, tem por objetivo administrar, coordenar e assessorar o desenvolvimento de cursos de graduação, de pós-graduação e de extensão na modalidade a distância, desenvolver estudos e pesquisas sobre educação a distância, promover a articulação da UFMG com os polos de apoio presencial, como também produzir e editar livros acadêmicos e/ou didáticos, impressos e digitais, bem como a produção de outros materiais pedagógicos sobre EAD. Em 2007, diante do objetivo de formação inicial de professores em serviço, foi criado o Programa Pró-Licenciatura com a criação dos cursos de graduação a distância e, em 2008, com a necessidade de expansão da educação superior pública, foi criado pelo Ministério da Educação o Sistema Universidade Aberta do Brasil – UAB. A UFMG integrou-se a esses programas, visando apoiar a formação de professores em Minas Gerais, além de desenvolver um ensino superior de qualidade em municípios brasileiros desprovidos de instituições de ensino superior. Atualmente, a UFMG oferece, através do Pró-licenciatura e da UAB, cinco cursos de graduação, quatro cursos de pós-graduação lato sensu, sete cursos de aperfeiçoamento e um de atualização. Como um passo importante e decisivo, o CAED-UFMG decidiu, neste ano de 2011, criar a Editora CAED-UFMG como forma de potencializar a produção do material didático a ser disponibilizado para os cursos em funcionamento. O primeiro desafio foi a publicação dos livros da coleção Educação a Distância, série Biologia. Agradecemos aos autores e à equipe de produção pela competência e dedicação que garantiram, com certeza, o nível de excelência desta obra apresentada à comunidade acadêmica. Fernando Selmar Rocha Fidalgo Editor 1 Estatísticas: Noções Gerais 11AUL A 01 - ESTATÍSTICA: NOÇÕES GERAIS AULA 01 - ESTATÍSTICA: NOÇÕES GERAIS A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise de dados, sendo uma ferramenta fundamental no processo de resolução de problemas e tomada de decisões. O uso da estatística é de fundamental importância na identificação de problemas, na determinação do tipo de dados pertinentes à análise destes, sua coleta, tratamento e posterior tomada de decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de um plano de ação para a resolução do problema em questão. • A estatística, portanto, reúne métodos para: - Coleta; - Processamento; - Análise e interpretação de dados. • Informações numéricas analisadas servem de base para tomada de decisões; • As estatísticas nos auxiliam a entender melhor os fenômenos em geral. Em geral, conhecemos estatísticas: - Geográficas; - Demográficas; - Econômicas; - De saúde; - Educacionais; - Empresariais, etc. • A obtenção das estatísticas é apenas uma das faces do problema; • É preciso aprofundar a análise; • Números não foram feitos apenas para serem exibidos ou armazenados. Principais etapas no trabalho com estatística: • Estatística Descritiva (exploratória); • Inferência Estatística. 12 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 1.1 – ESTATÍSTICA DESCRITIVA Algumas estatísticas descritivas: - Taxas deinflação; - Taxas de desemprego; - Taxas de mortalidade infantil; - Renda per capita; - Precipitação média anual (chuvas); - Concentração média de CO2. • As estatísticas descritivas tornam o dado mais compreensível. 1.2 – INFERÊNCIA ESTATÍSTICA • Trata da análise e interpretação de dados amostrais; • O principio básico é tirar conclusões sobre a população a partir de uma amostra de dados obtida da mesma. O processo de coleta/ interpretação dos dados pode ser resumido no esquema abaixo: Aplicação em Geografia: • Em um estudo sobre o impacto ambiental de um reservatório de lixo atômico de uma usina nuclear foram coletadas 100 provas de solo da área lindeira ao reservatório. Uma amostra de 10% das provas foi selecionada para o teste de radiação. Com base nos níveis de radiação encontrados nessa amostra é tomada uma decisão quanto à segurança do reservatório. Descrição Organização Resumo Tabelas Gráficos Medidas Técnicas Visuais População Amostra Descrição Análise da Amostra InferênciaPopulação Amostra Descrição Análise da Amostra Inferência Decisão 13AUL A 01 - ESTATÍSTICA: NOÇÕES GERAIS • Um jornal investigou 900 pessoas residentes na capital sobre a legalidade ou não da maconha; cerca de 400 disseram que são a contra a legalização da droga. Até que ponto esse estudo possui validade estatística? Em caso positivo, significa que a maioria da população da capital é a favor da legalização? 2 Noções de Amostragem 15AUL A 02 - NOÇÕES DE AMOSTRAGEM AULA 02 - NOÇÕES DE AMOSTRAGEM LEVANTAMENTO CENSITÁRIO (CENSO): consiste na observação de toda a população. Os principais problemas envolvidos são: custo, tempo, imprecisão. O processo de amostragem consiste na observação de parte da população (amostra). Principais tipos de amostragem: • Amostragem aleatória simples; • Amostragem estratificada; • Amostragem sistemática. 2.1 - AMOSTRAGEM ALEATÓRIA SIMPLES Cada unidade amostral tem a mesma chance de ser sorteada, sendo atribuídos números consecutivos às unidades da população e procedendo- se em seguida ao sorteio. Na realização do sorteio podem-se utilizar tabelas de números aleatórios ou gerar tais números em computador. 2.2 – AMOSTRAGEM ESTRATIFICADA Aplica-se no caso de populações heterogêneas. A amostra compõe-se de uma agregação de subamostras de cada estrato. Fatores de estratificação: região, escolaridade, renda, faixa etária, etc. Exemplo: Numa pesquisa para traçar o perfil socioeconômico de uma população de certa cidade composta de cinco distritos, a população foi estratificada geograficamente, de acordo com o distrito de residência. Supõe-se que a população da cidade é de 5.000 habitantes e que o tamanho da amostra foi fixado em 400 elementos. O critério utilizado na repartição da amostra é o de repartição proporcional ao tamanho de cada estrato, conforme os dados relados na tabela 2.1. 16 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Tabela 2.1 - População residente por distrito e repartição proporcional da amostra DISTRITO POPULAÇÃO AMOSTRA Absoluto % A 500 10,00 40 B 750 15,00 60 C 2.500 50,00 200 D 850 17,00 68 E 400 8,00 32 TOTAL 5.000 100,00 400 Fonte: IBGE, 1991. 2.3 – AMOSTRAGEM SISTEMÁTICA O sorteio das unidades amostrais é feito de forma periódica, sendo o intervalo de seleção (r), calculado, no caso de uma população finita, através da razão entre o tamanho da população (N) e o tamanho da amostra (n). Exemplo: Deseja-se obter uma amostra de 10 elementos de uma população de 254 elementos. O intervalo de seleção é dado por k= 254/10 = 25,4 ≈ 25. Em seguida sorteia-se um número aleatório entre 1 e 25, digamos 25, no caso a amostra sorteada seria: 25, 50, 75, 100, 125, 150, 175, 200, 225, 250. 17AUL A 02 - NOÇÕES DE AMOSTRAGEM 3 Apresentação de Dados 19AUL A 03 - APRESENTAÇÃO DE DADOS AULA 03 - APRESENTAÇÃO DE DADOS No processo de análise de dados, o pesquisador tem à sua mão uma série de informações relativas a uma população ou uma amostra, e necessita resumir tais dados para torná-los informativos, para compará-los com outros resultados ou verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise descritiva propriamente dita, que antecede a etapa de inferência, é conveniente observar alguns procedimentos de resumo de dados e sua apresentação na forma tabular ou gráfica. • Dados brutos desorganizados, não trazem informação! • É importante organizar e resumir os dados. • Obter dos dados a maior quantidade de informação. 3.1 - TIPOS DE VARIÁVEIS Os dados coletados no trabalho de pesquisa, gerenciamento de processos, controle de qualidade de produtos e serviços, em geral podem ser de natureza qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais variáveis ainda podem ser classificadas como nominais, quando não existe nenhuma ordenação nas categorias (sexo, estado civil), ou ordinais, quando apresenta alguma ordenação (grau de instrução). As variáveis quantitativas podem ser classificadas como discretas ou contínuas. As discretas resultam geralmente de contagens do número de ocorrências de determinada característica de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam um intervalo de números reais e resultam normalmente de mensurações. São apresentados a seguir alguns exemplos de variáveis discretas e contínuas: Discretas: • Número de filhos de um casal; • Número de defeitos em uma chapa de aço; • Número de acidentes de trabalho em uma semana em certa fábrica, etc. 20 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Contínuas: • Peso ou altura de um indivíduo; • Espessura de uma peça; • Tempo de vida de uma lâmpada, etc. Importante: a técnica estatística a ser utilizada na análise dos dados depende do tipo de variável com que se trabalha. 3.2 – DISTRIBUIÇÃO DE FREQUÊNCIAS E REPRESENTAÇÃO GRÁFICA • Após a coleta, os dados devem ser organizados; • Para conhecer melhor a distribuição das variáveis de interesse procura- se dispor os dados em tabelas e gráficos; • Objetiva-se obter uma melhor visualização do fenômeno. 3.2.1 - CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS Exemplo: A tabela 3.1 apresenta a distribuição dos empregados do setor de produção de certa empresa, segundo o seu grau de instrução. Tabela 3.1 - Empregados do setor de produção, segundo o grau de instrução - 2000 GRAU DE INSTRUÇÃO Frequência (fi) Primeiro Grau 15 Segundo Grau 25 Superior 10 TOTAL 50 Fonte: Pesquisa direta. 21AUL A 03 - APRESENTAÇÃO DE DADOS Representação gráfica: gráfico de setores. 3.2.2 – CASO DE VARIÁVEIS DISCRETAS Exemplo : Considere os dados abaixo representando a distribuição da variável número de filhos dos empregados do setor de produção. Tabela 3.2 - Distribuição do número de filhos dos empregados do setor de produção NÚMERO DE FILHOS Frequência (fi) 0 5 1 10 2 20 3 9 4 6 Representação gráfica: gráfico de colunas. Empregados do Setor de Produção, segundo grau de instrução - 2000 50% 20% 30% Primeiro Grau Segundo Grau Superior 22 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 3.2.3 – CASO DE VARIÁVEIS CONTÍNUAS Exemplo: Foram obtidas as concentrações média de metais pesados em amostras de águas provenientes de rios da Bacia do Mucuri. Tabela 3.3 - Distribuição de frequências da concentração média de metais pesados em amostras de águas provenientes de rios da Bacia do Mucuri Metais Pesados (ppm) Frequência simples(fi) Frequência relativa Frequência acumulada (Fi) 4 |----- 8 7 14,0 7 8 |----- 12 8 16,0 15 12 |----- 16 20 40,0 35 16 |----- 20 10 20,0 45 20 |----- 24 5 10,0 50 TOTAL 50 100,0 - Representação gráfica: histograma. 0 5 10 15 20 25 6 10 14 18 22 Concentração média de metais pesados em amostras de águas provenientes de rios da Bacia doMucuri ppm Fr eq uê nc ia 23AUL A 03 - APRESENTAÇÃO DE DADOS 3.3 - PROCEDIMENTOS PARA CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS: 1. Obter uma amostra de n valores referentes à variável de interesse; 2. Escolher o número de classes (k); 3. Identificar o valor mínimo (MIN) e máximo (MAX) da distribuição; 4. Calcular a amplitude total dos dados: R = MAX – MIN; 5. Calcular a amplitude de cada intervalo: c= R/k; 6. Arredondar para maior o valor de c; 7. Calcular os limites de cada intervalo adicionando c a partir do MIN; 8. Contar os valores de cada intervalo, podendo utilizar intervalos abertos à direita e fechados à esquerda. 4 Medidas Associadas a Variáveis Quantitativas 25AUL A 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS AULA 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS O resumo dos dados na forma de tabelas e a visualização da forma da distribuição destes dados na forma de gráficos são importantes elementos na análise dos mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na forma numérica. São apresentadas, a seguir as principais medidas utilizadas para se quantificar os valores centrais da distribuição dos dados (locação), bem como o grau de dispersão dos dados em torno dos valores centrais (variabilidade). 4.1 - MEDIDAS DE LOCAÇÃO OU DE TENDÊNCIA CENTRAL: MÉDIA ARITMÉTICA, MEDIANA 4.1.1 - MÉDIA ARITMÉTICA A média aritmética é a medida mais comumente utilizada para representar um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito através da fórmula: 4.1.2 - MEDIANA A mediana corresponde ao valor central de uma distribuição. No caso de dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de n ser par, a mediana é obtida como a média aritmética dos dois valores centrais da distribuição dos dados em ordem crescente, ou seja: n X i X n i ∑ == 1 2 )1]] 2/)2/( ( ++= nne XX M 26 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Caso os dados estejam dispostos em uma tabela de frequências os cálculos são efetuados através das seguintes fórmulas: Onde: Li = limite inferior da classe mediana; Fant = frequência acumulada até a classe anterior fMe = frequência simples na classe mediana c = amplitude da classe mediana. 4.2 – MEDIDAS DE VARIABILIDADE: VARIÂNCIA, DESVIO PADRÃO, COEFICIENTE DE VARIAÇÃO Cálculo de medidas de variabilidade A discrição dos dados através de medidas de locação pode esconder importantes informações com respeito variabilidade dos dados. Como exemplo ilustrativo, suponha que em 3 cidades foi medida a qualidade do ar do centro da cidade, tomada em intervalos de 5 horas, para um mesmo período de 25 horas, segundo uma escala de 1 (péssima) a 9 (ótima). Obteve-se, então, os seguintes valores: CIDADE A 3 4 5 6 7 CIDADE B 1 3 5 7 9 CIDADE C 5 5 5 5 5 Observa-se que a qualidade média do ar das 3 cidades é igual a 5, portanto, estes não apresentam diferenças quanto ao aspecto de locação, entretanto, a variabilidade dos resultados difere bastante entre as 3 cidades, sendo necessária uma medida que sumarize esse aspecto. O grau de dispersão ou variabilidade dos dados em torno da média pode ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente de variação. O princípio básico é medir o desvio das observações em relação à média do grupo (di). No caso dos n Xifi X k i ∑ == 1 c f FantnLiMe Me .])5,0([ −+= 27AUL A 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS dados do primeiro grupo (cidade A) acima, teríamos os seguintes valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a soma desses desvios, porém essa não é uma boa alternativa porque tal soma é igual a zero para qualquer conjunto de dados. Uma alternativa, portanto, é trabalhar com a soma dos quadrados desses desvios e, em seguida, obter um desvio médio. Desse modo, a fórmula para o cálculo da variância populacional de um conjunto de dados pode ser expressa como: Alternativamente, pode-se mostrar que tal expressão pode ser escrita como: Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que apresenta algumas propriedades como representante da variância de uma população, lembrando que a diferença entre as duas fórmulas diminui à medida que o tamanho da amostra aumenta: Considerando os dados relativos às notas dos alunos do grupo A, temos que: Desse modo, aplicando-se a expressão acima, pode-se ver que a variância dos índices de qualidade do ar será dada por: S2 = ¼(135 – 125) = 2,5 No caso de tabelas de frequência, o cálculo da variância pode ser feito através da expressão: n XX n i i∑ = − = 1 2 2 )( σ −= ∑∑ n X X n i i 2 22 )(1σ − − = ∑∑ n X X n s ii 2 22 )( 1 1 1352 =∑ iX 25=∑ iX − − = ∑∑ n fX fX n s iiii 2 22 )( 1 1 28 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Para ilustrar, considere o cálculo da variância dos salários dos empregados, a partir da tabela 4.1: Tabela 4.1 - Cálculo da variância: dados de concentração de metais pesados Metais peados (ppm) Freq. simples (fi) Freq. Relativa Freq. Acumulada (Fi) Ponto médio (Xi) Xifi Xi 2fi 4 |----- 8 7 14,0 7 6 42 252 8 |----- 12 8 16,0 15 10 80 800 12 |----- 16 20 40,0 35 14 280 3920 16 |----- 20 10 20,0 45 18 180 3240 20 |----- 24 5 10,0 50 22 110 2420 TOTAL 50 100,0 - 692 10632 Desse modo, tem-se que: Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo grupo por exemplo, se há maior grau de dispersão com relação ao peso dos indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos comparar o grau de dispersão de grupos com médias bastante distintas. Em tais casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a média aritmética dos dados, sendo, portanto escrito como: 4.3 - ASSIMETRIA Um outro aspecto de interesse na análise de um conjunto de dados refere-se ao seu grau de assimetria, que está associado com a forma com que se distribuem os dados em torno dos valores centrais. Os gráficos a seguir se referem à distribuição dos salários do setor de produção em três empresas fictícias. Neles, podem-se encontrar distribuições com os seguintes aspectos: 525,21] 50 692632.10[ 49 1 22 =−=s X s=γ 29AUL A 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS No caso da Companhia A tem-se uma distribuição simétrica dos salários. A Companhia B apresenta uma distribuição com uma assimetria positiva, ou seja, uma cauda mais acentuada no lado direito da distribuição e uma maior concentração em valores mais baixos. A distribuição dos salários da Companhia C apresenta uma assimetria negativa, ou seja, uma concentração mais acentuada nos valores mais elevados da distribuição. Distribuição dos salários dos empregados do setor de produção da Companhia B 0 2 4 6 8 10 12 14 16 6 10 14 18 22 sal.min. fre q. s im pl es Distribuição dos salários dos empregados do setor de produção da Companhia A 0 5 10 15 20 25 30 6 10 14 18 22 sal.min. fre q. s im pl es 30 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA E agora, você gostaria de trabalhar em qual das companhias? Aplicação: analise os dados da tabela 4.1 em termos de medidas de tendência central e dispersão. Distribuição dos salários dos empregados do setor de produção da Companhia C 0 2 4 6 8 10 12 14 16 6 10 14 18 22 sal.min. fre q. s im pl es 31AUL A 04 – MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS 5 Noções de Probalidade 33AUL A 05 - NOÇÕES DE PROBABILIDADE AULA 05 - NOÇÕES DE PROBABILIDADE Os primeiros estudos começaram com problemas formulados pelo Barãode Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza. O resultado de um experimento aleatório geralmente se dá ao acaso, entretanto, é possível construir um modelo que o reproduza, sem que seja necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar um experimento simples como o lançamento sucessivo de um dado. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado: 1 2 3 4 5 6 Probabilidade: 1/6 1/6 1/6 1/6 1/6 1/6 Ainda como ilustração, considere um lote contendo 50 bússolas, das quais 10 são defeituosas e que seja retirada ao acaso uma bússola deste lote. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado: Perfeita(P) Defeituosa(D) Probabilidade: 4/5 1/5 Um modelo probabilístico associado a um experimento aleatório, conforme observado acima pode ser especificado por um espaço amostral (S), que consiste no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos do espaço amostral são denominados de eventos, geralmente denotados por letras latinas maiúsculas A, B, C, ou A1, A2, etc. 5.1 - DEFINIÇÕES DE PROBABILIDADE Uma probabilidade pode ser definida como uma função que satisfaz os seguintes axiomas: 1) P(A) ≥ 0 2) P(S) = 1 Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai ∩ Aj) = Ø 3) )()( 11 ∑ == = n j j n j j APAP 34 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Uma probabilidade pode ser atribuída com base nas características teóricas da realização do experimento, como é o caso do exemplo do lançamento do dado, visto anteriormente. No caso, emprega-se a relação: P= número de casos favoráveis/ número de casos possíveis Uma probabilidade pode ser obtida através da frequência relativa. Pode-se verificar que à medida que o número de realizações do experimento aumenta, a frequência relativa de um evento de interesse tende a se estabilizar em um valor que representa a sua verdadeira probabilidade. Algumas propriedades: 1. Seja A um evento qualquer, então 1 ≥ P(A) ≥ 0; 2. Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A); 3. P(A B) = P(A) + P(B) – P(A ∩ B), sendo A e B eventos quaisquer. 5.2 – PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Em muitas situações, o cálculo da probabilidade de um evento pode ser feito com base em alguma informação adicional fornecida, sendo o espaço amostral atualizado. Essa nova probabilidade recalculada pode ser chamada probabilidade condicional. Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B ocorrer dado que o evento A ocorreu é dada por: Onde P(A) ≥ 0. Definição: dois eventos A e B são independentes se a informação da ocorrência de A não altera a chance da ocorrência de B, ou seja: P(B | A) = P(B) Ou seja, P(A ∩ B) = P(A).P(B) ∩ )( )()|( AP BAPABP ∩= 35AUL A 05 - NOÇÕES DE PROBABILIDADE Aplicação: a tabela abaixo apresenta o número de alunos matriculados nos cursos de pós- graduação em um instituto de geociências de certa universidade: CURSO MASC. (M) FEM (F) Geografia Humana (A) 60 30 Geografia Física (F) 15 10 Modelagem de sistemas Ambientais (C) 10 15 Geologia (D) 15 5 Uma pessoa do corpo discente é sorteada para participar do encontro anual da Associação dos Geografos Franceses com todas as despesas pagas! Calcule, então, as probabilidades seguintes: a) P(A) b) P(D) c) P(H) d) P(A M) e) P(B ∩ F) f) P(M | C) ∩ 6 Variáveis Aleatórias 37AUL A 06 - VARIÁVEIS ALEATÓRIAS AULA 06 - VARIÁVEIS ALEATÓRIAS • Discreta: assume valores num conjunto finito ou enumerável de valores. Ex: número de filhos, número de itens defeituosos, etc. • Contínua: assume valores num conjunto infinito não enumerável de valores. Ex: peso, altura, renda, pluviosidade, concentrações e outras medidas em geral. 6.1 – CASO DISCRETO • A variável aleatória assume Valores X1, X2, ...... Xn • A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn • Pode–se definir uma função de probabilidades, f (x), tal que: e Em resumo tem-se: Distribuição de probabilidades X x1 x2 x3 ...xN P ( X = x ) P1 P2 P3 ...PN Média e variância de uma variável discreta: Média: E ( X ) = ∑ Xi P ( X = x i ) Variância: V ( X ) = E (X2 ) – E2 ( X ) Onde: E ( X2 ) = ∑ 2X P ( X = x ) 0)( ≥xf ∑ === 1)()( xXPxf 38 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 6.2 – CASO CONTÍNUO • A Variável assume valores em intervalos • Pode–se definir a função de densidade de Probabilidades, f ( x ), tal que: 1. 2. 3. Aplicação: 1. Um lote contém 10 GPS, sendo 3 defeituosos. Dois GPS são retirados ao acaso, sem reposição. Seja X V.A representando o número de GPS defeituosos. a. Determinar o espaço amostral do experimento e suas respectivas probabilidades. b. Obtenha a distribuição de probabilidades da variável X. c. Calcule E ( X ) e V ( X ). 2. Repetir o exercício acima usando amostragem com reposição. 0)( ≥xf ∫ +∞ ∞− =1)( dxxf ∫=<< b a dxxfbXaP )()( 39AUL A 06 - VARIÁVEIS ALEATÓRIAS 7 Modelos Discretos 41AUL A 07 - MODELOS DISCRETOS AULA 07 - MODELOS DISCRETOS 7.1 - DISTRIBUIÇÃO DE BERNOULLI Seja um experimento com apenas dois resultados possíveis: Sucesso e Fracasso. Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso contrário. Tem-se, então: X 0 1 P ( X = x ) ( 1 - P ) P É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq 7.2 - DISTRIBUIÇÃO BINOMIAL • Têm-se n realizações independentes de um experimento tipo Bernoulli. • A Probabilidade de sucesso “p” é constante. • Deseja-se obter a chance de ocorrerem k sucessos nas n realizações. Seja X Variável aleatória definida como o número de sucessos nas n realizações. Então: Verifica-se que, no caso da Distribuição Binomial, temos: P (X = K ) = )( N K . pk. ( 1- p)n-k Função de Probabilidades BinomialP (X = K ) = )( NK . pk. ( 1- p)n-k Função de Probabilidades Binomial 42 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 7.3 - MODELO DE POISSON • Contagem de eventos que ocorrem em intervalos de tempo, volume, superfície. Aplicações: • Chegada de clientes numa fila • Ocorrência de falhas por metro quadrado de tecido produzido • Número de chamadas telefônicas que chegam numa central • Limite da Distribuição Binomial Fórmula: Onde: λ = taxa de ocorrências. t = n.º de unidades de tempo ou espaço 7.4 - MODELO HIPERGEOMÉTRICO Considere uma população de N elementos, dos quais r têm uma certa característica. Retira-se dessa população uma amostra de n elementos. Define- se X como o nº de sucessos (nº de elementos com a característica citada) na amostra. Deseja-se calcular P(X=k), que é dado por: Aplicação: 1. Cerca de 10% dos alunos de métodos quantitativos aplicados à geografia são frequentemente aprovados na disciplina. Numa amostra de 10 alunos que acabaram de cursar a disciplina, determinar a probabilidade de se ter: a. Exatamente 2 aprovados b. No máximo, um reprovado )( ))(()( N n rN kn r kkXP − −== 43AUL A 07 - MODELOS DISCRETOS 2. Num certo leito de rio passam, em média, 5 bagres por minuto. a. Nenhum bagre em intervalo de 01 minuto. b. Exatamente 06 bagres em 02 minutos. 3. Em uma unidade de tratamento de água 50 provas são coletadas de um reservatório. Um inspetor de qualidade examina a qualidade da água do reservatório testando apenas 5 provas. Se nenhuma delas apresentar coliformes fecais a água do reservatório é distribuída para a população. Se houver ao menos uma com a bactéria, todas as provas são testadas. Sabendo que há 6 provas contaminadas, calcule a probabilidade da água do reservatório não ser distribuída. 8 Modelos Contínuos 45AUL A 08 - MODELOSCONTÍNUOS AULA 08 - MODELOS CONTÍNUOS 8.1 - DISTRIBUIÇÃO NORMAL • O exame dos gráficos de frequência sugere a curva representativa da distribuição da variável. • As curvas de distribuição permitem o cálculo de probabilidades sobre a Variável estudada. • A curva normal é uma das mais importantes e utilizadas na Estatística. • Muitas variáveis, na prática, seguem o modelo normal. • O Modelo Normal possui dois parâmetros: a média (m) e o desvio padrão (s). • Notação X~N( m,s ) Gráfico da curva normal: Do gráfico acima, observa-se que: 1. A área sob a curva é igual a 1. 2. A curva é simétrica em relação à sua média. 3. A curva possui dois pontos de inflexão em (μ + σ) e (μ - σ). 4. A curva possui um ponto máximo em x = μ. µ µ + σ µ - σ 68% 46 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Uso da tabela normal: Escore Padrão: A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escore de interesse: Como exemplo, vamos obter as seguintes áreas: 1) P ( 0 < Z < 1 ) = 0,3413 2) P ( Z > 1 ) = 0,50 – 0,3413 3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413 0 Z σ µ−X Z = 0 1 -1 0 47AUL A 08 - MODELOS CONTÍNUOS • A Tabela Normal também pode ser usada no sentido inverso, ou seja: dada uma determinada área, qual o escore corresponde? Considere a situação abaixo: Aplicação: a precipitação média diária de uma cidade na Região Amazônica segue uma distribuição normal com média 172ml/m2 e desvio padrão de 5ml/m2. a) Qual a proporção de dias com precipitação inferior a 177ml/m2? b) Qual a proporção de dias com precipitação entre 167 e 177ml/m2? c) Qual o valor acima do qual estão 2,5% das precipitações? Z Z = 1,64 0 5% Z-Z Z = 1,96 = 5% 0 2,5% 9 Noções de Amostragem / Distribuições Amostrais 49AULA 09 - NOÇÕES DE AMOSTRAGEM / DISTRIBUIÇÕES AMOSTRAIS AULA 09 - NOÇÕES DE AMOSTRAGEM / DISTRIBUIÇÕES AMOSTRAIS • População: conjunto de elementos com pelo menos uma característica em comum. • Amostra: Parte da população a ser estudada. Por que usar amostragem? • Estudo de grandes populações; • Redução de custos; • Resultados mais precisos em menor espaço de tempo. 9.1 - DISTRIBUIÇÕES AMOSTRAIS • Distribuição de probabilidades de uma estatística amostral; • Indica como variam as estatísticas devido a variações no processo de amostragem. Onde está a variabilidade? • Na própria estatística; • Na distribuição da população em estudo; • Tem relação inversa com o tamanho da amostra. Aleatória simples Estratificada Sistemática Conglomerados Multifásica PROBABILÍSTICA NÃO PROBABILÍSTICA AMOSTRAGEM 50 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 9.2 - DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS • Obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média μ e desvio padrão σ; • A média da distribuição amostral de médias é igual à média populacional; • A variância da distribuição amostral de médias é dada por: • O desvio padrão da distribuição amostral de médias é dado por: • Para um tamanho de amostra suficientemente grande, a distribuição amostral de médias é aproximadamente normal. • A estatística da equação abaixo é aproximadamente N(0,1). Aplicação: 1. O fabricante de novo tipo de arma química afirma que o tempo de vida de um soldado ao ser exposto ao agente é de 100 segundo,s com desvio padrão de 8 segundos. Tomando-se uma amostra de 36 soldados, ao acaso, de uma tropa que foi atacada com o agente, pergunta-se: a. Qual média e desvio padrão da distribuição da amostra? b. Que percentual de soldados terá vida média superior a 99 segundos? c. Que percentual de soldados terá vida média entre 99 e 101 segundos? 9.3 - DISTRIBUIÇÃO AMOSTRAL DE PROPORÇÕES • A média da distribuição amostral de proporções é igual à proporção populacional; n 2σ n σ n x z σ µ)( − = 51AULA 09 - NOÇÕES DE AMOSTRAGEM / DISTRIBUIÇÕES AMOSTRAIS • O desvio padrão da distribuição amostral de proporções é dado por: • Para amostras suficientemente grandes a distribuição amostral de proporções segue o modelo normal; • A estatística da equação abaixo é aproximadamente N(0,1). Aplicação: 1. Cerca de 5% do minério de ferro extraído em uma região são compostos por metais nobres. São extraídos cerca de 100t/dia de minério. Qual a probabilidade de, em um dia qualquer, a produção apresentar uma concentração de metais nobres igual ou superior a 10%? N pp p )1( −=σ σ p Ppz −= 10 Estimação:Noções Gerais 53AULA 10 - ESTIMAÇÃO: NOÇÕES GERAIS AULA 10 - ESTIMAÇÃO: NOÇÕES GERAIS • Resultados extraídos de uma amostra podem ser usados para produzir inferências sobre a população. • Parâmetros: medida numérica que descreve alguma característica da população. • Estatísticas: funções de valores amostrais. Os principais estimadores de parâmetros populacionais e respectivos intervalos de confiança são resumidos no quadro abaixo: PARÂMETRO ESTIMADOR PONTUAL ESTIMADOR POR INTERVALO Média (com variância conhecida) Média (com variância desconhecida) Pontual – a partir de observações calcula-se uma estimativa. Por intervalo - fixação de dois valores com probabilidade (1-∝) de conter o verdadeiro valor do parâmetro. TESTES DE HIPÓTESES – permite decidir por um valor do parâmetro ou por sua modificação, com um risco conhecido. ESTIMAÇÃO AMOSTRAGEM ___ X ___ X N ZX σα 2/ ___ /−+ n StX 2/ ___ / α−+ continua na próxima página 54 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Proporção Diferenças de Médias (variâncias conhecidas) Diferenças de Médias (variâncias desconhecidas) Aplicação: 1. Deseja-se saber o peso dos recém-nascidos de uma determinada população. Foi selecionada uma amostra de 25 bebês que produziu um peso médio de 2,5Kg e desvio padrão de 1,5Kg. Construir um intervalo de confiança para média populacional. 2. Uma amostra de 50 trabalhadores extraída de uma grande empresa apresenta 5 indivíduos com pressão alta. Construir um intervalo de confiança para a proporção de trabalhadores hipertensos na empresa. ^ P n PPZP )1(/ 2/ ^ −−+ α 2 __ 1 __ XX − 2 2 2 1 2 1 2/2 __ 1 __ /)( nn ZXX σσα +−+− 2 __ 1 __ XX − 21 2/2 __ 1 __ 11/)( nn StXX c +−+− α 55AULA 10 - ESTIMAÇÃO: NOÇÕES GERAIS 11 Testes de Hipóteses 57AULA 11 - TESTES DE HIPÓTESES AULA 11 - TESTES DE HIPÓTESES 11.1 - DISTRIBUIÇÕES AMOSTRAIS • Formula-se uma hipótese sobre a média populacional desconhecida; • Com base numa amostra de tamanho n procura-se decidir sobre essa hipótese; • Toma-se, então, uma decisão São definidas as Hipóteses: H0: μ = μ0 (hipótese nula) H1: μ ≠ μ0 (hipótese alternativa) • Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma amostra de n observações, um valor amostral tão ou mais discrepante que a média observada? • Se tal probabilidade for muito pequena, a média amostral observada não é compatível com a hipótese H0. Logo, a hipótese formulada tende a ser rejeitada. • Um teste de hipóteses procura responder à questão: A diferença entre o valor amostral e o parâmetro é devido apenas ao acaso? (variação amostral) • Em geral, a regra de decisão para um teste envolve: - Uma amostra aleatória - Uma estatística amostral - Uma distribuição amostral da estatística - Definição de erros na forma de probabilidades de significância EVIDÊNCIAS DA AMOSTRA Rejeitar a hipótese formulada Não rejeitar a hipótese formulada 58 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Erros envolvidos num teste de hipóteses: CONCLUSÃO DO TESTE SITUAÇÃO REAL H0 VERDADE H0 FALSA Não Rejeitar H0 Certo Erro tipo II (β) Rejeitar H0 Erro tipo I (α) Certo Cuidado! • Resultado não significante não prova que H0 é verdade, mas sim, que os dados não forneceram evidência suficiente para rejeitá-la. • Procurar afastar, na medida do possível, fatores externos que perturbem as conclusões. O quadro abaixo apresenta um resumodas estatísticas e distribuições utilizadas nos principais testes de hipótese: TESTE DISTRIBUIÇÃO ESTATÍSTICA Média com desvio padrão conhecido Normal Resultado amostral Variação não casual0H Rejeitação deSignificativo 0H Não rejeita Variação casual Não significativo NXZ d σ µ )( 0−= 59AULA 11 - TESTES DE HIPÓTESES Média com desvio padrão desconhecido t com (N-1)G.L. Diferença de médias: amostras pareadas t com (N-1)G.L. Diferença de médias: amostras independentes Desvio padrão conhecido Normal Diferença de médias: amostras independentes Desvio padrão desconhecidos e iguais t com (N+N-2)G.L. Proporção Normal Obs: Variância Combinada Aplicação: 1. A água de uma determinada fonte apresenta uma concentração média de sulfatos da ordem 0,206g/l e desvio padrão de 0,012g/l. Retira-se uma amostra de 30 litros obtendo uma concentração média de 0,210g/l. Ao nível de 10% pode-se aceitar que a concentração média tenha aumentado? 2. Certa indústria automobilística afirma que o desempenho do seu modelo 4X4 é de 12Km/l de gasolina. Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8 11,6. Com base nesses resultados, o que se pode concluir quanto à afirmação do fabricante? 3. Um estudo sobre a qualidade do ar em Belo Horizonte deseja saber se há diferenças significativas da concentração média de dióxido de enxofre (SO2) entre dois bairros da Capital. Para isto, tomaram-se amostras de ar em ambos os bairros, obtendo os seguintes resultados: BAIRRO N.º DE ELEMENTOS MÉDIA DESVIO PADRÃO Santo Antônio 15 ppbv 80 6 Panpulha 10 ppbv 72 9 Qual a sua conclusão sobre o experimento? S NXtd )( 0µ−= St dd ND 0= 2 2 2 1 2 1 21 NN XXZ d σσ + −= nPP PPZ d /1( 00 0 − − = 12 Correlação e Regressão 61AULA 12 - CORRELAÇÃO E REGRESSÃO AULA 12 - CORRELAÇÃO E REGRESSÃO • Estudo da associação entre variáveis; • Vários tipos de associação são possíveis. 12.1 - DIAGRAMA DE DISPERSÃO • Gráfico que representa no plano cartesiano duas variáveis quantitativas; • Ferramenta simples que permite o estudo da associação entre 2 variáveis. Exemplo: Na tabela abaixo, estão representadas o número de programas sociais e a produção per capita semanal de cinco assentamentos rurais. ASSENTAMENTOS RURAIS PROGRAMAS SOCIAIS (UNIDADES) PRODUÇÃO PER CAPITA ( R$/SEMANA) A 1 35 B 3 40 C 4 42 D 6 50 E 8 55 Diagrama de dispersão correspondente: 0 1 2 3 4 5 6 7 8 9 35 40 45 50 55 Y pr od uç ão p er c ap ita (R $/ Se m .) X Número de programas sociais 0 1 2 3 4 5 6 7 8 9 35 40 45 50 55 Y pr od uç ão p er c ap ita (R $/ Se m .) X Número de programas sociais 62 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA 12.2 - INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO De acordo com o exame do diagrama de dispersão, podemos ter as seguintes situações: • Quando as variáveis crescem no mesmo sentido temos o caso de correlação positiva. • Quando as variáveis crescem em sentidos opostos temos uma correlação negativa. Correlação Perfeita Positiva Rxy = 1 y x Correlação Perfeita Negativa Rxy = -1 y x Correlação Forte Positiva Rxy → 1 y x Correlação Forte Negativa Rxy → -1 y x Ausência de Correlação Rxy → 0 y x Correlação Não Linear y x 63AULA 12 - CORRELAÇÃO E REGRESSÃO • Se os dados estão perfeitamente alinhados sobre uma reta temos uma correlação perfeita. • Quando o crescimento de uma variável é acompanhado de variações casuais da outra variável a correlação é nula. 12.3 - COEFICIENTE DE CORRELAÇÃO LINEAR Para medir o grau da associação linear entre duas variáveis quantitativas usamos o coeficiente de correlação linear cuja fórmula é: Onde “ rxy ” varia de –1 a 1 Cuidado! • Correlação não implica em relação de causa e efeito. • Podemos, por exemplo, encontrar uma alta correlação entre o n. º de internações por desidratação e a venda de sorvetes, e a verdadeira causa pode ser o aumento da temperatura. 12.4 - REGRESSÃO LINEAR SIMPLES Quando os pontos traçados no diagrama de dispersão se agruparem em torno de uma reta, podemos obter a equação dessa reta e, assim, determinar um modelo matemático para a relação entre as variáveis. A reta que melhor se aproxima dos dados é a chamada reta de mínimos quadrados que tem a fórmula: ∑∑ ∑ −− − = )()(. 2222 YNYXNX YXNXY r xy = ∧ iY Coeficiente linear da reta Coeficiente angular (inclinação) da reta Variável independente (explicativa) Variável dependente B+A X i 64 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA • Os valores de A e B podem ser obtidos através das fórmulas: e • A reta de regressão pode ser utilizada para prever um valor de Y para um X que não esteja na amostra. Aplicação: Com os dados da tabela sobre a quantidade de programas sociais e a produtividade dos assentamentos rurais obtenha: a) Coeficiente de correlação entre as variáveis; b) A reta de regressão; c) Qual o valor da produtividade semanal para um assentamento com 7 programas sociais? ∑ ∑ − − = 22 XN YXNXY B X XBYA −= 65AULA 12 - CORRELAÇÃO E REGRESSÃO 13 Análise deVariância 67AULA 13 - ANÁLISE DE VARIÂNCIA AULA 13 - ANÁLISE DE VARIÂNCIA • Técnica utilizada para verificar se as médias de duas ou mais populações são iguais. • O teste baseia-se em amostras extraídas de cada população. • A variação total dos dados é tratada como sendo divisível em dois componentes: a) Distância dos valores em relação à média dos grupos a que pertencem (variação dentro do grupo). b) Distância entre as médias dos vários grupos (variação entre os grupos). • As variações são apresentadas na forma de somas de quadrados. • Temos, portanto, que: Soma de quadrados total = soma de quadrados entre grupos + soma de quadrados dentro dos grupos. • Fórmulas de cálculo: SQENTRE = SQTOTAL - SQDENTRO Quadrado médio (QM): definido como a relação entre as somas de quadrado e os respectivos graus de liberdade: • É formulada, então, a hipótese: 2)(∑ −= YYSQTOTAL ij 22 22 2 11 2 )(...)()()( KKjjjiij YYYYSQDENTRO YYYY −++−+−=−= ∑∑∑∑ NÚMERO DE GRUPOS 1-K ENTRESQENTREQM = K-N DENTROSQDENTROQM = 68 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA • A estatística utilizada para verificação da hipótese é: Tal estatística tem distribuição F, com ( K – 1 ) e ( N – K ) graus de liberdade. • Para se tomar uma decisão sobre H0, verifica-se F está na região de rejeição ( veja a figura abaixo ). Rejeita-se H0 se Fc > F0 Aplicação: Deseja-se verificar se existe diferença significativa entre a concentração de ferro em amostras de minérios proveniente de 5 minas diferentes. Os dados estão na tabela abaixo: Amostras (g/kg) Minas de minério de ferro A B C D E 1 96 98 116 112 113 2 92 104 106 105 112 3 106 110 109 118 127 4 100 101 100 108 117 0 2 4 6 8 0 2 4 6 8 TABELA F ( K–1, N – K ) Região de aceitação Região de rejeição α QMDENTRO QMENTREFC = 69AULA 13 - ANÁLISE DE VARIÂNCIA Referências Bibliográficas e Anexos 71REFERÊNCIAS BIBLIOGRÁFICAS E ANEXOS REFERÊNCIAS BIBLIOGRÁFICAS BERQUÓ, E. et al. Bioestatística. São Paulo: EPU, 1986. BUSSAB, W. O; MORETTIN, P. A. Estatística básica. Atual Editora: São Paulo, 1986. BUSSAB, W. O. Análise de variância e de regressão. São Paulo: Atual, 1986. CALEGARE, A. J. A. Técnicas de Garantia da Qualidade. Rio de Janeiro: Ao Livro Técnico, 1985. DRAPER, N. E H. SMITH. Applied Regression Analysis. New York: John Willey, 1966. FONSECA, J. S.; MARTINS, G. de A. Curso de Estatística. São Paulo: Atlas, 1987. GATTAS, R. R. Elementos de probabilidade e inferência. São Paulo: Atlas, 1978. GUEDES, M. L. S.; GUEDES, J. da S. Bioestatística para profissionais de saúde. Brasília: Ao livro Técnico, 1988. HOFFMAN, R.; VIEIRA, S. Análise de Regressão. São Paulo: Hucitec, 1982. HUFF, D. Como mentir com estatística. São Paulo: Ediouro, 1992. JURAN, J. M. Planejamento para a Qualidade. São Paulo: Pioneira, 1986. JURAN, J. M.; GRYNA,F. M. Controle para a qualidade. VOL. 6, São Paulo: Makron Books, 1993. MORETTIN, L. G. Estatística Básica – Inferência. São Paulo: Makron Books, 2000. MORETTIN, L. G. Estatística Básica – Probabilidade. São Paulo: Makron Books, 1998. MORETTIN, P. A. Introdução à estatística para ciências exatas. São Paulo: Atual, 1991. PARATHAMAN, D. Controle da qualidade. São Paulo: Mc. Graw Hill, 1990. SHAMBLIN, J. E. Pesquisa Operacional. São Paulo: Atlas, 1979. SPIEGEL, M. R. Estatística. São Paulo: Makron Books, 1994. SPIEGEL, M. R. Probabilidade e estatística. São Paulo: Mc Graw Hill, 1986. STEVESON, W. J. Estatística aplicada à Administração. São Paulo: Harbra, 1986. VIEIRA, S. O que é estatística. São Paulo: Brasiliense, 1987. VIEIRA, S.; WADA, R. Estatística – Uma introdução ilustrada. São Paulo: Atlas, 1986. 72 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA ANEXOS Tabela para teste z -4 -3 -2 -1 0 1 2 3 4 Área tabelada 73REFERÊNCIAS BIBLIOGRÁFICAS E ANEXOS Tabela para teste z (continuação) -4 -3 -2 -1 0 1 2 3 4 Área tabelada 74 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Tabela para teste t 75REFERÊNCIAS BIBLIOGRÁFICAS E ANEXOS 76 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Composto em caracteres Aller, Arial, Calibri, PT Sans e Times New Roman. Editorado pelo Centro de Apoio à Educação a Distância da UFMG (CAED-UFMG). Impresso pela Adescryn Gráfica Editora LTDA. Capa em Supremo, 250g, 4 X 0 cores - Miolo Off Set 120g, 4X4 cores. Julho - 2011 77 78 MÉTODOS QUANTITATIVOS EM GEOGRAFIA: INTRODUÇÃO À ESTATÍSTICA Composto em caracteres Aller, Arial, Calibri, PT Sans e Times New Roman. Editorado pelo Centro de Apoio à Educação a Distância da UFMG (CAED-UFMG). Impresso pela Adescryn Gráfica Editora LTDA. Capa em Supremo, 250g, 4 X 0 cores - Miolo Off Set 120g, 4X4 cores. Julho - 2011
Compartilhar