Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. Emilio Celso UNIDADE I Matemática Integrada Nesta unidade veremos: Amostragem; Correlação; Regressão linear; Estimativa de parâmetros. Introdução População Amostra Amostragem Inferência Análises estimativas - x s2 - I.C. 95% - Testes População Amostra: é a parte mais importante de uma pesquisa porque permite inferências em relação à população de origem. Amostragem: é uma técnica usada para coletar amostras que vão garantir o acaso na escolha. Inferência Amostragem Fonte: http://www.ufscar.br/jcfogo/EACH/Arquivos/Material_Aula_2.pdf Amostragem não probabilística: São amostragens em que há uma escolha deliberada dos elementos da amostra. Depende dos critérios e julgamento do pesquisador. Amostragem probabilística: São amostragens em que a seleção é aleatória de tal forma que cada elemento da população tem uma probabilidade conhecida de fazer parte da amostra. São métodos rigorosamente científicos. Técnicas de amostragem probabilística: Tipos de amostragem Todos os elementos da população têm a mesma probabilidade de pertencer à amostra. SORTEIO. Exemplo: Obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola. 1º) Numerar os alunos de 1 a 200; 2º) Escrever os números (1 a 200) em pedaços de papel e colocá-los em uma urna; 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população. Amostragem aleatória simples Para população heterogênea. Quando a população se divide em subpopulações homogêneas ou estratos. A variável em estudo pode ter comportamentos diferentes de um estrato para o outro, porém apresentar comportamento homogêneo dentro de cada estrato. A definição dos estratos pode ser de acordo com sexo, idade, renda, grau de instrução, etc. Ex.: selecionar uma amostra com números de homens e mulheres proporcionais aos números de homens e mulheres existentes na população, por classe social. Amostragem aleatória estratificada É usada quando a identificação dos elementos da população é extremamente difícil, porém pode ser relativamente fácil dividir a população em conglomerados (subgrupos) heterogêneos representativos da população global. Ex.: entrevistar uma amostra de estudantes do curso de EAD. É impraticável selecionar essa amostra de estudantes, em que a população não é definida exatamente. Então, deve selecionar aleatoriamente estudantes de duas ou três disciplinas, tomando o cuidado para garantir que não existam vícios. Amostragem por conglomerados Amostragem sistemática: Quando os elementos da população se apresentam ordenados de acordo com algum critério. Um exemplo seria a retirada de elementos de uma amostra, periodicamente, a partir de listas telefônicas. Amostragem em múltiplas etapas: é uma técnica utilizada para produzir uma amostra representativa de uma população muito espalhada. É similar à técnica por conglomerados, mas nesse caso o processo só é finalizado quando há seleção de unidades individuais de amostragem. Amostragem sistemática e Amostragem em múltiplas etapas As formas que os dados de uma amostra são explorados podem mudar completamente um estudo. Em um estudo, o cuidado na escolha da amostra é importante para o emprego adequado dos métodos estatísticos. Existem várias técnicas de amostragem que podem ser utilizadas para facilitar o trabalho de pesquisa, evitando, dessa forma, um custo excessivo e desnecessário na caracterização de todos os elementos de uma população. Dados de uma amostra A Secretaria de Educação de um município deseja investigar os casos de fraude e burla da fila de espera para matrícula de alunos na rede municipal de ensino. Assim, analisam-se (1) as listas de espera com ordenação por data de inserção dos candidatos; (2) listas de alunos matriculados, ordenados por data de matrícula. A técnica de amostragem adotada é: a) Amostragem aleatória simples. b) Amostragem aleatória estratificada. c) Amostragem sistemática. d) Amostragem em múltiplas etapas. e) Amostragem não probabilística. Interatividade A Secretaria de Educação de um município deseja investigar os casos de fraude e burla da fila de espera para matrícula de alunos na rede municipal de ensino. Assim, analisam-se (1) as listas de espera com ordenação por data de inserção dos candidatos; (2) listas de alunos matriculados, ordenados por data de matrícula. A técnica de amostragem adotada é: c) Amostragem sistemática. Comentário: Os elementos da população se apresentam ordenados de acordo com algum critério. No caso, estão ordenados por data. Resposta O significado do termo “correlação” é a existência da relação em dois sentidos (co + relação). O termo é usado em estatística para demonstrar a força da relação entre dois conjuntos de dados. Verificar a possível existência e o grau de relação entre as variáveis e a correlação. Se houver relação, será descrita sob forma matemática, por meio de uma função. Exemplo: a estatura de uma pessoa e o seu peso. Para uma estatura maior, corresponde, em geral, a um peso maior. Dizemos, por isso, que entre as variáveis peso e estatura existe correlação. Correlação O coeficiente de correlação linear, ou coeficiente de Pearson, indica se existe correlação entre as variáveis analisadas. Existirá correlação linear se esse coeficiente estiver entre -1 e + 1, o que em porcentagem representa um valor entre -100% e + 100%. Esse coeficiente é calculado assim: Coeficiente de correlação de Pearson Tipo de correlação Coeficiente de correlação r Tipo de correlação r = 1 Perfeita positiva 0,8 < r < 1 Forte positiva 0,5 < r < 0,8 Moderada positiva 0,1 < r < 0,5 Fraca positiva 0 < r < 0,1 Íntima positiva 0 Nula -0,1 < r < 0 Íntima negativa -0,5 < r < -0,1 Fraca negativa -0,8 < r < -0,5 Moderada negativa -1 < r < -0,8 Forte negativa r = -1 Perfeita negativa Fonte: Livro-texto. Os diagramas de dispersão mostram o comportamento da relação entre variáveis em decorrência do coeficiente de correlação linear. Pesquisa em um grupo de pessoas da mesma faixa etária sobre o nível de escolaridade e o número de carros que tiveram até o momento. xi: número de anos que a pessoa estudou; yi: número de carros que a pessoa teve em sua vida. Diagrama de dispersão xi 3 5 7 9 10 yi 1 2 3 5 7 anos de estudo n ú m e ro d e c a rr o s Deseja-se estudar se há relação entre a mudança de temperatura xi (em graus) e o número de venda de cobertores yi durante certo período. Pede-se: a) Verificar se existe correlação entre as variáveis. b) Em caso afirmativo, que tipo de correlação, positiva ou negativa? Fraca, forte ou moderada? Justifique. Exemplo de aplicação xi 5 15 20 25 30 35 yi 48 43 34 19 11 6 a) Verificando se há correlação. E definir as variáveis dependentes e independentes. Tabela: Temperatura x Vendas Cálculo das somatórias xi yi xi 2 yi 2 xiyi 5 48 (5)2 = 25 (48)2 = 2304 (5.48) = 240 15 43 (15)2 = 225 (43)2 = 1849 (15.43) = 645 20 34 (20)2 = 400 (34)2 = 1156 (20.34) = 680 25 19 (25)2 = 625 (19)2 = 361 (25.19) = 475 30 11 (30)2 = 900 (11)2 = 121 (30.11) = 330 35 6 (35)2 = 1225 (6)2 = 36 (35.6) = 210 ∑xi = 130 ∑yi = 161 ∑xi 2 = 3400 ∑yi 2 = 5827 ∑xiyi = 2580 Ou seja, há uma correlação negativa forte. Pode-se concluir que o aumento da temperatura diminui a venda de cobertores. Cálculo do coeficiente de correlação r Assinale a alternativa com a informação incorreta: a) A regressão linear é a análise de relação entre uma variável chamada a variável dependente (X) e outras variáveis chamadas variáveis independentes (Y). b) O diagrama de dispersão é uma ferramenta que indica a existência, ou não, de relações entre variáveis de um processo e sua intensidade, representando duas ou mais variáveis, uma em função da outra. c) A correlação linear avalia e mede as relações entre as variáveis dependentese independentes. d) Uma correlação positiva forte entre duas variáveis vai ter um valor r = 0,80. e) Uma correlação negativa fraca entre duas variáveis vai ter um valor r = -0,80. Interatividade Assinale a alternativa com a informação incorreta: a) A regressão linear é a análise de relação entre uma variável chamada a variável dependente (X) e outras variáveis chamadas variáveis independentes (Y). b) O diagrama de dispersão é uma ferramenta que indica a existência, ou não, de relações entre variáveis de um processo e sua intensidade, representando duas ou mais variáveis, uma em função da outra. c) A correlação linear avalia e mede as relações entre as variáveis dependentes e independentes. d) Uma correlação positiva forte entre duas variáveis vai ter um valor r = 0,80. e) Uma correlação negativa fraca entre duas variáveis vai ter um valor r = -0,80. Resposta O uso da análise de regressão tem como prioridade fazer previsões, estimativas ou projeções. O objetivo é desenvolver um modelo estatístico que será usado para estimar valores de uma variável dependente y em função de uma variável independente x. Regressão linear Estimativas usando modelo matemático que é igual a Qual é o número de vendas esperado quando a temperatura é de 10º? Y = 45 cobertores Exemplo: Temperatura x Vendas Equação da reta: Determinar o coeficiente b n: nº de possíveis correlações entre x e y. Determinação da equação de regressão linear simples Determinar o coeficiente a Sendo: a) Determinar o coeficiente linear b. Exemplo de cálculo de regressão linear (T x venda de cobertores) Determinar o coeficiente a Sendo: Então E a reta da regressão linear será: Continuação do exemplo A quantidade demandada de energia elétrica (y) é função da tarifa (x) e a equação de regressão é: y = - 0,56x + 158,8 Sendo assim, a estimação da quantidade demandada para uma tarifa de 100 é igual a: a) 560,0 b) 401,2 c) 214,8 d) 105,0 e) 102,8 Interatividade A quantidade demandada de energia elétrica (y) é função da tarifa (x) e a equação de regressão é: y = - 0,56x + 158,8 Sendo assim, a estimação da quantidade demandada para uma tarifa de 100 é igual a: a) 560,0 b) 401,2 c) 214,8 d) 105,0 e) 102,8 Resposta O método de “estimação de parâmetros” é utilizado para se obter estimadores em casos específicos, por exemplo, quando fazemos alguma hipótese sobre algum parâmetro relativo à distribuição da população. Esse processo utiliza dados da amostra para fazer a estimativa de valores de parâmetros populacionais. Estimativa é o valor numérico assumido pelo estimador, ou seja, valor aproximado do parâmetro, calculado com base na amostra. Estimativa de parâmetros Estimadores Parâmetros média amostral x; média populacional μ; desvio padrão amostral S. desvio padrão populacional σ. Distribuição amostral é a distribuição da grandeza calculada de cada amostra possível de ser extraída. Para cada amostra, é possível calcular uma grandeza estatística, que irá sofrer uma variação de uma amostra para outra. O teorema descreve a distribuição da média de uma amostra aleatória de uma população com variância finita. Distribuição amostral e Teorema do limite central A distribuição das médias amostrais quando n 30 se aproxima de uma distribuição normal. α = nível de significância populacional: (mais usados são 1% e 5%). Intervalo de confiança para a média populacional (n≥30) Fonte: Livro-texto. P(- 1,96 < + 1,96) = 95% c = 1 – α = 95% (nível de confiança do intervalo). Exemplo: para = 5% Fonte: Livro-texto. Tabela: distribuição normal padronizada 0,4750 Fonte: Livro-texto. Para amostras grandes, temos: P( -ZC < Z < +ZC ) = (1 - α) Se o desvio padrão populacional for conhecido: Amostragem de população infinita ou amostragem de população finita com reposição: Intervalo de confiança para a média populacional (n≥30) Se o desvio padrão populacional for desconhecido e n ≥ 30: Normalmente, o desvio padrão da população σ não é conhecido e é necessário, então, em substituição a σ, usar a estimativa do desvio padrão S obtida da amostra, com a condição de que n ≥ 30. Intervalo de confiança para a média populacional (n≥30) Caso n < 30, a aproximação pela curva normal não será suficiente, devendo ser feita uma correção usando-se a variável t de Student. Exemplo: Foi testada uma amostra de 20 lâmpadas selecionadas ao acaso, que resultaram numa vida média de 48,2 meses e desvio padrão de 5,4 meses. Determine um intervalo de confiança de 95% em torno da verdadeira média da população (população infinita). Dados: Exemplo para intervalo de confiança para média populacional (n<30) Consultar a tabela de distribuição t de Student com = 0,05 e gl = 19. O valor tabelado é tc = 2,093. Continuação do exemplo 2,093 Fonte: Livro-texto. Diagrama de distribuição t de Student. E agora determinar o intervalo de confiança de 95% em torno da verdadeira média da população. Continuação do exemplo Fonte: Livro-texto. Ainda continuando com o exemplo A construção do intervalo de confiança para a variância é feita utilizando-se a distribuição de X2 (lê-se “qui-quadrado”), sendo definido por: O valor de X2 é tabelado sendo: Intervalo de confiança para a variância e o desvio padrão A amostra a seguir refere-se às vendas em kg de uma amostra de produtos hortigranjeiros de certo estabelecimento. Construa um intervalo de confiança para o desvio padrão populacional das vendas, com nível de confiança de 90%. Vendas - xi: 2, 2, 4, 4, 5, 7, 8, 8, 8, 9, 9 Solução: Média aritmética das vendas. Exemplo de aplicação Determinação do desvio padrão amostral das vendas. s2 = 6,8 Solução (continuação) xi (xi – x) 2 2 (2-6)2 = 16 2 (2-6)2 = 16 4 (4-6)2 = 4 4 (4-6)2 = 4 5 (5-6)2 = 1 7 (7-6)2 = 1 8 (8-6)2 = 4 8 (8-6)2 = 4 9 (9-6)2 = 9 9 (9-6)2 = 9 ∑(xi – x) 2 = 68Fonte: Livro-texto. = 10% ou 0,01 e n = 11 Solução (Cálculo do intervalo de confiança) Fonte: Livro-texto. (n – 1) = (11 – 1 ) = 10 s² = 6,8 Resposta O desvio padrão populacional está situado no intervalo 1,927 e 4,154, com uma confiança de 90%. Intervalo de confiança para a variância: P (3,714 < σ2 < 17,259) = 0,90 Intervalo de confiança para o desvio padrão: P (1,927 < σ < 4,154) = 0,90 Solução (Cálculo do intervalo de confiança) Um Intervalo de Confiança (IC) é um intervalo estimado a respeito de um parâmetro estatístico. Em vez de fazermos a estimativa do parâmetro por apenas um valor, é dado um intervalo de estimativas prováveis. O quanto serão prováveis essas estimativas, ou seja, o quanto podemos confiar nelas, é determinado pelo coeficiente de confiança (α). Conclusão Sabe que a vida útil de uma peça de equipamento tem σ = 5h. Uma amostra de 100 unidades dessas peças forneceu ҧ𝑥 = 500h. O intervalo de confiança com nível de 95% para média μ é: a) 499,42 < μ < 500,98 b) 498,32 < μ < 499,98 c) 499,12 < μ < 500,78 d) 499,02 < μ < 500,98 e) 501,02 < μ < 501,98 Interatividade Alternativa correta é: “d” Comentário: Como n = 100 > 30, a distribuição normal será usada. Assim, Zα/2 = 1,96 (para 1 - α = 95%) Cálculo do intervalo de confiança: Logo, 499,02 < μ < 500,98. Resposta ATÉ A PRÓXIMA!
Compartilhar