Baixe o app para aproveitar ainda mais
Prévia do material em texto
andré leme fleury estatística material-base das aulas 13-16 estatística material-base das aulas 13-16 4 APRESENTAÇÃO Na terceira etapa da disciplina você conheceu as prin- cipais distribuições de probabilidade: Distribuição de Bernoulli, Distribuição Binomial, Distribuição de Poisson e Distribuição Normal. Estas distribuições descrevem grande parte dos fenômenos probabilísticos de nosso interesse. Você conheceu também os conceitos princi- pais sobre amostras e as principais diretrizes para reali- zar bons processos de amostragem, ou seja, selecionar boas amostras. Esta é uma das etapas mais importantes dos métodos estatísticos já que uma boa amostragem garantirá acesso a informações de qualidade para que sejam realizadas interpretações generalizáveis para toda a população. Nesta nova etapa evoluiremos com os conceitos prin- cipais da Estatística Descritiva, segundo tema central desta disciplina. A Estatística Descritiva tem como ob- jetivo principal planejar e executar pesquisas capazes de gerar dados e informações relevantes para análise e tomada de decisão. Tendo em vista a organização e apresentação dos dados obtidos nos experimentos, trabalharemos com duas ferramentas muito importan- tes: a elaboração de tabelas de frequências, ou seja, ta- belas capazes de sintetizar as diferentes informações Estatística / Aulas 13–16 Material-base 3 coletadas durante o experimento a partir das amostras selecionadas e também os histogramas, representações gráficas dos resultados obtidos a partir dos experimentos e que foram sintetizados nas tabelas de frequ- ência elaboradas anteriormente. Outro objetivo importante na Estatística Descritiva é consolidar o con- junto dos dados de origem, obtidos a partir das amostras, em valores que sintetizam o seu comportamento. Para isto inicialmente exploramos as medidas de tendência central, também conhecidas como medidas de posição, incluindo média, mediana e moda. Posteriormente também co- nhecemos as medidas de dispersão, utilizadas para medir o grau de va- riabilidade dos valores observados num determinado experimento e que, por medirem a dispersão dos dados em relação às principais medidas de posição, servem para caracterizar a representatividade de um determina- do conjunto de observações. Estas medidas encontram-se entre as mais importantes medidas empregadas na Estatística. Bons estudos! Prof. André OBJETIVOS DAS AULAS DA SEMANA → Apresentar os conceitos principais sobre distribuições de frequên- cias, as tabelas de frequências e o gráfico histograma. → Apresentar aplicações dos conceitos de distribuições de frequências → Conceituar as principais medidas de posição central: moda, média e mediana e as principais medidas de dispersão: amplitude, variância e desvio padrão. → Apresentar aplicações dos conceitos relacionados com as medidas de posição e de dispersão Estatística / Aulas 13–16 Material-base 4 1. ExERcíciOS RESOlvidOS EXERCÍCIO 1 Construa a tabela de frequências e seu respectivo histograma com os va- lores apresentados na amostra. Inclua: → Classes; → Frequências absolutas; → Frequências relativas; → Frequências acumuladas; → Frequências relativas acumuladas. Amostra: 63 50 57 56 68 82 75 95 47 61 76 61 52 63 80 80 68 72 64 77 70 65 63 79 74 78 91 72 61 53 76 71 60 85 51 56 86 86 69 44 40 81 68 90 46 68 55 55 50 96 Solução Para começar, vamos colocar os números em ordem crescente, por coluna. 40 50 56 61 64 68 72 76 80 86 44 51 56 61 65 69 72 76 80 90 46 52 57 63 68 70 72 77 81 91 47 53 60 63 68 70 74 78 82 95 50 55 61 63 68 71 75 79 85 96 Desta forma, podemos encontrar a amplitude A. A = maior valor - menor valor = 96 - 40 = 56 Agora vamos encontrar o número de elementos N na amostra. Fazemos isso contando o número de valores da amostra. N = 50 Precisamos agora calcular o número de classes K que vamos utilizar. Estatística / Aulas 13–16 Material-base 5 K = N K = 50 ≅ 7,07 De posse desses valores, vamos calcular a amplitude das classes (H). H = A K = 56 7,07 = 7,92 Devemos aproximar 7,07 para 7 e 7,92 para 8. Como o produto 8 × 7 é igual a 56 (igual a A), não podemos trabalhar com esses números. Vamos aproximá-los para 8. Como 8 × 8 é igual a 64 (maior que A), podemos tra- balhar com esses números. Teremos 8 intervalos com amplitude 8. 35,5 – 43,5 43,5 – 51,5 51,5 – 59,5 59,5 – 67,5 67,5 – 75,5 75,5 – 83,5 83,5 – 91,5 91,5 – 99,5 Podemos construir a tabela, preenchendo a linha superior com os itens pedidos no enunciado, a última com os totais e a primeira coluna com as classes. classes frequência absoluta frequência relativa frequência acumulada frequência a relativa acumulada 35,5-43,5 43,5-51,5 51,5-59,5 59,5-67,5 67,5-75,5 75,5-83,5 83,5-91,5 91,5-99,5 Total Para preencher a coluna das frequências absolutas é só contar, na amostra, quantos elementos estão em cada intervalo. Para encontrar as Estatística / Aulas 13–16 Material-base 6 frequências acumuladas, devemos começar colocando na primeira linha o valor da frequência absoluta dessa linha. Depois, a cada linha que se segue, colocaremos o valor anterior da frequência acumulada somado ao valor da frequência absoluta da linha. Verifique que o total da soma dos valores da frequência absoluta deve ser igual a N. classes frequência absoluta frequência relativa frequência acumulada frequência a relativa acumulada 35,5-43,5 1 1 43,5-51,5 6 7 51,5-59,5 6 13 59,5-67,5 9 22 67,5-75,5 13 35 75,5-83,5 9 44 83,5-91,5 4 48 91,5-99,5 2 50 Total 50 - Em seguida, vamos preencher a coluna das frequências relativas e a das frequências relativas acumuladas. Para calcular a frequência relativa, to- mamos o valor da frequência absoluta e o dividimos por N (N = 50), obten- do a razão do valor da frequência absoluta em relação ao total. O procedimento para o cálculo da frequência relativa acumulada é si- milar ao da frequência acumulada. Na primeira linha, colocaremos o mes- mo valor da frequência relativa. Depois, a cada linha que se segue, coloca- remos o valor anterior da frequência relativa acumulada somado ao valor da frequência relativa da linha a ser preenchida. Verifique que o total da soma dos valores da frequência relativa absoluta deve ser igual a 1. classes frequência absoluta frequência relativa frequência acumulada frequência a relativa acumulada 35,5-43,5 1 2 1 2% 43,5-51,5 6 12 7 14% 51,5-59,5 6 12 13 26% 59,5-67,5 9 18 22 44% 67,5-75,5 13 26 35 70% 75,5-83,5 9 18 44 88% 83,5-91,5 4 8 48 96% 91,5-99,5 2 4 50 100% Total 50 100 – – Encerramos a resolução do exercício construindo o histograma, que é o gráfico das classes pela frequência absoluta. Estatística / Aulas 13–16 Material-base 7 15 0 35,5-43,5 10 5 43,5-51,5 51,5-59,5 59,5-67,5 67,5-75,5 75,5-83,5 83,5-91,5 91,5-99,5 Mais intervalos fr eq uê n ci a histograma EXERCÍCIO 2 Utilize seus conhecimentos sobre as tabelas de frequência e calcule os valores X1 a X8 na tabela a seguir. valores frequência absoluta frequência acumulada frequência relativa 1 4 x3 0,089 2 4 x4 x6 3 x1 16 0,178 4 7 x5 0,156 5 5 28 x7 6 x2 38 0,222 7 7 45 x8 ∑ 45 - 1 Solução Uma boa estratégia é começarmos a calcular os valores das colunas de valores acumulados. Vamos calcular X3, X4 e X5. Para calcular X5, devemos subtrair do valor da linha abaixo dele (28) o valor da frequência absoluta da linha abaixo de X5 (5). Fazemos o cálculo dessa maneira pois esta é a forma inversa para calcularmos a frequência acumulada. O cálculo do 28 foi feito da seguinte forma: 28 = X5 + 5. valores frequência absoluta frequência acumulada frequência relativa 1 4 x3 0,089 2 4 x4 x6 3 x1 16 0,178 4 7 x5 0,156 5 5 28 x7 6 x2 38 0,222 7 7 45 x8 ∑ 45 - 1 Resolvemos essa simples equação e encontramos X5 = 23. Estatística / Aulas 13–16 Material-base 8 Para encontrar X3 sabendo que este valor está na primeira linha das frequências acumuladas, concluímos que eleé igual à frequência absoluta da mesma linha. Encontramos X3 = 4. Como consequência, o valor X4 é igual a 8, pois, se sabemos a frequ- ência acumulada anterior e o valor da frequência absoluta na mesma li- nha, devemos somá-los para encontrar o valor solicitado. Passemos então para as incógnitas da coluna de frequências absolutas. Para encontrar X1, devemos subtrair da frequência acumulada na mesma linha a frequência acumulada da linha anterior. X1 é igual a 8. Agora, calcularemos X2. O procedimento é similar ao do cálculo de X1. Desta forma, encontraremos X2 = 10. Por fim, vamos calcular os valores da coluna das frequências relativas. Para isso, em cada caso, vamos dividir a frequência absoluta por N(N = 45). Encontraremos então os valores: X6 = 0,089 X7 = 0,110 X8 = 0,156 valores frequência absoluta frequência acumulada frequência relativa 1 4 4 0,089 2 4 8 0,089 3 8 16 0,178 4 7 23 0,156 5 5 28 0,110 6 10 38 0,222 7 7 45 0,156 ∑ 45 - 1 EXERCÍCIO 3 Em determinados níveis os inseticidas são nocivos à saúde humana. Os dados a seguir provêm de um experimento de comparação da quantida- de de inseticida em tecidos vegetais em três diferentes localidades. As amostras foram selecionadas utilizando a amostragem aleatória simples. Calcule a média e a variância de cada local e também a média global. Local A 1,01 1,13 0,97 1,07 0,92 Local B 1,04 0,97 0,87 0,78 0,72 Local C 0,88 1,08 1,03 0,99 0,93 Estatística / Aulas 13–16 Material-base 9 Solução a. Cálculo das médias xA = ∑ xA nA = 5,1 5 = 1,02 xB = ∑ xB nB = 4,38 5 = 0,876 xC = ∑ xC nC = 4,91 5 = 0,982 x = ∑ x n = 14,39 15 = 0,959 b. Cálculo das variâncias s2A = 5 i = 1 ∑ (xA - xA ) 2 nA - 1 = 0,0272 4 = 0,0068 s2B = 5 i = 1 ∑ (xB - xB ) 2 nB - 1 = 0,06932 4 = 0,01733 s2C = 5 i = 1 ∑ (xC - xC ) 2 nC - 1 = 0,02508 4 = 0,00627 EXERCÍCIO 4 Os salários hora médios de algumas categorias profissionais foram es- tudados por um grupo de pesquisadores com a finalidade de conhecer eventuais diferenças de proventos entre as profissões. Os trabalhadores que compõe a amostra foram selecionados por sorteio nas empresas pes- quisadas. Calcule as médias e a variância de cada categoria profissional. Em qual categoria existe maior variabilidade? Qual a maior diferença en- tre médias salariais? Estatística / Aulas 13–16 Material-base 10 trabalhador a b c d 1 6,00 12,00 11,00 9,00 2 9,00 11,00 8,00 8,00 3 9,00 10,00 12,00 10,00 4 6,00 8,00 9,00 10,00 5 5,00 9,00 10,00 9,00 6 7,00 6,00 9,00 13,00 7 6,00 7,00 8,00 12,00 8 7,00 12,00 9,00 11,00 9 5,00 13,00 9,00 10,00 10 8,00 10,00 11,00 11,00 Solução a. Cálculo das médias xA = ∑ xA nA = 68 10 = 6,8 xB = ∑ xB nB = 98 10 = 9,8 xC = ∑ xC nC = 96 10 = 9,6 xD = ∑ xD nD = 103 10 = 10,3 b. Cálculo das variâncias s2A = 10 i = 1 ∑ (xA - xA ) 2 nA - 1 = 19,6 9 = 2,178 s2B = 10 i = 1 ∑ (xB - xB ) 2 nB - 1 = 47,6 9 = 5,289 s2C = 10 i = 1 ∑ (xC - xC ) 2 nC - 1 = 16,4 9 = 1,822 s2D = 10 i = 1 ∑ (xD - xD ) 2 nD - 1 = 20,1 9 = 2,233 Estatística / Aulas 13–16 Material-base 11 c. A maior variabilidade salarial existe na categoria B e a maior diferen- ça entre médias salariais é de R$ 3,50. 2. ExERcíciOS PROPOSTOS EXERCÍCIO 1 Encontre a média, a mediana, a moda, a variância e o desvio padrão das distribuições dos dados apresentados a seguir. Considere que os mesmos representam os resultados obtidos por indivíduos que compõe amostras selecionadas probabilisticamente. a. 6 2 2 10 6 4 8 1 6 2 1 12 9 3 9 8 5 6 5 9 10 1 6 3 7 2 4 4 6 7 2 4 2 5 3 3 9 1 6 8 1 3 4 2 4 3 7 6 4 9 b. 11 93 45 78 31 87 99 54 88 11 61 36 6 3 32 31 50 20 29 46 6 32 54 56 49 10 77 51 66 29 52 47 61 77 87 47 65 86 71 67 51 32 69 30 18 59 98 34 75 93 EXERCÍCIO 2 A femtoquímica é um ramo da ciência que estuda fenômenos que acontecem em prazos extremamente curtos, os femtosegundos (fs). Um femtosegundo equivale a 1×10-15 segundos, ou seja, um milionésimo de um bilionésimo de segundo. O principal objetivo desta área de pesquisas é compreender os processos de reações químicas em um nível molecular, onde é possível investigar porque algumas reações ocorrem ou não e e controlar o resultado de uma reação química. Considere a seguinte tabela obtida a partir da realização de 55 experimentos, expressa em femstosegundos: Estatística / Aulas 13–16 Material-base 12 185 189 179 169 186 165 165 169 162 172 192 199 182 183 168 147 170 153 171 163 190 159 179 148 169 176 151 170 164 155 185 160 181 168 160 171 168 177 172 176 182 193 180 177 176 162 173 163 175 155 178 178 179 172 171 a. Considerando os valores apresentados elabore uma tabela contendo: → Classes → Frequência absoluta → Frequência relativa → Frequência acumulada → Frequência relativa acumulada → Ponto médio das classes b. Elabore um histograma para a distribuição de frequências obtida. 3. MATERiAiS dE APOiO 1. Applet “Sampling Distributions” http://onlinestatbook.com/stat_sim/sampling_dist/index.html Determine, no primeiro gráfico, uma população criada por você ou utilize uma das predefinidas (uniforme, normal ou assimétrica). Em seguida, gere amostras de tamanho N a partir dessa população e veja gráficos da média, mediana, desvio padrão, etc. 2. Simulador: Probabilidade: a matemática ao acaso http://objetoseducacionais2.mec.gov.br/handle/mec/1643 A animação apresenta os conceitos básicos da teoria de probabili- dade, de seleção de amostras e as características de uma pesquisa confiável. Aborda conceitos de probabilidades simples e condicional; elementos de amostragem e estimativas; medidas de posição: mé- dia, mediana e moda; medidas de dispersão. 3. Simulador: Medidas de Dispersão http://objetoseducacionais2.mec.gov.br/handle/mec/16499 O objetivo geral desta atividade é explorar medidas de dispersão que se baseiam nos desvios em torno da média. http://onlinestatbook.com/stat_sim/sampling_dist/index.html http://objetoseducacionais2.mec.gov.br/handle/mec/1643 http://objetoseducacionais2.mec.gov.br/handle/mec/16499 Estatística / Aulas 13–16 Material-base 13 4. Simulador: Medidas do Corpo: Gráfico de Dispersão http://objetoseducacionais2.mec.gov.br/handle/mec/17091 Neste software, você irá praticar a análise exploratória de dados para duas variáveis: número do calçado e altura. A relação entre es- sas duas variáveis quantitativas será analisada por meio do chama- do gráfico de dispersão e do coeficiente de correlação linear. 5. Simulador: Cálculo de parâmetros de dispersão de dados discre- tos organizados em uma tabela de frequência http://objetoseducacionais2.mec.gov.br/handle/mec/18810 A animação apresenta o cálculo dos parâmetros de dispersão de da- dos discretos em uma tabela de frequências. 6. Simulador: Galileu e seu navio http://objetoseducacionais2.mec.gov.br/handle/mec/10739 Neste aplicativo uma partícula pode se mover sobre uma linha reta no eixo x. É possível explorar as diferenças entre as medidas de po- sição realizadas nos dois sistemas de referências e escrever as equa- ções relacionando as posições em cada sistema se referência para o movimento escolhido. 7. Simulador: O trem de Galileu http://objetoseducacionais2.mec.gov.br/handle/mec/10721 Neste aplicativo existe um trem, um objeto sobre o trem e duas ré- guas. Uma das réguas está presa ao trem e a outra fixa a Terra. É possível explorar as diferenças entre as medidas de posição do ob- jeto realizadas nos dois sistemas de referências e escrever as equa- ções relacionando as posições em cada sistema se referência para o movimento escolhido. 8. Simulador: Medidas de posição http://objetoseducacionais2.mec.gov.br/handle/mec/16498 O objetivo geral desta atividade é explorar algumas propriedades da média aritmética simples, da moda e da mediana de uma distribui- ção de dados. Esta atividade apresenta três softwares paraexplorar propriedades de medidas de posição: (1) Média versus moda; (2) Mé- dia versus mediana; (3) Interpretação da média. http://objetoseducacionais2.mec.gov.br/handle/mec/17091 http://objetoseducacionais2.mec.gov.br/handle/mec/18810 http://objetoseducacionais2.mec.gov.br/handle/mec/10739 http://objetoseducacionais2.mec.gov.br/handle/mec/10721 http://objetoseducacionais2.mec.gov.br/handle/mec/16498 Estatística / Aulas 13–16 Material-base 14 SÍnTeSe daS aulaS Nesta unidade você aprendeu que para organizar os dados coletados utiliza-se as tabelas de frequências, empregando as classes de frequên- cias. Essas classes são intervalos, preferencialmente de mesma amplitude, que englobam todos os dados analisados. Para obter a amplitude dos intervalos, deve-se escolher um número conveniente de classes e fazer o seguinte cálculo: H = A K Onde H é a amplitude das classes, K é o número de classes desejadas e A é a amplitude de todo o intervalo que contém os dados, ou seja, é o valor máximo da amostra menos o valor mínimo da amostra. A partir daí, divide-se o intervalo de valores em K classes de amplitude H e a frequência de cada uma delas será a quantidade de valores que pertencem ao intervalo. Por segurança, pode-se subtrair 0,5 de cada extremo dos intervalos e obter assim os limites reais da classe, garantindo que não haverá dúvida a respeito de um determinado valor pertencer ou não a uma classe. As principais medidas utilizadas para caracterizar os resultados obtidos em experimentos estatísticos são as medidas de posição e as medidas de dispersão. As principais medidas de posição são as seguintes: 1. Média 1.1. Média aritmética simples x = n i = 1∑ xi n 1.2. Média aritmética ponderada xp = n i = 1∑ xi pi n i = 1∑ pi Estatística / Aulas 13–16 Material-base 15 1.3. Média aritmética – dados agrupados sem intervalos de classe x = n i = 1∑ xini n 1.4. Média aritmética – dados agrupados com intervalos de classe x = n i = 1∑ xini n 2. Moda (Mo) Corresponde ao valor de maior frequência numa determinada dis- tribuição. 3. Mediana 3.1. Número par de elementos Md = x(Emd) + x(Emd + 1) 2 3.2. Número impar de elementos Md = elemento central - termo de origem n + 1 2 Síntese das vantagens e desvantagens de cada medida: medida definição vantagens desvantagens Média Centro da Distribuição Reflete todos os valores É afetada por valores extremos Mediana Divide a distribuição ao meio Menos sensível a valores extremos Difícil determinar para grandes quantidades de dados Moda Valor mais frequente Valor típico Não é utilizado em análises matemáticas Por sua vez as principais medidas de dispersão são as seguintes: Estatística / Aulas 13–16 Material-base 16 4. Amplitude A = Xmax - Xmin 5. Variância 5.1. Dados não agrupados População S2 = N i = 1 ∑ (xi - x) 2 N Amostra S2 = n i = 1 ∑ (xi - x) 2 n - 1 Obs: quando a variância refere-se à amostra trabalha-se com (n-1) no denominador pois os graus de incerteza são maiores 5.2. Dados agrupados População s2 = ∑ xi 2ni N - ∑ xini N 2 Amostra s2 = ∑ xi 2ni n - 1 - ∑ xini n - 1 2 6. Desvio Padrão S = S2 17Estatística / Aulas 13–16 Material-base gabariTo - exercÍcioS ProPoSToS ExERcíciO 1 a. Média = 5,0 Mediana = 4,5 Moda = 6 Variância = 8,163 Desvio Padrão = 2,857 b. Média = 51,2 Mediana = 49,5 Moda = 32 e 61 Variância = 709,796 Desvio Padrão = 26,642 ExERcíciO 2 a. Tabela limite inferior limite superior frequência absoluta frequência relativa (%) frequência acumulada frequência rela- tiva acumulada ponto médio 144,5 152,5 3 5.5% 3 5.5% 148,5 152,5 160,5 6 10.9% 9 16.4% 156,5 160,5 168,5 10 18.2% 19 34.5% 164,5 168,5 176,5 16 29.1% 35 63.6% 172,5 176,5 184,5 12 21.8% 47 85.5% 180,5 184,5 192,5 6 10.9% 53 96.4% 188,5 192,5 200,5 2 3.6% 55 100.0% 196,5 b. Histograma 18 16 14 12 10 6 2 0 148,5 156,5 164,5 172,5 180,5 188,5 196,5 8 4
Compartilhar