Baixe o app para aproveitar ainda mais
Prévia do material em texto
BC-0005 Bases Computacionais da Ciência 2009 Aula 08 Noções de Estatística Média, desvio padrão, erro padrão Exercicíos – utilização da base de dados da turma Roteiro da Aula PARTE I – Noções de Estatística O que é Estatística Descritiva e Estatística Inferencial Medidas de Tendência Central Medidas de Dispersão PARTE II –Exercícios Determinação da altura média, peso médio Gráficos idade X altura; idade x peso Histograma de times Idade Altura Peso Taxa Pulsação Pressão Sistólica Pressão diastólica Colesterol IMC (anos) (m) (Kg) bat/min mmHg mmHg mg 58 1,8 76,1 68 125 78 522 23,5 22 1,68 64,9 64 107 54 127 23 32 1,82 80,7 88 126 81 740 24,3 31 1,74 79,1 72 110 68 49 26 28 1,72 68,7 64 110 66 230 23,3 46 1,76 75,1 72 107 83 316 24,3 41 1,69 60,8 60 113 71 590 21,3 56 1,71 90,7 88 126 72 466 31,1 20 1,73 78,8 76 137 85 121 26,2 54 1,67 62,6 60 110 71 578 22,5 17 1,6 70,3 96 109 65 78 27,5 73 1,73 84 72 153 87 265 27,9 52 1,86 86 56 112 77 250 24,9 25 1,72 68,1 64 119 81 265 23,1 29 1,73 94,2 60 113 82 273 31,6 17 1,8 106,7 64 125 76 272 32,8 41 1,56 79,5 84 131 80 972 32,8 52 1,94 99,3 76 121 75 75 26,5 32 1,68 74,7 84 132 81 138 26,4 20 1,77 61,8 88 112 44 139 19,7 20 1,66 73,9 72 121 65 638 26,8 29 1,78 73,1 56 116 64 613 23,1 Estatística Quais são a altura, peso e IMC médios desta amostra? Qual a altura média da turma? Qual a taxa de aprovação no vestibular de uma determinada escola? Qual a maior torcida presente nesta sala? A Estastística é capaz de responder com maior exatidão essas questões Estatística Descritiva apresentação, organização e resumo dos dados Pode incluir a construção de gráficos, tabelas e computação de várias medidas, tais como, medidas de tendência central (média, mediana, moda), medidas de dispersão (amplitude, desvio médio, variância, desvio padrão), percentagem e outras O propósito desta estatística é fazer com que os dados coletados sejam compreendidos mais facilmente Estatística Inferencial generalização de uma amostra de dados para um grande número de sujeitos métodos estatísticos são usados para tirar conclusões, fazer estimativas, predições e generalizações sobre todo um conjunto de dados, estudando apenas parte dele, ou seja, a estatística inferencial nos permite usar informações de pequenos grupos para fazer inferências sobre grandes grupos dos quais os dados foram retirados Medidas de Tendência Central Valor médio ou típico de um conjunto de dados Média Aritmética ou Média: utilizada para dados quantitativos Mediana: utilizada para dados ordinais Moda: utilizada também para dados nominais (variáveis qualitativas) Média Aritmética É o centro de gravidade dos dados Soma de um conjunto de valores dividida pelo número de dados do conjunto : N X X N i i∑ = = 1 N iX é o número total de valores do conjunto é um valor do conjunto Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53 Média 5,3 Função no Excel ou BrOffice: MÉDIA 2 3 4 5 6 8 90 1 Mediana: valor central do conjunto que divide a distribuição em duas partes iguais (mesmo número de dados abaixo e acima do valor) Os dados devem estar ordenados Notação: Mediana = Posição da mediana => No caso de um número par de sujeitos a mediana será a média entre os dois valores centrais. Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82 Med = 62+64 = 63 2 Notas Freqüência Simples Freqüência Acumulada 2 1 1 3 1 2 4 1 3 5 3 6 6 2 8 7 1 9 8 1 10 9 1 11 iX 2 1+ = Ni Função no Excel ou BrOffice: MED i= 11 + 1 = 6 Posição 6 Nota 5 2 Moda é a categoria que ocorre com maior frequência A moda pode não existir OU pode não ser única Exemplos: 1,1,3,3,5,7,7,7,11,13 moda 7 3,5,8,11,13,18 não tem moda 3,5,5,5,6,6,7,7,7,11,12 tem duas modas: 5,7 (bimodal) Notas Freq. 2 1 3 1 4 1 5 3 6 2 7 1 8 1 9 1 Notas Freq. 2 1 3 3 4 1 5 1 7 3 8 1 9 1 0 1 2 3 4 2 3 4 5 6 7 8 9 Frequência Nota Distribuição Unimodal 0 1 2 3 4 2 3 4 5 7 8 9 Frequência Nota Distribuição Bimodal Função no Excel ou BrOffice: MODO Características das medidas de tendência central Abaixo de 100 100 300 500 700 900 1000 3000 5000 acima de 5000 0 20000 40000 60000 80000 100000 120000 140000 160000 Renda Média Mensal (R$) Fr eq uê nc ia Média Mediana Moda Média influência de cada amostra depende de seu valor (os valores extremos influenciam fortemente) Mediana influência de cada amostra depende de sua posição (valor central) Moda influência de cada amostra depende de sua frequência (valor com mais ocorrência) Mediana e Moda são menos influenciadas por valores extremos Fonte: Censo Demográfico IBGE 2000 Distribuição de Renda na Califórnia e nos EUA Medidas de Dispersão ou Variabilidade: quanto os dados numéricos dispersam-se em torno de um valor médio Variância: Soma dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto. Dados )(X Desvios )( XX − Quadrados dos Desvios 2)( XX − 0 -5 25 4 -1 1 6 1 1 8 3 9 7 2 4 5=X ∑ =− 0)( XX ∑ =− 40)( 2XX Função no Excel ou BrOffice: VAR 2 2 ( ) 40 / 4 10 1 x X s N − = = = − ∑ Medidas de Dispersão ou Variabilidade: Desvio Padrão reflete o quanto os dados se dispersam da média È a raiz quadrada da variância Função no Excel ou BrOffice: DESVPAD 2( ) 10 3,16 1 x X s N − = = = − ∑ Erro Padrão da Média - EPM Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53 Média 5,3 DVP 2,11 EPM 0,7 Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população. O erro padrão analisa a variabilidade de uma média Quanto maior o número de dados, menor o erro padrão da média 1− = N s Xσ Erro Padrão da Média - EPM 1− = N s Xσ Não existe uma Função direta no Excel ou BrOffice para cálculo do EPM Portanto, calcula-se a partir do desvio padrão EPM = s/ RAIZ (CONT.NÚM-1) Alunos Turma A Turma B 1 5 8 2 5 9 3 5 7 4 5 7 5 5 2 6 6 5 7 4 2 8 6 0 9 5 2 10 5 10 Total 53 53 Média 5,1 5,2 DVP 0,57 3,49 EPM 0,18 1,1Turma A Turma B 0 1 2 3 4 5 6 7 8 9 10 Distribuição Normal A distribuição normal (também chamada distribuição gaussiana, em homenagem a Carl Friedrich Gauss) é um importante modelo de distribuição estatística, observado frequentemente em experimentos relacionados ao estudo de fenômenos de ciências tão distintas quanto biologia, física e economia. Exemplo Um instituto de pesquisas realiza uma amostragem com 5000 pessoas para obter uma estimativa da altura média do brasileiro adulto. Estas pessoas são sorteadas para a pesquisa através de uma estratificação adequada, que reflita os dados de toda a população do país. Observe os resultados, categorizados por faixas de altura: www.financasnet.com.br Cálculo da frequência relativa (porcentagem) = freq. Absoluta/ freq.total * 100 Distribuição Normal Média: 1,653 Desvio Padrão: 0,173 www.financasnet.com.br Ela é hipotética e essencial na tomada de decisões em estatística. Muitos dos testes estatísticos só têm validade se seus dados constituírem uma distribuição normal. Características da Distribuição Normal Quanto mais valores são plotados em uma distribuição, mais ela se assemelha a uma normal É determinada por dois parâmetros: - Média da população - Desvio padrão da população Distribuição é simétrica e unimodal em relação à média Valores de média, moda e mediana são iguais Área total sob a curva é igual a 100%, com exatos 50% distribuídos à esquerda da média e 50% à sua direita Áreas sob a Curva Normal A área sob a curva de uma distribuição normal é fundamental na solução de problemas. Ela corresponde a 100% dos dados Uma área de 34,13 % da totalidade dos dados é delimitada entre a média e 1 desvio padrão da média Quando o desvio padrão da média é 2 a área aumenta para 47,87% Quando é 3 a área aumenta para 49,87%. Estas proporções são constantes em uma distribuição normal Tipos de distribuição Distribuição Unimodal e Simétrica: Média, Mediana e Moda são iguais!!!! o ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média) Em geral, em uma distribuição assimétrica: A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos valores extremos) mediana está entre a moda e mediana Medida de Tendência Central mais adequada: Distribuição Simétrica Média Distribuição Assimétrica Mediana ou Moda Distribuição Bimodal Modas Tipos de Distribuição e medidas de tendência central Distribuição Unimodal e Simétrica: Média, Mediana e Moda são iguais!!!! Ponto de Freqüência Máxima (moda) é também o mais central (mediana) e o centro de gravidade (média). Distribuição assimétrica: A moda está sempre próxima ao “pico” A média está mais próxima da “cauda” (sofre influência dos valores extremos) A mediana está entre a moda e mediana Distribuição Assimétrica 0 1 2 3 4 5 2 3 4 7 8 9 10N o ta F re q ü ê n ci a M oda M ediana M édia Distribuições assimétricas => mediana !!! Distribuição bimodal => Moda!!! Exercício 1 em sala: Idade Altura Peso Taxa Pulsação Pressão Sistólica Pressão diastólica Colesterol IMC (anos) (m) (Kg) bat/min mmHg mmHg mg 58 1,8 76,1 68 125 78 522 23,5 22 1,68 64,9 64 107 54 127 23 32 1,82 80,7 88 126 81 740 24,3 31 1,74 79,1 72 110 68 49 26 28 1,72 68,7 64 110 66 230 23,3 46 1,76 75,1 72 107 83 316 24,3 41 1,69 60,8 60 113 71 590 21,3 56 1,71 90,7 88 126 72 466 31,1 20 1,73 78,8 76 137 85 121 26,2 54 1,67 62,6 60 110 71 578 22,5 17 1,6 70,3 96 109 65 78 27,5 73 1,73 84 72 153 87 265 27,9 52 1,86 86 56 112 77 250 24,9 25 1,72 68,1 64 119 81 265 23,1 29 1,73 94,2 60 113 82 273 31,6 17 1,8 106,7 64 125 76 272 32,8 41 1,56 79,5 84 131 80 972 32,8 52 1,94 99,3 76 121 75 75 26,5 32 1,68 74,7 84 132 81 138 26,4 20 1,77 61,8 88 112 44 139 19,7 20 1,66 73,9 72 121 65 638 26,8 29 1,78 73,1 56 116 64 613 23,1 18 1,6 68,3 68 95 58 762 26,8 26 1,74 64,8 64 110 70 303 21,4 33 1,73 92,1 60 110 66 690 30,6 55 1,76 87,2 68 125 82 31 28,1 53 1,76 77,8 60 124 79 189 25,2 28 1,73 72,9 60 131 69 957 24,4 28 1,83 78,7 56 109 64 339 23,6 37 1,68 76,4 84 112 79 416 27,1 40 1,84 96 72 127 72 120 28,4 33 1,85 89,1 84 132 74 702 25,9 26 1,73 78 88 116 81 1252 26 53 1,74 96,5 56 125 84 288 31,7 36 1,79 61,7 64 112 77 176 19,3 34 1,62 53,8 56 125 77 277 20,5 42 1,81 85,1 56 120 83 649 26,1 18 1,67 74,1 60 118 68 113 26,7 44 1,73 76,5 64 115 75 656 25,4 20 1,68 68 72 115 65 172 24 Calcule Média, Mediana,Moda, desvio padrão e erro padrão dos dados abaixo Exercício 2 em sala: Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade (ver apostila). Estas características foram registradas pois podem influenciar o desempenho dos indivíduos nos testes. Construa uma planilha no BROffice utilizando os dados destas amostras. a) Desempenho de cada sujeito: (varia de 0 a 20) Idosos: 16/17/19/19/15/17/18/20/20/16 Jovens: 20/20/19/19/20/20/17/19/20/18 b) Calcule a média, desvio padrão e erro padrão da média do desempenho para idosos e jovens c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória d) Inclua as barras de erros com o erro padrão da média e) Discuta a diferença do desempenho entre os grupos com base nos valores de média e erro. Para inserir o erro padrão no BROffice Selecionar os valores de erro calculados na planilha Exercício 3 em Sala Considere a seguinte tabela de dados de pressão sanguínea obtida para um grupo de 40 pessoas: Indivíduo Pres s ão S is tólic a Pres s ão dia s tólic a mmHg mmHg 1 1 2 5 7 8 2 1 0 7 5 4 3 1 2 6 8 1 4 1 1 0 6 8 5 1 1 0 6 6 6 1 0 7 8 3 7 1 1 3 7 1 8 1 2 6 7 2 9 1 3 7 8 5 1 0 1 1 0 7 1 1 1 1 0 9 6 5 1 2 1 5 3 8 7 1 3 1 1 2 7 7 1 4 1 1 9 8 1 1 5 1 1 3 8 2 1 6 1 2 5 7 6 1 7 1 3 1 8 0 1 8 1 2 1 7 5 1 9 1 3 2 8 1 2 0 1 1 2 4 4 2 1 1 2 1 6 5 2 2 1 1 6 6 4 2 3 9 5 5 8 2 4 1 1 0 7 0 2 5 1 1 0 6 6 2 6 1 2 5 8 2 2 7 1 2 4 7 9 2 8 1 3 1 6 9 2 9 1 0 9 6 4 3 0 1 1 2 7 9 3 1 1 2 7 7 2 3 2 1 3 2 7 4 3 3 1 1 6 8 1 3 4 1 2 5 8 4 3 5 1 1 2 7 7 3 6 1 2 5 7 7 3 7 1 2 0 8 3 3 8 1 1 8 6 8 3 9 1 1 5 7 5 4 0 1 1 5 6 5 Utilizando os dados de pressão diastólica, calcule a média, desvio padrão e construa duas tabelas de frequência: 1) com intervalos de 5 batimentos (<50, 51- 55, 56-60, ...) 2) com intervalos de 10 batimentos (<50, 51- 60, 61-70, ...) Faça os respectivos gráficos de distribuição. Qual das duas tabelas de frequência melhor representa uma distribuição normal? Por quê? E se ao invés de 40, tomássemos a pressão sanguínea de 4000 indivíduos, qual das tabelas de frequência você acredita que seria mais adequada? Por quê? Exercício 1 para Casa Escolha um cruzamento que tenha o tráfego controlado por um semáforo. Pode ser o que você observa diretamente da janela de seu apartamento ou da padaria. Enquanto você toma um café (isso é opcional) conte o número de carros que passa (escolha uma direção e sentido) a cada intervalo de tempo em que o sinal é verde. Tome no mínimo 30 medidas. Faça uma tabela que registre cada medida. Anote o cruzamento, direção, sentido e hora da experiência. Calcule a média e o desvio padrão. Elabore tabelas de frequência considerando diferentes intervalos (observe que o intervalo aqui é dado em número de carros). Faça os respectivos gráficos de distribuição. Faça uma nova série de medidas para comparação. Pode ser outro cruzamento, outro horário (hora do rush/trânsito livre, dia útil/domingo) etc. Que conclusões você pode tirar comparando as duas séries? Baseie sua resposta nos valores médios, desvio padrão e forma da distribuição. Exercício 2 para Casa – Finalizar exercício da planilha de memória como está na apostila Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25Slide 26
Compartilhar