Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Básica CRC 7314 Prof. Nei K. Leite / João B. T. Jr. nei.leite@ufsc.br 26-09-2013 O que vocês aprenderam até agora: - Como distinguir entre uma população e uma amostra; - Como distinguir entre um parâmetros e uma estatística; - Como distinguir entre uma estatística descritiva e uma estatística inferencial; - Como distinguir entre dados qualitativos e quantitativos; - Como classificar dados com relação aos quatro níveis de medida: nominal, ordinal, discreto e contínuo; - Como os dados são coletados; - Como delinear um experimento; - Como criar uma amostra utilizando amostragem aleatória, estratificada ou sistemática O que vocês aprenderam até agora: - Como construir uma tabela de distribuição de frequências incluindo número de classes, amplitude, frequências absoluta, acumulada e relativa; - Como construir um histograma de frequência; Polígono de frequência - Utilize os mesmos eixos x e y do histograma; - Insira o ponto médio (de cada classe) no eixo x e a respectiva frequência absoluta (y) com este par ordenado sendo representado por um ponto; - Como o gráfico começa e termina em um eixo horizontal, prolongue o lado esquerdo em uma classe extra, antes do primeiro ponto médio e o lado direito, uma classe depois do último ponto médio. F r e q u ê n c i a Preço (em dolares) Preço de navegadores GPS Ponto médio Ogiva - Construa uma distribuição de frequências que inclua frequência acumulada; - Especifique os eixos horizontais (limite superior da classe) e verticais (frequências acumuladas); - Insira os pontos que correspondem a cada um dos valores dos pares ordenados; - Conecte os pontos (no sentido esquerda→ direita) - O gráfico deve começar do limite inferior da primeira classe (onde a frequência acumulada é 0) e terminar no limite superior da última classe (= n) F r e q u ê n c i a A c u m u l a d a Preço (em dolares) Preço de navegadores GPS Diagrama de Ramo e Folhas - Forma alternativa de representar dados quantitativos; - Constituem exemplo de Análise Exploratória de Dados (AED); - Nestes, cada número é separado em um ramo (com o dígito mais à esquerda) e a folha (com o dígito mais à direita); - Vantagens: - Permite ver a distribuição dos dados e ainda reter toda a informação da lista original - Representa uma maneira rápida e fácil de ordenar os dados - Os dados a seguir representam o número de mensagens de texto (sms) trocadas na última semana por um usuário de telefone celular, aluno da 3° Fase do curso de Ciências Rurais: 155 159 144 129 105 145 126 116 130 114 122 112 112 142 126 118 118 108 122 121 109 140 126 119 113 117 118 109 109 119 139 139 122 78 133 126 123 145 121 134 124 119 132 133 124 129 112 126 148 147 Chave 15│ 5 = 155 Desordenado Ordenado Interpretação: Pela representação visual, conclui-se que mais de 50% dos usuários de telefone celular enviam entre 110 e 130 mensagens de texto (sms). Vamos praticar? Um estudo geoquímico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr: 9 4 10 6 0 11 5 4 1 8 12 5 9 6 0 13 7 0 7 6 5 14 1 3 0 7 15 2 4 8 8 16 5 6 6 17 4 0 18 2 4 Desordenado 9 4 10 0 6 11 1 4 5 8 12 0 5 6 9 13 0 5 6 7 7 14 0 1 3 7 15 2 4 8 8 16 5 6 6 17 0 4 18 2 4 Ordenado 13|7 = 13,7 Gráficos Qualitativos Setores (ou Pizza) - Consistem de circulos que são divididos em setores que representam diferentes categorias. - A área de cada setor é proporcional a frequência de cada categoria - Para encontrar o ângulo central, multiplique a frequência relativa por 360°; - Fornecem uma forma conveniente de apresentar dados qualitativos graficamente, como percentuais de um todo. 2.04.12.0 2.0 83.7 6.1 MT PR RJ RS SC SP Gráficos Qualitativos Gráfico de Pareto - São gráficos de barras verticais nos quais a altura de cada barra representa a frequência absoluta ou relativa; - As barras são posicionadas de forma decrescente, com a barra mais alta posicionada à esquerda; - Tal disposição ajuda a acentuar os dados importantes, sendo frequentemente usados na área de negócios. Gráficos para dados pareados Gráfico de dispersão - Ronald Fisher apresentou uma famosa série de dados conhecida como as Íris de Fisher; - Esta série descreve várias características físicas, como comprimento das pétalas, e largura das pétalas (dadas em mm), para três espécies de íris; - No gráfico de dispersão (scatterplot) abaixo, observa-se que o comprimento das pétalas forma a primeira série de dados, e a largura, a segunda. Conforme o comprimento aumenta, o que ocorre com a largura?? Gráficos para séries temporais Gráfico de linha - Série temporal refere-se a uma série de dados compostas de dados quantitativos coletados em intervalos regulares durante um determinado período de tempo; - Como exemplo podemos citar a quantidade de chuva precipitada durante um ano medida diariamente; - Gráficos de linha ou coluna são as representações gráficas normalmente utilizadas para representar séries temporais. O que vocês aprenderam na última aula: - Polígono de frequência; - Ogiva; - Diagrama de ramos e folhas; - Gráficos qualitativos; - Setores / Pizza; - Pareto; - Dispersão (dados pareados); - Séries temporais - EXERCÍCIOS! MEDIDAS DE LOCALIZAÇÃO DEFINIÇÕES Medida Definição Quão comum? Existência Leva em conta todos os dados? Afetada por valores extremos? Vantagens e disvantagens Média Valor médio mais comum Sempre existe Sim Sim Funciona bem com muitos métodos estatísticos Mediana Valor do meio Usada comumente Sempre existe Não Não Boa escolha se há valores extremos Moda Mais frequente Usada raramente Pode não existir, pode existir mais de uma Não Não Apropriada para dados nominais x X n = ∑ Comparação entre média, mediana e moda Manequins ≠ Realidade Manequins Mulheres em geral Altura 6 pés (1,82 m) 5 pés e 4 pol (1,62 m) Cintura 23 in (58,42 cm) 29 in (73,66 cm) Quadris 34 in (86,36 cm) 40 in (101,60 cm) Tamanho de roupa 6 (40) 11 (44-46) Torna-se evidente que, quando comparamos médias, manequins e mulheres reais são muito diferentes! MEDIDAS DE TENDÊNCIA CENTRAL Assumindo que as n observações de uma dada amostra são definidas por x 1 , x 2 , …, x n , a média aritmética da amostra é calculada utilizando a equação: 1 2 1 n i n i X x x xX n n = + + + = = ∑ … 1 2 1 n i N i X x x x N N µ =+ + += = ∑ … Amostra População Exemplo: Água disponível na profundidade 0-20 cm de um Argissolo Vermelho-Amarelo em um povoamento de Castanha do Brasil (valores em mm/hora): x 1 = 12,6; x 2 = 12,9; x 3 = 13,4; x 4 = 12,3; x 5 = 13,6; x 6 = 13,5; x 7 = 12,6; x 8 = 13,1 1 12,6 12,9 13,1 104 13,0 8 8 n i i X X n = + + + = = = = ∑ … Pos. 12,3 1 12,6 2 12,6 3 12,9 4 13,1 5 13,4 6 13,5 7 13,6 8 A mediana (Md) é a média dos valores que ocupam as posições 4 e 5 após os dados estarem ordenados, ou seja: A moda (Mo) é 12,6 pois é o valor que ocorre com maior frequência na distribuição 12,9 13,1 13,0 2 Md += = Organização dos dados em ordem crescente n+1 2 Batatas-semente Classificados em 4 tipos de tamanhos (diâmetros): • I – (50 a 60] (> 50 mm até 60 mm inclusive) • II – (40 a 50] (>40 mm até 50 mm inclusive) • III – (28 a 40] (> 28 mm até 40 mm inclusive) • IV – [23 a 28] (de 23 mm até 28 mm inclusive) São comercializadas em caixas de 30 kg, com preço em unidades monetárias (u.m.) Um agricultor produziu 500 cx / 1 ha, assim distribuídas: � 100 cx do tipo I → preço: 1.500 u.m./cx; � 180 cx do tipo II → preço: 3.500 u.m./cx; � 140 cx do tipo III → preço: 3.000 u.m./cx; � 80 cx do tipo IV → preço: 1.600 u.m./cx. Qual o preço médio, por caixa, obtido pelo agricultor? = preço da caixa de batata-semente é o preço da caixa do tipo I, e assim por diante é o número de caixas produzidas por cada tipo, i = 1, 2, 3, 4 = 2.656 u.m./cx x1 n1 Variável X Resolução: Muitas vezes, determinados valores de um dado conjunto são mais importantes que os demais, ou seja, têm pesos diferentes MÉDIA PONDERADA Nutriente Valor calórico (kcal/g) Carboidrato 4 Proteína 4 Lipídio 9 Quantidade de calorias presentes nos principais nutrientes encontrados nos alimentos Qual o valor calórico (VC), em kcal/g, de uma barra de cereais que contenha 17g de carboidrato, 1,5 g de proteína e 1,5 g de lipídio? MÉDIA PONDERADA “Encontre a média ponderada de uma variável X, multiplicando cada valor pelo seu peso correspondente e dividindo a soma dos produtos pela soma dos pesos” 1 1 2 2 1 2 . . ... . ... xn n n ww x w x w xX w w w w + + + = = + + + ∑ ∑ Onde w1, w2, …, wn são os pesos e x1, x2,…, xn são os valores = quantidade de nutrientes de uma barra de cereais Pesos = valor calórico dos nutrientes Variável X Resolução: 5,147 kcal/g 17 x 4 + 1,5 x 4 + 1,5 x 9 87,5 4 4 9 17 VC = = = + + = Notas dos diferentes instrumentos de avaliação Pesos = importância relativa de cada avaliação Variável X Resolução: Avaliação Nota Peso Nota x Peso 1° Prova 86 0,50 43,0 2° Prova 96 0,15 14,4 Seminário 82 0,20 16,4 Lab Informática 98 0,10 9,8 Trabalhos 100 0,05 5,0 Σw = 1 Σ(x.w) = 88,6 MEDIDAS DE VARIABILIDADE (OU DISPERSÃO) Se X 1 , X 2 , …, X n é uma amostra com n observações, a variância é expressa por: 2 2 1 ( ) 1 n i i X X s n = − = − ∑ O desvio-padrão, é calculado através da raiz quadrada positiva da variância: 2 2 ( )X N µ σ − = ∑ 2 2 ( )X N µ σ σ − = = ∑ 2 2 ( ) 1 X X s s n − = = − ∑ Procedimento para cálculo da variância e desvio-padrão i xi (xi - ) 1 12,6 12,6 - 13,0 = -0,4 2 12,9 12,9 - 13,0 = -0,1 3 13,4 13,4 -13,0 = 0,4 4 12,3 12,3 - 13,0 = -0,7 5 13,6 13,6 -13,0 = 0,6 6 13,5 13,5 - 13,0 = 0,5 7 12,6 12,6 - 13,0 = -0,4 8 13,1 13,1 - 13,0 = 0,1 8 2 2 1 ( ) 1,60 0,2286 8 1 7 i i X X s = − = = = − ∑ X 0,2286 0,4781s = = O desvio padrão indica a dispersão dos dados dentro da amostra, isto é, o quanto os dados em geral diferem da média. Quanto menor o desvio padrão, mais parecidos são os valores da série estatística. Interpretação do desvio-padrão Para comparar a variação do desvio padrão com a média, usa-se a razão entre o desvio padrão e a média, chamado de coeficiente de variação (CV), que muitas vezes é multiplicado por 100 para dar o resultado em porcentagem: .100sCV X = 0,4781 .100 3,7% 13,0 CV = = Resultado indica baixa variabilidade entre os dados! Regra empírica da amplitude “Baseia-se no princípio de que para a maioria dos conjuntos de dados, a grande maioria (≈ 95%) dos valores amostrais se localizam a 2 DP da média” Para estimar o valor de um desvio padrão (s): � ≈ ������� 4 Para interpretar um valor conhecido de desvio padrão (s): Valor máximo “usual” = (média – 2 x DP) Valor mínimo “usual” = (média + 2 x DP) Pesquisa Nacional de Saúde sugere taxas de pulsação (bpm) com média de 76,0 e desvio padrão de 12,5. Use a REA para determinar as taxas de pulsação máxima e mínima “usuais” Regra empírica para dados com uma distribuição na forma de sino (68-95-99,7)
Compartilhar