Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Universidade Federal do Espírito Santo Centro de Ciências Agrárias Depto de Engenharia Rural Profa. Gisele Rodrigues Moreira Enga. Agrônoma Dra. Genetica e Melhoramento E-mail: gisele.moreira @ufes.br giselemoreira.webnode.com IMPORTÂNCIA DA ESTATÍSTICA E CONCEITOS BÁSICOS � ESTATÍSTICA DESCRITIVA Estatística descritiva ou análise exploratória dos dados: Parte da estatística que lida com a organização, resumo e apresentação de dados por meio de uso de tabelas, de gráficos e de medidas de posição, dispersão e pela natureza da distribuição em que ocorrem. INTRODUÇÃO 2 INTRODUÇÃO ETAPAS: 1a - Coleta ou levantamento dos dados; 2a - Organização dos dados; 3a – Apresentação e representação dos dados. �Apresentação em tabelas e gráficos � Medidas de posição ou tendência central � Medidas de dispersão ou variabilidade � Estatísticas descritivas de distribuição 3 4 COLETA DOS DADOS • Tipos de variáveis • Dados primários e secundários • TIPOS DE VARIÁVEIS Qualitativa Quantitativa Nominal (classificação) Ordinal (ordenadação) Discreta (contagem) Contínua (mensuração) Fator RH (RH+ e RH-) Satisfação com um produto (Insatisfeito, neutro, satisfeito) Número de folhas por planta Estatura de pessoas (cm) 5 Importante: A forma que os dados são coletados, e os procedimentos para organizá-los e apresentá- los depende do tipo de variável!!!!!!! 6 2 7 • DADOS PRIMÁRIOS E SECUNDÁRIOS • DADOS PRIMÁRIOS → oriundos de sua própria análise • DADOS SECUNDÁRIOS → coletados de outra fonte • DADOS BRUTOS → forma sem ordenação e sem nenhum tipo de arranjo sistemático • DADOS ELABORADOS → forma ordenada e com algum tipo de arranjo sistemático (seqüência crescente, decrescente, ou outra) ORGANIZAÇÃO DOS DADOS 8 Dados brutos Dados brutos –– Variável quantitativa contínuaVariável quantitativa contínua Peso ao nascer de nascidos vivos, em kg (n = 30 ) 2,522 3,200 1,900 4,100 4,600 3,400 2,720 3,720 3,600 2,400 1,720 3,400 3,125 2,800 3,200 2,700 2,750 1,570 2,250 2,900 3,300 2,450 4,200 3,800 3,220 2,950 2,900 3,400 2,100 2,700 9 Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. Dados brutos Dados brutos –– Variável quantitativa contínuaVariável quantitativa contínua Peso ao nascer de nascidos vivos, em kg (n = 30 ) 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 10 Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 11 • Tabelas - Série estatística - Tabela de contingência - Tabelas de distribuição de frequências • Gráficos - Barras verticais (colunas) - Barras horizontais - Linha - Setores ou pizza - Diagrama de dispersão - Histograma e polígono de frequência • Medidas de posição e dispersão • Estatísticas de distribuição APRESENTAÇÃO E REPRESENTAÇÃO DOS DADOS 12 TABELAS � Características � Séries estatísticas � Tabela de contingência � Tabela de distribuição de frequências 3 TABELA � Objetiva resumir, com certo formalismo, um conjunto de observações. � Permitem totalizar linhas e colunas e estabelecer proporções em várias direções, conforme a necessidade do estudo. OBS: Os quadros NÃO resumem informações, apenas as registram. Logo, as informações nos quadros não se relacionam entre si!!!! 13 CARACTERÍSTICAS DE UMA TABELA: Ver “Normas Tabulares” (IBGE, 1993) 14 Sucessão de dados “estatísticos” referentes a qualquer variável. Pode ser de quatro tipos: - Série temporal, histórica ou cronológica (época a que se refere o fenômeno analisado) - Série geográfica, territorial ou de localidade (onde o fenômeno ocorre) - Série específica ou categórica (o fenômeno que é descrito) - Série mista Série estatística 15 Ano Número de alfabetizados 2000 93.839.744 2010 147.385.581 Tabela 1. Número de alfabetizados com idade de 10 ou mais anos, nos censos de 2000 e 2010. Fonte: IBGE, censos demográficos 2000 e 2010 Série temporal, histórica ou cronológica 16 Situação de domicílio Número de alfabetizados Urbana 128.091.166 Rural 19.294.415 Fonte: IBGE, censo demográfico 2010 Série geográfica, territorial ou de localidade Tabela 2. Número de alfabetizados, na idade de 10 anos ou mais, por situação de domicílio, de acordo com o censo brasileiro de 2010. 17 Série específica ou categórica Gênero Número de alfabetizados Homens 71.361.117 Mulheres 76.024.464 Tabela 3. Número de alfabetizados, segundo o gênero, na idade de 10 anos ou mais, de acordo com o censo brasileiro de 2010. Fonte: IBGE, censo demográfico 2010 18 4 Série temporal, histórica ou cronológica Série geográfica, territorial ou de localidade Série específica ou categórica Série mista 19 Gênero 2000 2010 Homem 45.990.282 71.361.117 Mulher 47.849.462 76.024.464 Tabela 4. Número de alfabetizados, segundo o gênero, na idade de 10 anos ou mais, de acordo com o censo brasileiro de 2000 e 2010. Série mista Fonte: IBGE, censos demográficos 2000 e 2010 20 Usada para fazer correspondência das respostas de duas ou mais variáveis categóricas (qualitativas). Variáveis: Linhas e colunas Interseções entre linhas e colunas: células Células: frequência, porcentagem do total geral, porcentagem do total por linha ou por coluna, dependendo do tipo de tabela que está sendo elaborada. Tabela de contingência 21 22 Foram feitos diagnósticos de depressão em 500 estudantes com idades entre 10 e 17 anos, metade de cada gênero. Foram identificados 98 casos de depressão, sendo 62 do gênero feminino. Sem depressão foram 214 do gênero masculino. Apresente os dados em tabela de contingência. Gênero Depressão TOTAL Sim Não Masculino 36 214 250 Feminino 62 188 250 TOTAL 98 402 500 RESPOSTA: EXERCÍCIO (VIEIRA, S. Introdução à Bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008, pág. 30) Tabela 5. Tabela de contingência para os diagnósticos de depressão, segundo o gênero, em 500 estudantes. 23 Gênero Depressão TOTAL Sim Não Masculino 7,2 42,8 50 Feminino 12,4 37,6 50 TOTAL 19,6 80,4 100 RESPOSTA: Por total geral: É possível ainda, a partir da tabela de contingência pela frequências absolutas construir as tabelas de contingência baseadas nas porcentagens total, por linha e por coluna. Tabela 6. Tabela de contingência, em porcentagem por total geral, para os diagnósticos de depressão, segundo o gênero, em 500 estudantes. 24 %50 250 %100500 = − − x x %6,19 98 %100500 = − − x x %4,80 402 %100500 = − − x x %2,7 36 %100500 = − − x x %4,12 62 %100500 = − − x x Cálculos das porcentagens por total geral: %8,42 214 %100500 = − − x x %6,37 188 %100500 = − − x x 5 25 Por total por linha: Gênero Depressão TOTAL Sim Não Masculino 14,4 85,6 100 Feminino 24,8 75,2 100 TOTAL 19,6 80,4 100 RESPOSTA: Tabela 7. Tabela de contingência, em porcentagem por total de linha, para os diagnósticos de depressão, segundo o gênero, em 500 estudantes. 26 %4,14 36 %100250 = − − x x %6,85 214 %100250 = − − x x %8,24 62 %100250 = − − x x %2,75 188 %100250 = − − x x Cálculos das porcentagens do total por linha: 27 Por total por coluna: Gênero Depressão TOTAL Sim Não Masculino 36,7 53,2 50 Feminino 63,3 46,8 50 TOTAL 100 100 100 RESPOSTA: Tabela8. Tabela de contingência, em porcentagem por total de coluna, para os diagnósticos de depressão, segundo o gênero, em 500 estudantes. 28 Cálculos das porcentagens do total por coluna: %7,36 36 %10098 ≈ − − x x %3,63 62 %10098 ≈ − − x x %2,53 214 %100402 ≈ − − x x %8,46 188 %100402 ≈ − − x x Usada para sintetizar valores numéricos (variáveis quantitativas), onde se procura corresponder os valores observados da variável em estudo com as respectivas freqüências. Tabela de distribuição de frequências 29 Tipos: � Tabela de distribuição de frequências DISCRETA ou PONTUAL ⇒ dados quantitativos discretos � Tabela de distribuição de frequências INTERVALAR ⇒ dados quantitativos contínuos 30 6 31 Tabela de distribuição de freqüências – DISCRETA OU PONTUAL EXEMPLO: Supondo que desejamos apresentar, em uma tabela de distribuição de frequências pontual, os dados hipotéticos de valores da variável “número de animais contaminados por determinada doença”, obtidos a partir de 20 propriedades rurais, quais sejam: 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 4 5 32 Tabela de distribuição de freqüências – DISCRETA OU PONTUAL EXEMPLO: 10 PASSO: Obter as frequências absolutas (Fi) - dadas pela contagem do número de ocorrência de cada resultado. 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 4 5 0 → 4 1 → 7 2 → 5 3 → 2 4 → 1 5 → 1 32 33 20 PASSO: Obter as demais frequências: - frequência relativa (Fri), - frequência relativa percentual (Fpi%), - frequência acumulada (Fci) e - frequência acumulada percentual (Fci%) 30 PASSO: Montar a tabela de distribuição de frequências. 33 34 Tabela de distribuição de frequências – DISCRETA OU PONTUAL No animais contaminados Fi Fri Fpi (%) Fci Fci (%) 0 4 0,20 20 4 20 1 7 0,35 35 11 55 2 5 0,25 25 16 80 3 2 0,10 10 18 90 4 1 0,05 5 19 95 5 1 0,05 5 20 100 Total (n) 20 1,00 100 - - Fri = frequência absoluta; Fri = frequência relativa; Fpi% = frequência relativa percentual; Fci = frequência acumulada; Fci% = frequência acumulada percentual Tabela 9. Tabela de distribuição de frequências pontual para o número de animais contaminados para um grupo de 20 propriedades. 35 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Tabela de distribuição de frequências – CONTÍNUA OU INTERVALAR 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 36 EXEMPLO: 10 PASSO: número de classes: k = 5 20 PASSO: amplitude de classe: c = 0,758 30 PASSO: limite inferior da primeira classe: Li1a = 1,191 40 PASSO: obter as frequências absolutas (Fi) - dadas pela contagem do número de ocorrência de resultado em cada classe. Tabela de distribuição de frequências – CONTÍNUA OU INTERVALAR 7 37 FÓRMULAS:FÓRMULAS: 5477,530 classes de Número ≈≈==⇒ nk 1 que Em 758,07575,0 15 570,1600,4 1 classe de oCompriment - X XA k A c n= ≈= − − = − =⇒ 191,1 2 758,0570,1 2 2 classe primeira dainferior Limite 11 11 =−=−= −=⇒ cXLi cXLi a a OBS: Justifica-se o k– 1, e não apenas k, no denominador da expressão do comprimento de classe devido à suposição de que a amostra de tamanho n tem grande chance de não conter o valor mínimo da população (FERREIRA, 2005). 1ª classe: 1,191 ├ 1,949 2ª classe: 1,949 ├ 2,707 3ª classe: 2,707 ├ 3,465 4ª classe: 3,465 ├ 4,223 5ª classe: 4,223 ├ 4,981 Obtenção das classes: Se, K é igual a 5, então são cinco classes, ou seja, intervalos. O limite inferior da primeira classe começa é o valor 1,191 (LI1a). E, cada classe tem o comprimento (c) de 0,758 38 39 40 PASSO: Obter as frequências absolutas (Fi) - dadas pela contagem do número de ocorrência de resultado em cada classe 40 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 ⇒ 3 ⇒ 7 ⇒ 14 ⇒ 5 ⇒ 1 1ª classe: 1,191 ├ 1,949 2ª classe: 1,949 ├ 2,707 3ª classe: 2,707 ├ 3,465 4ª classe: 3,465 ├ 4,223 5ª classe: 4,223 ├ 4,981 41 50 PASSO: Obter as demais frequências: - frequência relativa (Fri), - frequência relativa percentual (Fpi%), - frequência acumulada (Fci) e - frequência acumulada percentual (Fci%) 60 PASSO: Montar a tabela de distribuição de frequências. 41 42 Classes Fi Fri Fpi% Fci Fci% 1,191 ├ 1,949 3 0,10 10 3 10 1,949 ├ 2,707 7 0,23 23 10 33 2,707 ├ 3,465 14 0,47 47 24 80 3,465 ├ 4,223 5 0,17 17 29 97 4,223 ├ 4,981 1 0,03 3 30 100 Total 30 1,0 100 - - Fri = frequência absoluta; Fri = frequência relativa; Fpi% = frequência relativa percentual; Fci = frequência acumulada; Fci% = frequência acumulada percentual Tabela 10. Tabela de distribuição de frequências intervalar do peso ao nascer de nascidos vivos, em kg. 8 43 EXERCÍCIO Classes Fi Fri Fpi% Fci Fci% 150 ├ 158 7 158 ├ 166 5 166 ├ 174 10 174 ├ 182 12 182 ├ 190 5 190 ├ 198 1 Total 40 1,00 100 - - Tabela 11. Altura (cm) de 40 alunos do curso de Estatística da UFES (dados hipotéticos) 43 Fri = frequência absoluta; Fri = frequência relativa; Fpi% = frequência relativa percentual; Fci = frequência acumulada; Fci% = frequência acumulada percentual 44 EXERCÍCIO - resposta Classes Fi Fri Fpi% Fci Fci% 150 ├ 158 7 0,18 18 7 18 158 ├ 166 5 0,12 12 12 30 166 ├ 174 10 0,25 25 22 55 174 ├ 182 12 0,31 31 34 86 182 ├ 190 5 0,12 12 39 98 190 ├ 198 1 0,02 2 40 100 Total 40 1,00 100 - - Tabela 11. Altura (cm) de 160 alunos do curso de Estatística da UFES (dados hipotéticos) 44 Fri = frequência absoluta; Fri = frequência relativa; Fpi% = frequência relativa percentual; Fci = frequência acumulada; Fci% = frequência acumulada percentual 45 GRÁFICOS � Barras verticais (colunas) � Barras horizontais � Linha � Setores ou pizza � Diagrama de dispersão � Histograma e polígono de frequência Possibilita rápida impressão visual da distribuição dos valores ou das freqüências observadas. GRÁFICO 46 Tipos de gráficos � de barras verticais (ou colunas) � de barras horizontais � de linhas � de setores (ou pizza) � Etc. (Exel →Inserir → Gráfico) � Histograma e polígono de frequências 47 GRÁFICO DE BARRAS VERTICAIS (OU GRÁFICO DE BARRAS VERTICAIS (OU COLUNAS)COLUNAS) Usado para apresentar especialmente dados de variáveis qualitativas (nominais ou ordinais). Ou seja, é usado para comparar a quantidade ou a percentagem de valores em diversas categorias. Também usado para apresentar dados de variáveis quantitativas discretas organizadas em tabela de distribuição de frequências pontual. 48 9 Ex: GRÁFICO DE BARRAS VERTICAIS Fonte: VIEIRA, S. Introdução à Bioestatística. 4 ed. Elsevier, 2008. 0 10 20 30 40 50 60 70 Sim Em parte Não Sem resposta Figura 1. Resposta de 100 pessoas submetidas a uma cirurgia estética reparadora quando perguntadas se consideravam que a cirurgia plástica havia melhorado a aparência delas. Resposta Fr eq u ên ci a r el a ti va p er ce n tu a l 49 50 0 1 2 3 4 5 6 7 0 1 2 3 4 5 Figura 2. Número de animais contaminados por determinada doença em 20 propriedades rurais. Número de animais contaminados Fr eq u ên ci a a b so lu ta GRÁFICO DE BARRAS HORIZONTAISGRÁFICO DE BARRAS HORIZONTAIS Também usado para apresentardados de variáveis qualitativas (nominais ou ordinais), sendo o melhor tipo para comparar múltiplos valores categóricos. Também usado para apresentar dados de variáveis quantitativas discretas organizadas em tabela de distribuição de frequências pontual. 51 Ex: GRÁFICO DE BARRAS HORIZONTAL Figura 3. Distribuição dos casos de doenças de notificação compulsória no Hospital Federal dos servidores do Estado do Rio de Janeiro, no período de 1990 a 2004. 52 0 1000 2000 3000 4000 5000 6000 7000 8000 Dengue Tuberculose Hepatite AIDS/HIV Diarréia Rubéola Intoxicação alimentar Meinigite Número de casos D o e n ça s d e n o ti fi ca çã o c o m p u ls ó ri a Fonte: http://www.hse.rj.saude.gov.br/profissional/boletim/bol30/epvigi.asp 53 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 Frequência absoluta N º d e a n im a is c o n ta m in a d o s Figura 4. Número de animais contaminados por determinada doença em 20 propriedades rurais. GRÁFICO DE LINHASGRÁFICO DE LINHAS Usado para exibir tendências ao longo do tempo tanto para variáveis qualitativas e quantitativas. 54 10 Ex: GRÁFICO DE LINHASEx: GRÁFICO DE LINHAS Figura 5. Ocorrência da Síndrome de Down em seres humanos de acordo com a idade da mãe. Fonte: ENADE , 2009 – Biomedicina 55 GRÁFICO DE SETORES OU PIZZAGRÁFICO DE SETORES OU PIZZA Especialmente usado para apresentar variáveis qualitativas nominais ou ordinais, de modo a visualizar o todo que está compreendido em cada um das categorias. Usado quando existe apenas poucas categorias. 56 19,71% 20,91% 24,67% 34,71% Aranha Serpente Outros animais Escorpião Figura 6. Casos de intoxicação humana (%) por animal peçonhento, ocorridos no Brasil em 2005, de acordo com o animal. Ex: GRÁFICO DE SETORES OU PIZZA Fonte: VIEIRA, S. Introdução à Bioestatística. 4 ed. Elsevier, 2008. 57 DIAGRAMA DE DISPERSÃODIAGRAMA DE DISPERSÃO Usado para analisar visualmente a relação entre duas variáveis quantitativas, obtidas nas mesmas unidades de observação. 58 Se os pontos estiverem espalhados em torno de uma linha reta imaginária, é indício de que a relação entre as variáveis é linear. 59 Ex: DIAGRAMA DE DISPERSÃO Sejam as notas de oito alunos nas disciplinas de Cálculo e Física, sorteados ao acaso em uma turma de Engenharia (COSTA NETO, P. L. O. Estatística. São Paulo: Blücher, 2002. pág. 222): Aluno 1 2 3 4 5 6 7 8 Cálculo (X) 4,5 6,0 3,0 2,5 5,0 5,5 1,5 7,0 Física (Y) 3,5 4,5 3,0 2,0 5,5 5,0 1,5 6,0 0 2 4 6 8 0 1 2 3 4 5 6 7 8 Figura 7. Notas de oito alunos em Cálculo e Física. Existe uma tendência de relação linear crescente entre as variáveis. Usados para dados quantitativos contínuos apresentados em tabelas de distribuição de frequência intervalar. Histograma e polígono de frequência IMPORTÂNCIA: Verificar a forma de distribuição dos dados 60 11 Gráfico de coluna utilizado para representar distribuições de freqüências com dados agrupados em classes. Especialmente indicado para dados em tabelas de distribuição de frequência intervalar. 61 Gráfico obtido pela união de pontos dos lados superiores (pontos médios das classes) dos retângulos de um histograma por meio de segmentos de reta consecutivos. 62 HISTOGRAMA E POLÍGONO DE FREQÜÊNCIA Figura 8. Histograma e polígono de frequência. 63 Classes de valores Pontos médios das classes Fr e q u ê n ci a Fr e q u ê n ci a 64 EXERCÍCIO: Obter o histograma e o polígono de frequência a partir dos dados agrupados na Tabela de distribuição de frequências INTERVALAR abaixo: iX 64 Classes Fi Fri Fpi% Fci Fci% 1,191 ├ 1,949 3 0,10 10 3 10 1,949 ├ 2,707 7 0,23 23 10 33 2,707 ├ 3,465 14 0,47 47 24 80 3,465 ├ 4,223 5 0,17 17 29 97 4,223 ├ 4,981 1 0,03 3 30 100 Total 30 1,0 100 - - Tabela 12. Tabela de distribuição de frequências intervalar do peso ao nascer de nascidos vivos, em kg. 65 Figura 9. Histograma para o peso ao nascer de nascidos vivos, em kg. Fr e qu ên cia a bs o lu ta (F i) Classes de valores 0 2 4 6 8 10 12 14 16 1,191 ├ 1,949 1,949 ├ 2,707 2,707 ├ 3,465 3,465 ├ 4,223 4,223 ├ 4,981 Fr e qu ên cia a bs o lu ta (F i) Pontos médios das classes 66 0 2 4 6 8 10 12 14 16 0.812 1.570 2.328 3.086 3.844 4.602 5.360 Figura 10. Polígono de frequência para o peso ao nascer de nascidos vivos, em kg. ? ? 12 Fr e qu ên cia a bs o lu ta (F i) Pontos médios das classes 67 0 2 4 6 8 10 12 14 16 0.812 1.570 2.328 3.086 3.844 4.602 5.360 Figura 10. Polígono de frequência para o peso ao nascer de nascidos vivos, em kg. 68 Figura 11. Histograma e polígono de frequência para o peso ao nascer de nascidos vivos, em kg. Fr e qu ên cia a bs o lu ta (F i) Classes de valores 0 2 4 6 8 10 12 14 16 1,191 ├ 1,949 1,949 ├ 2,707 2,707 ├ 3,465 3,465 ├ 4,223 4,223 ├ 4,981 Histograma Polígono de frequência EXERCÍCIOEXERCÍCIO Figura 12. Variação de anticorpos para a doença X em relação a uma corte populacional específica (área endêmica). (ENADE 2010 – Biomedicina) 69 (A) (B) (C) (D) (E) Resposta: B 70 71 EXERCÍCIO Tabela 13. Altura (cm) de 40 alunos do curso de Estatística da UFES (dados hipotéticos) Classes Fi Fri Fpi% Fci Fci% 150 ├ 158 7 0,18 18 7 18 158 ├ 166 5 0,12 12 12 30 166 ├ 174 10 0,25 25 22 55 174 ├ 182 12 0,31 31 34 86 182 ├ 190 5 0,12 12 39 98 190 ├ 198 1 0,02 2 40 100 Total 40 1,00 100 - - Fazer o histograma e o polígono de frequência a partir das frequências absolutas. 72 Medidas de posição � Média aritmética � Mediana � Moda 13 MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL Objetivos: • representar o ponto central de um conjunto de dados (média, mediana e moda), • estabelecer em torno de que valores representativos os dados se distribuem, • dividir o conjunto de dados em partes iguais (separatrizes → mediana). 73 Média aritmética n XXXX n X X n n i i ++++ == ∑ = ...3211 � Conceito: Soma das observações dividida pelo número delas. 74 Em que: é cada valor da variável n é o número de elementos amostrais iX 75 kg n X X n i i 987,2 30 600,4...720,1570,11 ≈ +++ == ∑ = EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 76 987,2=X Fr e qu ên cia a bs o lu ta Peso ao nascer Figura 13. Distribuição dos pesos, em kg, de nascidos vivos em torno da média aritmética. 0 1 2 3 1.570 2.070 2.570 3.070 3.570 4.070 4.570 77 Propriedades da Média: � Multiplicando-se ou dividindo-se, todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada ou dividida por esta constante; � Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante. 78 Vantagens da Média: � Facilidade de interpretação e cálculo; � Tem potencial de uso para propósitos de inferências. Desvantagens da Média: � É afetada por valores extremos; � Só pode ser usada para variáveis quantitativas.14 Mediana 79 � Conceito: É o valor que ocupa a posição central da série de dados, quando estes são colocados em ordem crescente ou decrescente. Mediana ) 2 1( +n X 2 ) 2 2() 2 ( + + nn XX Md = Se n for PAR Se n for ÍMPAR 80 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 81 222 1615 ) 2 230() 2 30() 2 2() 2 ( XX XXXX Md nn + = + = + = ++ kgMd 925,2= EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. ⇒ + = 2 950,2900,2Md 82 Propriedades da Mediana: � Multiplicando-se, ou dividindo-se, todos os valores de uma variável por uma constante, a mediana do conjunto fica multiplicada ou dividida por esta constante; � Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a mediana do conjunto fica acrescida ou diminuída dessa constante. 83 Vantagens da Mediana: � Não é afetada por valores extremos; � Pode ser obtida para variáveis quantitativas e qualitativas ordinais com n ímpar; � Pode ser obtida em amostras em que alguns valores ainda não foram registrados. Desvantagem da Mediana: � Menos informativa que a média, pois só considera os ranques (postos ou posições) das observações e não todos os valores. • Conceito: É o resultado que ocorre com maior frequência numa série de dados. 84 Classificações: - Amodal (o conjunto de dados não possui moda) - Unimodal (o conjunto de dados possui uma moda) - Bimodal (o conjunto de dados possui duas modas) - Multimodal (o conjunto de dados possui mais de duas modas) Moda 15 Moda 85 Unimodal 86 kgMo 400,3= EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 87 Vantagens da Moda: � Rápida obtenção como medida de posição; � Pode ser obtida para variáveis quantitativas e qualitativas (nominais e ordinais); Desvantagem da Moda: � Menos informativa que a média, pois só considera as frequências das observações e não todos os valores. 88 EXERCÍCIO 1 Classe fenotípica Frequência absoluta (Fi) AL 7 AR 3 VL 3 VR 1 Calcule: média aritmética e a moda (classifique) Tabela 14. Distribuição de frequências absolutas para a variável cor e textura da semente de ervilha referente à análise da geração F2 do cruzamento de uma planta de ervilha com sementes amarelas e lisas (AL) com outras verdes e rugosas (VR). 89 Em um experimento o número de carrapatos, observados em cada um dos animais de um grupo, foram os seguintes: 19, 7, 4, 9, 7, 17, 13, 10, 17, 15, 11, 15, 15, 20, 19 Após terem sido calculadas a média aritmética, a mediana e a moda, um erro foi descoberto: um dos animais com 15 carrapatos tinha, na realidade, 17. É correto afirmar que nessa situação apenas a média aritmética se altera após a correção dos dados? Justifique. EXERCÍCIO 2 90 Classe (g) Freqüência 0 –| 5 8 5 –| 10 2 10 –| 15 6 15 –| 20 8 20 –| 25 5 25 –| 30 5 30 –| 35 0 35 –| 40 1 A tabela abaixo ilustra a classificação por peso, em gramas, de uma amostra com 35 peixes. a) Deve-se associar à quarta classe da tabela o valor de 0,015 kg? Justifique. b) A média aritmética dos valores agrupados é igual a 15,50 g? Justifique. c) Obtenha o histograma e o polígono de freqüência. EXERCÍCIO 3 16 91 EXERCÍCIO 1 - resposta 14 1337 14 14 1 VRVLARAL X X i i +++ == ∑ = Média aritmética Moda A classe que possui maior frequência é AL (Fi = 7), Assim Mo = AL; Unimodal Como a variável é qualitativa nominal não tem como calcular a média, pois não tem como proceder o cálculo. 92 Medidas de dispersão � Amplitude � Desvio médio � Variância � Desvio padrão � Coeficiente de variação � Erro padrão da média Objetivos: � Quantificar a dispersão dos dados em torno do ponto central; � Caracterizar e diferenciar a dispersão espacial dos dados. 93 MEDIDAS DE DISPERSÃO OU VARIABILIDADE Amplitude total (A) • Conceito: Diferença entre a maior e a menor observação. 1XXA n −= 94 Em que: Xn e X1 são, respectivamente, o último e o primeiro valor nos dados ordenados 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 95 kgXXA n 03,3570,1600,41 =−=−= EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 96 Vantagem da Amplitude: � Rápida obtenção como medida de dispersão. Desvantagem da Amplitude: �Pouco informativa como medida de dispersão, pois uma vez que depende apenas dos valores extremos, não identifica possíveis variações entre esses limites. � Fornece uma subestimativa da amplitude populacional, já que dificilmente a amostra vai apresentar tanto o valor mais baixo quanto o mais alto (geralmente os mais raros) da população. 17 Desvio médio • Conceito: Média dos desvios absolutos em relação à média (ou mediana), da amostra. n XX n i i X ∑ = − = 1σˆ 97 )ˆ( Xσ Suponha que tenham sido encontrados os seguintes valores de uma variável qualquer, em cm: 208 203 202 200 198 197 192 200cm =aritméticaMédia Em que, Xi = valores ou dados observados m = média verdadeira dos dados ei = desvios em relação a média xi = m + ei 98 203 208 198 200 202 192 197 200=X e1 = 8 e2 = 3 e3 = 2 e4 = 0 e5 = -2 e6 = -3 e7 = -8 mˆ X eˆ ii −= Obtenção dos desvios (ei): 99 0ˆ 7 1 =∑ −i ie 0)( 1 =−∑ − XX n i i n XX n i i X ∑ = − = 1σˆ 0)( 1 =−∑ − XX n i i Módulo da soma dos desvios Número de elementos na amostra 100 Se, Então, o desvio médio é: 101 kg X n XX X i i n i i X 564,0 30 3,53 30 987,2600,4...987,2720,1987,2570,1 ˆ 30 987,2 ˆ 30 11 ≈= −+−+− = − = − = ∑∑ == σ σ 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. Variância amostral • Conceito: Dispersão dos valores em torno da média, ou seja, a média dos quadrados das diferenças dos valores em relação à sua média (Quadrado médio). 1 )( ˆ 1 2 2 − − = ∑ = n XX n i i σ 102 )ˆ( 2σ 18 103 1 )( ˆ 1 2 2 − − = ∑ = n XX n i i σ Soma de quadrados dos desvios Graus de liberdade 0)( 1 =−∑ − XX n i iSe, Então, a variância é: OBS: Se a variância for obtida para dados coletados na população, o denominador será n e não n – 1. VariânciaVariância 1 )( ˆ 1 2 2 − − = ∑ = n XX n i i σ 1 )( ˆ 1 1 2 2 2 − − = ∑ ∑ = = n n X X n i n i i i σ 104 105 2 2 222 2 30 1 30 1 2 2 1 1 2 2 2 516,0 29 30 )600,4...720,1570,1()600,4...720,1570,1(ˆ 130 30 )( 1 )( ˆ kg X X n n X X i i i i n i n i i i ≈ +++ −+++ = − − = − − = ∑ ∑ ∑ ∑ = = = = σ σ 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 106 Propriedades da Variância: � Multiplicando-se todos os valores de uma variável por uma constante, a variância fica multiplicada pelo quadrado da constante; � Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. Desvio padrão • Conceito: É a raiz quadrada da variância. 2 ˆˆ σσ = Tem a vantagem, em relação à variância de estar na mesma unidade dos dados originais! 107 )ˆ(σ 22 516,0ˆ Variância kg=⇒σ kgkg 719,0516,0ˆ padrão Desvio 22 ≈=⇒ σ 108 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 19 109 719,0987,2ˆ ±⇒± σX 268,2ˆ ⇒−σX 706,3ˆ ⇒+σX Fr e qu ên cia a bs o lu ta Peso ao nascer (kg) Figura 14. Dispersão, em termos de desvio padrão, dos pesos de nascidos vivos, em torno da média aritmética. 0 1 2 3 1.570 2.070 2.570 3.070 3.570 4.070 4.570 110 Interpretação do desvio padrão: A maioria dos valores dos pesos dos nascidos vivos estão concentrados entre 2,268 e 3,706 kg. 719,0987,2ˆ ±⇒± σX 706,3ˆ268,2 ≤±≤ σX De fato, 33,3% dos valores (1,570; 1,720; 1,900; 2,100; 2,250; 3,720; 3,800; 4,100; 4,200 e 4,600) estão fora dos limites desse intervalo. 111 Propriedades do Desvio padrão: � Multiplicando-se todos os valores de uma variável por uma constante, o desvio padrão fica multiplicado pela constante; � Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, o desvio padrão não se altera. � O desvio padrão é maior que o desvio médio. Coeficiente de variação (CV%) • Conceito: Medida relativa da variabilidade em um conjunto de dados. 100.ˆ% X CV σ= 112 Em que: = = X σˆ Desvio padrão amostral Média amostral - ∞∞∞∞ ≤≤≤≤ CV% ≤≤≤≤ +∞∞∞∞ 113 %07,24100. 987,2 719,0% ≈=CV kgX kg 987,2 719,0ˆ = =σ Sejam: Quanto menor o CV%, maior a concentração dos dados em torno do valor central, e maior homogeneidade. 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 114 Vantagens do Coeficiente de variação: � Medida adimensional! � Compara a variabilidade de conjuntos de dados com diferentes unidades de medida; � Compara conjuntos de dados com mesma unidade, mas com médias de diferentes magnitudes. 20 115 Tem-se uma amostra de 4 sementes de uma espécie E (dados fictícios), no qual se obtém os dados para a espessura do endosperma (milímetros) e peso (em gramas). OUTRO EXEMPLO: Espessura do endosperma Peso 2 4 5 3 0,012 0,021 0,018 0,016 mm mmX 5,0ˆ 5,3 = = σ Variável Espessura (X): Variável Peso (Y): g gY 004,0ˆ 02,0 ≈ ≈ σ OBS: Endosperma é tecido nutritivo que envolve o embrião em certos tipos de plantas 116 %13% 100. 5,3 5,0% ≈ = X X CV CV %5,22% 100. 02,0 04,0% ≈ = Y Y CV CV A espessura do endosperma possui menor variabilidade que o peso das sementes, pois possui menor CV%. mm mmX 5,0ˆ 5,3 = = σ Variável Espessura (X): Variável Peso (Y): g gY 004,0ˆ 02,0 ≅ ≅ σ Erro padrão da média • Conceito: Medida de dispersão das médias amostrais em torno da média da população. n X σ σ ˆ ˆ = É um estimador da precisão da estimativa de uma média populacionall!! 117 kg n X 131,030 719,0ˆ ˆ ≈== σ σ Quanto menor o valor do erro padrão da média, mais provável será a chance de se obter a média amostral nas proximidades da média populacional!! 118 30 719,0ˆ = = n kgσ Sejam: 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 119 Algumas observações sobre as medidas de dispersão: � Quanto maior a dispersão dos dados, maiores são a amplitude, o desvio médio, a variância, o desvio padrão e o coeficiente de variação; � Quanto maior a concentração dos dados em torno do valor central, menores são a amplitude, o desvio médio, a variância, o desvio padrão e o coeficiente de variação; � Se os valores forem todos iguais, a amplitude, o desvio médio, a variância, o desvio padrão e o coeficiente de variação serão iguais a zero; � Não existe estimativas negativas de amplitude, desvio médio, variância, desvio padrão e erro padrão da média; � É possível valor negativo, e acima de 100%, para o coeficiente de variação. 120 Estatísticas descritivas de distribuição � Coeficiente de assimetria � Coeficiente de curtose 21 Coeficiente de assimetria • Conceito: Mede a simetria ou assimetria de uma distribuição. 121 Simétrica Assimétrica positiva Assimétrica negativa 122 Simétrica Assimétrica positiva Assimétrica negativa )( MoMdX == )( MoMdX <<)( XMdMo << Posição relativa da MÉDIA, MEDIANA e MODA numa distribuição Figura 15 - Posição relativa da média, mediana e moda numa distribuição. 123 - Se As > 0 ⇒ a distrib. será Assimétrica Positiva; - Se As = 0 ⇒ a distrib. será Simétrica ou Normal; - Se As < 0 ⇒ a distrib. será Assimétrica Negativa. σˆ oMXAs −= σˆ )(3 dMXAs −= COEFICIENTE DE ASSIMETRIA 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 124 kg M M kgX d o 719,0ˆ 925,2 400,3 987,2 = = = = σ Sejam: 26,0 719,0 )925,2987,2(3 ˆ )(3 ≈ − = − = σ dMXAs As > 0 ⇒ Assimetria positiva EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. 574,0 719,0 400,3987,2 ˆ 0 −≈ − = − = σ MXAs As < 0 ⇒ Assimetria negativa 125 Figura 16. Histograma e polígono de frequência para o peso ao nascer de nascidos vivos, em kg. Fr e qu ên cia a bs o lu ta (F i) Classes de valores 0 2 4 6 8 10 12 14 16 1,191 ├ 1,949 1,949 ├ 2,707 2,707 ├ 3,465 3,465 ├ 4,223 4,223 ├ 4,981 Como no conjunto de dados a moda foi maior que a mediana e a média, pressupõe-se que a assimetria seja negativa, e não positiva, apesar da relação entre as medidas não ter correspondido exatamente ao esperado para esse tipo de assimetria. • Conceito: Mede o grau de achatamento de distribuições simétricas (Normais ou aproximadamente Normais) 126 Coeficiente de curtose 22Curtose < 3,0 → platicúrtica Curtose = 3,0 → mesocúrtica (distribuição Normal) Curtose > 3,0 → leptocúrtica )3)(2( )1(3 ˆ)3)(2)(1( )1( 2 1 4 −− − − − −−− + = ∑ = nn nXX nnn nnCurtose n i i σ 127 COEFICIENTE DE CURTOSE 128 1,570 2,400 2,720 2,950 3,300 3,720 1,720 2,450 2,750 3,125 3,400 3,800 1,900 2,522 2,800 3,200 3,400 4,100 2,100 2,700 2,900 3,200 3,400 4,200 2,250 2,700 2,900 3,220 3,600 4,600 EXEMPLO: Sejam os dados do peso ao nascer de nascidos vivos, em kg Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 34. kg kgX n 719,0ˆ 987,2 30 = = = σ 056,0 )330)(230( )130(3 719,0 987,2 )330)(230)(130( )130(30 )3)(2( )1(3 ˆ)3)(2)(1( )1( 230 1 4 2 1 4 ≈ −− − − − −−− + = −− − − − −−− + = ∑ ∑ = = Curtose XCurtose nn nXX nnn nnCurtose i i n i i σ Curtose < 3,0 ⇒ Platicúrtica Sejam: 129 Sejam os dados do consumo diário de sal, em gramas por dia: EXERCÍCIO 6 9 6 8 7 6 4 10 6 8 6 8 a) Construa o histograma e o polígono de frequências (a partir das frequências relativas) e discuta sobre a assimetria da distribuição. b) Obtenha média, moda (classifique) e mediana. c) Obtenha a variância e o desvio padrão. Interprete o desvio padrão. d) Calcule o coeficiente de assimetria (classifique) e compare as posições relativas da média, mediana e moda na distribuição. e) Obtenha a amplitude e o coeficiente de variação. Adaptado de: VIEIRA, S. Introdução à estatística. Rio de Janeiro: Elsevier, 2008, pág. 82. 130 5,2 3 3 1 = = = aLi c ka) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 2,5 ├ 5.5 5,5 ├ 8.5 8,5 ├ 11,5 Figura 17. Histograma e polígono de frequência para o consumo diário de sal, em gramas por dia. Classes Fr e q u ê n ci a r e la ti va 131 5,6 al Unimod6 7 = = = Md Mo X b) Respostas: 65,1 73,22 ≈ ≈ σ σ ) )c) A maioria dos dados do consumo diário de sal está disperso em torno da média entre 7 – 1,65 e 7 + 1,65, ou seja, 5,35 ≤ ≤ 8,65.X 132 65,1 5,6;6 7 ≅ == = σ ) MdMo X 91,0 65,1 )5,67(3 ˆ )(3 61,0 65,1 67 ˆ ≈ − = − = ≈ − = − = σ σ d o MXAs MXAs d) As > 0 ⇒ Assimetria positiva Respostas: XMdMoLogo <<⇒ : 23 133 65,1 7 ≅ = σ ) X e) %6,23100. 7 65,1100.% === X CV σ ) 64101 =−=−= XXA n Respostas: FIM Literatura recomendada: BLAYR, R. C.; TAYLOR, R. A. Bioestatística para ciências da saúde. São Paulo: Pearson Education do Brasil, 2013. 469p. CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. 255p. FERREIRA, D. F. Estatística básica. Lavras: UFLA, 2005. 664p. LEVINE, D. M. et al., Estatística: teoria e aplicações. 6. ed. Rio de Janeiro: LTC, 2012. 804p. TOLEDO, G.L. & OVALLE, I.I. Estatística básica. 2.ed. São Paulo: Atlas, 1982. 459p. VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Elsevier, 2008. 345p. 134
Compartilhar