Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual de Londrina Centro de Ciências Exatas Departamento de Estatística Estatística Aplicada à Veterinária Prof. Silvano Cesar da Costa L O N D R I N A Estado do Paraná - Brasil Sumário Página Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x 1 Introdução 1 1.1 Aplicações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Planejamento de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 Vantagens da amostragem sobre o censo . . . . . . . . . . . . . . . . . . . . 5 2 Amostragem 9 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Técnicas de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples . . . . . . . . 10 2.2.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.3 Amostragem estrati�cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Etapas de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3 Conceitos elementares 20 3.1 Divisão da estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Dimensionamento da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3.1 Determinação do tamanho amostral para variáveis qualitativas . . . . . . . . 24 3.3.2 Determinação do tamanho amostral para variáveis quantitativas . . . . . . . 25 4 Estatística Descritiva 30 4.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.1 Elementos essenciais de uma tabela . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.2 Elementos complementares de uma tabela . . . . . . . . . . . . . . . . . . . 32 4.2 Distribuição de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.1 Construção de uma distribuição de frequência de variáveis discretas . . . . . . 33 4.2.2 Construção de uma distribuição de frequência para variáveis contínuas . . . . 35 4.3 Tabelas de dupla entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5 Grá�cos 42 5.1 Apresentação grá�ca de variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . 43 5.1.1 Grá�co em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.1.2 Grá�co em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.3 Grá�co em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.1.4 Grá�co em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.5 Grá�co em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.1.6 Grá�co em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.2 Apresentação grá�ca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53 5.2.1 Grá�co em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.3 Apresentação grá�ca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54 5.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.3.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3.3 Grá�co de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.3.1 Construção de um grá�co ramo-e-folhas . . . . . . . . . . . . . . . 56 5.3.4 Grá�co de Caixas (ou Box Plot) . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.5 Grá�co de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3.6 Grá�co de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3.7 Grá�co de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.4 Ilusão dos Grá�cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6 Medidas de Posição 64 6.1 Média Aritmética Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 6.4.1 Determinação da mediana de valores não tabulados . . . . . . . . . . . . . . 70 6.4.2 Mediana de dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 72 6.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.5.1 Moda para dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 73 6.6 Utilização das medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . 77 6.7 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.7.1 Separatrizes de dados não agrupados . . . . . . . . . . . . . . . . . . . . . . 77 6.7.2 Separatrizes de dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . 79 6.7.3 Grá�co de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.8 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.8.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.8.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7 Medidas de dispersão ou variabilidade 92 7.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.2 Desvio Absoluto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.3.1 Variância de Dados Brutos Populacionais . . . . . . . . . . . . . . . . . . . . 95 7.3.2 Variância de Dados Brutos Amostrais . . . . . . . . . . . . . . . . . . . . . . 95 7.3.3 Variância de Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.3.4 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.5 Coe�ciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 8 Análise Combinatória 107 8.1 Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 8.2 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.3 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.3.1 Quantidade de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . 111 8.4 Arranjos e Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.4.1 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.4.2 Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.5 Quantidade de Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.6 Quantidade de Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 9 Noções sobre a teoria das probabilidades 121 9.1 Conceitos Básicos em Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.1.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.1.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1229.1.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 9.2 Conceito de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 9.2.1 Conceito Clássico ou a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 123 9.3 Propriedades da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4 Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4.1 Operações com Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4.1.1 União de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4.1.2 Interseção de Eventos: . . . . . . . . . . . . . . . . . . . . . . . . 127 9.4.1.3 Sub-Conjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 9.4.1.4 Eventos Disjuntos: . . . . . . . . . . . . . . . . . . . . . . . . . . 127 9.4.1.5 Complemento: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 9.4.2 Regras de Cálculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . 128 9.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 9.5.1 Probabilidade Condicional no Diagrama de Venn . . . . . . . . . . . . . . . . 132 9.5.2 Aplicação da Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . 133 9.5.3 Valor das Predições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 9.5.4 Probabilidade da Intersecção de Dois Eventos . . . . . . . . . . . . . . . . . 137 9.5.5 Amostragem Sem Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 138 9.5.6 Amostragem com Reposição . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.5.7 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 10 Variáveis aleatórias discretas 146 10.1 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 10.2 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 10.2.1 Distribuição de uma Variável Aleatória . . . . . . . . . . . . . . . . . . . . . 148 10.2.2 Função de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 10.2.3 Valor médio ou Esperança Matemática de Y . . . . . . . . . . . . . . . . . . 150 10.2.4 Variância de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10.2.5 Distribuição acumulada de uma variável aleatória . . . . . . . . . . . . . . . 152 10.3 Principais Distribuições de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . 154 10.3.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 10.3.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 10.3.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 10.3.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson . . . . . . 164 10.3.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 11 Variáveis aleatórias contínuas 172 11.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11.1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11.1.2 Propriedades da Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . 176 11.2 Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 11.3 Uso da Tabela da Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . 180 12 Introdução à inferência estatística 191 12.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 12.2 Distribuição Amostral da Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 198 Lista de Tabelas Página Tabela 1.1 - Ácido arcórbico, em mg/100 ml. . . . . . . . . . . . . . . . . . . . . . . . . 7 Tabela 2.1 - Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Vete- rinária da Universidade Estadual de Londrina, no ano de 2005. . . . . . . . . 11 Tabela 2.2 - Diagnósticos de radiogra�as de tórax . . . . . . . . . . . . . . . . . . . . . . 16 Tabela 3.1 - Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, do ano de 2005. . . . . . . . . . . . . . . . . . . . . . 21 Tabela 3.2 - Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina, ano 2013. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Tabela 3.3 - Tamanho amostral e erro de precisão. . . . . . . . . . . . . . . . . . . . . . 28 Tabela 4.1 - Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina (UEL), no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . . 31 Tabela 4.2 - Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. Londrina - Paraná, 2002. . . . . . . . . . . . . . . . . . . . . . 32 Tabela 4.3 - Número de �lhotes de cadelas submetidas a inseminação arti�cial no Hospital Veterinário da UEL em 2005. . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Tabela 4.4 - Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holandês, segundo a classi�cação de Gaines (1994). . . . . . . . . . . . . . . 36 Tabela 4.5 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor Alemão, coletados no Hospital Veterinário da UEL, em 2003. . . . . . 38 Tabela 4.6 - Acasalamentos fecundos e infecundos por raça. . . . . . . . . . . . . . . . . . 40 Tabela 4.7 - Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012. 41 Tabela 5.1 - Número de atendimentos no Hospital Veterinário, da Universidade Estadual de Londrina, no primeiro semestre de 2003. . . . . . . . . . . . . . . . . . . . . 62 Tabela 6.1 - Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor Alemão, coletados no Hospital Veterinário da Universidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Tabela 6.2 - Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento bacteriano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Tabela 6.3 - Tempo (em semanas) de sobrevida de ratos com câncer induzido experimental- mente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Tabela 6.4 - Peso médio (kg) das leitegadas da raça Landrace, ao nascer. . . . . . . . . . 80 Tabela 6.5 - Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída. . . . . . . . 89 Tabela 6.6 - Peso médio em ratos por idade. . . . . . . . . . . . . . . . . . . . . . . . . . 90 Tabela 7.1 - Pesos de cinco coelhos de quatro raças distintas. . . . . . . . . . . . . . . . . 92 Tabela 7.2 - Desvios e desvios absolutos para pesos dos animais da raça Alaska. . . . . . . 94 Tabela 7.3 - Desvios e quadrado dos desvios para pesos dos animais da raça Alaska . . . . . 96 Tabela 7.4 - Pesos das carcaças de bovinos. . . . . . . . . . . . . . . . . . . . . . . . . . 98 Tabela 7.5 - Teor de gordura (g/24 horas) em 43 crianças. . . . . . . . . . . . . . . . . . 103 Tabela 7.6 - Pesos dos frangos de uma granja. . . . . . . . . . . . . . . . . . . . . . . . . 104 Tabela 7.7 - Distribuição de frequência da dosagem de ácido úrico. . . . . . . . . . . . . . 104 Tabela 7.8 - Número de acidentes na rodovia X. . . . . . . . . . . . . . . . . . . . . . . . 105 Tabela 9.1 - Distribuição dos animais quanto ao Porte e Sexo. . . . . . . . . . . . . . . . 132 Tabela 9.2 - Esquema padrão de síntese dos dados para veri�cação da qualidade de um teste clínico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 134 Tabela 9.3 - Resultados da tomogra�a computadorizada em 67 pacientes com metástase e 83 sem metástase do carcinoma hepático. . . . . . . . . . . . . . . . . . . . . 135 Tabela 9.4 - Probabilidades necessárias para o cálculo dos índices VPP e VPN. . . . . . . . 136 Tabela 10.1 - Distribuição da variável aleatória Y . . . . . . . . . . . . . . . . . . . . . . . 148 Tabela 10.2 - Distribuição da variável aleatória Y de Bernoulli. . . . . . . . . . . . . . . . . 155 Tabela 10.3 - Número de consultas realizadas pelos �liados ao plano de saúde. . . . . . . . 163 Tabela 12.1 - Distribuição das Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Lista de Figuras Página Figura 5.1 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Figura 5.2 - Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . 44 Figura 5.3 - Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Uni- versidade Estadual de Londrina em 2011. . . . . . . . . . . . . . . . . . . . . 45 Figura 5.4 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Figura 5.5 - Produção pecuária dos estados do sul do Brasil no ano de 2012. . . . . . . . 47 Figura 5.6 - Produção pecuária dos estados do sul do Brasil no ano de 2008. . . . . . . . 49 Figura 5.7 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta- dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 50 Figura 5.8 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Esta- dual de Londrina, no ano de 2005. . . . . . . . . . . . . . . . . . . . . . . . 51 Figura 5.9 - Relação entre tolerância ao cigarro e gênero dos estudantes. . . . . . . . . . 52 Figura 5.10 - Número de �lhotes de cadelas submetidas a inseminação arti�cial no Hospital Veterinário da UEL em 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Figura 5.11 - Número de atendimentos diários, do Hospital Veterinário, da Universidade Es- tadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . . 54 Figura 5.12 - Número médio de atendimentos diários, do Hospital Veterinário, da Universidade Estadual de Londrina, nos últimos 50 dias. . . . . . . . . . . . . . . . . . . . 55 Figura 5.13 - Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina em 2003. . . . . . 58 Figura 5.14 - Relação entre peso e comprimento de tilápias do Nilo, do tanque de piscicultura da Universidade Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . 59 Figura 5.15 - Relação entre peso e comprimento de tilápias do Nilo, controladas para a variável tempo de recuperação da anestesia, do tanque de piscicultura da Universidade Estadual de Londrina, 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Figura 5.16 - Peso médio de 10 tilápias, do tanque de piscicultura da UEL, acompanhadas durante 8 semanas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Figura 5.17 - Grá�co distorcido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Figura 5.18 - Grá�co Correto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Figura 6.1 - Esquema para obtenção da moda pelo método de Czuber, do número de aten- dimentos do Hospital Veterinário da UEL, 2005. . . . . . . . . . . . . . . . . 74 Figura 6.2 - Esboço do grá�co de caixas. . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Figura 6.3 - Frequência cardíaca dos animais atendidos no Hospital Veterinário, da Univer- sidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . . . 83 Figura 6.4 - Frequências respiratórias dos animais atendidos no Hospital Veterinário, da Uni- versidade Estadual de Londrina, em 2003. . . . . . . . . . . . . . . . . . . . 87 Figura 10.1 - Grá�co das probabilidades de prenhez dos animais. . . . . . . . . . . . . . . . 148 Figura 10.2 - Distribuição acumulada da prenhez dos animais. . . . . . . . . . . . . . . . . 153 Figura 10.3 - Grá�co da distribuição Binomial, para n = 10 ensaios com probabilidade de sucesso p = 0, 30. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Figura 10.4 - Grá�co da distribuição de Poisson, cuja média (λ) é 4,0. . . . . . . . . . . . . 161 Figura 11.1 - Grá�co da função f(y) = 1 4 y3. . . . . . . . . . . . . . . . . . . . . . . . . . 173 Figura 11.2 - Grá�co da Distribuição Normal. . . . . . . . . . . . . . . . . . . . . . . . . . 176 Figura 11.3 - Probabilidade entre as áreas a e b. . . . . . . . . . . . . . . . . . . . . . . . . 176 Figura 11.4 - ±1 desvio da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Figura 11.5 - ±2 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Figura 11.6 - ±3 desvios da média. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Figura 11.7 - Áreas sob a curva normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Figura 11.8 - Relação entre médias e desvios da distribuição normal. . . . . . . . . . . . . . 178 Figura 11.9 - Áreas sob a curva normal padrão. . . . . . . . . . . . . . . . . . . . . . . . . 179 Capítulo 1 Introdução A estatística, de uma forma geral, trata da organização, interpretação e apresentação de dados, sejam de contagens ou mensurações. A palavra estatística está associada à idéia de �coleção de dados (números)�. Mesmo sem serem estudiosos da área, as pessoas convivem com informações estatísticas praticamente todos os dias, seja através de rádio, televisão, jornais ou relatórios técnicos das mais diversas áreas. Várias de�nições são dadas à estatística, entre elas: �Estatística é a arte e ciência de coletar, analisar e interpretar dados�. �A estatística é uma ciência da tomada de decisão diante de incertezas�. �Estatística é a ciência de fazer uso efetivo dos dados numéricos relativos aos grupos de indivíduos ou de experimentos.� �O pensamento estatístico será um dia tão necessário para o cidadão quanto a habilidade de ler e escrever�. (Wells, H. G., 1993) �A estatística preocupa-se com a compreensão do mundo real através da informação que nós extraímos da classi�cação e mensuração. Sua característica distintiva é lidar com a variabilidade e a incerteza, que estão em toda parte�. (Bartholomew, 1995) Ao conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas, convencionou-se chamar de Bioestatística. A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza, estabelecendo faixas de con�ança para a e�cácia dos tratamentos e veri�cando a in�uência de fatores de risco no aparecimento de doenças. 1 2 Capítulo 1. Introdução 1.1 Aplicações da Estatística As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo campo de estudo se bene�cia da utilização de métodos estatísticos. Alguns exemplos da aplicabilidade da estatística na Medicina Veterinária são: Exemplo 1: Comparação do uso de rastreabilidade para suínos em grupo e individual 1 Com o acréscimo da demanda do mercado consumidor nacional e internacional por pro- dutos rastreados, urge o desenvolvimento de conhecimento sobre processos de identi�cação e ras- treamento de informações na produção animal. Este trabalho teve como objetivo comparar dois tipos de rastreabilidade em suínos: individual e de grupo,utilizando o sistema de identi�cação e registro de dados eletronicamente. Os 50 leitões foram identi�cados ao nascer e as variáveis peso e conversão alimentar serviram de base para comparação entre os dois sistemas. Uma amostra foi considerada a partir do erro admissível, estabelecido pelo produtor. Exemplo 2: Fatores de Risco Associados com a Prevalência Sorológica de Salmonela em Granjas Comerciais de Suínos do Sul do Brasil 2 . Devido a complexa ecologia da Salmonela, estudos epidemiológicos têm sido realizados para identi�car os fatores de risco para a infecção, cuja eliminação reduzirá o número de suínos portadores de salmonela ao abate. O presente trabalho objetivou identi�car esses fatores associados com infecção por Salmonela em granjas de suínos comerciais dos estados do Rio Grande do Sul e Santa Catarina. A identi�cação da infecção foi realizada através da reação sorológica de suínos na terminação. O estudo conduzido foi observacional transversal em 33 granjas de ciclo completo e 32 unidades de terminação de leitões nos estados do RS e SC. Em cada granja foi aplicado um questionário que contemplava informações sobre manejo, alimentação, ambiência e condições higiênico-sanitárias do rebanho. Foi coletado sangue de aproximadamente 40 animais uma semana antes do abate. O soro foi submetido ao teste de Elisa polivalente para Salmonela dos sorovares Typhimurium, Choleraesuis e Anatum. Durante a visita foram também coletadas amostras de água e ração, avaliadas quanto à presença de coliformes pela técnica de fermentação em tubos múltiplos. A ração, além da avaliação da granulometria, foi submetida a contagem de coliformes e pesquisa de Salmonela pela técnica bacteriológica e por PCR. Os resultados destes exames e as respostas do questionário foram usadas na análise de fatores de risco como variáveis explicativas (180 variáveis) e os resultados da prevalência 1 Brazilian Journal of Veterinary Research and Animal Science (2004) 41:327-331 2 Comunicado Técnico 309 - Embrapa Suínos - Concórdia, SC Planejamento de uma pesquisa 3 sorológica constituíram a variável resposta. Inicialmente, através de teste de χ2, foi estudada a associação entre variáveis resposta e explicativas como análise preliminar. As variáveis explicativas associadas com a variável resposta (p ≤ 20), foram submetidas a análise de correspondência múltipla. Exemplo 3: Corte da cauda em leitões: estudo comparativo de dois métodos 3 . O objetivo deste trabalho foi de avaliar a in�uência do corte e do esmagamento da cauda, a nível do último terço da cauda dos leitões sobre a ocorrência de hemorragia, de diarréia, e o ganho de peso dos leitões até os 21 dias de idade. O experimento foi conduzido no sistema de produção de suínos da EMBRAPA�CNPSA, em Concórdia/SC, envolvendo um total de 251 leitões das raças Landrace, Large White e Mestiços destas raças, distribuídos nos seguintes tratamentos: Tratamento A (TA) corte do último terço da cauda; Tratamento B (TB) esmagamento do último terço da cauda. O corte foi realizado com o auxílio de uma tesoura e o esmagamento com uma tesoura sem �o com os referidos bordos arredondados. O corte ou o esmagamento da cauda foi sempre realizado ao nível do último terço da cauda, nas primeiras horas da manhã do primeiro dia de vida dos leitões, no TA, logo após o corte o restante da cauda foi mergulhada em uma solução de iodo. Os leitões foram examinados de hora em hora durante as primeiras 10 horas após o corte ou esmagamento da cauda com o objetivo de veri�car a ocorrência de hemorragia ou diarréia para os dois tratamento. Os animais do TB foram examinados duas vezes ao dia com o objetivo de determinar o dia da queda da cauda. Quanto à presença ou ausência de diarréia adotou-se os seguintes critérios: ausência de diarréia (fezes consistentes ou pastosas); e, presença de diarréia (fezes líquidas com ou sem desidratação dos leitões). Todos os leitões foram pesados no dia do nascimento e aos 21 dias de idade. 1.2 Planejamento de uma pesquisa O planejamento de uma pesquisa é essencial para o desenvolvimento de trabalhos aca- dêmicos e cientí�cos. Ele servirá como um roteiro para orientar o trabalho de pesquisa, de�nindo as etapas a serem realizadas, os instrumentos de avaliação e a metodologia a ser usada. O planejamento possibilita ao pesquisador seguir uma disciplina de trabalho não só refe- rente aos procedimentos lógicos, como também em termos de organização de tempo e cumprimento de prazos. Alguns pontos importantes para o planejamento de uma pesquisa são: 1. Planejamento do problema: 3 Comunicado Técnico 173 - Embrapa Suínos - Concórdia, SC 4 Capítulo 1. Introdução a) de�nição da importância do problema que se pretende estudar; b) determinação do objetivo e �nalidade do estudo; c) determinação das variáveis que serão observadas (ou coletadas) e a forma como as mesmas serão obtidas (mensuração, contagem, questionário, etc.). 2. Avaliação da informação existente: revisão bibliográ�ca. 3. Formulação de hipóteses. Em toda pesquisa, exceto naquelas meramente descritivas ou exploratórias, a formulação de uma hipótese estatística é necessária para sua comprovação ou rejeição. 4. Veri�cação da hipótese: consiste da coleta de dados, análise estatística e apresentação dos resultados. 5. Parte �nal: conclusão ou discussão, bibliogra�a, anexos, apêndices. Alguns termos técnicos são bastante comuns na estatística, tais como: a) População - de�ne-se como população ao conjunto de todos os elementos (animais, plantas, pessoas, etc) que possuam pelo menos uma característica comum, a qual se deseja estudar. Parâmetro - é uma medida numérica que descreve uma característica de uma população. São valores �xos, geralmente desconhecidos e usualmente representados por caracteres gregos. Exemplos: µ (média populacional), σ2 (variância populacional), σ (desvio-padrão po- pulacional), pi (proporção populacional), N (tamanho populacional), etc. b) Amostra - a amostra pode ser de�nida como um subconjunto da população e, a partir dela, faz-se inferência sobre as características da população. Uma amostra tem que ser representativa da população. Estatística - é uma medida numérica que descreve uma característica de uma amostra. Representada por caracteres latinos. Exemplos: y¯ (média amostral), s2 (variância amostral), s (desvio padrão amostral), p (proporção amostral), n (tamanho da amostra), etc. Planejamento de uma pesquisa 5 Como exemplo, considere uma pesquisa realizada com 30 alunos do primeiro ano, do curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, em que a estatura média foi de y¯ = 1, 74 m. Como essa estatura se baseia em uma amostra, trata-se de uma estatística. Realizou-se a mesma pesquisa com todos os alunos do primeiro ano, do curso de Me- dicina Veterinária, da Universidade Estadual de Londrina, no ano de 2013, e a estatura média foi de µ = 1, 75m. Neste caso, µ é um parâmetro, pois baseia-se em toda a população de alunos do primeiro ano do curso de Medicina Veterinária, da UEL, ano de 2013. O aspecto a ser estudado, observado ou medido em cada elemento da população recebe o nome de variável. São exemplos de variáveis: estatura, gênero, idade, peso, renda, grau de instrução, número de animais eutanasiados, número de animais capturados, etc. Não havendo condições de se trabalhar com todos os elementos da população (censo), retira-se uma amostra representativa (amostragem) da população para o estudo. 1.2.1 Vantagens da amostragem sobre o censo Um levantamento por amostragem apresenta algumas vantagens sobre o censo, tais como: a) custo reduzido: devido ao número de dados coletados ser menor do que o censo, o custo da pesquisa �ca reduzido; b) tempo: quandose utiliza a amostragem ao invés do censo, gasta-se menos tempo para conclusão do estudo, pois trabalha-se com menos elementos. Por outro lado, quando o produto é perecível, a amostragem é a única solução; c) aprofundamento: a pesquisa amostral pode ser mais detalhada, visto que são examinados me- nos elementos. Portanto, uma pesquisa amostral com exames clínicos e laboratoriais pode ser mais informativa do que realizar o censo usando como instrumento de coleta de informação um questionário. Algumas técnicas amostrais podem ser utilizadas para a obtenção da amostra. 6 Capítulo 1. Introdução Exercícios 1) Seja Y a variável tempo, em segundos, de recuperação da anestesia de tilápias, com 7 observações: yi = {y1 − y2 − y3 − y4 − y5 − y6 − y7} . yi = {17, 0− 8, 9− 28, 7− 20, 5− 8, 9− 26, 1− 43, 9} . Calcular (passo-a-passo): a) Soma de todos os tempos: 7∑ i=1 yi; b) Soma dos 5 primeiros tempos: 5∑ i=1 yi; c) 6∑ i=2 yi; d) Quadrado da soma: ( 7∑ i=1 yi )2 ; e) Soma de Quadrados: 7∑ i=1 y2i ; f) A média aritmética simples dos tempos: y¯ = n∑ i=1 yi n ; g) Suponha a constante k = 15 e calcule 7∑ i=1 k yi; h) Soma dos desvios em relação a k: n∑ i=1 (yi − k); i) Soma dos desvios em relação à média: n∑ i=1 (yi− y¯). O que você observa de diferente em relação ao item anterior? j) Demonstre algebricamente o resultado encontrado no item anterior; k) Soma de quadrado dos desvios: n∑ i=1 (yi − y¯)2; l) Considerando-se y¯ como uma constante, desenvolva algebricamente o seguinte quadrado: n∑ i=1 (yi − y¯)2; Planejamento de uma pesquisa 7 2) Considere a variável X, tempo (s) de indução da anestesia, para as mesmas 7 tilápias, respecti- vamente: xi = {165− 183− 161− 147− 146− 152− 174} Calcule: a) n∑ i=1 xi yi; b) n∑ i=1 xi n∑ i=1 yi; 3) As quantidades de ácido ascórbico, em miligramas por 100 mililitros, presentes em 80 exames químicos de plasma humano, estão indicadas na Tabela 1.1: Tabela 1.1 � Ácido arcórbico, em mg/100 ml. Ácido ascórbico (em mg/100ml) Frequências (fi) Ponto Médio (xi) 0, 0 ` 0, 2 3 0,1 0, 2 ` 0, 4 6 0,3 0, 4 ` 0, 6 18 0,5 0, 6 ` 0, 8 35 0,7 0, 8 ` 1, 0 16 0,9 1, 0 ` 1, 2 2 1,1 Total 80 80 Determine: a) k∑ i=1 fi, i = 1, 2, . . . , 6; b) k∑ i=1 xi fi, i = 1, 2, . . . , 6; c) ( k∑ i=1 xi fi )2 , i = 1, 2, . . . , 6; d) k∑ i=1 x2i fi; e) k∑ i=1 xi fi k∑ i=1 fi , i = 1, 2, . . . , 6. Que medida você encontrou? 8 Capítulo 1. Introdução f) V = 1 n− 1 k∑ i=1 x2i fi − ( k∑ i=1 xi fi )2 k∑ i=1 fi , i = 1, 2, . . . , 6; “Nem sempre podemos construir o futuro para nossa juventude, mas podemos construir nossa juventude para o futuro.” Capítulo 2 Amostragem 2.1 Introdução Usualmente trabalha-se com apenas uma amostra da população. Em geral, seleciona- se uma amostra (ou parte) da população em estudo e, a partir dela, tabula-se a característica (ou variável) que está sendo avaliada. Esta característica pode ser o peso de cães, a raça dos felinos, se o animal é vacinado ou não, gastos com medicamentos ou quaisquer outras características. A partir dos resultados obtidos na amostra, o pesquisador deverá estendê-los para toda a população, estabelecendo inclusive as margens de erro e acerto nas previsões. A realização do censo não garante que a pesquisa esteja livre de erros. Os erros de coleta e manuseio de um grande número de dados, em geral, são maiores do que as imprecisões a que se está sujeito quando generaliza-se, via inferência, as conclusões de uma amostra bem selecionada. Para que se possa fazer inferências válidas sobre a população, a partir de uma amostra, é necessário que esta seja representativa da população. Não é tarefa simples de�nir uma amostra representativa da população e, por isso, uma forma de se conseguir essa representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório, introduzindo desta maneira o conceito de amostra probabilística, conforme discutido em Bolfarine & Bussab, 2005. De�nida a população, é preciso estabelecer a técnica de amostragem, isto é, o proce- dimento que será adotado para escolher os elementos que irão compor a amostra. 9 10 Capítulo 2. Amostragem 2.2 Técnicas de Amostragem Os tipos de amostragem que serão apresentados são probabilísticos sendo que sua prin- cipal característica é poder ser submetido a tratamento estatístico, o que permite compensar erros amostrais. A amostragem é não probabilística quando alguns elementos da população não tem chance de pertencer a amostra, como por exemplo, amostras intencionais, a esmo ou de voluntários. 2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples É um método de selecionar, sem reposição, n elementos de uma população de tamanho N , conhecido e �nito, em que todo elemento da população tem igual probabilidade de ser escolhido para a amostra, sendo cuidadosamente planejada para se evitar qualquer tendenciosidade. Processo de coleta: Todos os N elementos da população devem ser enumerados. Sorteia-se, então, n elementos para compor a amostra. Este sorteio pode ser feito com o auxílio de uma tabela de números aleatórios, com a utilização de algum programa computacional ou utilizando-se uma urna que recebe os números de 1 a N . Os elementos correspondentes aos números escolhidos irão compor a amostra. Utilização: Este tipo de amostragem é utilizado quando a população for considerada homogênea. Exemplo 1: Proceder a um sorteio, em sala de aula, com 45 alunos, para compor uma amostra de tamanho 5. Solução: Para selecionar a amostra usando o R, basta utilizar o comando: sala = 1:45 sample(sala, 5, replace=F) # ou, simplesmente, sample(45, 5, replace=F) Técnicas de Amostragem 11 Obs.: a opção replace=F quer dizer que um aluno sorteado não poderá ser sorteado novamente, ou seja, a amostragem que está sendo realizada é sem reposição. Caso se proceda a uma amostragem com reposição, basta trocar o F (false) por T (true): replace=T. Exemplo 2: Considere um conjunto de dados com muitas variáveis e muitos indivíduos e se queira retirar uma amostra desse conjunto para um estudo, como apresentado na Tabela 2.1 1 . Tabela 2.1 � Dados sobre tilápias do Nilo, coletados por alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina, no ano de 2005. Tilápia Turma Equipe Indução Peso Comp Alt Comp_cabeça Recup 1 2000 2021 165 408,5 29,0 7,3 7,8 17,0 2 2000 2021 183 400,0 29,5 9,0 7,3 8,9 3 2000 2021 161 397,2 29,3 8,7 8,0 28,7 4 2000 2021 108 431,6 29,5 9,1 7,6 115,0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 500 2000 2021 147 309,4 25,8 8,1 6,7 20,5 As variáveis Indução (tempo para anestesiar a tilápia) e Recup (tempo para se recuperar da anestesia) são dadas em segundos; A variável Peso é dada em gramas; Já as variáveis Comp (comprimento), Alt (altura) e Comp_cabeça (comprimento da cabeça) são dadas em centímetros. Pode-se pensar, neste caso, em duas situações em que a amostragem simples ao acaso é utilizada. I. No primeiro caso, em que uma amostra será retirada para uma variável especí�ca, a progra- mação no R �ca exatamente como no Exemplo 1, ou seja, para se retirar uma amostra aleatória de tamanho 15 para a variável comprimento (cm), tem-se dados = read.table(`http://www.uel.br/pessoal/silvano/Dados/Tilapia.txt', dec=`,', head=T) attach(dados) names(dados) (amostra = sample(Comp, 15, replace=F)) 1 Disponível em: http://www.uel.br/pessoal/silvano/Dados/Veter/Tilapia.txt, com apenas 40 indivíduos.12 Capítulo 2. Amostragem II. No segundo caso, o objetivo é retirar uma amostra de indivíduos, sendo que cada indivíduo manterá os valores observados de cada variável. Neste caso, é necessário carregar o pacote car. Os comandos são: require(car) (saida = some(dados, n=15, replace=FALSE)) 2.2.2 Amostragem sistemática Os elementos são escolhidos utilizando-se algum tipo de sistema. Um professor, utilizando-se de sua lista de chamada, poderia compor uma amostra chamando todos os alunos cujo número na pauta terminasse em um determinado digito. Assim, o professor chamaria para compor sua amostra, por exemplo, todos os alunos com números terminados em zero, ou seja, os números 10, 20, 30, 40 e assim por diante. Esta amostragem é utilizada quando a população está naturalmente ordenada, como �chas em um �chário, listas telefônicas, quando os elementos da população são prédios de uma rua, etc. Suponha que a administração da UEL quisesse fazer uma pesquisa com seus 13.000 alunos. Neste caso, poderia-se obter uma relação completa dos mesmos e selecionar um a cada 50 para compor a amostra. Esse método é simples e utilizado com frequência. Processo de coleta: seja N o tamanho da população e n o tamanho da amostra, então calcula-se o intervalo de amostragem k = N n . Sorteia-se um número x entre 1 e k, formando a amostra dos elementos correspondentes aos números: x, x+ k, x+ 2k, . . .. Utilização: Este tipo de amostragem é utilizado quando a população está naturalmente ordenada. Exemplo: Considere a população formada pelos 400 alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina, no ano de 2014. O Colegiado do Curso decide realizar uma pesquisa para saber o grau de conhecimento dos alunos quanto à pro�ssão escolhida. Dispõe-se de uma lista, em ordem alfabética, de todos os alunos. Uma amostra de 50 estudantes será selecionada. Proceda à escolha desta amostra. Técnicas de Amostragem 13 Solução: Para selecionar a amostra usando o R, basta utilizar o comando: n = 50 ; N = 400 ; k = N/n (amostra = sample(k, 1)) (amostras = seq(amostra, N, k)) 2.2.3 Amostragem estrati�cada Se uma população é considerada heterogênea em relação ao atributo que se quer pes- quisar, mas é possível distinguir sub-populações mais ou menos homogêneas, deve-se utilizar a amos- tragem estrati�cada. Por exemplo, se os alunos dos vários cursos da UEL são diferentes em relação ao atributo a ser pesquisado, pode-se considerar cada curso como um estrato. Para obter uma amostra dos alunos da UEL, seria razoável obter uma amostra dentro de cada curso e depois reunir as informações numa única amostra, que seria representativa dos alunos da UEL. Processo de coleta: deve-se dividir as N unidades da população em N1, N2, . . . , Nj estratos disjuntos e homogêneos e selecionar, ao acaso, amostras de tamanhos n1, n2, . . . , nj , de modo que o tamanho da amostra seja n = n1 + n2 + . . .+ nj . O tipo de amostragem estrati�cada mais comum é a proporcional, que consiste em selecionar os elementos de uma amostra entre os vários estratos em número proporcional ao tamanho de cada um dos estratos. Procedimento: 1) calcular a fração de amostragem dada por: f = n N ; 14 Capítulo 2. Amostragem 2) calcular o número de elementos a ser sorteado em cada estrato: n1 = N1f ; n2 = N2f ; . . .; nj = Njf sendo: N (número de elementos da população); Nj (número de elementos do estrato j); n (tamanho da amostra a ser selecionada). Exemplo 1: Deve-se extrair uma amostra de tamanho n = 80 de uma população de tamanho N = 2.000, que consiste de 4 estratos de tamanhos N1 = 500, N2 = 1.200, N3 = 200 e N4 = 100. Se a alocação deve ser proporcional, qual o tamanho da amostra a ser extraída de cada um dos quatro estratos? Solução: Os comandos do R são: n = 80 ; N1 = 500 ; N2 = 1200 ; N3 = 200 ; N4 = 100 N = N1 + N2 + N3 + N4 ; f = n / N n1 = f*N1 ; n2 = f*N2 ; n3 = f*N3 ; n4 = f*N4 (amostras = cbind(n1, n2, n3, n4)) (amostra.1 = sample(N1, n1, replace=F)) (amostra.2 = sample(N2, n2, replace=F)) (amostra.3 = sample(N3, n3, replace=F)) (amostra.4 = sample(N4, n4, replace=F)) Exemplo 2: Considere o conjunto de dados tilápia, que tem 4 estratos (Equipes: 1011, 1012, 2021, 2022), e o objetivo é retirar uma amostra de tamanho 5 para cada extrato da variável comprimento (Comp). Os comandos são Técnicas de Amostragem 15 dados = read.table(`http://www.uel.br/pessoal/silvano/Veter/Dados/Tilapia.txt', dec=`,', head=T) attach(dados) names(dados) (Amostras = tapply(Comp, Equipe, sample, size=5)) Caso o número de amostras dentro de cada estrato seja diferente, pode-se utilizar o pacote sampling, em que é possível determinar se as amostras retiradas dentro de cada estrato serão do tipo: I amostragem aleatória simples require(sampling) amost.estrat.simples = strata(dados, c(``Equipe"), size = c(5, 7, 3, 4), method = ``srswor") (amostras.est.simples = getdata(dados, amost.estrat.simples)) Observe a coluna Stratum, no arquivo de saída do R. I amostragem sistemática amost.estrat.sist = strata(dados, c(``Equipe"), size = c(5, 7, 3, 4), method = ``systematic", pik=Equipe) (amostras.est.sist = getdata(dados, amost.estrat.sist)) Pode-se citar, ainda, a amostragem por conglomerado e a amostragem por conveniência. Não importa quão bem se planeje e execute o processo de coleta de amostras, há sempre a possibilidade de um erro nos resultados. Erro amostral: é a diferença entre um resultado amostral e o verdadeiro resultado populacional. Tais erros resultam de �utuações amostrais aleatórias. Exemplo: escolha aleatoriamente 50 �chas de cães da raça Poodle atendidos no Hospital Veterinário da UEL e veri�que o peso médio (kg) desses animais. Retirada uma outra amostra de 50 animais, é 16 Capítulo 2. Amostragem provável que se obtenha um peso médio (kg) diferente. Ocorre um erro não amostral quando os dados amostrais são coletados, registrados ou analisados incorretamente. Tais problemas resultam em um erro que não seja uma simples �utuação amostral aleatória, como por exemplo, a escolha de uma amostra não aleatória e tendenciosa, a utilização de um instrumento de mensuração defeituoso, uma questão formulada de modo tendencioso, um grande número de recusas de resposta ou a cópia incorreta dos dados amostrais. Muitos desses erros são provenientes do próprio observador, devido ao grau de treina- mento (experiência), o excesso de trabalho, seu estado físico e/ou condições ambientais. Como exemplo, cita-se o caso de cinco radiologistas que examinaram, em diferentes épocas, separadas por um período de dois meses, as mesmas 1.200 radiogra�as de tórax, com a �nalidade de diagnosticar a existência de tuberculose pulmonar. As radiogra�as de tamanho-padrão foram lidas separadamente por cada radiologista e os resultados se encontram na Tabela 2.2. Tabela 2.2 � Diagnósticos de radiogra�as de tórax. Radiologista Número de radiogra�as consideradas positivas 1a Leitura 2a Leitura A 118 139 B 69 78 C 83 88 D 96 89 E 106 92 Deve-se concluir que tais discordâncias não re�etem uma variação real e sim, erros co- metidos por quem procedeu à leitura do material radiográ�co. 2.3 Etapas de uma pesquisa Considerando-se que as fases do planejamento foram seguidas, deve-se levar em conside- ração algumas etapas para que a validação da hipótese possa ser aceita. Essas etapas são relativas aos dados propriamente, como a unidade de medida, a unidade amostral, dentre outras. Essas etapas são: a) população - a população a ser trabalhada deve ser bem de�nida, identi�cando-se corretamente Etapas de uma pesquisa 17 os seus elementos para que a amostra coletada represente os dados da população; b) dados a serem coletados- ao se efetuar a coleta dos dados é importante veri�car se todos esses dados serão importantes para os propósitos da pesquisa, e se nenhum dado essencial está sendo omitido; c) métodos de medidas - antes de se coletar os dados é necessário e importante que a metodologia de sua coleta seja estruturada. Deve-se decidir preliminarmente se os dados serão coletados por �chas, por declaração de entrevistados, por telefone, por respostas a um questionário, etc. Em qualquer das alternativas, há necessidade de um perfeito treinamento em toda a equipe de trabalho, a �m de que haja um critério único de registro; d) unidade de amostragem - se a pesquisa for realizada através de levantamento por amostragem, deve-se de�nir qual é a unidade de amostragem, que pode ser: uma pessoa, uma família, uma empresa, um quarteirão, uma planta, um animal, etc.; e) escolha do tipo de amostragem - de acordo com o objetivo da pesquisa e do tipo de popula- ção, deve-se escolher a melhor técnica para selecionar a amostra: amostragem simples ao acaso, amostragem estrati�cada, etc.; f) veri�cação preliminar - a veri�cação preliminar não pode faltar em qualquer pesquisa. Deve-se testar em uma pequena parte da população as seguintes características: se a técnica a ser utilizada para a coleta é a melhor possível; se a forma escolhida de registro das informações não deve ser alterada; se os coletores estão bem treinados, en�m deve-se veri�car a e�ciência da metodologia a ser empregada; g) análise dos dados - apurados os resultados, os mesmos devem ser analisados estatisticamente. Os dados podem ser apresentados em forma de tabelas ou grá�cos. Podem ser calculadas algumas medidas, alguns testes estatísticos e realizadas algumas inferências. Após a análise cuidadosa, deve-se elaborar um relatório completo contendo os objetivos da pesquisa, a metodologia utilizada, a análise de todos os resultados, suas conclusões, a bibliogra�a e, se necessário os anexos, como por exemplo, cópia do questionário. 18 Capítulo 2. Amostragem Exercícios 1) Um pesquisador está interessado em avaliar o Peso (kg) de animais domésticos das espécies caninas e felinas, não importando a raça. Para isso, ele dispõe de uma lista de dados, disponível em http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt, com a relação dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina, durante um certo período. (a) Retire uma amostra aleatória de 25 animais. Explique o processo de seleção. Quantos são da espécie canina e felina? (b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo de amostragem ele deve utilizar? (c) Considerando o item 1b, retire uma amostra de tamanho 20 para a espécie canina e de tamanho 5 para a espécie felina. Relacione as amostras retiradas. Qual o peso médio dos dados? E para cada um dos estratos? 2) A enumeração dos prontuários de animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina é reiniciada sempre no primeiro dia útil de cada ano. Assim, o prontuário do primeiro animal atendido no ano de 2014 recebeu o número 1 e, assim, sucessivamente. No ano de 2013, foram 3.756 novos prontuários. Uma pesquisa de satisfação com os proprietários cujos animais foram atendidos em 2013 será realizada. Para isto, uma amostra de 300 proprietários será estudada. Que tipo de amostragem você usaria e porquê? Enumere a amostra coletada. 3) Um hematologista deseja fazer uma nova veri�cação de uma amostra de tamanho 10 dos 854 espécimes de sangue analisados por um laboratório em determinado mês. Para isto, ele cria uma estrutura amostral numerando como 001, 002, ..., 854. Use a tabela de números aleatórios ou calculadora para escolher que espécimes de sangue serão selecionados? Explique como escolheu os números da tabela aleatória. 4) Deve-se retirar uma amostra estrati�cada de tamanho n = 60 de uma população de tamanho 4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato? Etapas de uma pesquisa 19 5) Deseja-se realizar um estudo, junto à comunidade universitária da Universidade Estadual de Lon- drina, quanto à posse e cuidado com os animais domésticos. Explique de que forma você planejaria esta pesquisa. Também, elabore 10 questões relativas ao assunto que será pesquisado. “Nem tudo o que pode ser contado conta, e nem tudo que conta pode ser contado.” (George Gallup). Capítulo 3 Conceitos elementares 3.1 Divisão da estatística A estatística é uma ciência dividida basicamente em duas partes: estatística descritiva - descreve e analisa determinada população (ou amostra), sem pretender tirar conclusões; de caráter mais genérico. Os elementos básicos para essa análise são: tabelas, grá�cos e medidas numéricas como a média, moda e mediana. estatística indutiva ou inferência estatística - preocupa-se com a análise e interpretação dos da- dos experimentais, e tem como objetivo tirar conclusões sobre populações com base nos resul- tados observados em amostras extraídas dessas populações. Tanto a estatística descritiva quanto a indutiva são realizadas em função da coleta de dados, sejam populacionais ou amostrais. A questão então é: como obter os dados estatísticos? Que tipo de variáveis são obtidas? Em relação a primeira questão, eles podem ser obtidos através de: coleta documental, entrevista, questionário, formulário, observação, experimento, etc. É importante que a obtenção dos dados seja realizada utilizando-se da metodologia apresentada no Capítulo 2. Os tipos de variáveis encontradas dependerão, obviamente, do tipo de estudo realizado. A classi�cação dos tipos de variáveis passíveis de serem encontradas são descritos na seção 3.2. 20 Tipos de variáveis 21 3.2 Tipos de variáveis Em estatística é usual a manipulação de grandes conjuntos de dados, que constituem a matéria-prima das pesquisas estatísticas. Para simpli�car seu manuseio, costuma-se representá-los através de variáveis, usando-se as expressões variáveis qualitativas e variáveis quantitativas para distingui-los. Exemplo: Foi elaborado um questionário com 34 questões para se traçar o per�l dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, no ano de 2005. As variáveis analisadas, entre outras, são apresentadas na Tabela 3.1. Tabela 3.1 � Dados dos alunos do 1o ano do curso de Medicina Veterinária, da Universidade Estadual de Londrina, do ano de 2005. Aluno Gênero Procedência Número de Estatura (m) Grau de irmãos instrução dos pais 1 Masculino Londrina 1 1,73 Superior incompleto 2 Masculino Londrina 0 1,71 Segundo grau 3 Feminino Campinas 3 1,65 Superior completo . . . . . . . . . . . . . . . . . . 27 Feminino São Paulo 1 1,68 Primeiro grau 28 Masculino Londrina 2 1,76 Primeiro grau 29 Feminino Arapongas 2 1,58 Superior completo Algumas respostas são numéricas e outras em forma de atributo ou qualidade. Assim, pode-se classi�car as variáveis como: 1. Variáveis categóricas (ou qualitativas) - apresentam como possíveis realizações uma quali- dade (ou atributo) do indivíduo pesquisado. O número de categorias pode depender do interesse do estudo. Elas se dividem em: a) variáveis categóricas nominais - É caracterizado por dados que consistem apenas em nomes, rótulos ou categorias, não existindo nenhuma ordenação nos possíveis resultados. Exemplo: Gênero dos estudantes, estado civil, tipo sanguíneo, cor dos olhos, cor dos cabelos, raça, respostas do tipo �sim�, �não�, etc. 22 Capítulo 3. Conceitos elementares b) variáveis categóricas ordinais - os dados possuem uma ordenaçãonatural. Exemplo: Grau de instrução (Ensino Fundamental, Ensino Médio, Ensino Superior), classe social (alta, média, baixa), pressão sanguínea (baixa, normal, alta), etc. 2. Variáveis numéricas (ou quantitativas) - apresentam como possíveis realizações, números resultantes de uma contagem ou mensuração (medida). Elas se dividem em: a) variáveis numéricas discretas - são aquelas que assumem valores em pontos da reta real, frequentemente resultam de uma contagem e não possuem unidade de medida. Exemplo: Número de �lhotes, número de animais eutanasiados, número de pulgões em plantas, número de animais hidratados, número de bactérias em uma lâmina, número de consultas médicas em um determinado período, número de erros em um livro, número de acidentes, etc. b) variáveis numéricas contínuas - os possíveis resultados podem assumir, teoricamente, qualquer valor em certo intervalo da reta real, normalmente resultam de uma mensuração e apresentam unidade de medida. Exemplo: Estatura, salário, idade, peso, pressão sanguínea, temperatura, taxa de colesterol, etc. A importância dessa classi�cação justi�ca-se porque cada tipo de variável resposta exige um método de análise estatística especí�co. Esquematicamente, tem-se: Nominal Qualitativas 33hhhhhhhhhhhhhhhhhhhhh ++VVVV VVVVV VVVVV VVVVV V Ordinal Variáveis 88qqqqqqqqqqqqqqqqqqqqqqqqqq &&MM MMM MMM MMM MMM MMM MMM MMM MMM Discreta Quantitativas 33hhhhhhhhhhhhhhhhhhhhh ++VVVV VVVV VVVV VVVV VVV Contínua Dimensionamento da amostra 23 De acordo com Ogliari e Andrade (2005), �A distinção entre variáveis contínuas e discretas é muitas vezes arti�cial, pois depende da aproximação (precisão) utilizada. Por exemplo, idade é uma variável de medida de tempo, portanto, por de�nição, é uma variável aleatória contínua, porém, em muitos casos ela é medida em anos completos (discretização da variável), o que a torna uma variável discreta.� Portanto, poderá ocorrer situações em que uma variável contínua será tratada como uma variável discreta. 3.3 Dimensionamento da amostra É muito comum ao pesquisador indagar sobre o número de elementos para uma amostra quando pretende realizar uma pesquisa de campo, laboratório ou um simples levantamento. A determinação do tamanho da amostra depende de alguns fatores: a) Tamanho da população-alvo - quanto ao número de elementos que a compõe, pode-se classi�car em �nitas e in�nitas. Na obtenção do tamanho amostral será importante esta informação. b) Variância ou percentual - em alguns estudos são empregadas características que apresentam determinada variabilidade. Em outros casos, observa-se a porcentagem de certas características em um conjunto. Dependendo do tipo de pesquisa, usa-se a variância ou a porcentagem. c) Nível de con�ança - deve-se imaginar que, ao se apresentar um valor percentual, referente à taxa de prevalência do fenômeno estudado na amostra observada, esse valor tem, em relação ao valor percentual da população, uma diferença, que é, a priori, arbitrada pelo pesquisador. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de con�ança, ou seja, o nível de con�ança de que a diferença arbitrada realmente ocorra até o limite de diferença proposto. Os níveis de con�ança propostos rotineiramente são de 95% e 99% de con�ança. Simbolizado pela letra Z, este valor é substituído na fórmula (3.1) por uma constante 1, 96 quando o nível de con�ança corresponde a 95% e por 2, 58 quando o nível de con�ança é de 99%. d) Informação de literatura - toda pesquisa a realizar, em que o objetivo é a taxa de prevalência de certo fenômeno, apresenta, na literatura, resultados que se pode utilizar para a determinação 24 Capítulo 3. Conceitos elementares do valor de n em relação ao valor de pi. Chama-se 1− pi ao valor complementar de pi para 100%, ou seja, pi + (1− pi) = 100%. Quando na literatura de referência não se encontra o valor de pi, considera-se este igual a 50%, consequentemente 1− pi = 50%. e) Erro de amostragem ou precisão - ao proceder-se às técnicas de amostragem para determinação do tamanho amostral (n), entende-se que a amostra obtida representará um determinado valor para a taxa de prevalência de certo evento. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. A esta diferença chama-se erro de amostragem ou precisão, a qual, geralmente, é arbitrada pelo pesquisador. 3.3.1 Determinação do tamanho amostral para variáveis qualitativas Quando se dispõe de variáveis nominais ou ordinais, utiliza-se as seguintes fórmulas: n0 = z2 pi(1− pi) (pi − p)2 (3.1) e n = n0 1 + n0 N (3.2) em que: ↪→ n0: amostra inicial; ↪→ z: nível de con�ança; ↪→ pi: valor obtido de trabalhos anteriores (literatura); ↪→ N : tamanho da população; ↪→ � = pi − p: é o erro de precisão arbitrado pelo pesquisador. Em populações �nitas são utilizadas as fórmulas (3.1) e (3.2). Para populações in�nitas, apenas a fórmula (3.1) deve ser utilizada. Dimensionamento da amostra 25 Exemplo: Com o objetivo de se veri�car a incidência de listeriose 1 em uma população de certa região, determine o tamanho da amostra, considerando-se N = 40.000. Para este caso, considere uma prevalência (pi) de 2%, z = 1, 96 e um erro de precisão de 4%. Solução: 3.3.2 Determinação do tamanho amostral para variáveis quantitativas Para variáveis quantitativas, tem-se: n0 = z2 σ2 �2 (3.3) e n = n0 1 + n0 N (3.4) sendo: ↪→ σ2 a variância obtida de trabalhos anteriores. ↪→ � = µ− x¯: é o erro de precisão arbitrado pelo pesquisador. 1 Doença rara, mas muito grave, causada, usualmente, pelo consumo de alimentos contaminados com a bactéria Listeria monocytogenes. 26 Capítulo 3. Conceitos elementares Obs.: Caso não se disponha de σ2 (variância populacional), realiza-se uma pré-amostragem, retirando- se, por exemplo, 30 observações da população e calcula-se o desvio padrão da característica a estudar; Para populações �nitas, utilizam-se as fórmulas (3.3) e (3.4) e, para populações in�nitas, apenas a fórmula (3.3) é utilizada. Exemplo: Numa pesquisa para se determinar a taxa média do teor de hemoglobina em fêmeas bovinas da raça Aquitânica, com idade acima de 12 meses, depara-se com o problema de de�nir-se o tamanho da amostra. Sem informações a priori, seleciona-se uma amostra de 30 animais e determina-se o valor do teor de hemoglobina de cada animal e, a seguir, calcula-se a variância (capítulo 7), cujo valor, por exemplo, é de 1, 72 (g/dl)2. Determine o tamanho da amostra, considerando-se z = 1, 96 e uma precisão de 0, 15 g/dl. Solução: Dimensionamento da amostra 27 Exercícios 1) Classi�que cada uma das variáveis apresentadas na Tabela 3.2 em qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). Tabela 3.2 � Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina, ano 2013. Sexo Castrado Espécie Peso (kg) Cidade Irmãos EN TR FC FR M Não Canina 20,0 Londrina 2 Magro 38,3 124 . M Não Canina 20,0 Londrina 4 Normal . 28 . M Não Canina 13,0 Londrina 3 Normal 39,5 100 80 F Não Canina 2,5 Londrina 3 Magro 35,1 132 . F Não Canina 11,2 Londrina 3 Magro 38,9 144 120 F Não Canina 11,0 Cambé 2 Magro 39,2 100 40 F Não Canina 10,2 Londrina 3 Normal 38,4 208 . F Não Canina 10,2 Londrina 2 Caquético 39,5 100 32 F Não Canina 10,0 Londrina 3 Normal 39,6 96 32 F Não Canina 10,0 Cambé 2 Obeso 39,7 156 36 M Não Felina 3,3 Cambé 4 Normal 39,0 220 48 F Sim Felina 2,2 Londrina 2 Normal 39,6 . 72 F Não Felina 3,5 Londrina 2 Normal 39,4 208 64 F Não Felina 3,3 Londrina 3 Normal 39,0 96 36 F Sim Felina 2,7 Londrina 2Magro 39,2 126 28 M Não Felina 6,5 Londrina 8 Magro 38,6 220 0 M Não Felina 6,5 Londrina 8 Normal 38,9 184 60 M Sim Felina 5,4 Londrina 2 Magro 38,8 168 32 M Não Felina 5,3 Londrina 8 . 38,2 176 68 M Não Felina 4,5 Londrina 2 Magro 38,2 148 60 M Não Felina 3,1 Cambé 3 Obeso 39,7 200 40 F Não Felina 3,0 Londrina 3 Normal 38,1 160 46 F Não Felina 2,9 Rolândia . Normal 36,5 172 88 F Não Felina . Londrina 4 Normal 37,5 120 56 Considere: TR - temperatura retal ( ◦C); FC - frequência cardíaca (bpm); FR - frequência respi- ratória (mpm); EN - estado nutricional. 28 Capítulo 3. Conceitos elementares 2) Considerando-se as equações n0 = z2 σ2 �2 e n = n0 1 + n0 N para determinação do tamanho amostral para variáveis quantitativas, mostre passo-a-passo, que o tamanho amostral para população in�nita pode ser expresso pela seguinte equação: n = N 1 + N σ2 (ε z )2 , em que ε representa o erro de precisão. 3) Fixe z = 1, 96, s2 = 4 e considere a população in�nita. Complete a Tabela 3.3 do tamanho amostral (n0) em função do erro de precisão (ε). Tabela 3.3 � Tamanho amostral e erro de precisão. ε = µ− x¯ n0 3,0 2,0 1,5 1,0 0,5 0,1 0,01 O que você pode observar da relação acima? 4) Considere os seguintes valores: pi = 0, 3 e z = 1, 96. O pesquisador só poderá, por problemas �nanceiros, coletar 100 amostras. Qual o erro de precisão desse experimento? Demonstre os cálculos passo-a-passo. 5) Refaça o item anterior, considerando-se uma população de tamanho N = 1.000. 6) Um pesquisador está interessado em avaliar a temperatura retal (TR, em grau Celsius) de ani- mais domésticos das espécies caninas e felinas, não importando a raça. Sabe-se, de estudos anteriores, que a variância da temperatura retal nestas duas espécies é de aproximadamente 1, 1513 oC2. Para isso, ele dispõe de uma lista com a relação dos animais atendidos no Hos- pital Veterinária da Universidade Estadual de Londrina, durante um certo período, disponível em http://www.uel.br/pessoal/silvano/Veter/Dados/HV.txt. Dimensionamento da amostra 29 a) Considerando-se z = 1, 96 e um erro de precisão de 0, 3 oC, quantas amostras são necessárias para a realização do estudo? b) É importante para o pesquisador coletar amostras de cada espécie. Sendo assim, que tipo de amostragem ele deve utilizar? c) Relacione as amostras retiradas. Qual a temperatura retal média dos dados? E para cada um dos estratos? 7) Suponha que um pesquisador tenha diversas gaiolas que contenham, cada uma, 6 ratos. Qual é a maneira de selecionar 2 ratos de cada gaiola, para uma amostra? 8) Dada uma população de 8 elementos, estabeleça três formas distintas de se obter uma amostra sistemática de 4 elementos. 9) Um hematologista deseja fazer uma nova veri�cação de uma amostra de tamanho 10 dos 854 espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto, ele cria uma estrutura amostral numerando como 001, 002, . . . , 854. Use a tabela de números aleatórios ou a calculadora para escolher que espécimes de sangue serão selecionados? Explique como selecionou a amostra. 10) Deve-se retirar uma amostra estrati�cada de tamanho n = 60 de uma população de tamanho 4.000, que consiste de 3 estratos de tamanhos N1 = 2.000, N2 = 1.200, N3 = 800. Para que a alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato? 11) Os empregados de um hospital têm etiquetas de identi�cação numeradas consecutivamente de 101 a 563. Deve-se escolher um comitê de 10 pessoas, selecionadas aleatoriamente. Use a tabela de números aleatórios para escolher os números das etiquetas. Explique como escolheu os números da tabela aleatória. “Quando todos pensam igual, é porque ninguém está pensando.” (Walt Lippman). Capítulo 4 Estatística Descritiva 4.1 Organização e apresentação de dados A apresentação de dados na forma de tabela é um dos métodos estatísticos mais simples e utilizado. Uma tabela estatística consegue expor os resultados de determinada pesquisa ou parte dela, sinteticamente, em que se tem uma visão mais clara e fácil dos resultados obtidos. Ao dispor os dados em linhas e colunas, distribuídos de forma ordenada, segundo regras estabelecidas, tem-se as tabelas estatísticas. 4.1.1 Elementos essenciais de uma tabela O objetivo de se construir tabelas é obter uma visão geral do que ocorre com os dados observados, condensando as informações. Os elementos essenciais de uma tabela são: a) Título: é uma indicação que precede a tabela estatística e que contém a designação do fenômeno observado, o local e a época em que ocorreu; b) Cabeçalho: colocado na parte superior da tabela, tem por �nalidade especi�car o conteúdo das colunas; c) Corpo: corresponde ao conjunto de colunas e de linhas que contêm, respectivamente, em ordem vertical e horizontal, informações sobre o fenômeno estudado. Chama-se casa (ou casela) ao cruzamento de uma coluna com uma linha. As casas nunca deverão �car em branco, contendo sempre um número ou um sinal convencional: i) � (traço), quando o dado não existe; 30 Organização e apresentação de dados 31 ii) . . . (três pontos), quando a informação existe mas não está disponível; iii) 0 (zero), quando o valor numérico for menor que a metade da unidade de medida adotada para expressar os dados; iv) X (letra x), quando o dado for omitido a �m de evitar a individualização das informações, nos casos onde existe apenas um ou dois informantes. d) Coluna indicadora: é a parte da tabela que tem por �nalidade especi�car o que contêm as linhas; Toda tabela deverá ter identi�cação feita com algarismos arábicos, de modo crescente, precedidos da palavra Tabela, podendo ser subordinada ou não a capítulos ou seções de um docu- mento. A Tabela 4.1 é um exemplo sobre a maneira de se resumir e apresentar dados coletados, relativos à uma pesquisa ou experimento. Tabela 4.1 � Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina (UEL), no ano de 2005. Categoria dos animais Frequências Pequeno porte 20.650 Médio porte 12.300 Pequeno porte 5.700 Total 38.650 Fonte: HV da UEL. Na Tabela 4.1, o título é: Animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina, no ano de 2005. O cabeçalho é constituído por: Categorias dos animais Frequências A coluna indicadora contêm as especi�cações: Pequeno porte Médio porte Grande porte 32 Capítulo 4. Estatística Descritiva O corpo da tabela é formado por: 20.650 12.300 5.700 4.1.2 Elementos complementares de uma tabela Os elementos complementares de uma tabela estatística são os seguintes: fonte, notas e chamadas, que de preferência são colocados no rodapé. a) Fonte: é a indicação do órgão ou entidade responsável pelo fornecimento dos dados ou pela sua elaboração. É colocada no rodapé da tabela; b) Notas: são informações destinadas a esclarecer ou conceituar o conteúdo das tabelas, ou indicar a metodologia adotada na coleta ou preparo dos dados. Devem ser colocadas embaixo da indicação da fonte; c) Chamadas: são informações de natureza especí�ca referindo-se a um item especí�co da tabela, colocada após a nota. Devem ser feitas através de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna; A Tabela 4.2 é um exemplo sobre a maneira de se resumir e apresentar dados coletados, relativos à uma pesquisa ou experimento. Os dados foram coletados no Hospital Veterinário por alunos do 1o ano do curso de Medicina Veterinária da Universidade Estadual de Londrina, em pesquisa realizada em 2002. Tabela 4.2 � Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Lon- drina. Londrina - Paraná,2002. Espécies Percentual (%) Canina 85,00 Felina 11,07 Equina 2,50 Bovina 0,71 Lagarto 0,36 Roedor 0,36 Fonte: Hospital Veterinário da Universidade Estadual de Londrina. Nota: Utilizou-se uma amostragem sistemática para selecionar as �chas dos animais. Distribuição de frequências 33 Observações: As tabelas são constituídas por três traços horizontais paralelos, um para separar o topo, outro para separar o cabeçalho e o terceiro para o rodapé. Não são usados traços verticais para separar os dados; Devem ser identi�cadas na parte superior iniciada com a palavra Tabela e seu número de ordem, em algarismos arábicos seguidos de hífen, separando o título. As tabelas devem ser numeradas consecutivamente ou identi�cadas com números relacionados ao capítulo ou seção nas quais estão inseridas e seu número de ordem. Exemplo: vide Tabela 4.2. No caso da tabela ter de ocupar mais de uma página, não será delimitada na parte inferior e o cabeçalho será repetido na página seguinte. Nesse caso, usa-se no cabeçalho, ou na coluna indicadora, a expressão continua ou conclusão, conforme o caso. Quando não for possível dispor a tabela na posição normal de leitura, ela deverá ser apresentada de forma que a rotação se efetue no sentido horário. 4.2 Distribuição de frequências Uma maneira de sintetizar os dados é através de distribuição de frequências, que consiste na construção de uma tabela a partir dos dados brutos em que se considera a frequência com que cada observação ocorre. A interpretação dos resultados obtidos em tabelas de frequências pode ser auxiliada pela análise grá�ca. 4.2.1 Construção de uma distribuição de frequência de variáveis discretas Quando a variável resposta é do tipo quantitativa discreta, para se apresentar os dados em forma de tabela, basta escrever em uma coluna os valores da variável discreta estudada em ordem crescente (ou decrescente) e assinalar, em outra coluna paralela, o número de vezes que cada um desses valores foi observado, isto é, a frequência absoluta de cada valor. Uma terceira coluna será destinada a indicar a frequência relativa com que cada um desses valores ocorreram na amostra. A tabela assim obtida é denominada tabela de distribuição de frequências. Exemplo 1 - Os dados a seguir referem-se ao número de �lhotes de cadelas submetidas à insemi- nação arti�cial, no Hospital Veterinário da UEL, em 2005. Os seguintes números de �lhotes foram 34 Capítulo 4. Estatística Descritiva observados: Dados Brutos: 5 4 3 4 3 1 4 4 5 3 0 1 3 2 2 3 2 3 4 2 3 3 1 1 3 3 4 2 4 2 Quando os dados estão dispostos sem qualquer ordem lógica, recebem o nome de dados brutos. Ao organizarmos os dados brutos, em ordem crescente ou decrescente de grandeza, obtemos o rol: Rol: 0 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 Pode-se obter como informações pelo rol: Li: limite inferior do rol, Li = 0; Ls: limite superior do rol, Ls = 5; A: amplitude total dos dados, que é a diferença entre o maior e o menor valor do rol A = Ls − Li = 5 − 0 = 5. Uma tabela de distribuição de frequência pode ser construída, tanto a partir dos dados brutos como do rol. Para o exemplo em questão, tem-se: Tabela 4.3 � Número de �lhotes de cadelas submetidas a inseminação arti�cial no Hospital Veterinário da UEL em 2005. Número de Filhotes Frequência Absoluta (fi) Frequência relativa (fr%) 0 1 3,33 1 4 13,33 2 6 20,00 3 10 33,34 4 7 23,33 5 2 6,67 Fonte: Hospital Veterinário da UEL. Para obter-se as frequências relativas, fr, divide-se cada frequência absoluta pelo tamanho da amostra: fr = fi n . Essas frequências relativas costumam ser expressas em porcentagens: fr% = fi n × 100. Distribuição de frequências 35 Evidentemente a soma das frequências absolutas é igual ao número total das cadelas que foram submetidas à inseminação arti�cial. Para se construir a Tabela 4.3, usando o R, os comandos são: Filhotes = c(5,4,3,4,3,1,4,4,5,3,0,1,3,2,2,3,2,3,4,2,3,3,1,1,3,3,4,2,4,2) (filhotes.caes = table(Filhotes)) (percentual.caes = round(100*prop.table(filhotes.caes), dig=2)) (tabela.filhotes = cbind(filhotes.caes, percentual.caes)) colnames(tabela.filhotes) = c(`Freq. Absoluta', `Percentual') tabela.filhotes 4.2.2 Construção de uma distribuição de frequência para variáveis contínuas Ao contrário das variáveis discretas, as variáveis contínuas assumem, em geral, muitos valores. Isto quer dizer que se usássemos as tabelas de frequências, como no caso das variáveis discretas teríamos uma tabela com muitas linhas, tornando-a pouco operacional. Para contornar este problema usa-se descrever as variáveis numéricas contínuas através de tabelas de classes de frequências ou tabelas de intervalo. Considere os seguintes dados, referentes aos pesos (kg) de cães das raças Fila brasileiro e Pastor Alemão, coletados no Hospital Veterinário da UEL em 2003. Dados Brutos 5,5 19,0 28,0 30,0 33,0 40,0 40,0 40,3 40,5 12,6 12,6 14,2 14,2 17,5 17,5 18,0 19,0 19,2 21,0 21,0 27,0 27,0 27,0 27,2 28,0 28,0 30,0 30,0 39,8 13,5 O que se pode dizer sobre os cães com base nestes dados? É possível ter uma ideia clara, apenas observando os números? O passo seguinte, optativo, poderia ser a obtenção do rol: Rol 5,5 12,6 12,6 13,5 14,2 14,2 17,5 17,5 18,0 19,0 19,0 19,2 21,0 21,0 27,0 27,0 27,0 27,2 28,0 28,0 28,0 30,0 30,0 30,0 33,0 39,8 40,0 40,0 40,3 40,5 36 Capítulo 4. Estatística Descritiva Qual o número de classes a ser usado? O número ideal de classes a ser utilizado em uma tabela, pode depender mais do bom senso do pesquisador, de acordo com seus interesses e necessidades, do que de regras pré-estabelecidas. Um exemplo disso é a Tabela 4.4 que mostra os cios observados, segundo a classi�cação de Gaines 1 . Tabela 4.4 � Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holan- dês, segundo a classi�cação de Gaines (1994). Intervalos entre cios (dias) Percentual (%) 0 ` 3 0,1 4 ` 17 6,3 18 ` 24 44,6 25 ` 35 5,8 36 ` 48 16,3 > 48 27,0 Caso não haja, por parte do pesquisador, um motivo para o uso de intervalos de classes diferentes, pode-se optar pela utilização de uma das regras para se construir os intervalos de classes. Dentre as várias regras existentes, duas tem sido adotadas: a) Critério de Sturges - Herbert Sturges 2 considera um histograma de frequências idealizado com k divisões, sendo que a i-ésima divisão é dada pelo coe�ciente binomial ( k−1 i ) , i = 0, 1, . . . , k − 1. Quando k aumenta, este histograma se aproxima da forma de uma densidade normal. O tamanho amostral total é dado por: n = k−1∑ i=0 ( k − 1 i ) = (1 + 1)k−1 = 2k−1 1 Gaines, J.D. Proceedings for annual meeting. Kansas City: Society for Theriogenology, 1994. Analysis of repro- ductive e�ciency of dairy herds: p.86-107. 2 Sturges, H. The choice of a class-interval. J. Amer. Stat. Association, 21, 65�66, 1926. Distribuição de frequências 37 Aplicando-se logaritmos em ambos os membros, tem-se: log2 n = log2 2 k−1 log2 n = k − 1 k = 1 + log2 n e, fazendo-se transformação da base logarítmica, chega-se a: k = 1 + log10 n log10 2 = 1 + log10 n 0, 301029 k = 1 + 3, 3× logn que é o número de classes sugeridas, por este critério; b) Critério da Raiz Quadrada - tem-se k = √ n. Outras regras para escolha do número de classes de um histograma são sugeridas na literatura. Para o exemplo em questão, o número de classes recomendado será dado por: k = 1 + 3, 3× log 30 = 1 + 3, 3× 1, 4771 = 5, 8745 ou k = √ 30 = 5, 4772. Logo, serão utilizadas, aproximadamente, k = 6 classes ou intervalos para representar a distribuição dos dados. A amplitude de cada intervalo será: a = amplitude
Compartilhar