Baixe o app para aproveitar ainda mais
Prévia do material em texto
MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO ESTATÍSTICA BÁSICA Prof. DANIEL FURTADO FERREIRA LAVRAS - MG 1996 i ÍNDICE Pag. I. Conteúdo programático v II. Bibliografia básica vii 1. Estatística Descritiva 1 1.1. Importância nas ciências agrárias 1 1.2. Coleta, organização e apresentação de dados 2 1.3. Medidas de posição e dispersão 12 1.3.1. Medidas de posição ou de tendência central 12 1.3.2. Medidas de dispersão 21 1.3.3. Medidas de assimetria e curtose 27 1.4. Exercícios 31 2. Distribuição de probabilidade 38 2.1. Conceito e importância 38 2.2. Variáveis aleatórias e distribuição de probabilidades 39 2.3. Distribuição de probabilidades discretas e contínuas 40 A. Distribuição Binomial 41 B. Distribuição de Poisson 42 C. Distribuição uniforme discreta 45 D. Distribuição normal 45 E. Aproximação normal da Binomial e Poisson 49 ii Pag. 2.4. Esperança matemática e suas leis 49 2.5. Tabelas de F, χ2 , t e Normal 51 3. Amostragem 49 3.1. Importância nas ciências agrárias 49 3.2. Amostra e população 49 3.3. Amostragem probabilística e não probabilística. 50 3.3.1. Amostragem probabilística 50 3.3.2. Amostragem não probabilística 53 4. Distribuição de amostragem 54 4.1. Importância nas ciências agrárias 54 4.2. Distribuição amostral das médias 56 4.2.1. Distribuição de X − 56 4.2.2. Distribuição de X X1 2 − −− 60 4.3. Distribuição de t, χ2 e F 62 A. Distribuição de t de Student 62 B. Distribuição de χ2 (Qui-Quadrado) 64 C. Distribuição de F de Snedecor 65 4.4. Distribuição amostral das proporções (p) 66 5. Teoria da estimação 69 iii Pag. 5.1. Importância nas ciências agrárias 69 5.2. Estimação por ponto e por intervalo e propriedades dos estimadores 69 5.3. Estimação de médias, variâncias e proporções 71 5.3.1. Intervalo de confiança para µ 71 5.3.2. Intervalo de confiança para P 73 5.3.3. Intervalo de confiança para diferença entre médias 77 5.3.4. Intervalo de confiança para σ2 79 5.3.5. Intervalo de confiança para σ 80 5.3.6. Intervalo de confiança para CV 80 5.4. Dimensionamento das amostras 82 6. Teoria da decisão 86 6.1. Importância nas ciências agrárias 86 6.2. Hipótese estatística. Erros envolvidos no processo de decisão 86 6.3. Construção de uma regra de decisão 88 6.3.1. Algoritmo 88 6.3.2. Teste para µ com variância desconhecida 90 6.3.3. Teste para proporções 91 6.3.4. Teste para variância populacional 93 6.3.5. Comparações entre duas médias populacionais 95 iv A. Variâncias populacionais desconhecidas e diferentes (σ σ12 22≠ ) 95 B. Variâncias populacionais desconhecidas e iguais (σ σ12 22= ) 98 C. Dados emparelhados 99 6.4. Teste de χ2 para ajuste de modelos 102 7. Regressão e Correlação106 v MEC/UFLA/DEX CEX-117 - ESTATÍSTICA CARGA HORÁRIA: 45 TEÓRICA e 30 PRÁTICA CRÉDITOS: 4 CONTEÚDO PROGRAMÁTICO I- ESTATÍSTICA DESCRITIVA 1. IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. COLETA, ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS 3. MEDIDAS DE POSIÇÃO E DISPERSÃO 4. TÓPICOS EM ESTATÍSTICA DESCRITIVA II- DISTRIBUIÇÃO DE PROBABILIDADE 1. CONCEITO E IMPORTÂNCIA DE PROBABILIDADE 2. VARIÁVEL ALEATÓRIA E DISTRIBUIÇÃO DE PROBABILIDADE 3. DISTRIBUIÇÃO DE PROBABILIDADES DISCRETAS E CONTÍNUAS: BINOMIAL, POISSON, UNIFORME DISCRETA E NORMAL. APROXIMAÇÃO NORMAL. 4. ESPERANÇA MATEMÁTICA E SUAS LEIS. 5. TÓPICOS EM DISTRIBUIÇÃO DE PROBABILIDADES. vi III- AMOSTRAGEM 1. IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. AMOSTRA E POPULAÇÃO. AMOSTRAGEM PROBABILÍSTICA E NÃO PROBABILÍSTICA. 3. AMOSTRAGEM SIMPLES AO ACASO, ESTRATIFICADA, POR CONGLOMERADO E SISTEMÁTICA. 4. TÓPICOS EM AMOSTRAGEM. IV- DISTRIBUIÇÃO DE AMOSTRAGEM 1. IMPORTÂNCIA DO ESTUDO EM CIÊNCIAS AGRARIAS. 2. DISTRIBUIÇÃO DE AMOSTRAGEM DE MEDIAS 3. DISTRIBUIÇÃO DE t, 2χ E F. 4. DISTRIBUIÇÃO DE AMOSTRAGEM DE PROPORÇÕES. 5. TÓPICOS DE DISTRIBUIÇÃO DE AMOSTRAGEM. V- TEORIA DA ESTIMAÇÃO 1 . IMPORTÂNCIA NAS CIÊNCIAS AGRARIAS 2. ESTIMATIVAS POR PONTO E POR INTERVALO. PROPRIEDADES DOS ESTIMADORES. 3. ESTIMATIVAS DE MEDIAS, VARIÂNCIAS E PROPORÇÕES. 4. ERROS DAS ESTIMATIVAS E DIMENSIONAMENTO DAS AMOSTRAS. 5. TÓPICOS EM TEORIA DA ESTIMAÇÃO. vii VI- TEORIA DA DECISÃO 1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS 2. HIPÓTESE ESTATÍSTICA. ERROS ENVOLVIDOS NUM PROCESSO DE DECISÃO. 3. CONSTRUÇÃO DE UMA REGRA DE DECISÃO E MECÂNICA OPERACIONAL DE APLICAÇÃO DOS TESTES. 4. TESTES DE INDEPENDÊNCIA, ADERÊNCIA E COMPROVAÇÕES DE LEIS. 5. TÓPICOS EM TEORIA DA DECISÃO. VII- REGRESSÃO E CORRELAÇÃO BIBLIOGRAFIA AQUINO, L.H. de Estatística. Lavras, MG, 1981. Vol. 3 (mimeografado). BUSSAB, W.O. & MORETTIN, P.A. Estatística básica. 4a ed., Atual Editora, S.P., 1993. STEVENSON, W.J. Estatística aplicada à administração. Tradução de Alfredo Alves de Farias. Harbra, S.P., 1981. FONSECA, J.S. & MARTINS, G. de A. Curso de estatística, 4a ed., Editora Atlas, S.P., 1993. GUERRA, M.J. & DONAIRE, D. Estatística indutiva: Teoria e aplicações. Livraria Ciência e Tecnologia Editora, S.P., 1984. MEYER, P.L. Probabilidade, aplicações a estatística. Tradução de Ruy C. B. Lourenço Filho, (ENCE/IBGE), Rio de Janeiro, R.J., 1984. SNEDECOR, G.W. & COCHRAN, W.G. Statistical methods, 7th edition. The Iowa State University Press, Ames, Iowa, USA, 1980. DANIEL FURTADO FERREIRA 1 CAPÍTULO I - ESTATÍSTICA DESCRITIVA 1.1. IMPORTÂNCIA NAS CIÊNCIAS AGRÁRIAS estatística é um ramo da matemática que se interessa em obter conclusões a partir de dados observados e nos métodos científicos para coleta, organização, resumo, apresentação, análise e interpretação dos dados amostrais. Iniciou-se como método cientifico a partir de 1925 com os trabalhos de R.A. Fisher, embora os trabalhos pioneiros de Gauss no fim do século anterior e dos trabalhos de Gosset de 1908, publicados com o pseudônimo de "Student", foram de extrema importância. A estatística se divide em estatística descritiva e indutiva (ou inferência). A estatística descritiva preocupa-se com a coleta, organização e apresentação dos dados amostrais, sem inferir sobre a população; e a estatística indutiva preocupa-se com a análise e interpretação dos dados amostrais. Conclusões importantes podem ser inferidas da análise dos dados amostrais. No entanto, a inferência não pode ser "absolutamente certa", daí a necessidade de se utilizar uma linguagem de probabilidade. Na maioria das situações agrícolas as leis de causa e efeito não são conhecidas na prática pelo pesquisador, no entanto, existe a necessidade de se obter uma solução para os problemas que surgem naturalmente. Foi com o objetivo de se apresentar tais soluções é que a estatística se desenvolveu, face às incertezas oriundas da variabilidade dos dados provenientes das observações dos pesquisadores. Finalmente é necessário ter em mente que a estatística é um método científico, por meio do qual o pesquisador pode tomar decisões para solucionar os problemas que são encontrados durante suas pesquisas. Para que a estatística seja bem usada é necessário conhecer os seus fundamentos e os seus princípios, e que acima de tudo que o pesquisador tenha a possibilidade de desenvolver um espírito critico sobre a pesquisa empreendida. A ESTATÍSTICA BÁSICA 2 1.2. COLETA, ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS. As observações se constituem no material básico com que o pesquisador trabalha. Para que a estatística possa ser aplicada a essas observações, elas devem estar na forma de números. Para exemplificar, pode-se destacar, por exemplo, que no melhoramento de plantas esses números podem ser produtividade de uma parcela de milho ou de feijão, na zootecnia podem ser ganhos de peso por animal sob o efeito de alguma dieta especial, ração com produto ou dosagem de componente diferente, entre outras possibilidades. Estes números são os dados e a característica comum inerente aos mesmos é a variabilidade ou variação que apresentam. Essa característica, que pode assumir diferentes valores de indivíduo para indivíduo, é chamada de variável. Quando todos os elementos de uma população ou de uma amostra apresentam o mesmo valor para uma determinada característica, essa característica é denominada de constante. As variáveis podem ser qualitativas ou quantitativas. As variáveis qualitativas são aquelas para as quais uma medição numérica não é possível; e as quantitativas aquelas que podem ser mensuradas numa escala de valores. As variáveis qualitativas podem ser ordinais ou nominais. As variáveis quantitativas dividem em discretas e contínuas. As discretas são definidas em um conjunto enumerável, sendo próprias de dados de contagem. As contínuas por sua vez, podem assumir qualquer valor real entre dois extremos. As variáveis são mensuradas em uma amostra, e as suas realizações (ou observações) podem ser dispostas da seguinte forma: DADOS BRUTOS: Dados originais na forma com que foram coletados (não foram numericamente organizados ou ordenados). Ex. Peso de 10 coelhos híbridos NORFOLK em kg abatidos aos 90 dias. 2,61 2,56 2,47 2,62 2,59 2,56 2,62 2,70 2,49 2,62 DANIEL FURTADO FERREIRA 3 De uma forma geral: X1, X2, ..., Xn. DADOS ELABORADOS: Dados numéricos arranjados em ordem crescente ou decrescente. 2,47 2,49 2,56 2,56 2,59 2,61 2,62 2,62 2,62 2,70 De uma forma geral: X(1), X(2), ..., X(n). Com os dados elaborados pode-se estimar a amplitude total (A), ou seja, a diferença entre o maior e menor valor da amostra. A = X(n) – X(1) = MAIOR VALOR - MENOR VALOR A forma de representar os dados depende da sua natureza. Para dados qualitativos a enumeração e tabulação e a forma mais simples de representá-los. A seguir será discutido um exemplo, no qual se destaca a forma de representação dos dados qualitativos mais comuns. Exemplo: Num determinado estudo de cor de flor, as cores branca e roxa foram observadas. Na progênie F2 constituída de 100 indivíduos foi anotada a cor de flor: ESTATÍSTICA BÁSICA 4 Tabela 1.1. Representação tabular para representar a herança de cor de flor em uma progênieF2. Cor da flor BRANCA ROXA Número de indivíduos 15 85 Representação gráfica: 0 15 30 45 60 75 90 Branca Roxa Branca Roxa Figura 1.1. Gráfico de colunas para representar a herança de cor de flor em uma progênie F2 15% 85% Roxa Branca Figura 1.2. Gráfico de setores para representar a herança de cor de flor em uma progênie F2. Para os dados quantitativos a forma de representação mais simples é a distribuição de freqüência. A distribuição de freqüência é a distribuição dos dados em classes ou categorias, onde o número de elementos pertencentes a cada classe é determinado e representa a freqüência de classe. DANIEL FURTADO FERREIRA 5 A seguir será abordada uma das formas mais comuns de se construir uma tabela de distribuição de freqüência. A seqüência de passos é: (a) Determinar o número de classes (k): geralmente o número de classes é escolhido por muitos autores em um valor entre 5 e 20, de uma forma empírica. A familiaridade do pesquisador com os dados é que deve indicar quantas classes devem ser construídas. No entanto, esse critério pode variar consideravelmente de pesquisador para pesquisador, por isso 2 critérios são propostos a seguir. (i) Critério baseado no tamanho amostral (n) proposto por Oliveira (1995). Em função do tamanho da amostra pode-se determinar o número de classes ideal, de acordo com os critérios apresentados na Tabela 1.2. Tabela 1.2. Número de classes (k) determinado em função do tamanho amostral (n) (OLIVEIRA, 1994) Tamanho da amostra (n) Número de classes (k) Até 100 n (inteiro mais próximo) Acima de 100 5 log10 n (inteiro mais próximo) (ii) Critério baseado na distribuição normal dos dados da amostra proposto por SCOTT (1979). Partindo-se do pressuposto que os dados seguem a distribuição normal, a qual possui forma de sino, o número de classes é determinado por: 1 3Ank 1 3, 49S = + ESTATÍSTICA BÁSICA 6 Em que: A é a amplitude total, n o tamanho da amostra e S o desvio padrão (cuja estimação é apresentada no Capítulo 2). No exemplo dos coelhos, usando o primeiro critério tem-se: k = n0,5 = 100,5 = 3,16 ≅ 3 classes. (b) Amplitude de classe (c) A amplitude de classe é a diferença entre os limites superior e inferior de uma determinada classe. Na construção da distribuição de freqüência não é possível saber quais são os limites de classe a priori e, portanto, deve-se ter uma maneira diferente para determinar c. Neste material é adotado o seguinte critério. c A k = −1 Para o exemplo: c = 0,230/2 = 0,115kg (c) Limite inferior da primeira classe (LI1a) Deve-se iniciar o processo de construção das classes determinando o limite inferior da primeira classe a ser formada. A escolha deste valor é feita por muitos autores, como menor valor amostral. No presente material, adota-se o critério a seguir. A idéia por detrás desse critério é determinar o limite inferior da primeira classe como um valor menor do que o menor valor observado na amostra, uma vez que por um mero acaso valores da população inferiores a X(1) podem não ter sido amostrados. LI1a = X(1) - c/2 No exemplo dos coelhos tem-se: LI1a = 2,47 - 0,115/2 = 2,413. DANIEL FURTADO FERREIRA 7 A forma de representação de uma classe adotada é dada por 2,413├─ 2,528, ou seja, a classe tem seu limite inferior de 2,413Kg incluído na classe e o seu limite superior de 2,528Kg excluído. Outra notação pode ser usada, qual seja [2,413; 2,528). O significado é o mesmo do descrito anteriormente. (d) Determinação das classes Para a determinação das k classes é necessário seguir os seguintes passos: (i) Somar ao valor do limite inferior da primeira classe a amplitude de classe e obter-se o limite superior; (ii) O limite superior da primeira classe será o limite inferior da segunda classe; (iii) Repetem-se os passos (i) e (ii) até completar k classes, ou equivalentemente até que o maior valor esteja contido na última classe. No exemplo dos coelhos híbridos Norfolk, a Tabela 1.3. apresenta a distribuição de freqüências obtida. Tabela 1.3. Distribuição de freqüência para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Classes (Kg) iX Fi Fri Fpi 2,413├─ 2,528 2,471 2 0,20 20 2,528├─ 2,643 2,586 7 0,70 70 2,643├─ 2,758 2,701 1 0,10 10 Total 10 1,00 100 ESTATÍSTICA BÁSICA 8 Uma outra possibilidade utilizada é fazer a tabela das distribuições de freqüências acumuladas: Freqüência acumulada abaixo de (Fc↓) e acima de (Fc↑), Tabela 1.4 e 1.5. Tabela 1.4. Distribuição de freqüência acumulada “abaixo de” para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Abaixo de Fc↓ 2,413 0 2,528 2 2,643 9 2,758 10 Tabela 1.5. Distribuição de freqüência acumulada “acima de” para o peso dos coelhos híbridos Norfolk abatidos aos 90 dias. Acima de Fc↑ 2,413 10 2,528 8 2,643 1 2,758 0 Para fins de análises matemáticas todas as observações contidas num intervalo de classe são consideradas iguais ao ponto médio da classe. Essa hipótese é conhecida como hipótese tabular básica (HTB). Os cálculos das medidas de posição ou de dispersão amostral usando os pontos médios das classes como representantes de todos os seus elementos contém menor precisão do que àqueles realizados utilizando os dados brutos ou elaborados. No entanto, estes erros, como já constatado por muitos pesquisadores em estatística, podem ser considerados desprezíveis e, portanto, devem ser ignorados. A vantagem de se utilizar a distribuição de freqüência refere-se à simplificação estrutural dos dados sem grandes perdas de DANIEL FURTADO FERREIRA 9 precisão, bem como a aumento da facilidade de cálculos devido a estas simplificações, além de fornecer uma idéia da forma da distribuição da variável por meio da representação gráfica. REPRESENTAÇÃO GRÁFICA (a) Histogramas: Retângulos cujas bases são proporcionais às amplitudes de classes e as áreas proporcionais às freqüências das classes. Se todas as classes tiverem a mesma amplitude, as alturas dos retângulos são proporcionais às freqüências das classes, e em caso contrário têm que ser ajustadas por: F F ci aj i i ( .) = (b) Polígono de freqüência: Gráfico de linhas que une os pontos médios das classes no topo dos retângulos. 2.300 2.415 2.530 2.645 2.760 0 2 4 6 Fr eq uê nc ia C lasses de peso H istogram a Poligono de frequência Figura 1.3. Polígono de freqüência e histograma da distribuição dos pesos de coelhos híbridos norfolk, abatidos aos 90 dias. ESTATÍSTICA BÁSICA 10 Os gráficos das freqüências acumuladas são denominados ogivas e estão apresentados na Figura 1.4. 2.298 2.413 2.528 2.643 2.758 2.873 0 2 4 6 8 10 OGIVAS Frequência acumulada acima de Frequência acumulada abaixo de Frequências acumuladas Peso dos coelhos Figura 1.4. Representação gráfica das distribuições acumuladas (ogivas) do peso de coelhos híbridos Norfolk abatidos aos 90 dias. Tipos de curvas de freqüências Com base no polígono de freqüência pode-se classificar o tipo de distribuição dos dados amostrais ou experimentais. Esta classificação é de suma importância, pois grande parte das análises que são abordadas posteriormente neste material depende da natureza desta distribuição, sendo que a maioria requer distribuição do tipo simétrica ou aproximadamente simétrica. DANIEL FURTADO FERREIRA11 SIMÉTRICA ASS. Á DIREITA ASS. Á ESQUERDA BIMODAL MULTIMODAL ESTATÍSTICA BÁSICA 12 1.3. Medidas de posição e dispersão. 1.3.1. Medidas de posição ou de tendência central Uma medida de tendência central procura sintetizar as informações da amostra em um único e informativo valor. Ao examinar uma distribuição amostral simétrica ou aproximadamente simétrica, nota-se que geralmente que os dados são mais freqüentes perto de um valor central e são mais raros ao afastar-se deste. A obtenção deste valor central é de importância fundamental tanto para a pesquisa quanto para a extensão. Pode-se exemplificar através de uma situação em que em uma grande firma produtora de milho, o empregador exige do agrônomo que este lhe forneça uma estimativa da produtividade da área de 10.000 ha plantados em uma região. O empregador tomará uma grande decisão com base nesta estimativa. Utilizando métodos de amostragem apropriados e uma medida de posição e de seu erro, o agrônomo pode fornecer as informações solicitadas com grande probabilidade de acerto. Este é um problema que pode ser solucionado com o auxílio e conhecimento das técnicas estatísticas. As principais medidas de posição estão apresentadas a seguir. (a) Média aritmética A média é a principal medida de posição, sendo utilizada principalmente quando os dados apresentam distribuição simétrica ou aproximadamente simétrica, como acontece com a maioria das situações práticas. Deve-se diferenciar, por meio de notação apropriada à média populacional da amostral. A população refere-se a todos os elementos de interesse do pesquisador para a qual fica praticamente impossível tomar as informações elemento a elemento. A amostra por sua vez refere-se a um subconjunto de elementos desta população e obtida de acordo com alguns critérios, de tal forma que haja uma representatividade da população da qual foi extraída, e para qual se deseja extrapolar as informações (inferências estatísticas). No exemplo anterior da plantação de milho, a população refere-se a todos os DANIEL FURTADO FERREIRA 13 10.000ha plantados e uma amostra poderia ser de 20ha distribuídos ao acaso pela região plantada. Será utilizada para diferenciar a média da amostra e da população a seguinte notação: Simbologia: X PARA AMOSTRA PARA POPULA Ç Ã Oµ⎧ ⎨⎪ ⎩⎪ em que, o estimador da média populacional é: X X n X X X n i i n n= ∑ = + + +=1 1 2 ... em que, n é o tamanho da amostra, Para o exemplo dos coelhos (dados elaborados), tem-se que: X= 2 47 2 49 2 70 10 2 584 , , , , + + + =" kg Para os dados agrupados em distribuição de freqüência o estimador é: k i i i 1 X F X n == ∑ em que, iX é o ponto médio e Fi é a freqüência da classe i. Para o exemplo dos coelhos em questão: ESTATÍSTICA BÁSICA 14 X = 2 471 2 2 586 7 2 701 1 10 2 5745 , , , , × + × + × = kg Alguém pode questionar a razão da diferença observada no uso dos dois estimadores. A resposta é dada pela hipótese tabular básica, a qual considera que todos os elementos de uma classe são representados pelo seu ponto médio, fato este, que não é verdadeiro em praticamente todas as situações. Desta forma, este último resultado é apenas aproximado. No entanto, o erro cometido é mínimo e, portanto, pode ser desprezado. Propriedades da média (i) A soma algébrica dos desvios em relação à média aritmética é nula. ( )X Xi i n − =∑ = 0 1 (ii) A soma dos quadrados dos desvios de um conjunto de dados em relação a sua média e um valor mínimo. ( )D X Xi i n= −∑ = 2 1 representa um valor mínimo. Demonstração: Fazendo: ( )D X Ai i n= −∑ = 2 1 Expandindo o somatório e derivando D em relação a A tem-se: DANIEL FURTADO FERREIRA 15 ( ) ( )D X A X AX A X AX Ai i n i i i n i i n i i n i n= − =∑ − +∑ = ∑ −∑ + ∑ = = = = = 2 1 2 2 1 2 1 1 2 1 2 2 ∂ ∂ D A X nAi i n= − ∑ + = 2 2 1 Igualando a derivada a zero, e resolvendo em A, tem-se: ∂ ∂ D A X nA nA X A X n X i i n i i n i i n = − ∑ + = = ∑ = ∑ = = = = 2 2 0 2 2 1 1 1 Portanto, o ponto ótimo obtido igualando a primeira derivada a zero, pode ser um ponto de máximo ou de mínimo. Para certificar que o valor de D, quando A é igual à média amostral, é um valor mínimo basta mostrar que a segunda derivada é positiva. A segunda derivada de D em relação a A é dada por: ∂ ∂ ∂ D A A n= >2 0 Verifica-se que para qualquer tamanho de amostra o valor 2n será positivo, ficando concluído assim a demonstração. (iii) A média de um conjunto de dados acrescido (ou subtraído) em cada elemento por uma constante e igual à média original mais (ou menos) essa constante. X'=X ± K em que X' é a média do novo conjunto de dados. ESTATÍSTICA BÁSICA 16 (iv) Multiplicando todos os dados por uma constante a nova média será igual ao produto da média anterior pela constante. X′=KX (v) A média é influenciada por valores extremos (vi) Não pode ser mensurada em distribuições com classes indeterminadas. Exemplo, Classes Fi 5├─ 10 10├─ 20 20├─ 50 50 ou mais 10 20 45. 20 (b) Mediana (md ) A mediana divide as observações ordenadas em partes iguais. Para sua determinação é necessário o conhecimento da posição central. Basicamente têm-se duas situações distintas: (i) Se n for par: ( ) ( )(n 2) / 2n / 2 d X X m 2 ++= (ii) Se n for impar: ( )d (n 1) / 2m X += Exemplo 1. No caso dos coelhos a posição central esta entre o 50 e o 60 elemento. Portanto, a mediana é a média aritmética destas duas observações. DANIEL FURTADO FERREIRA 17 md = (2,59 + 2,61)/2 = 2,60Kg Exemplo 2. A = {1, 2, 3}. n=3 ⇒ md = X(2) = 2 No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte expressão: m LI n F F cd md A md md= + −⎡ ⎣ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ 2 Em que, Fmd: freqüência da classe mediana; cmd: amplitude da classe mediana; FA: freqüência acumulada das classes anteriores à classe mediana; e Limd é o limite inferior da classe mediana. A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de freqüência. No exemplo: Posição mediana = 10/2 = 5 (contida na 2a classe), FA= 2; Limd = 2,528 Fmd = 7 e cmd = 0,115kg. md = 2,528 + [(5-2)/7] x 0,115 = 2,577 kg Propriedades (i) md ' = md ± K (somando constante aos dados) (ii) md ' = md .K (multiplicando os dados por uma constante) ESTATÍSTICA BÁSICA 18 (iii) Σi│Xi-md │ representa um valor mínimo Muitas vezes existem dúvidas de qual medida utilizar para sintetizar os dados amostrais. Como uma regra geral, pode-se definir qual medida é mais conveniente para uma dada situação com base na análise do histograma ou do polígono de freqüências. Se a distribuição dos dados for assimétrica, isto é quando valores extremos predominam em uma das caudas da distribuição, deve se preferir a mediana como medida sintetizadora. Isto se deve ao fato da mediana ser pouco sensível a presença de valores extremos, sendo considerada mais robusta que a média. O termo robusto é o termo técnico usado para indicar esta propriedade da mediana em relação à média aritmética, que quando a situaçãode simetria é violada a mediana é uma medida que sofre menos “interferências” nas suas estimativas. (c) moda (mo) A moda é definida para dados qualitativos ou para quantitativos discretos como sendo o valor de maior freqüência na amostra. Para dados quantitativos contínuos a moda é o valor de maior densidade. Portanto para dados quantitativos contínuos o estimador da moda é baseado na distribuição de freqüências. Esse estimador busca encontrar o ponto de máximo do polígono de freqüências. Um conjunto pode ter mais de uma moda ou até mesmo não ter moda. O estimador da moda para dados quantitativos contínuos é definido a partir da distribuição de freqüência por meio de um método geométrico, o qual conduz a seguinte expressão: 1 o mo mo 1 2 m LI c= + ∆ + ∆ ∆ LImo : limite inferior da classe modal; ∆1: diferença entre as freqüências da classe modal e a classe anterior; DANIEL FURTADO FERREIRA 19 ∆2: diferença entre as freqüências da classe modal e a classe posterior; cmo : amplitude da classe modal; ▄ Classe modal é a classe com maior freqüência. No exemplo, a classe modal foi à segunda: 2,528 ├── 2,643 com F2=7. Logo, mo = 2,528 + {(7-2)/[(7-2)+(7-1)]}0,115 = 2,580Kg O estimador da moda pode também ser considerado como o valor médio da classe modal, como é apresentado por diversos autores. A justificativa é dada pela hipótese tabular básica, que diz que todos os valores de uma classe são iguais ao seu ponto médio. Como neste caso a classe modal é a de maior freqüência, a moda é considerada como igual a este ponto médio. Nesse material o método geométrico anteriormente apresentado é considerado, por ser considerado mais eficiente. É conveniente comentar que as calculadoras eletrônicas não fornecem os cálculos da mediana e da moda, o que para grandes conjuntos de dados, seus cálculos exatos podem ser extremamente laborioso. Propriedades (i) mo' = mo ± K (somando K a todos os dados) (ii) mo' = mo .K (multiplicando todos os dados por K) Relações empíricas entre média, mediana e moda (i) X = md = mo (distribuição simétrica) (ii) X > md > mo (distribuição assimétrica à direita) ESTATÍSTICA BÁSICA 20 (iii) X < md < mo (distribuição assimétrica à esquerda) Outras medidas de posição (i) média geométrica (G) Definida somente para números positivos, da seguinte forma: G X X Xnn= 1 2. ... Usada principalmente para variáveis que crescem em progressão geométrica, como, por exemplo, o número de bactérias em uma colônia. Espera-se que a cada reprodução, o número de bactérias dobre. (ii) Média harmônica (H) n i 1 i 1H 1 1 n X= = ∑ (iii) Média aparada (XA ) A média aparada é obtida eliminando do conjunto de dados m observações menores e m observações maiores. O valor de m corresponde a uma percentagem entre 2,5% e 20% do número total de observações. Esta eliminação dos valores extremos é para eliminar o efeito de observações discrepantes, conhecidas como outliers, no cálculo da média aritmética. DANIEL FURTADO FERREIRA 21 A título de ilustração considere o conjunto de dados a seguir e com o cálculo da média aritmética e da média aparada com m=1 (5%) das observações. 1 4 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 10 10 40 A média é: X = 8 80, a média aparada XA = + + + = =4 5 1018 135 18 7 50 ... , 1.3.2. Medidas de dispersão As medidas de posição não informam sobre a variabilidade dos dados e são insuficientes para sintetizar as informações amostrais. Para exemplificar este fato, têm-se a seguir três amostras com a mesma média: A={8, 8, 9, 10, 11, 12, 12} X A = 10 B={5, 6, 8, 10, 12, 14, 15} X B = 10 C={1, 2, 5, 10, 15, 18, 19} X C = 10 Pode se observar que as amostras diferem grandemente em variabilidade. Por esta razão torna-se necessário estabelecer medidas que indiquem o grau de dispersão, ou variabilidade em relação ao valor central. Desta forma pode-se afirmar que uma amostra deve ser representada por uma medida de posição e dispersão. As principais medidas de dispersão que são abordadas estão apresentadas a seguir. (a) Amplitude total (A) ESTATÍSTICA BÁSICA 22 A amplitude é definida como a diferença entre o maior e o menor valor de uma amostra. No exemplo do peso de coelhos a amplitude foi A = 0,23kg. A amplitude tem a desvantagem de (i) só considerar os valores extremos para o seu cálculo, e principalmente se houver “outlier” ela será grandemente afetada. Como só dois extremos são considerados amostras com valores intermediários praticamente idênticos podem apresentar grande amplitude se só o maior e o menor valor discrepar dos demais; e (ii) ser influenciada pelo tamanho da amostra, pois à medida que a amostra aumenta a amplitude tende a ser maior. Esta última desvantagem, não será demonstrada aqui por requerer conhecimentos profundos de estatísticas de ordens. (b) Variância e desvio padrão Para contornar a desvantagem de que apenas dois valores são utilizados para o cálculo da amplitude, poderia ser cogitado, então, o uso de a soma dos desvios em relação à média como medida de dispersão ou de variabilidade. No entanto, esta medida não é adequada, devido ao fato de a soma de desvios em relação à média ser nula, sendo que todos as amostras apresentariam variabilidade nula. Assim, uma medida da variabilidade que considera todas as observações e que é a mais utilizada na maioria das situações na estatística, devido às propriedades que possui, é a variância ou a sua raiz quadrada, o desvio padrão. A variância pode ser entendida como se fosse praticamente a “média” da soma de quadrados de desvios em relação à média. Numa amostra de tamanho n deveria ser utilizado este valor (n) como divisor desta soma de quadrados de desvios. No entanto, devido a motivos associados a propriedades dos estimadores, o divisor da variância amostral é dado por n-1 em lugar de n na expressão do estimador da variância. Simbologia DANIEL FURTADO FERREIRA 23 População: Variância ⇒ 2σ Desvio padrão ⇒ σ Amostra: Variância ⇒ S2 Desvio padrão ⇒ S A variância amostral é dada por: ( ) S X X n i i n 2 2 1 1 = −∑ − = em que, n - 1 é denominado graus de liberdade. A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido pela extração da raiz quadrada da variância. Para o cálculo da variância ou desvio padrão amostral a partir dos dados elaborados pode-se usar a expressão anterior. No entanto, devido à necessidade de se calcular os desvios em relação à média e calcular, ainda, o seu quadrado, erros de arredondamentos ocorrem com freqüência. Por essa razão é preferível utilizar as seguintes expressões: 2n in i 12 2 i i 1 X 1S X n 1 n = = ⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥= −⎢ ⎥− ⎢ ⎥⎢ ⎥⎣ ⎦ ∑∑ Para a obtenção do desvio padrão, basta extrair a raiz quadrada: S S= 2 ESTATÍSTICA BÁSICA 24 No exemplo dos coelhos: S2 = (66,8116-25,842/10)/9 = 0,00456kg2 S = 0 00456, = 0,0675kg Cálculo para dados agrupados em distribuições de freqüência: 2n i in i 12 2 i i i 1 FX 1S FX n 1 n = = ⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥= −⎢ ⎥− ⎢ ⎥⎢ ⎥⎣ ⎦ ∑∑ Variância S S= 2 Desvio padrão Para o exemplo: S2 = [(2x2,4712+7x2,5862+1x2,7012)- (2x2,471+7x2,586+1x2,701)2 /10]/9= 0,004261kg2 S = 0,065279kg A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a variabilidade de amostras de grandezas diferentes ou de médias diferentes não pode ser comparada diretamente pelas estimativas da variância ou do desvio padrão obtidas. Para esclarecer este fato os três conjuntos a seguir são ilustrativos. X = {1, 2, 3}; Y = {101, 102, 103} e Z = {1001, 1002, 1003} DANIEL FURTADO FERREIRA 25 Sx = 1,0; Sy = 1,0 e Sz = 1,0 Os três conjuntos possuem a mesma variabilidade absoluta, porém é bastante intuitivo que os desvios padrão de valores iguais a 1 têm importâncias diferentes. É conveniente observar que um desvio padrão igual a 1 é mais importante no conjunto X, pois representa 50% do valor médio. Propriedades (i) Variância Somando ou subtraindo uma constante aos dados a variância não se altera; Multiplicando todos os dados por uma constante K a nova variância ficara multiplicada por K2. (ii) Desvio padrão Somando ou subtraindo uma constante K aos dados o desvio padrão não se altera; Multiplicando todos os dados por uma constante K o novo desvio padrão fica multiplicado por K. (c) Coeficiente de variação (CV) O desvio padrão ou variância permitem a comparação da variabilidade entre conjuntos numéricos que possuem a mesma média e a mesma unidade de medida ou grandeza. Diz-se que o desvio padrão é uma medida de dispersão absoluta. Nos casos em que os conjuntos ESTATÍSTICA BÁSICA 26 possuem diferentes unidades e possuem médias diferentes, uma medida de dispersão relativa, como o coeficiente de variação (CV), é indispensável para se comparar à variabilidade. O coeficiente de variação refere-se à variabilidade dos dados mensurada em relação a sua média, sendo obtido pela expressão seguinte. CV S X x= 100 No exemplo dos três conjuntos apresentados anteriormente, tem-se: CVx=50%; CVy=1% e CVz=0,1% Portanto, o conjunto X apresentou uma maior variabilidade em relação aos demais. No exemplo dos coelhos o CV = (0,0675/2,584) x 100 =2,61% representa relativamente uma pequena dispersão dos dados em relação ao valor central. Um outro exemplo, referente a dados de temperatura e de precipitação num determinado período está apresentado na Tabela 1.6. Verifica-se que a temperatura apresentou uma maior variabilidade relativa do que a apresentada pela precipitação, pois o CV foi maior para essa variável. Se fossem comparados os desvios padrão, a conclusão seria de que a precipitação seria mais variável que a temperatura. Essa conclusão seria, não obstante, incorreta, pois as grandezas são bastante diferentes. Tabela 1.6. Estatísticas amostrais de posição e dispersão de uma determinada região em um determinado período referente à temperatura e precipitação. Estatísticas amostrais Temperatura Precipitação Média 220C 800mm S 50C 100mm DANIEL FURTADO FERREIRA 27 CV 22,7% 12,5% (d) Erro padrão da média ( XS ) Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela da primeira amostra. Esse processo se repetido fornecerá estimativas diferentes em cada etapa. Dessa forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis (ou as infinitas) amostras são retiradas de uma população. No entanto, é intuitivo, também, o conceito de que as médias amostrais variem menos que uma simples observação. A variabilidade de uma média é estimada pelo seu erro padrão ( XS ): S S nX = O erro padrão fornece um mecanismo de medir a precisão com que a média populacional foi estimada. Para o exemplo dos coelhos o erro padrão é: X 0,0675S 0,02135kg 10 = = Nesse caso o erro padrão foi de 0,02135kg e representou 0,83% do valor médio, indicando que a média foi estimada com alta precisão. Nos próximos capítulos outros métodos para avaliação da precisão com que uma média foi calculada são apresentados. ESTATÍSTICA BÁSICA 28 1.3.3. Medidas de assimetria e curtose Como foi visto várias medidas sintetizadoras da amostra são apresentadas, destacando-se suas vantagens e desvantagens. São apresentadas, também, formas gráficas para avaliação da natureza da distribuição dos dados. Neste último caso por uma inspeção empírica o pesquisador podia inferir que tipo de distribuição os dados de sua pesquisa apresentavam. Naquele instante deu-se ênfase a simetria da distribuição, ou seja, se a forma da distribuição apresentava uma concentração maior dos valores em torno do valor central e se à medida que se afastassem em ambas as direções deste centro, o comportamento se mantinha semelhante, reduzindo-se as freqüências. Uma forma de se estimar o grau de assimetria ou de simetria de uma distribuição, pode ser dada pelo coeficiente de assimetria, cuja notação para representá-lo é a3 ou 1b , sendo esta última notação mais conhecida na literatura. 3 1 3 2 2 a b m m m = = em que, m2 e m3 são momentos de ordem 2 e 3, respectivamente, centrados para a média, podendo ser obtidos por: ( ) 2 1 2 m x x n i i n = −∑ = e ( ) 3 1 3 m x x n i i n = −∑ = O coeficiente de assimetria pode ser interpretado da seguinte forma: i. a3 < 0 distribuição assimétrica à esquerda; ii. a3 = 0 distribuição simétrica. iii. a3 > 0 distribuição assimétrica à direita. DANIEL FURTADO FERREIRA 29 Nas situações reais da pesquisa, esta informação é de grande valia, uma vez, que os processos de decisão e estimação são baseados em distribuições simétricas. Como os dados destas pesquisas referem-se a amostras de uma população, dificilmente o coeficiente de assimetria será exatamente igual a zero, mesmo quando proveniente de uma distribuição sabidamente simétrica. Para que não se infira incorretamente a respeito da natureza da distribuição quanto à simetria, no capítulo 6, será apresentado um critério estatístico para fazer este julgamento. Uma outra medida para verificar a natureza da distribuição, é denominada de curtose, a qual é representada por a4 ou b2. Esta é uma medida do grau de achatamento da distribuição quando comparada ao de uma distribuição conhecida como distribuição normal, que será vista no capítulo 2. Para esta distribuição normal o valor de a4 é 3, sendo denominada de distribuição mesocúrtica. Valores de a4 maiores que 3, representam as distribuições leptocúrticas, ou seja, são mais “afiladas“ que a distribuição normal. E distribuições com valores de a4 menores do que 3 representam as distribuições platicúrticas, ou seja, aquelas mais achatadas do que a normal. O coeficiente de curtose pode ser estimado pela seguinte expressão: 4 2 4 2 2a b m m = = em que, m4 é o momento de ordem 4 centrado na média, podendo ser estimado por: ( ) 4 1 4 m x x n i i n = −∑ = Na Figura 1.5 estão representados os tipos de distribuição quanto ao grau de achatamento, em relação aos valores do coeficiente de curtose. ESTATÍSTICA BÁSICA 30 Figura 1.5. Tipos de distribuições quanto ao grau de achatamento (curtose): leptocúrtica, mesocúrtica e platicúrtica. Exemplo: Calcular os coeficientede assimetria e de curtose para os dados de peso de coelhos apresentados anteriormente, e discutir sobre os resultados encontrados. Os coeficientes m2, m3 e m4 devem ser calculados inicialmente. Devido às elevadas potências aconselha-se a utilização de planilhas eletrônicas na obtenção destes coeficientes. Os valores desses momentos para o exemplo estão apresentados a seguir. ( )n 2i i 1 2 x m n x = − = ∑ =0,004104 ( )n 3i i 1 3 x m n x = − = ∑ =-0,000062112 ( )n 4i i 1 4 x m n x = − = ∑ =0,000043419552 leptocúrtica mesocúrtica platicúrtica DANIEL FURTADO FERREIRA 31 O próximo passo é utilizar as expressões para obter as estimativas do coeficiente de assimetria (a3)e de curtose (a4): 3 1 3 2 2 a b m m m = = =-0,2362 4 2 4 2 2a b m m = = =2,5779 Como o valor de assimetria é menor que zero, pode se inferir que a distribuição possui assimetria negativa, ou seja, é considerada assimétrica à esquerda. Da mesma forma pode-se inferir que a distribuição é platicúrtica, uma vez que seu coeficiente de curtose é inferior a 3. Como já comentado, os valores amostrais destas estatísticas, em geral não são exatamente iguais aos padrões de uma normal, mesmo quando são provenientes de uma distribuição sabidamente normal. Então, neste momento, ainda não há como saber com grande segurança se a diferença dos valores desta estatística para os padrões da distribuição normal é irrelevante ou não. A resposta para essa questão será fornecida no capítulo 6. ESTATÍSTICA BÁSICA 32 1.4. Exercícios 1.4.1. Técnicas de somatório 1. Índices ou notação por índices O símbolo Xj (leia X índice j) representa qualquer um dos n valores, X1, X2, ..., Xn, assumidos pela variável X, na amostra ou no conjunto de dados. A letra j, usada como índice, pode representar qualquer um dos valores: 1, 2, ..., n. Evidentemente pode ser usada qualquer outra letra além de j. 2. Notação de somatório O símbolo X j j n = ∑ 1 é usado para representar a soma de todos os valores Xj desde j=1 até j = n, ou seja, por definição: X j j n = ∑ 1 =X1 + X2 + ... + Xn, O símbolo Σ é a letra grega sigma, que indica soma. 3. Propriedades 3.1. aX j j n = ∑ 1 = aX1 + aX2 + ... + aXn=a X j j n = ∑ 1 3.2. Y Xj j j n = ∑ 1 = Y1 X1 + Y2X2 + ... + YnXn 3.3. ( )aX bY a X b Yj j j n j j n j j n+∑ = ∑ + ∑ = = =1 1 1 3.4. K nK j n =∑ =1 Obs. a, b e K são constantes e X e Y variáveis aleatórias. 4. Soma de variáveis arranjadas com dupla identificação É um procedimento comum que os dados de um experimento ou de uma amostragem serem representados em uma tabela de dupla entrada. Desta forma tem se a variável X com dois índices (Xi j). O índice i representa as linhas e o índice j às colunas. Um exemplo, apresentado na Tabela 1.7, refere-se à produção média por hectare de uma gramínea após a utilização de adubos nitrogenados e fosfatados. Três quantidades de nitrogênio foram aplicadas e quatro doses de fósforo. DANIEL FURTADO FERREIRA 33 Tabela 1.7. Produtividade em t/ha de uma forrageira sob o efeito de 3 doses de N em combinação com 4 doses de P observados em um experimento zootécnico. Teor de nitrogênio (j) Teor de fósforo (i) 1 2 3 1 4,6 5,0 5,5 2 5,0 5,5 6,1 3 5,2 5,8 6,4 4 6,0 6,2 6,8 Em algumas análises estatísticas é necessário muitas vezes somar as linhas e/ou colunas, bem como toda a tabela. A notação de somatório pode ser utilizada com essa finalidade. Como dois fatores determinam a produtividade, dois índices são utilizados para representá-los, como comentado anteriormente. Assim, dois símbolos de somatórios podem ser utilizados em alguns casos. Assim será definido, o seguinte somatório: i. Somar todas as produtividades da Tabela 1.. 4 3 i j 11 12 43 i 1 j 1 4,6 5,0 6,8 68,1x x x x = = = + + + = + + + =∑∑ " " ii. Somar cada uma das linhas ij j i i ix x x x i= ∑ = + + ∀ = 1 3 1 2 3 1 2 3 4, , , Assim por exemplo, para fósforo dose 2 (i=2), a produtividade total é: 2 1 3 21 22 23 5 0 5 5 6 1 16 6j j x x x x = ∑ = + + = + + =, , , , iii. Somar cada uma das colunas ij i j j j jx x x x x j= ∑ = + + + ∀ = 1 4 1 2 3 4 1 2 3, , Assim por exemplo, para nitrogênio dose 3 (j=3), a produtividade total é: i i x x x x x3 1 4 13 23 33 43 5 5 6 1 6 4 6 8 24 8= ∑ = + + + = + + + =, , , , , ESTATÍSTICA BÁSICA 34 5. Exercícios propostos Sejam os conjuntos de dados a seguir: X={2, 4, 4, 3, 2 } Y={1, 2, 3, 6, 7} Obtenha: 5.1. X j j= ∑ 1 4 5.2. Y j j= ∑ 1 5 5.3. 4 2 1 5 X j j= ∑ 5.4. X Yj j j= ∑ 1 5 5.5. ( )3 2 1 5 X Yj j j +∑ = 5.6. X Y Yj j j j j +∑ ∑ = =2 4 2 1 5 6. Seja n j j 1 X X n == ∑ a média aritmética e S n X X njj n jj n 2 2 1 1 2 1 1 = − ∑ − ∑⎛⎝⎜ ⎞ ⎠⎟ ⎡ ⎣ ⎢⎢⎢⎢ ⎤ ⎦ ⎥⎥⎥⎥= = a variância. Dado o conjunto de dados X={2, 4, 5, 6, 1, 8}, calcule a sua média e variância. 7. Demonstre numericamente e algebricamente que n j j 1 (X X) 0 = − =∑ . Use os dados do exemplo anterior para demonstrar numericamente. 8. Obtenha a partir da Tabela 1.7, as seguintes somas: 8.1. ij ji X2 1 3 1 4 == ∑∑ 8.2. ij i X j2 1 4 1 2 3 = ∑ = , , 8.3. ij j X i2 1 3 1 2 3 4 = ∑ = , , , 1.4.2. Coleta organização e apresentação de dados 1. Os dados apresentados a seguir são relativos às produções de 50 plantas de uma progênie F2 de feijoeiro em g/planta, avaliados no Departamento de Biologia da UFLA, em 1997. DANIEL FURTADO FERREIRA 35 2,81 3,19 3,49 3,76 6,02 8,23 2,23 3,01 4,43 13,94 3,10 1,52 3,38 2,85 4,64 7,33 6,78 13,12 13,84 9,40 6,20 2,39 9,19 7,07 9,20 13,46 3,90 8,99 7,97 5,15 12,95 25,52 6,61 16,56 9,60 6,71 6,73 3,86 3,50 4,80 8,40 13,86 6,53 18,44 22,14 9,15 8,75 10,86 14,20 10,09 a) Agrupe os dados, determinando o número de classes pelo critério de Oliveira. b) Faça o histograma e o polígono de freqüência num mesmo gráfico. c) Construir as distribuições de freqüências acumuladas. d) Trace as ogivas no mesmo plano cartesiano. e) Qual é a porcentagem de plantas com produtividade superior a 9g/planta. Utilize as ogivas e a interpolação algébrica a partir da distribuição de freqüência. Compare e discuta os resultados obtidos com a proporção amostral exata, obtida dos dados elaborados. f) Discuta sobre a natureza da distribuição, baseado no item b? g) Acima de qual produtividade estão 50% das plantas (25 plantas)? h) Qual a porcentagem de plantas com produtividade inferior a 3,5g? i) Obtenha as produtividades que deixam 25% de plantas com produtividade acima das mesmas e 25% abaixo. Obs. Utilize em todos os casos (g, h, i) a distribuição de freqüência. 1.4.3. Medidas de posição 1. Foi realizada na região Oeste do Paraná, no município de Marechal Cândido Rondon, em 1992, um levantamento da produtividade leiteira diária de 30 produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler, 1997). Os resultados da produtividade diária dos 30 produtores estão apresentados a seguir.8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13 10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14 Obtenha as seguintes estimativas das medidas de posição: a) Média aritmética b) Média aparada (m=2) c) Mediana d) Cheque que ( )X Xj j n −∑ =− =1 0 . ESTATÍSTICA BÁSICA 36 e) Se for multiplicado a produtividade por 0,27 de cada produtor, para se obter a renda média por produtor/animal/dia, qual, qual será o valor para amostra? f) obtenha a média harmônica. 2) Faça a distribuição de freqüência destes dados e calcule: a) Média aritmética b) Mediana c) Moda d) Faça a comparação destes valores com os obtidos no exercício anterior, e discuta sobre as razões das diferenças. e) Trace o histograma e o polígono de freqüência f) Baseado nestes gráficos, determine qual é a natureza da distribuição, quanto à simetria. Baseado nesta resposta indique qual medida de posição é a mais adequada para representar os dados amostrais. Justifique g) Se você fosse solicitado pelo prefeito da cidade para estimar a produtividade de leite total diária da cidade, como você faria? Informações adicionais: número de produtores de leite da cidade - 7309; Quantidade total de vacas (média da amostra) - 11,80 vacas/produtor; Número médio de vacas em lactação: 8,075. 1.4.4. Medidas de dispersão 1. Foi realizada na região Oeste do Paraná, no município de Marechal Cândido Rondon, em 1992, um levantamento da produtividade leiteira diária de 20 produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler, 1997). Os resultados dos intervalos de parto (em meses) dos 20 produtores estão apresentados a seguir. 11,80 11,90 12,00 12,30 12,80 12,99 13,10 13,50 13,80 14,10 14,55 14,65 14,70 15,00 15,10 15,20 15,50 15,80 15,90 15,96 Obtenha as seguintes estimativas das medidas de dispersão: a) Amplitude total b) Variância e desvio padrão c) Coeficiente de variação d) Erro padrão da média e) Em cada caso anterior comentar, sobre o significado da estimativa obtida e sobre a forma que devem ser aplicadas. DANIEL FURTADO FERREIRA 37 f) Se cada dado for dividido por 12, para se obter o intervalo de partos em anos, qual será os novos valores da amplitude, variância, desvio padrão, CV e erro padrão da média? 2) Faça a distribuição de freqüência destes dados e calcule: a) Amplitude, variância, desvio padrão, CV e erro padrão da média? b) Faça a comparação destes valores com os obtidos no exercício anterior, e discuta sobre as razões das diferenças. c) Se você fosse solicitado a representar os dados por duas medidas, quais você usaria e por que? d) Após o programa Panela Cheia o intervalo de partos apresentou média de 13,85 e desvio padrão de 2,00 meses. Qual é na sua opinião a situação que apresentou maior variabilidade, ante ou após o Programa? 3) A seguir estão apresentadas às estimativas dos coeficientes de assimetria e de curtose de algumas situações amostrais. Classifique cada uma delas quanto à simetria e o grau de achatamento da distribuição de freqüência, baseando-se nas estimativas destes coeficientes. Coef. simetria (a3) Coef. curtose (a4) Class. da simetria Class. da curtose 0,5 3,0 -2,0 2,0 2,0 2,0 3,0 3,0 0,0 3,0 0,0 3,5 -3,0 4,5 1.5. Literatura citada ROESLER, D.A. Impactos do programa de crédito por equivalência-produto no sistema de produção de leite - um estudo no oeste do Paraná - Brasil. Lavras, MG, Agosto, 1997. 89p. (Dissertação de Mestrado). CAPÍTULO II - DISTRIBUIÇÃO DE PROBABILIDADE 2.1. CONCEITO E IMPORTÂNCIA Na experimentação agropecuária um dos principais objetivos é a retirada de conclusões a partir de experimentos que envolvem incertezas. Na obtenção das conclusões é necessário o uso da teoria da probabilidade. Os dados de uma amostra são realizações de variáveis aleatórias. Inúmeros modelos probabilísticos podem ser usados para modelar a ocorrência à distribuição e facilitar a compreensão de como os eventos aleatórios ocorrem. A inferência estatística usa esses modelos e suas propriedades para formular as principais teorias utilizadas pelos investigadores científicos em suas pesquisas. Nesse material, apenas uma abordagem simplificada do conceito de probabilidade é apresentada. Nessa abordagem a probabilidade é relacionada com a ocorrência de um evento em relação a todas possibilidades possíveis. Se um evento pode ocorrer de "a" maneiras diferentes num total de “n” modos possíveis, então a probabilidade de ocorrência do evento é definida por: p a n = . Assim, o conjunto de todas as possíveis formas de ocorrer um determinado fenômeno deve ser especificado ou pelo menos enumerado. Esse conjunto é denominado de espaço amostral. O subconjunto de interesse é denominado de evento. Exemplo: Seja o nascimento de fêmeas numa leitegada de tamanho 3. Qual é a probabilidade de nascer 2 fêmeas? e nenhuma fêmea? Os eventos possíveis são apresentados a seguir pelo espaço amostral Ω: Ω: {1.MMM; 2.MMF; 3.MFM; 4.FMM; 5.MFF; 6.FMF; 7.FFM; 8.FFF} DANIEL FURTADO FERREIRA 40 E1 ={ocorrência de duas fêmeas}={5,6,7} p = Prob {E1} = 3/8 =0,375 = 37,50% E2={não ocorrência de fêmeas}={1} p = Prob {E2} = 1/8 =0,1250 = 12,50% 2.2. VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÃO DE PROBABILIDADES As variáveis aleatórias podem assumir qualquer valor de um determinado conjunto de dados, denominado de domínio da variável aleatória. Como já foi visto, elas podem ser discretas ou continuas. Será visto duas principais distribuições discretas e a mais importante das continuas, a distribuição normal. Nesse curso, devido a carga horária limitada e a grande quantidade de assuntos a serem tratados, são penalizados alguns conceitos fundamentais de probabilidade, regras de contagem e análise combinatória. DISTRIBUIÇÕES DE PROBABILIDADES DISCRETAS Se uma variável X pode assumir um conjunto de valores discretos X1, X2, ..., Xn com probabilidades p1, p2, ..., pn, sendo Σpi=1, diz-se que está definida uma distribuição de probabilidade de X. DISTRIBUIÇÕES DE PROBABILIDADES CONTÍNUAS Neste caso X pode assumir um conjunto continuo de valores. O polígono de freqüência amostral torna-se, no limite de uma população, uma curva continua. Essa curva contínua é denominada distribuição de probabilidade contínua. As probabilidades dos eventos são definidas por áreas sob essa curva. ESTATÍSTICA BÁSICA 41 µ a b A área total sob a curva limitada pelo eixo X é igual a 1. E a área entre a e b fornece a probabilidade de X estar entre a e b. 2.3. DISTRIBUIÇÃO DE PROBABILIDADES DISCRETAS E CONTINUAS. A. DISTRIBUIÇÃO BINOMIAL A distribuição binomial é apropriada para situações em que se têm 2 únicos resultados: sucesso e fracasso quando se obtém uma amostra de um único elemento da população. Se em uma amostra de tamanho n forem mantidas constantes as probabilidades associadas ao sucesso e ao fracasso, pode-se definir a variável X pelo número de sucessos observados. Essa variável tem distribuição binomial. São exemplos de variáveis binomiais: florescimentos de plantas de uma espécie em uma amostra de tamanho n; nascimento de fêmeas em uma amostra de tamanho n; entre outros. A distribuição binomial é a mais importante das distribuições de v.a.discretas. DANIEL FURTADO FERREIRA 42 Se p e a probabilidade do sucesso de um evento ocorrer em uma única tentativa e q=1-p e a probabilidade do fracasso, então, a probabilidade do eventoocorrer x vezes em n tentativas é apresentada a seguir: P(X=x)= nx x n xC p q − em, nxC n x n x = − ! !( )! e x é o número de sucessos ocorridos em n tentativas. x=0, 1, 2, ..., n. Exemplo. No nascimento de dois bezerros considerando o sucesso a ocorrência de fêmeas, pergunta-se qual a probabilidade de nascer 2 fêmeas? 1 fêmea? e nascer pelo menos uma fêmea? n=2; p=1/2; q=1-p = 1/2 e X: número de fêmeas; x=0, 1, 2. Ω={MM, MF, FM, FF} P(X=2)= 2 2 0 1 2 1 2 0 25 25% 2 2 2! ! ! ,⎛⎝⎜ ⎞ ⎠⎟ ⎛ ⎝⎜ ⎞ ⎠⎟ = = − P(X=1)= 2 1 1 1 2 1 2 0 50 50% 1 2 1! ! ! ,⎛⎝⎜ ⎞ ⎠⎟ ⎛ ⎝⎜ ⎞ ⎠⎟ = = − P(X≥1) = P(Pelo menos uma fêmea)=P(X=1)+P(X=2)=0,25+0,50=75% P(X=0)= 25% ESTATÍSTICA BÁSICA 43 A distribuição de probabilidade de X (número de fêmeas), está apresentada no Tabela 2.1. A distribuição de probabilidade refere-se aos possíveis valores que X pode assumir associados as suas respectivas probabilidades de ocorrência. x 0 1 2 P(X=x) 0,25 0,50 0,25 Tabela 2.1. Distribuição de probabilidade da ocorrência de fêmeas. A função de distribuição de probabilidade refere-se as probabilidades acumuladas. No exemplo, refere-se à probabilidade de ocorrência de no máximo x fêmeas e é representada por F(x). F(x) = P (X≤x) = P(X=0)+P(X=1)+...+P(X=x-1)+P(X=x) Ex. F(1) = P(X≤1) = P(X=0)+P(X=1)=0,25+0,50=0,75=75% F(2) = P(X≤2) = P(X=0)+P(X=1)+P(X=2) =0,25+0,50+0,25=100% Média e Variância da Binomial 2 x xnp npq np(1 p)µ = σ = = − B. DISTRIBUIÇÃO DE POISSON A distribuição de Poisson pode ser vista como sendo uma aproximação da binomial quando o n é grande tendendo para ∞ e a probabilidade do sucesso p é pequena tendendo para zero, permanecendo finito e não nulo o produto np (média da distribuição). Na prática, para uma boa aproximação, adota-se n≥50 e p≤0,10. A distribuição de Poisson, também, DANIEL FURTADO FERREIRA 44 pode ser vista como sendo a distribuição de uma variável X que mede a ocorrência do número de elementos por unidade de tempo, área ou volume. Assim, por exemplo, a ocorrência de uma planta de uma determinada espécie por unidade de área pode ser modelada pela distribuição Poisson; a ocorrência de formigueiros por talhão; a ocorrência do número de uma determinada doença por uma determinada unidade de tempo; entre outros. Função de densidade P(X=x) = −k x e k x! onde, k =np é a média da distribuição. Função de distribuição de Poisson: F(x) = P(X≤x) = −=∑ k t t x e k t!0 Exemplo: 2% dos animais de um rebanho estão atacados por uma doença. Qual a probabilidade de encontrar em uma amostra de 100 animais: (i) nenhum animal doente? (ii) 1 doente? (iii) 2 doentes? (iv) mais de três animais doentes? n=100>50 e p=0,02 < 0,10 (sucesso ou fracasso) ⇒ Poisson. k=np=100x0,02=2 (i) P(X=0)= −2 02 0e ! =13,53% ESTATÍSTICA BÁSICA 45 (ii) P(X=1)= 2 1e 2 1! − =27,07% (iii) P(X=2)= 2 2e 2 2! − =27,07% (iv) P(X>3) = 1-F(3)=1-P(X≤3)=1-[P(X=0)+P(X=1)+P(X=2)+P(X=3)]=1-0,8571=14,29% Média e Variância da Poisson x xnp k np kµ σ= = = =2 A distribuição Poisson possui média e variâncias iguais. C. DISTRIBUIÇÃO DE PROBABILIDADE UNIFORME DISCRETA Uma variável aleatória discreta X assumindo valores x1, x2, . . ., xk terá distribuição uniforme discreta se todos elementos forem equiprováveis. A função de densidade de probabilidade é dada por: P(X=x)= 1 k ; x = x1, x2, . . ., xk DANIEL FURTADO FERREIRA 46 D. DISTRIBUIÇÃO NORMAL É a mais importante das distribuições do grupo continuo pela grande aplicabilidade em pesquisas das ciências agrárias. A distribuição normal tem densidade dada por: 2 2 (x ) 2 2 1f (x) e 2 −µ− σ= πσ Em que µ e σ2 são os parâmetros dessa distribuição, os quais são respectivamente a média e variância dessa distribuição. O gráfico da função normal é: Propriedades (i) simétrica em relação a µ ; (ii) tem forma de sino; (iii) fica completamente definida conhecendo-se a sua média e variância; (iv) é assintótica em relação à abscissa; (v) área total sob a curva e igual a 1. ESTATÍSTICA BÁSICA 47 Distribuição normal reduzida ou padronizada (σ2 = 1 e µ = 0) Se X ∩ N(µ , σ2) então a V.A. Z, definida por: XZ −µ= σ , terá distribuição normal padronizada-N(0,1). Sabe-se que a probabilidade de X estar entre dois valores quaisquer (a, b) é dada pela área sob a curva normal entre estes valores: µ a b P(a<X<b)= ∫ab f(x) dx Como o cálculo dessa integral não é trivial, usam-se as tabelas obtidas a partir da curva normal padronizada. Calcular a área compreendida entre 0 e 1 na curva normal reduzida. DANIEL FURTADO FERREIRA 48 0 1 Consultando a tabela da curva normal padrão obtém-se: P(0≤Z≤1) = 0,3413. A tabela só fornece valores positivos de Z. Portanto se a probabilidade desejada corresponde à área de 0 a -1, deve-se usar a propriedade de simetria da curva normal. P(-1≤Z≤0)=P(0≤Z≤1)=0,3413 Em muitas situações práticas os parâmetros da distribuição normal são desconhecidos e devem ser estimados da amostra. Nesse caso a as probabilidades são apenas estimativas das reais probabilidades. As estimativas são tanto melhores, quanto maiores forem às amostras das populações normais obtidas. Um exemplo de aplicação dessa natureza é apresentado a seguir. Exemplo: No exemplo dos coelhos híbridos, assumindo distribuição normal dos pesos, tem-se que X =2,584 e S=0,0675. Qual é a probabilidade de encontrar um animal pesando mais que 2,701Kg? ESTATÍSTICA BÁSICA 49 P(X>2,701)=? (i) Usar gráfico para visualizar melhor a probabilidade desejada 2 , 7 0 12 , 5 8 4 (ii) Colocar X na forma reduzida: Zc = X X S − = −2 701 2 0 0675 , ,584 , =1,73 1 ,7 30 (iii) P(X>2,701) = P(Z>1,73)=0,50-0,4582= 0,0418 ⇒ P(X>2,701) = 4,18% DANIEL FURTADO FERREIRA 50 E. Aproximação normal das distribuições Binomial e Poisson (i) Binomial X ∩ B(n,p) Deseja-se calcular probabilidades tais como P(X≥7), P(0≤X≤4), etc. Pode-se fazer tal cálculo usando a própria distribuição binomial ou usar a aproximação normal. No caso da aproximação normal, o erro cometido será tanto menor quanto maior for n e quanto mais próximo de 0,50 estiver o valor de p. Alguns autores afirmam que quando np≥5 a aproximação normal é considerada boa. EX. X ∩ B(n=10, p=0,50). Qual P(X≥7)? ■ Usando a Binomial: P(X≥7)=P(X=7)+P(X=8)+P(X=9)+P(X=10)=0,171875=17,1875% ■ Usando a aproximação Normal: µx= np =10x0,50 = 5 ≥ 5 σ2 = npq =10x0,5x0,5 = 2,5 ■ Como P(X≥7) inclui o 7 e X segue uma distribuição discreta, deve-se fazer correção para descontinuidade, para que P(X=7) seja considerada na aproximação normal, e o erro seja minimizado. ESTATÍSTICA BÁSICA 51 ■ P(X≥7) inclui o 7, logo se deve considerar no caso contínuo P(X>6,5) (pois considera a probabilidade de X ser 6,5 ou mais). Se fosse P(X>7), que não inclui o valor 7 deve-se calcular a P(X>7,5). Observe a figura ilustrativa a seguir para visualizar as correções de continuidade apresentadas. A probabilidade de cada valor de X é estimada no caso contínuo pela área do retângulo correspondente sob a curva contínua usada para aproximar a distribuição discreta. -1 0 1 2 3 4 5 6 7 89 10 11 P(X>6,5) = P(Z> Zc), onde Zc é dado por: Zc= X x x − µ σ = 6 5 0 2 ,5 , ,5 − = 0,95 P(Z>0,95) = 0,1711 = 17,11% O erro cometido é desprezível. DANIEL FURTADO FERREIRA 52 (ii) Poisson Nesse caso o processo é análogo, sendo que a média e a variância são dados por: µx= np =k e σ2 = np=k Ex. Seja k=5 e n=100. Qual a P(X>7)? ■ Deve ser feito o ajuste para descontinuidade: P(X>7) não inclui o 7, logo a probabilidade desejada será: P(X>7,5) na aproximação Normal. P(X>7,5) = P(Z>Zc) = P(Z>1,12), pois: Zc = X x x − µ σ = 7 5 5 0 5 , ,− = 1,12 P(Z>1,12) = 0,50 - P(0<Z<1,12) =0,50 - 0,3686 = 0,1314 = 13,14% A probabilidade exata foi calculada usando um algoritmo em Pascal, e o resultado obtido foi: P(X>7)=13,34%. Novamente observa-se que o erro cometido foi pequeno, não sendo importante. 2.4. ESPERANÇAS MATEMÁTICAS A média de uma variável aleatória X recebe o nome de valor esperado ou esperança matemática de X. E é definida por: E(X) = n i i i x P(X x )=∑ , se X é uma v.a. discreta. ESTATÍSTICA BÁSICA 53 E(X) = xf x dx( ) −∞ ∞∫ , se X é uma v.a. contínua Propriedades (i) Sejam a e b constantes: ■ E(aX+b) = aE(X) + b (X v.a. discreta) ■ E(aX+b) = (ax b)f (x)dx a xf (x)dx b+ = +∫ ∫ (X v.a. contínua) (ii) E[X-E(X)]2 é um valor mínimo (variância de X) (iii) E[X-E(X)]=0 2.5. EXERCÍCIOS 2.5.1. Distribuição de probabilidades discretas 1. Considere ninhadas de 4 filhotes de coelhos. Construa todos os possíveis eventos de nascimentos quanto ao sexo dos filhotes. Ex. (MMMM), (MMMF), etc. a) sendo X a ocorrência de fêmeas, construa a distribuição de probabilidade de X. b) Calcule as probabilidades dos seguintes eventos, pelo conceito de probabilidade. i) nascimento de exatamente duas fêmeas? ii) nascimento de pelo menos um macho? iii) nascimento de pelo menos duas fêmeas? iv) nascimento de no máximo uma fêmea? c) Suponha que você faça uma amostragem de 500 ninhadas de 4 filhotes. Em quantas vocês espera encontrar exatamente 1 macho? 2) Suponha que X (V.A. discreta) seja o número de animais doentes de uma determinada raça. Sabe-se que esta doença é controlada geneticamente e que ataca 1/3 da raça. Numa amostra de 5 animais, pede-se: a) A distribuição de probabilidade de X? (Use a binomial) b) A probabilidade de haver na amostra mais de 1 animal doente? c) A probabilidade de haver mais de um animal sadio? DANIEL FURTADO FERREIRA 54 d) A probabilidade de haver no máximo três animais doentes? e) A função de distribuição de probabilidade de X, F(X). f) A média e a variância? 3) Numa lâmina verificou-se que existiam em média 2,5 bactérias/cm2. A lâmina foi subdividida em 300 quadrados de 1cm2. Em quantos destes quadrados vocês espera encontrar no máximo 1 bactéria? Qual é a probabilidade de se encontrar mais de 3 bactérias por centímetro quadrado? 4) Um pesquisador da área de zootecnia conseguiu uma série de dados dos últimos 120 anos, com o registro do número de uma doença rara em eqüinos da localidade em que trabalhava. Os dados obtidos foram: Número de doenças 0 1 2 3 4 5 Número de anos 50 42 20 5 2 1 a) Estime o número médio de doenças /ano? b) Calcule para cada valor de X, as probabilidades associadas. suponha que X possua distribuição de Poisson. c) Calcule a freqüência esperada (em anos) para cada valor de X. d) Compare os resultados esperados com os observados. Com base nesta comparação, você pode afirmar que a distribuição de Poisson é adequada para explicar a ocorrência desta doença na região de estudo? Justifique. 2.5.2. Distribuição de probabilidades contínuas 1. Calcule e faça os esboços dos gráficos para representar as seguintes probabilidades da distribuição normal padronizada N(0,1), com média zero e variância 1: P(Z≥1,96), P(Z≥0,95), P(Z≤1,54), P(Z≤-1,645) e P(-0,45≤Z≤2,00). 2. Encontre o valor de Zc tal que: P(Z> Zc)=0,025, P(Z< Zc)=0,600 e P(1<Z< Zc)=0,1200. ESTATÍSTICA BÁSICA 55 3. A variável aleatória X (quantidade de kg de leite produzidos por um animal diariamente, considerando uma determinada raça e rebanho) segue a distribuição normal e possui média 9,87kg/dia/animal e variância 8,87(kg/animal/dia)2. Calcule a P(X<3), P(X>8), P(10<X<12), P(7<X<11,5). Qual é o valor Xc, tal que 90% das vacas tem produtividade inferior ao mesmo, ou seja, P(X<Xc)=0,90? 4. no nascimento de 80 bezerros qual é a probabilidade de nascer pelo menos 30 fêmeas? E de nascer pelo menos 70 fêmeas? Usar a aproximação normal. 5.Seja X uma variável aleatória discreta, que representa a incidência de uma doença num determinado rebanho. Supor que X possua distribuição de Poisson com média, K=17. Determine as seguintes probabilidades pela aproximação normal, para uma amostra de 200 animais. (a) P(15≤x≤16) (b) P(X≤22) (c) P(X=13) (d) F(15) (e) Calcule o valor exato de (c) pela Poisson. Determine o erro de aproximação encontrado. CAPÍTULO III - AMOSTRAGEM 3.1. IMPORTÂNCIA O objetivo é fazer inferência sobre a população, como descrito no Quadro 3.1, ou seja, fazer afirmações sobre características da população, tomando-se por base os resultados da amostra. O processo pelo qual por meio da amostra são estudadas as características populacionais e denominado de amostragem. Para a validade deste processo as amostras devem ser representativas. As vantagens do processo de amostragem em relação ao censo é o menor custo, o menor tempo e a maior precisão. POPULAÇÃO µ σ 2 P ⎯⎯→ Parâmetros populacionais desconhecidos AMOSTRA ⎯⎯→ X S P 2 ^ Estimadores amostrais Quadro 3.1. Descrição do processo de amostragem pelo qual se obtém uma caracterização do universo desconhecido que é a população. 3.2. AMOSTRAGEM PROBABILÍSTICA E NÃO PROBABILÍSTICA. A amostragem é o conjunto de técnicas para se obter um subconjunto de valores de um universo desconhecido para se caracterizá-lo. Esse universo de valores é a população e o subconjunto é a amostra. População e amostra podem ser definidas de uma forma bastante simplificada por: (i) população é o conjunto de todos os elementos que tem pelo menos uma característica comum de interesse. Por exemplo, a população de árvores de eucaliptos da Aracruz Celulose no Espírito Santo e Bahia; (ii) e amostra é um subconjunto da população, o qual deve possuir características da população de onde foi extraído. ESTATÍSTICA BÁSICA 57 A amostragem se subdivide em dois tipos fundamentais: a amostragem probabilística e a amostragem não probabilística. A amostragem probabilística é aquela em que todos os indivíduos da população possuem probabilidade conhecida e não nula de pertencer à amostra. A principal característica desse processo é a realização de sorteio para a obtenção da amostra. Uma amostra obtida por um processo probabilístico é denominada de amostra aleatória. Dentre os tipos de amostragem probabilística destacam-se: ▄ Amostragem simples ao acaso (ASA) ▄ Sistemática ▄ Conglomerado ▄ Estratificada A amostragem não probabilística, por outro lado, é aquela em que nem todos os elementos populacionais têm chance não nula de pertencer à amostra, sendo caracterizada pela ausência de sorteio, ou quando o sorteio é realizado alguns elementos da população são excluídos do sorteio por alguma razão qualquer. Os principais
Compartilhar