Baixe o app para aproveitar ainda mais
Prévia do material em texto
INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA COORDENAÇÃO DE PESQUISAS EM SILVICULTURA TROPICAL LABORATÓRIO DE MANEJO FLORESTAL - LMF BIOMETRIA FLORESTAL Niro Higuchi Joaquim dos Santos Adriano José Nogueira Lima Liliane Martins Teixeira Manaus – AM Março, 2007 2 PARTE 1 3 Capítulo 1 Introdução - Conceitos gerais A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar, executar e acompanhar um projeto. Difícil é separar a estatística pra estas duas frentes. O objetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos mais freqüentemente utilizados pelos florestais e ajudar na interpretação dos resultados. Estatística é um ramo do conhecimento científico que consta de conjunto de processos que têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferências indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta inferência (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo conceito para estatística que, segundo Edgard, é "a arte de torturar os números até que eles confessem aquilo que você quer ouvir." Em inventário florestal, produto sem estatística não é produto. Em inventários, o principal produto é o intervalo de confiança para a média estimada. Na pesquisa científica, a estatística pode ser vista como um instrumento de comunicação. O seu uso é absolutamente opcional. Quanto mais você a usa, mais você se comunica e, quanto melhor você a usa, melhor é a sua comunicação no meio científico. Às vezes, o seu uso é desnecessário, mas isso é raro. Assim como a revolução industrial mexeu com as comunicações, mexeu também com a estatística, na mesma proporção. Como dizia grande Chacrinha “quem não se comunica, se trumbica.” Já foi o tempo que a estatística consistia meramente de coleta de dados e apresentações em gráficos e tabelas. Hoje ela é parte da ciência que se baseia em dados observados, processamento e análise, os quais são fundamentais em tomadas de decisões, face às incertezas inerentes ao universo que trabalhamos. Isso é válido para um leque enorme de atuação, desde incertezas no cara-e-coroa ou quando o professor compara a habilidade de diferentes estudantes, quando o controle de qualidade aceita ou rejeita um produto manufaturado, quando um jornal ou revista faz previsão de uma eleição, quando um pesquisador projeta a dinâmica de uma floresta etc. É evidente que a estatística não é, por si só, capaz de resolver todos os problemas que envolvem incertezas, mas novas técnicas são constantemente desenvolvidas e a estatística moderna pode, pelo menos, te ajudar a olhar essas incertezas de uma maneira mais lógica e sistemática. Em outras palavras, a estatística fornece os modelos que são necessários para estudar as situações que envolvem incertezas, mas a palavra final é sua. O exercício, a análise e a interpretação do pensamento científico normalmente são feitos por meio da linguagem operacional dos conceitos e hipóteses científicas. Isso implica na formulação de hipóteses estatísticas e estabelecimento dos procedimentos de observações diretas ou de medições. Linguagem teórica: “quanto mais grossa é a árvore, mais madeira será oferecida à indústria de transformação.” Neste caso, dois conceitos são envolvidos: espessura e madeira. Com definir esses dois conceitos? Espessura pode ser o diâmetro de uma árvore. Madeira pode ser a quantidade de material lenhoso disponível para a indústria. E daí? Que fazemos agora? Temos que operacionalizar as observações e medições de espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em 4 centímetros de diâmetro à altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por sua vez, pode ser traduzida como volume cúbico da árvore. Agora, a hipótese científica pode ser enunciada, em termos de hipótese estatística, da seguinte maneira: “Quanto maior o DAP, maior será o volume da árvore.” Dessa forma, o “pica-pau” fica mais à vontade. Depois de formulada a hipótese, o passo seguinte consiste em testá-la. Para se testar as hipóteses serão precisos: planejar a coleta de dados, coletar os dados, tratar os dados, processar os dados, analisar os resultados e, finalmente, tomar decisões para rejeitar ou não a hipótese estatística formulada – Ver figura 1.1.. O papel da estatística na pesquisa científica é ajudar o pesquisador “pica-pau” a formular as hipóteses e a fixar as regras de decisão. Um pouco de filosofia. - Aristóteles escreveu: “A verdade é um alvo tão grande que dificilmente alguém deixará de tocá-lo, mas, ao mesmo tempo, ninguém será capaz de acertá-lo em cheio, num só tiro.” - A meta da ciência é a organização sistemática do conhecimento sobre o universo, baseado nos princípios explanatórios que são genuinamente testáveis. - O pesquisador tem os dons da instituição e criatividade para saber que o problema é importante e quais questões devem ser levantadas; a estatística, por sua vez, o assistirá por meio da maximização de output não ambíguos enquanto minimiza os inputs. - O pesquisador tem que ter em mente que a pesquisa freqüentemente levanta mais questões do que respostas. Os resultados quase sempre são meramente uma demonstração de nossa ignorância e uma declaração mais clara do que não sabemos. - O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado para surpresas. - A pesquisa está na cabeça do pesquisador; o laboratório ou o campo meramente confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as questões certas para fazer e não nas certas respostas. - A aplicação indiscriminada dos métodos quantitativos sobre inesgotáveis quantidades de dados não significa que o entendimento científico vai emergir só por causa disso. 1.1. A Natureza da Estatística: Basicamente, são dois tipos de estatística: descritiva e de inferência. A ciência da estatística inclui ambas, descritiva e de inferência. A estatística descritiva apareceu primeiro, nos censos feitos na época do império romano. A de Inferência é mais recente e é baseada na teoria da probabilidade que, por sua vez, não se estabeleceu antes da metade do século XVII. a) Estatística descritiva => consiste de métodos para organizar e sumarizar as informações. O propósito da organização e sumarização é te ajudar na interpretação de um monte de informações. Os métodos descritivos incluem a construção de gráficos, figuras e tabelas, como também, o cálculo de vários tipos de médias e índices. Exemplos: resultado final de uma eleição apresentado pelo Tribunal Superior Eleitoral (TSE) – Quadro 1.1, desmatamento 5 na Amazônia – Figura 1.2., áreas desmatadas com autorização e sem autorização – Figura 1.3 e as origens da madeira amazônica – Figura 1.4. b) Estatística de inferência => consiste de métodos para inferir sobre uma população baseada na informação de uma amostra da população. A estatística de inferência moderna praticamente surgiu após as publicações científicas de Karl Pearson e Ronald Fisher, no início do século passado (XX). Depois disso, houve uma evolução fantástica dessa ciência, tornando-se aplicável a várias áreas de conhecimento, tais como: Eng. Florestal, Agronomia, Biologia, História, Física, Química, Psicologia etc. Exemplo 1: Pesquisas de opinião realizadas pelas empresas (DATAFOLHA, IBOPE, VOX POPULI etc), pouco antes de eleições. A Figura 1.5 mostra a dinâmicade opinião de eleitores brasileiros na eleição para presidente de 2002 com base em pesquisas de opinião realizadas pelo IBOPE. O resultado do 1º turno é apresentado na última coluna como TSE, tirado do Quadro 1.1. Os resultados do IBOPE, do último dia de pesquisa (com margem de erro igual a 1,8%), são praticamente iguais aos oficiais do TSE. A informação do TSE é sobre votos válidos enquanto que os da pesquisa de opinião são de intenção de votos. Na pesquisa de opinião do 1º turno é difícil identificar o voto “nulo”. Exemplo 2: Pesquisas de opinião sobre o 2º turno da eleição presidencial 2002, realizadas pelo Datafolha. Neste caso, foi possível estimar os percentuais sobre os votos válidos. No último dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos válidos para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinâmica de opinião de eleitores para o2º turno da eleição de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7% para o Serra – Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos), as estimativas do último dia seriam 62% (para menos) para o Lula e 38% (para mais) para o Serra. Esta parte da estatística de inferência evoluiu muito no Brasil. A prova disso são os resultados finais do primeiro e do segundo turno da eleição presidencial de 2002 que tem muito a ver com as previsões feitas pelas pesquisas de opinião dos vários institutos. O sucesso tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de dados e processamento & análise dos resultados A evolução da informática também contribuiu muito para o sucesso das pesquisas; o rápido processamento e, conseqüente, análise dos resultados, permitiu a repetição em intervalos de tempo menores – isso é fundamental para a validação dos métodos utilizados que, por sua vez, dá a robustez necessária para a pesquisa e a sociedade ganha com a maior precisão e confiabilidade das pesquisas de opinião. Exemplo 3: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiança (95%) da série histórica de 1978 a 2005 – Figura 1.7. Apesar da confusão das estatísticas e de sua interpretação, com boa vontade e profissionalismo, as causas do desmatamento poderiam ser identificadas. O desafio é entender a direção que o desmatamento pode tomar no futuro. Sem entender as causas, a direção só pode ser estocástica. A Figura 1.7 ilustra o uso do intervalo de confiança – IC (nível de probabilidade de 95%) para a média do período 1978-2005. De acordo com dinâmica do desmatamento até 2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) são: 29% de ficar acima da estimativa máxima provável (maior do que 20.983 km 2 ), 29% abaixo da estimativa mínima provável (menor do que 16.296 km 2 ) e 42 % de ficar dentro do intervalo de confiança (entre 16.296 a 20.983 km 2 ) – com 95% de chance de acertar. Exemplo 4: Todos os trabalhos de equações de volume que utilizam os modelos destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em 6 modelos matemáticos que serão utilizados, posteriormente, para estimar o volume da árvore em pé. Para concluir a discussão, em torno da natureza da estatística, é importante não perder de vista que a opção por uma das duas estatísticas pode ser pessoal. Entretanto, se a escolha recair sobre a de inferência, o pesquisador deve se sujeitar as suas regras e condicionantes. A estatística de inferência, por sua vez, deve ficar sob as condicionantes da teoria da probabilidade, da normalidade e da independência; a violação de uma dessas condicionantes implica em um comprometimento muito sério de todo o seu trabalho. 1.2. Conceitos Básicos: Talvez, os conceitos mais importantes para os florestais são erros amostrais e não amostrais. Se você conseguir distinguir esses dois conceitos, você sempre fará um trabalho confiável e, por conseguinte, a estatística será uma ferramenta útil na execução de seus trabalhos de pesquisa, encurtando caminhos para a produção de ciência e de resultados de inventário florestal. (i) Erro Amostral => é o erro que você comete por não medir toda a população. Este parâmetro é mensurável e, dependendo da escolha dos métodos, você tem condições de aumentar ou diminuir este erro. De qualquer modo, trata-se de um parâmetro que pode ser controlado e avaliado por você. É o desvio padrão da média ou, simplesmente, erro padrão e tem fórmula para o seu cálculo. É a única medida de precisão, por mais paradoxal que possa parecer, em qualquer trabalho de pesquisa ou de inventário florestal. (ii) Erro não-amostral => é o erro humano, que pode ser cometido acidental ou deliberadamente. É o tipo de erro que você comete ao alocar uma amostra no lugar errado – ex.: no escritório você faz a opção pela amostragem inteiramente aleatória e sorteia as unidades amostrais e distribui em sua área estudo; no campo, entretanto, você não consegue alocá-las de acordo com as coordenadas pré-estabelecidas e alocá-as em outro lugar. Você também comete erro não-amostral quando utiliza um equipamento defeituoso ou, por preguiça, você “chuta” as medidas de uma determinada variável. O problema desse erro é que você não consegue dimensioná-lo e, neste caso, não há estatística que dê jeito para consertar o mal-feito. A estatística e o computador só são úteis na interpretação de fenômenos observados quando os dados são de absoluta confiança e sem erros não-amostrais. Moral: Busque sempre a melhor metodologia para conseguir a maior precisão de seu trabalho sem, contudo, aumentar a possibilidade de cometer erros não-amostrais. BOM PESQUISADOR é aquele que não entrega sua coleta de dados para qualquer “PEÃO”. (iii) Populações, Parâmetros e Estimativas A noção central em qualquer problema de amostragem é a existência de uma população. Pense em uma população como um agregado de valores unitários, onde a “unidade” é a coisa sobre a qual a observação é feita e o “valor” é a propriedade observada sobre aquela coisa. População é então o conjunto de todos os indivíduos ou itens sob consideração. Ou ainda: população é o universo de seu interesse. Ilustrando: - se você está interessado em estudar o potencial quantitativo da floresta da Reserva Ducke, a POPULAÇÃO é o conjunto de todas as árvores acima de um determinado DAP, existentes naquela área de 10.000 hectares. - se para você potencial quantitativo significa volume cúbico obtido de equações simples (DAP como variável independente), o volume médio (por hectare, por ex.) de todas as árvores da Reserva Ducke é o PARÂMETRO. 7 - se você, no entanto, decidir pela avaliação por amostragem e lançar naquela área algumas amostras (ex.: 10 amostras de 1000 m 2 , aleatoriamente distribuídas), o volume médio dessas amostras é a ESTIMATIVA. AMOSTRA é aquela parte da população da qual a informação é coletada. (iv) Tendência (bias), Exatidão e Precisão TENDÊNCIA ou VIÉS (bias, em inglês) é uma distorção sistemática. Ela pode ser devido a alguma falha na medição, ou no método de selecionar a amostra, ou na técnica de estimar o parâmetro. Se você medir o DAP com uma fita diamétrica faltando um pedaço na ponta (2 cm), você medirá todas as árvores com 2 cm a mais, ou seja, você superestimará esta variável. Uma maneira prática de minimizar as tendências em medições é por meio de checagens periódicas dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado com eles. Tendência devido o método de amostragem ocorre quando certas unidades ganham maior ou menor representação na amostra do que na população. Ex.: se você excluir 20 metros de bordadura do lado oeste da Reserva Ducke por causa de um igarapé. Neste caso, você está introduzindo tendência em sua avaliação simplesmente porque você não deu a mesma oportunidade, paraas árvores que ocorrem naquela faixa, em aparecer no seu trabalho. Outro exemplo: quando a equipe econômica faz uma pesquisa nos supermercados do centro- sul e extrapola o custo de vida para todo o Brasil; isso é uma medida tendenciosa que não reflete o que se passa em Manaus. Tendência na forma de estimar determinado parâmetro pode ser introduzida quando você, por exemplo, toma o volume médio da Reserva Ducke e junta com o volume médio do Distrito Agropecuário da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro da região de Manaus. Um volume médio não tendencioso seria uma média ponderada considerando os diferentes tamanhos de cada área, em vez de usar a média aritmética simples (tendenciosa, neste caso). Importante: A tendência é a mãe do erro não-amostral, por esta razão, evitá-la é sinal de prudência e sensatez. PRECISÃO E EXATIDÃO – uma estimativa tendenciosa pode ser PRECISA, mas nunca EXATA. Ainda que o Aurélio (dicionário) pense diferente, para os estatísticos, EXATIDÃO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade; PRECISÃO refere-se à distribuição dos valores amostrais em torno de sua própria média que, se for tendenciosa, não pode ser o valor verdadeiro – Ver figura 1.8. Exatidão ou estreiteza ao valor verdadeiro pode estar ausente por causa da tendência, falta de precisão ou por causa de ambas. 8 rejeita ? planejar tratarcoletar processar analisar HIPOTETIZAR OPERACIONALIZAR PENSAMENTO não, concluir! sim, concluir! rejeita ? planejar tratarcoletar processar analisar HIPOTETIZAR OPERACIONALIZAR PENSAMENTO não, concluir! sim, concluir! Figura 1.1: Pesquisa científica – do pensamento à inferência. 9 Quadro 1.1: Resultados das eleições para presidente de 2002. RESULTADOS DAS ELEIÇÕES DE 2002 Total de eleitores = 115.254.113 Resultado do 1º turno: nº de votantes = 94.804.126 ordem número candidato total votos % válidos 1 13 Lula 39.454.692 46,44 2 45 José Serra 19.705.061 23,20 3 40 Garotinho 15.179.879 17,87 4 23 Ciro Gomes 10.170.666 11,97 5 16 Zé Maria 402.232 0,47 6 29 Rui Pimenta 38.619 0,05 Resultado do 2º turno: nº de votantes = 91.664.259 ordem número candidato total votos % válidos 1 13 Lula 52.793.364 61,27 2 45 José Serra 33.370.739 38,73 fonte: www.tse.gov.br => consultas: 1º turno em 21/10/02 e 2º turno em 29/10/02 21.050 17.770 13.730 11.030 13.786 14.896 29.059 18.161 13.227 17.383 17.269 18.226 18.165 23.266 24597 27.200 18.900 78/87 87-89 89/90 90/91 91/92 92/94 94/95 95/96 96/97 97/98 98/99 99/00 00/01 01/02 02/03 03/04 04/05 a n o o u p e rí o d o área desmatada em km2 fonte: www.inpe.br Figura 1.2: Desmatamento anual (km 2 ) na Amazônia. http://www.tse.gov.br/ http://www.inpe.br/ 10 0 500 1.000 1.500 2.000 2.500 3.000 1997 1998 1999 2000 2001 2002 2003 2004 ano á re a d e s m a ta d a ( k m 2 ) 0 5 10 15 20 25 30 35 40 45 re la ç ã o A :D ( % ) A D A:D (%) Fonte: www.ibama.gov.br – sisprof. A = área desmatada com autorização; D = área desmatada total e A:D relação entre autorizado e não autorizado. Figura 1.3: Relação entre áreas (em km 2 ) desmatadas com autorização e sem autorização na Amazônia. d autorizado 20% PMFS 17% sem origem 63% Fonte: www.ibama.gov.br – sisprof Figura 1.4: Origem da madeira da Amazônia – planos de manejo florestal sustentável (PMFS), desmatamento autorizado e sem origem definida. http://www.ibama.gov.br/ http://www.ibama.gov.br/ 11 39 41 39 41 43 45 46 19 19 19 18 19 20 23,2 12 13 14 15 16 15 17,9 15 12 14 12 11 9 12 0 5 10 15 20 25 30 35 40 45 50 6 a 9/9 14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 TSE período da pesquisa in te n ç ã o d e v o to ( % ) Lula Serra Garotinho Ciro Figura 1.5: Pesquisas de opinião realizadas pelo IBOPE para o 1º turno da eleição presidencial de 2002. 58 61 59 58 32 32 31 32 6 4 6 7 4 3 4 3 0 10 20 30 40 50 60 70 11 out 18/out 23/out 26/out data in te n ç ã o d e v o to s ( % ) Lula Serra indecisos nulos/brancos Figura 1.6: Pesquisas de opinião realizadas pelo Datafolha para o 2º turno da eleição presidencial de 2002. 12 10.000 12.000 14.000 16.000 18.000 20.000 22.000 24.000 26.000 28.000 30.000 7 8 /8 7 8 7 -8 9 8 9 /9 0 9 0 /9 1 9 1 /9 2 9 2 /9 4 9 4 /9 5 9 5 /9 6 9 6 /9 7 9 7 /9 8 9 8 /9 9 9 9 /0 0 0 0 /0 1 0 1 /0 2 0 2 /0 3 0 3 /0 4 0 4 /0 5 0 5 /0 6 ano ou período á re a d e s m a ta d a ( k m 2 ) área média mínima máxima 21.060 18.689 16.317 IC(95%) = 18.689 2.372 2005/06? Dentro = 42% Abaixo = 29% Acima = 29% Figura 1.7: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiança (95%) da série histórica de 1978 a 2005. impreciso preciso preciso exatoimpreciso preciso preciso exato Figura 1.8: Diferença entre precisão e exatidão. 13 Capítulo 2 Organização dos dados 2.1 Dados: A informação coletada e analisada pelo estatístico é chamada de DADOS. Há vários tipos de dados e a escolha da metodologia, pelo estatístico é, parcialmente, determinada pelo tipo de dados que ele tem em mãos. Exemplo 1: No exame de seleção para turma 90/91 do Manejo Florestal, tivemos 15 candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6 candidatos, 5 homens e 1 mulher. João da Silva tirou o primeiro lugar com nota 6,7 e Joaquim Moreira tirou o último lugar com a nota 5,0. No exemplo acima, nós podemos destacar os seguintes tipos de dados: QUALITATIVO – o tipo mais simples de dados, é a informação que coloca cada candidato em uma das duas categorias “homem ou mulher” ou “tipo florestal I ou tipo II” ou “estocada ou não estocada” etc. Esses dados dão informações sobre um indivíduo ou um item. ORDINAL – A informação sobre classificação, dados que colocam os indivíduos ou objetos em ordem, “rankeados”. No exemplo, as classificações de João e Joaquim são dados ordinais. MÉTRICO – O termo métrico se refere aos dados mensuráveis e não deve ser confundido com os dados em unidades métricas. No exemplo, as notas dos candidatos (6,7 e 5,0 e outras notas) são dados métricos. Resumindo: Dados qualitativos: dados que se referem à qualidade não numéricas ou atributos, tais como: tipo florestal, gênero ou espécie florestal, cor de alguma coisa etc. Dados ordinais: dados sobre classificação, ordem ou “rank”, tais como: classificação de toras, ordem de chegada etc. Dados métricos: dados obtidos de medições de certas quantidades como: tempo, altura, DAP, volume, peso etc. Um outro importante tipo de dados é o chamado DADOS CONTÁVEIS. A contagem do numero de indivíduos ou itens que caem em várias categorias, tais como “homem” e “mulher” fornece os dados contáveis. Por exemplo, a informação dada no exemplo anterior que foram aprovados 5 homens e 1 mulher, são dados contáveis. DADOS CONTÁVEIS são dados sobre o número de indivíduos ou itens que caem em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados (qualitativo, ordinal ou métrico). Os dados QUALITATIVO e ORDINAL são referidos pelos estatísticos como dados DISCRETOS porque eles classificam coisas em classes separadas e discretas. Na classificação dos candidatos ao mestrado não há como colocar ninguém entre o primeiro lugar e o segundo. Também não há como classificar ninguém entre “homem” e “mulher.” São exemplos típicos de dados discretos, porque não há como dizer que alguém ficou em “primeiro lugar e meio” ou o que fulano é “homem e meio”. No caso de ordem de chegada ou “rank” há possibilidade de empate, mas isso é outra coisa e será discutidona estatística não- paramétrica. 14 Por outro lado, a maioria dos dados métricos é considerada DADOS CONTÍNUOS porque eles envolvem medições sobre uma escala contínua. A escala fica por conta da precisão do aparelho de medição: na suta ou na fita diamétrica, o máximo que podemos chegar é décimo de centímetros, ou seja, entre os DAPs 20 e 21 cm nós podemos ter DAPs com 20.1, 20.2, ... , 20.9; nos cronômetros da Fórmula – 1, no entanto, o nível de precisão é impensável para os nossos relógios de pulso. 2.2 Dados grupados: A quantidade de dados que pode ser coletada do “mundo-real” é simplesmente fantástica. Exemplo 1: O censo brasileiro. Você já imaginou a trabalheira que dá para cadastrar aproximadamente 180 milhões de pessoas, anotando o nome, sexo, idade, ocupação, escolaridade etc. Apenas para ilustrar, se você usar qualquer software (Excel ou Word) para listar toda essa gente, você gastará mais de 600 quilômetros de papel apenas para imprimir as informações básicas, é Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente você teria uma boa fotografia da população brasileira. Então, o que fazem os especialistas do IBGE? Eles nos proporcionam variadas informações: quantidades de homens e de mulheres (X1); X1 por classe idade (X2); X2 por estado e por região; X1 por nível de escolaridade; população ativa etc. Isso é um exemplo típico da aplicação da estatística DESCRITIVA, por meio da organização e simplificação dos dados. Exemplo 2: Dados sobre DAP das árvores da parcela-testemunha do bloco 2 (apenas as 40 primeiras árvores). Os “pica-paus” normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc. Para ver quantos DAPs há em cada classe você faz o seguinte: Quadro 2.1. Dados de DAPs de 40 árvores. árv. nº DAP árv. nº DAP árv. nº DAP árv. nº DAP 1 25.0 11 33.0 21 32.0 31 37.0 2 27.0 12 38.5 22 63.0 32 41.0 3 45.0 13 31.8 23 34.0 33 40.0 4 36.0 14 52.0 24 30.0 34 32.0 5 39.0 15 37.0 25 29.0 35 58.0 6 36.0 16 27.7 26 32.0 36 28.0 7 33.0 17 35.0 27 27.0 37 77.0 8 47.0 18 33.0 28 28.0 38 58.0 9 34.0 19 47.0 29 27,0 39 43.0 10 53.0 20 33.0 30 40.0 40 30.0 15 Quadro 2.2. Cálculo de freqüência de cada classe de diâmetro. classes de DAP contagem nº de árvores (f) 20 < 30 IIIII III 8 30 < 40 IIIII IIIII IIIII IIII 19 40 < 50 IIIII II 7 50 < 60 IIII 4 60 < 70 I 1 70 < 80 I 1 total 40 O número de indivíduos (árvores) em cada categoria ou de DAP é chamada de FREQUÊNCIA daquela classe. O quadro 2.2 é uma tabela de distribuição de freqüência. Não confundir distribuição de freqüência em estatística com o termo freqüência da Ecologia Vegetal. Nem sempre você trabalha com quantidade tão pequena de indivíduos (n = 40, neste caso). Com n maiores é mais seguro montar a distribuição de freqüência utilizando a “tabela dinâmica” do Excel – aplicação no Capítulo 17 (Cadeia de Markov). Algumas “dicas” para estabelecer distribuições de freqüência: - o número de classes não deve ser nem muito pequeno e nem muito grande, ao contrário, no meio. Sugere-se um número entre 5 e 12 – regra do “olhômetro.” Outra forma é através da seguinte fórmula: n classes 1 + 3,33 log N (N = número de dados) - cada classe tem que ter a mesma dimensão. Do quadro 2.2, as dimensões são: 20 a 29.9, 30 a 39.9 etc. - cada pedaço de dados tem que pertencer a apenas a uma única classe. Essa lista poderia continuar, mas isso seria artificial. O propósito de grupar dados é distribuí-los em um número razoável de classes de igual tamanho para facilitar a interpretação dos mesmos. Se possível, os intervalos que tem uma interpretação natural, devem ser utilizados, como por exemplo: dados em DAP que são normalmente divididos em múltiplos de 10. 0 2 4 6 8 10 12 14 16 18 20 Freq fr e q ü ê n c ia a b s o lu ta Figura 2.1: Histograma de freqüência para os mesmos dados do quadro 2.1. 16 A freqüência pode ser também apresentada em porcentagem ou decimal, conhecida como FREQUÊNCIA RELATIVA. No quadro 2.3 para obter a freqüência relativa de cada classe, bastou dividir a freqüência de cada classe por 40 (número total de indivíduos contados). Se multiplicarmos essas frações por 100, teremos a freqüência em %, caso contrário, em decimais. Quadro 2.3. - Distribuição de Freqüência relativa do quadro 2.1. classes DAP pt médio freq freq rel 20 < 30 25 8 0,200 30 < 40 35 19 0,475 40 < 50 45 7 0,175 50 < 60 55 4 0,100 60 < 70 65 1 0,025 70 < 80 75 1 0,025 Algumas terminologias: Classe – uma categoria para o grupamento de dados. Freqüência – o número de indivíduos ou objetos numa classe. A freqüência da classe 30-39.9 é 19. Freqüência relativa – a porcentagem, expressa como um decimal, do número total de indivíduos de uma determinada classe. A freqüência relativa da classe 50-59.9 é 0.1 ou 10%. Freqüência acumulada – é a soma das freqüências dos valores inferiores ou iguais a valor dado. Distribuição de Freqüência – a listagem das classes com suas freqüências. Limite inferior da classe – o menor valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite inferior é 20. Limite superior da classe – o maior valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite superior é 29.9. Se a precisão fosse de duas casas decimais, o limite superior poderia ser 29.99 e assim por diante. Intervalo de classe – é a diferença entre o limite superior e o limite inferior de uma dada classe. No nosso exemplo, o intervalo é 10, ou seja, 30 – 20 =10. Ponto médio da classe – é a média aritmética entre o limite superior e limite inferior da classe. Assim, se a classe for: (20+29.99)/2 = 25. Da classe 30-39.9 o ponto médio é 35 e assim por diante. 2.3 Gráficos e figuras: Uma outra maneira de dar sentido a um conjunto de dados é por meio da representação gráfica dos mesmos. O gráfico mais simples dos dados é o HISTOGRAMA DE FREQUÊNCIA. A altura de cada barra é igual a freqüência que ela representa. Tem também o HISTOGRAMA DE FREQUÊNCIA RELATIVA. Há muitas outras formas de representação gráfica de seus dados. Hoje em dia, uma forma muito usada é a PIE (torta). De qualquer modo, fique a vontade e use de sua imaginação para dar a representação mais conveniente dos seus dados. 17 Capítulo 3 Medidas descritivas Há muitos critérios, por sinal, bem avançados, para a descrição sucinta dos fenômenos naturais. Apesar disso, a maioria das características usadas na estatística, para descrever as variáveis aleatórias, em populações particulares, caem em uma das três categorias: (1) medidas da tendência central (alocação de um valor ordinário); (2) medidas de dispersão (distância relativa de valores extremos de um valor central); (3) medidas de relacionamento entre as variáveis (grau de similaridade ou dissimilaridade em magnitude). Em geral, o volume de dados de uma pesquisa é muito grande. Os métodos de gráficos e grupamento de dados são úteis no manuseio de um grande conjunto de dados. Uma outra forma de sumarizar os dados é por meio da computação de um número, tal como a média, a qual substitui um grande volume de dados por um simples número. 3.1 Medidas de tendência central: As medidas de alocação mais comumente utilizadas são média aritmética e a mediana. Menos freqüentemente usadas são: moda, percentil, média geométrica e média harmônica. A média comum ou média aritmética ou simplesmente média, é a mais freqüentemente usada de todas as medidas estatísticas. Média – é simplesmente a soma de todas observações (DAP, altura, idade) dividida pelo número total de observações. É a medida que tem a menor variabilidade de amostra para amostra, é fácil de ser manuseada matematicamente e tem as propriedades mais desejáveis em conexão com as distribuições de probabilidade.Mediana – é o valor de uma variável aleatória que, em ordem crescente ou decrescente, está “rankeado” no meio, entre os valores maiores e menores. Em amostras com número par de observações, a mediana é a média aritmética dos 2 valores que estão “rankeados” no meio. Estimativas da mediana de pequenas amostras não são muito confiáveis. Moda – é o valor mais freqüente, ou seja, é a categoria ou classe com a maior freqüência. É uma medida fácil e rápida de ser obtida, mas, por outro lado, fica sempre sujeita a variação extrema de uma amostra para outra, ao menos que a amostra seja bem grande. Percentil – para um melhor entendimento pense na mediana como o 50-ésimo percentil. Média geométrica – é a n-ésima raiz de um produto de n valores, ou antilog da média aritmética dos logs de um conjunto de valores e é sempre tão pequeno ou menor que a média do mesmo conjunto de dados. Média harmônica – é a recíproca da média de um conjunto de dados recíprocos e é tão pequena ou menor que a média geométrica para um mesmo conjunto de dados. Para dados ordinais, é preferível utilizar-se da mediana, apesar de que a média é, as vezes, utilizada. Para dados métricos pode ser usada a média ou a mediana. Como com dados ordinais, a mediana é preferida para propósitos descritivos. A maioria das teorias estatísticas para dados métricos usa a média. 18 Computação de Média, Mediana e Moda Média – a estimativa da média, x _ ou ӯ, do parâmetro , é obtida da seguinte maneira: Dos dados do quadro 2.1, a média será: x _ = 38,225 Mediana – do quadro 2.1, primeiro é preciso ordenar em ordem crescente, (1ª) (2) (3) (4) (5) (6) (7) (8) (9) (10) 25 27 27 27 27.7 28 28 29 30 30 (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) 31.8 32 32 32 33 33 33 33 34 34 (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) 35 36 36 37 37 38.5 39 40 40 41 (31) (32) (33) (34) (35) (36) (37) (38) (39) (40ª) 43 45 47 47 52 53 58 58 63 77 Neste caso, o número total de observações, n, é par, a mediana será a média aritmética dos vigésimo e vigésimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5. Moda – é simplesmente o ponto médio da classe que tem a maior freqüência, que no nosso caso, quadro 2.2, é 35, que tem a freqüência = 19. Resumo das estimativas das medidas: Média = 38,225 Mediana = 34,5 Moda = 35,0 Interpretação: um conjunto de dados pode ter mais de uma moda, mas sempre terá somente uma média ou mediana. Como você pode ver, de um mesmo conjunto de dados, você tem diferentes medidas de tendência central. Qual delas é a melhor? A decisão vai depender, principalmente, do objetivo de sua informação. Quando a gente vende madeira em volume, normalmente truncada a um determinado diâmetro mínimo, a média deve prevalecer tendo em vista a maior facilidade para os cálculos posteriores. Se a árvore é vendida em pé, a moda pode ser mais interessante, porque ela dá uma noção também da distribuição de freqüência. A utilização da mediana é mais prática na tomada de decisões quanto a tratamentos silviculturais, desbastes etc., quando você precisa priorizar o tamanho que precisa sofrer intervenções. 40 ) x .... x x( x 4021 19 3.2. Medidas de dispersão: Uma medida de dispersão é um número usado para mostrar quanto de variação existe num conjunto de dados. Até agora discutimos somente as medidas de tendência central. Entretanto, 2 conjuntos de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastante diferente. Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1 Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA Manejo (CFT) Ecologia aluno idade aluno idade 1 25 1 22 2 28 2 30 3 30 3 28 4 29 4 21 5 28 5 39 média 28 média 28 As médias dos dois grupos são iguais. No entanto, é claro que estamos nos referindo a dois grupos diferentes em idade. Dá para perceber que o grupo do Manejo é mais uniforme em termos de idade. Neste caso, para ver a variação que há dentro de cada conjunto de dados, podemos usar a amplitude total ou o desvio padrão, as duas medidas de dispersão mais comuns. AMPLITUDE TOTAL – é a medida da variação olhando apenas a diferença entre o maior e o menor valor. Esta medida é de fácil computação porque depende apenas do maior e do menor valor, mas, em compensação ela não diz o que acontece entre esses dois valores. Além disso, é considerada muito limita, sendo uma medida que depende apenas dos valores externos, é instável, não sendo afetada pela dispersão dos valores internos. Do quadro 3.1, as amplitudes são: - Manejo: 30 – 25 = 5 - Ecologia: 39 – 21 = 18 DESVIO PADRÃO – nos dá a dispersão dos indivíduos em relação à média. Ele nos dá uma idéia se os dados estão próximos da média ou muito longe. O desvio padrão dos indivíduos de uma população é freqüentemente simbolizado pela letra grega minúscula (). Dificilmente a gente trabalha com o parâmetro. Entretanto, dado uma amostra de valores individuais de uma população, podemos fazer uma estimativa de que é comumente simbolizada por s. 1 -n )x - (x s :Fórmula n 1i 2 i 1 -n n / )) x (( - x s :simples mais ,ou n 1i n 1i 2 i 2 i 20 Por que o denominador é (n-1) em vez (n)? Porque os n desvios, (xi – x _ ), são necessariamente conectados pela relação linear ( xi – x _ ) = 0. Se você especifica o valor de e os ( n-1 ) valores de xi, então o valor do último xi é fixo; isto é, é uma informação redundante. Por esta razão, ao usar a média amostral x _ em vez da média da população como um ponto central no cálculo de s, você perde um grau de liberdade (gl) e a estimativa de é dita ter ( n – 1 ) gl associados com ela. O uso de (n – 1) em vez de (n) no cálculo de s também fornece uma estimativa não-tendenciosa; isto é, em uma série infinita de amostras aleatórias, o valor médio do estimador é igual a . Os desvios padrões dos dados do quadro 3.1 são: - Manejo: s = 1.87 - Ecologia: s = 7.25 Resumindo: quanto maior a variação dentro de um conjunto de dados, maior será o desvio padrão. Do exemplo 2 nós constatamos agora, que apesar dos dois terem as mesmas medidas de tendência central, média e mediana, as medidas de dispersão são totalmente diferentes. Isto quer dizer que o grupo de Manejo é mais homogêneo em idade, comprovada pela menor variação encontrada. Cálculo da média e desvio dos dados grupados: A média é calculada da seguinte maneira: x _ = ( ∑ xi * fi ) / n onde: xi = ponto médio da classe, fi = freqüência de cada classe e n = número de classes E o desvio padrão segue o mesmo princípio da média em relação às classes. Do quadro 2.2, essas medidas serão: x _ = 38,5 e s = 11,45 3.3. Medidas de relacionamento: As medidas mais comumente utilizadas para relacionamento são correlação e regressão. Vários tipos de correlação podem ser usados para medir o grau de associação (similaridade ou dissimilaridade) entre 2 (ou mais) variáveis aleatórias, independente das unidades de medida e mudanças lineares em escala. Estas medidas serão vistas, em detalhe, num capítulo específico. 3.4 Percentil: Nós já vimos um exemplo de percentil. A mediana divide um conjunto de dados em duas partes, 50% de um lado e 50% de outro, depois de colocá-los em ordem crescente. Por esta razão ela se refere ao qüinquagésimo percentil de um conjuntode dados. Além dos percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador pode também querer encontrar o quartil e o decil. Quartil é a separatriz que divide a área de uma distribuição de freqüência em domínios de área igual a múltiplos inteiros de um quarto da área total. Decil é a separatriz correspondente ao valor do argumento que divide a distribuição numa razão decimal. Exemplo: dados do quadro 2.1 em ordem crescente. 21 Primeiro quarto Segundo quarto Terceiro quarto Quarto quarto Computações: Primeiro quartil = (30 + 31.8) / 2 = 30.9 Segundo quartil = (34 + 35) / 2 = 34.5 Terceiro quartil = (41 + 43) / 2 = 42.0 3.5. Considerações finais: Neste capítulo não poderíamos deixar de mencionar três outros conceitos muito importantes na nossa área de conhecimento, coeficiente de variação, variância e covariância. COEFICIENTE DE VARIAÇÃO – é a razão entre o desvio padrão e a média. Ele nos dá uma idéia de variação relativa de nossa população, permitindo a comparação de 2 populações diferentes independentes das unidades de medida. Do quadro 3.1, estimamos as médias (28 para manejo e 28 para Ecologia) e os desvios padrões (1.87 e 7.25). Agora temos os coeficientes de variação (CV): CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia Do nosso exemplo do quadro 2.1, temos uma população de árvores, com as seguintes estimativas: média = 38,225 e desvio = 11,28 CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2 Mesmo se tratando de populações diferentes podemos concluir com base nos CVs: A população Manejo é mais homogênea e a mais heterogênea é a floresta da ZF-2. Isto é possível porque o CV é uma medida relativa, que independente da unidade de medida utilizada. VARIÂNCIA - Variância é uma medida da dispersão dos valores unitários individuais em torno de sua média. A variância não só parece com o desvio padrão, como é o próprio, apenas “ao quadrado” . Se você tirar da fórmula do desvio, a raiz quadrada, você tem a fórmula da variância. Por que “ao quadrado”? Simplesmente porque a soma de todos os desvios tem que se anular, tendendo a zero e, daí, você não teria condições de ver a amplitude de variação dos seus dados em relação à média. COVARIÂNCIA - é uma medida de como 2 variáveis variam juntas, em relacionamento (covariabilidade). Suponha duas variáveis x e y. Se os maiores valores de x tende a ser associados com os maiores valores y, nós dizemos que a covariância é positiva. 25 27 27 27 27.7 28 28 29 30 30 31.8 32 32 32 33 33 33 33 34 34 35 36 36 37 37 38.5 39 40 40 41 43 45 47 47 52 53 58 58 63 77 22 Quando os maiores se associam com os menores, ou vice-versa, a covariância é negativa. Quando não há uma associação particular de x e y, a covariância tende a zero. As fórmulas são: Variância, s 2 = SQCx /(n-1) Covariância, sxy = SPCxy / (n-1) 23 Fórmulas úteis ∑ xi i = 1 n x = n s 2 = ∑ ( xi - x ) 2 i = 1 n n - 1 Média aritmética Desvio padrão Erro padrão s = s / √ n x Variância s = ± √ s 2 ∑ xi 2 - i = 1 n ( ∑ xi ) 2 i = 1 n n SQCx = ∑ yi 2 - i = 1 n ( ∑ yi ) 2 i = 1 n SQCy = SPCxy = ∑ xi yi - i = 1 n ( ∑xi ) ( ∑yi ) n Coeficiente de correlação r = SPCxy √ SQCx SQCy n 24 Capítulo 4 Probabilidade No capítulo 1 nós distinguimos dois tipos de estatísticas: descritiva e de inferência. A estatística descritiva envolve a organização e a sumarização dos dados. A estatística de inferência lida com inferências (predições educadas) sobre uma população baseada em uma amostra da população. Desde que a estatística de inferência envolve predições (educadas), é sempre possível fazer uma inferência incorreta. É preciso saber o quanto a nossa inferência está correta. Para medir a chance de estar certo na nossa inferência estatística, precisamos entender a teoria de probabilidade, que é a fundamentação matemática para a estatística de inferência. Para entender os princípios da teoria de probabilidade não há como fugir dos exemplos clássicos de “cara & coroa”, dos dados e do jogo de baralho. A propósito, a teoria foi desenvolvida por causa de jogos de azar. O objetivo deste capítulo é dar uma base geral para facilitar o entendimento da aplicação de testes de hipóteses, paramétrica e não-paramétrica. O processo de computação (cálculo) de probabilidades depende de sua capacidade de contar, “1, 2, 3 e assim por diante.” A seguir vamos discutir alguns métodos de contagem. 4.1. Contagem: Primeiro vamos estabelecer as seguintes definições dentro da teoria de probabilidade. Resultado - no caso de “cara ou coroa”, 2 resultados são possíveis e no caso do jogo de dados, 6 resultados. Teste - (ou tentativa) - é a ação de jogar a moeda e ver se ela cai com a cara ou coroa. Experimento - é o conjunto de testes (tentativas); se a moeda é jogada uma vez, ou duas, ou n vezes, não interessa – o procedimento deve ser considerado um experimento. Eventos - são os possíveis resultados de um teste, vários testes ou de todo o experimento. Exemplo de evento: “uma coroa em 4 jogadas” ou “pelo menos um é cara”. REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos k possíveis resultados, afirmamos que há k n possíveis resultados de todo o experimento. Exemplo 1: no jogo da moeda você tem dois resultados, cara (C) ou coroa (c), k=2. Se você jogar apenas uma vez, n=1, você terá 2 1 = 2 possíveis resultados, C ou c. Se você jogar duas vezes, n = 2, você terá 2 2 = 4 possíveis resultados, CC cc Cc cC. REGRA 2: Há n! (fatorial) maneiras de arranjar n objetos distinguíveis em uma seqüência. Exemplo 2: considere o número de maneiras de arranjar as letras A, B e C numa seqüência. A primeira letra pode ser qualquer uma das três, a segunda pode ser escolhida de duas maneiras diferentes uma vez que a primeira já foi escolhida, e a letra remanescente se torna a última letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6 possíveis arranjos são: ABC ACB BAC BCA CAB e CBA. Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. Há 8 maneiras de qualquer um deles chegar em primeiro lugar, tendo nas outras colocações qualquer outro. Se você quiser saber quantos arranjos são possíveis tendo, no primeiro e segundo lugar, qualquer um deles e, as demais colocações, de qualquer jeito, você fará (8) (7) = 56 arranjos. Se você, 25 no entanto, quiser saber todos os possíveis arranjos do primeiro ao oitavo lugar você fará 8! = 40320 arranjos. REGRA 3: se um grupo de n objetos é composto de k objetos idênticos de um tipo e o restante (n-k) objetos são objetos idênticos de um segundo tipo, o número de arranjos distinguíveis dos n objetos numa seqüência, denotado por meio de Ou: se um grupo de n objetos é composto de n1 objetos idênticos do tipo 1, n2 objetos idênticos do tipo 2, ..., nr objetos idênticos do tipo r, o número de arranjos distintos numa seqüência será: Exemplo 4: no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numa seqüência. Suponha agora que as letras A e B são idênticas e chame-as de X. Assim, os arranjos ABC e BAC se tornam indistintos, XXC para os dois. Também ACB e BCA se tornam XCX. O arranjo original é reduzido para arranjos distintos, que são XXC, XCX e CXX. 4.2. Definições de probabilidade: Primeiro vamos ver algumas definições: (i) Espaçoamostral - é a coleção de todos os possíveis resultados de um experimento. (ii) Ponto no espaço amostral - é um resultado possível de um experimento. Cada experimento tem o seu próprio espaço amostral, que consiste essencialmente de uma lista de diferentes resultados possíveis de um experimento. O espaço é subdividido e cada subdivisão é um ponto. Cada possível resultado é representado por um ponto e somente um ponto. Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espaço amostral consiste de 4 pontos CC cc Cc cC. Exemplo 2: uma prova consistindo de 10 questões “falsa” ou “verdadeira” é passada a um aluno como um experimento. Há 2 10 = 1024 pontos no espaço amostral, onde cada ponto consiste da seqüência das possíveis respostas para as 10 questões sucessivas, tais como: FFFFVVFFVV. Agora, então, é possível definir evento, em termos dos pontos do espaço amostral. (iii) Evento - um evento é qualquer conjunto de pontos no espaço amostral. No exemplo 1 ao falarmos do evento “duas caras”, estamos nos referindo a um simples ponto CC; o evento “uma cara” consiste de dois pontos Cc e cC; o evento “pelo menos uma cara” consiste de três pontos CC, Cc e cC. k)! -(n k! n! k n por dado é k n nr! ... n2! n1! n! ni n por dado é ni n 3 (1) )1( )2( (1) (2) (3) 1! 2! 3! 2 3 26 Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos “pelo menos uma cara” e “pelo menos uma coroa” tem os pontos Cc e cC em comum. Se dois eventos não têm pontos em comuns eles são chamados de eventos mutuamente exclusivos porque a ocorrência de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao mesmo tempo. Para cada ponto no espaço amostral há um número correspondente chamado de probabilidade do ponto ou probabilidade do resultado. Estas probabilidades podem ser quaisquer números entre 0 a 1. A definição da probabilidade de um evento inclui a definição da probabilidade de um resultado como um caso especial, desde que o evento possa ser considerado como que se consistisse de um resultado simples. Na prática, o conjunto de probabilidades associadas com um particular espaço amostral é raramente conhecido, mas as probabilidades são atribuídas de acordo com as noções pré-concebidas do pesquisador, isto é, o pesquisador formula um modelo como uma versão ideal do experimento. Então, o espaço amostral do modelo experimental é examinado e as probabilidades são atribuídas aos vários pontos do espaço amostral de alguma maneira que o pesquisador sinta que pode ser justificada. Exemplo 3: Num experimento consistindo de uma única jogada de uma moeda “não viciada”, é razoável assumir que o resultado cara (C) tem metade da chance de ocorrer. Assim, podemos atribuir a probabilidade de ½ para o resultado C e o mesmo para c. Isso pode ser escrito da seguinte maneira: P (C) =1/2 e P (c) = 1/2 . Exemplo 4: Num experimento consistindo de 3 jogadas (testes), é razoável assumir que cada um dos 2 3 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma chance de ocorrer. Assim, a probabilidade de cada resultado é 1/8. Também P (3 caras) = 1/8, P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = ½. (iv) Função de Probabilidade: é uma função que atribui probabilidades aos vários eventos no espaço amostral. Várias propriedades dessas funções são aparentes. Considere S como espaço amostral e A, B ou C como qualquer evento em S. Então, se P é a função de probabilidade, P(S) = 1, P(A) > 0 e P(a) = 1 – P(A), onde a é o evento “o evento não ocorre”. (v) Probabilidade Condicional: é a probabilidade de ocorrer A dado B. P (A | B) = [ P (AB) ] / [ P (B) ] onde P (B) > 0, caso contrário, é indefinido. Exemplo 5: Considere o jogo de dados, tal que cada um dos 6 possíveis resultados tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento “a ocorrência de 4, 5 ou 6” e B o evento “a ocorrência de um número par” . Então P (AB) = P (4 ou 6) = 2/6 = 1/3. Também, P (B) = 3/6 = ½. Então, a probabilidade condicional P (A|B) é dada por (vi) Eventos independentes: Dois eventos A e B são independentes se P (AB) = P (A) P (B) 3 / 2 2 / 1 3 / 1 B) |(A P 27 Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espaço amostral assumem ter a mesma probabilidade. Deixe A ser o evento “um cara ocorre na primeira jogada” e B ser o evento “uma cara ocorre na segunda jogada.” Então A tem os pontos CC e Cc. B tem os pontos CC e cC. AB tem os pontos CC. Também P (A) = 2/4, P (B) = 2/4 e P (AB) = 1/4. P (AB) = (2/4) (2/4) = 4/16 = 1/4 satisfaz a equação anterior e, por esta razão, A e B são independentes. (vii) Experimentos Mutuamente Independentes: são mutuamente independentes se todos os conjuntos de n eventos formados tiverem a seguinte equação como verdadeira: P ( A1, A2, ..An) = P (A1) P(A2) ...P (An) onde Ai representa um resultado do i-ésimo experimento para i = 1, 2, ....n. Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem a probabilidade p e o evento c tem a probabilidade q = 1 – p. Considere 3 repetições independentes do experimento, onde o subscrito será usado para diferenciar o experimento com o qual o resultado está associado. Dessa maneira, C1 c2 C3 significa que o primeiro experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hipótese de independência, P (C1 c2 C3) = P (C1) P (c2) P (C3) = pqp Se considerarmos o evento “exatamente 2 caras” associado com os experimentos combinados, o seguinte pode ocorrer Obviamente o anterior pode ser descrito simplesmente como um experimento com 3 tentativas independentes. Por extensão, podemos considerar um experimento consistindo de n jogadas independentes. A probabilidade de obter “exatamente k caras” , então, é igual ao termo p k q n - k vezes o número de vezes que o termo pode aparecer. Por esta razão, em n jogadas independentes de uma moeda onde p = P(C) em qualquer jogada. Outras considerações: Conceito de probabilidade usando distribuições de frequências relativas. Exemplo 8: Um diretor de escola numa pequena cidade de 40 famílias classificou cada família de acordo com o número de crianças (menores que 18 anos). As informações obtidas são sumarizadas no quadro 4.1. k -n kqp k n caras)k e(exatament P q3p caras) 2 exatamente ( P ementeconsequent e maneiras 3 2 6 2 3 2 28 Quadro 4.1: Distribuição de número de crianças por família. nº de crianças nº de famílias % freq. relativa 0 18 45,0 0,450 1 8 20,0 0,200 2 7 17,5 0,175 3 4 10,0 0,100 4 3 7,5 0,075 40 100,0 1,000 O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 das famílias possuem 2 crianças. Agora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja, cada família teve igual chance de ser escolhida. Qual é a probabilidade que a família selecionada tenha 3 crianças? A resposta é 4/40, que é a mesma frequência relativa. Suponha que há N resultados possíveis num experimento. A probabilidade que um evento ocorra é o número de vezes, f, que o evento pode ocorrer, dividido pelo número total, N, de possíveis resultados. 4.3. Variáveis aleatórias: No exemplo 8 nós vimos um levantamento que classificou cada uma das 40 famílias de acordo com o número de crianças na família. Desde que “o número de crianças” varia de família para família, ela é chamada de variável. Quando selecionamos uma família aleatoriamente, o “número de crianças” é uma variável aleatóriadesde que o seu valor (um número real) depende de uma chance. Definição 1: Uma variável aleatória é uma função que atribui números reais aos pontos num espaço amostral. As variáveis aleatórias são normalmente representadas pelas letras maiúsculas W, Y ou Z com ou sem subscritos. Os números reais atribuídos pelas variáveis aleatórias serão representadas por letras minúsculas. Exemplo 1: Num experimento onde ao consumidor é dado a chance de escolher 3 produtos, sabonete, detergente ou marca A, o espaço amostral consiste dos 3 pontos representando as 3 possíveis escolhas. Deixe a variável aleatória atribuir o número 1 para a escolha “marca A” e o número 0 (zero) para os outros 2 possíveis resultados. Então, P(X = 1) é igual a probabilidade do consumidor escolher a marca A. Exemplo 2: Para 6 meninas e 8 meninos é perguntado se eles se comunicam mais facilmente com suas mães ou com seus pais. Deixe X ser o número de meninas que pensam que comunicam melhor com suas mães e deixe Y ser o número total de crianças que pensam que comunicam melhor com suas mães. Se X = 3, nós sabemos que ocorreu o evento “3 meninas pensam que comunicam melhor com suas mães.” Se, ao mesmo tempo, Y = 7, nós sabemos que ocorreu o evento “3 meninas e 7 – 3 = 4 meninos pensam que se comunicam melhor com suas mães.” Se X é uma variável aleatória, “X = x” é uma notação simplificada que usamos para corresponder ao mesmo evento no espaço amostral, especificamente o evento que consiste do conjunto de todos os pontos para os quais a variável X foi atribuído o valor “x”. Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o número de caras. Então, X = 1 corresponde ao evento contendo os pontos Cc e cC. 29 Dessa maneira, “X = x” é, às vezes, referida como o “evento X = x,” quando, na realidade, pretendeu-se dizer “o evento consistindo de todos os resultados atribuídos o número x pela variável aleatória X.” Por causa desta estreita correspondência entre variáveis aleatórias e eventos, as definições de probabilidade condicional e independência se aplicam igualmente bem as variáveis aleatórias. Definição 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), é a probabilidade que a variável aleatória X assume o valor x, dado que a variável aleatória Y já assumiu o valor y. Exemplo 4: Deixe X ser o número de meninas que se comunicam bem com suas mães, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o número total de crianças que se comunicam bem com suas mães. Por conveniência, deixe Z=Y-X, tal que Z é igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mães. Assuma que as respostas dadas pelas crianças são independentes de cada outra e que cada criança tem a mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua mãe. Encontre a probabilidade condicional P ( X=3 | Y=7). Primeiro, pelas suposições anteriores, X=3 e Z=4 são eventos independentes. Desde que o evento (X=3, Y=7) é o mesmo que o evento (X=3, Z=4), temos a probabilidade P(X=3, Y=7) = P(X=3, Z=4) = P(X=3) P(Z=4) por causa do exemplo 7 do item 4.2. Pelo mesmo exemplo, concluímos que tal que a probabilidade condicional 0 y) P(Y se y)P(Y y) Y x, (X P y) Y | x P(X (1) 4433 p) - (1p 4 8 p) - (1p 3 6 (2) 77 p) - (1p 7 14 7) P(Y (3) 30 Como os pontos no espaço amostral são mutuamente exclusivos, os valores que uma variável aleatória pode assumir são também mutuamente exclusivos. Para um simples resultado de um experimento, a variável aleatória é definida por apenas um número. Assim, todo o conjunto de valores que uma variável aleatória pode assumir tem as mesmas propriedades do espaço amostral. Os valores individuais assumidos pela variável aleatória correspondem aos pontos no espaço amostral, um conjunto de valores corresponde a um evento e a probabilidade da variável aleatória assumir qualquer valor dentro de um conjunto de valores é igual a soma das probabilidades associadas com todos os valores dentro do conjunto. Por exemplo: onde o somatório se estende a todos os valores de x entre, não incluindo os números a e b, onde o somatório se aplica a todos os valores de x que são pares. Por causa dessa similaridade entre o conjunto de valores possíveis de X e um espaço amostral, a descrição do conjunto de probabilidades associadas com os vários valores que X pode assumir, é freqüentemente chamado de função de probabilidade da variável aleatória X, assim como um espaço amostral tem uma função de probabilidade. Entretanto, a função de probabilidade de uma variável aleatória não é uma atribuição arbitrária de probabilidades, como é a função de probabilidade para um espaço amostral. Isto porque uma vez que as probabilidades são atribuídas aos pontos num espaço amostral e uma vez que a variável aleatória X é definida no espaço amostral, as probabilidades associadas com os vários valores que X são conhecidos e a função de probabilidade de X é, dessa maneira, já determinada. Definição 3: A função de probabilidade da variável aleatória X, usualmente representada por f(x) ou de outra maneira qualquer, é a função que dá a probabilidade de X assumir o valor x, para qualquer número real x, ou seja, Vimos até aqui que a distribuição de probabilidades associadas com uma variável aleatória pode ser descrita por uma função de probabilidade. Uma outra maneira de dizer a mesma coisa é através de uma função de distribuição que descreve as probabilidades acumuladas. x)P(x f(x) (5) 0.408 7)! - (14 7! 14! 4)! - (8 4! 8! 3)! - (6 3! 6! 7 14 4 8 3 6 7) Y | 3 P(X )4( x) P(X b) X (a P bxa parx x) (X P par) número (X P 31 Definição 4: A função de distribuição de uma variável aleatória, usualmente representada por F(x), é a função que dá a probabilidade de X ser menor ou igual a qualquer número real x, ou seja, onde o somatório se estende a todos os valores de t que não for superior a x. Definição 5: Deixe X ser uma variável aleatória. A distribuição binominal é a distribuição de probabilidade representada pela função de probabilidade onde: n é número inteiro positivo, 0 p1 e q =1 – p. Note que usaremos a convenção usual que 0! = 1. A função de distribuição será então onde o somatório se estende a todos os possíveis valores de i menor ou igual a x. Há tabelas prontas para alguns valores selecionados dos parâmetros n e p. Exemplo 5: Um experimento com n testes independentes, onde cada teste pode resultar em um dos dois resultados “sucesso” ou “insucesso,” com probabilidade P e q, respectivamente. Deixe X ser igual ao número total de “sucessos” nos n testes. Então, como mostrado na equação (7), para x inteiro de 0 a n. Desta maneira, o experimento tem a distribuição binominal. Definição 6: Deixe X ser uma variável aleatória. A distribuição discreta uniforme é a distribuição de probabilidade representada pela função de probabilidade. (9) f(x) = 1/N para x = 1,2, ... , N Desta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual probabilidade, se X tem a função de probabilidade discreta uniforme. Exemplo 6: Num saco com N papeletas numeradas de 1 a N. O experimento consiste de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espaço amostral tem N pontos, representando as N papeletas que podem ser tiradas. Deixe X ser igual o número depapeleta tirada. Então X tem a distribuição uniforme discreta. Definição 7: A função de probabilidade conjunta f (x1, x2, .. xn ) das variáveis aleatórias x1, x2, .. xn é a probabilidade da ocorrência conjunta de X1 = x1, X2 = x2, ... , Xn = xn. (10) f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn ) xt f(t) x) (X P F(x) )6( n .., 0,1, x para qp x n x)P(X f(x) )7( x-nx i-ni xi qp i n x) P(X F(x) )8( x-nxqp x n x) (X P 32 Definição 8: A função de distribuição conjunta F(x1, x2, .. xn ) das variáveis aleatórias x1, x2, .. xn é a probabilidade da ocorrência junta de X1 x1, X2 x2, ... , Xn xn . (11) F(x1, x2, .. xn ) = P (X1 x1, X2 x2, ... , Xn xn ) Exemplo 7: Considere as variáveis aleatórias X e Y como definidas no exemplo 2. Considere f(x,y) e F(x, y) como a funções de probabilidade conjunta e de distribuição, respectivamente. e onde e onde o somatório na equação (13) se estende a todos os valores de x e y tal que x 3 e y 7, com a usual restrição de que x e y – x são inteiros não negativos. Note que equações (12) e (13) não podem ser avaliadas sem conhecer o valor de p. Definição 9: A função de probabilidade condicional de X dado Y, f(x | y) é (14) f(x | y) = P(X = x | Y = y) Da equação 1 vemos que onde f(x, y) é a função de probabilidade conjunta de X e Y e f(y) é a função de probabilidade de Y em si. Exemplo 8: Como uma continuação do exemplo 7, considere f(x | y) como a função de probabilidade condicional de X dado Y. F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equação (4) 77 p) - (1p 4 8 3 6 7) Y 3, (X P 7) f(3, )12( 7yx 3x0 y) f(x, 7) Y 3, (X P 7) F(3, )13( x)-(y - 8x-y x- 6x p) - (1p x-y 8 p) - (1p x 6 y) f(x, f(y) y) f(x, y)P(Y y) Y x, P(X y) Y | x P(X y) |f(x )15( 33 Para encontrar a fórmula geral para f(x | y) (isto é, para qualquer valor de x e y), primeiro deixe f(x, y) ser a função de probabilidade conjunta de X e Y. Isto é dado no exemplo 7 como que originalmente era uma forma geral da equação (2). Também, deixe f(y) ser a função de probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira Pela definição 9 podemos agora escrever a função de probabilidade condicional de X dado Y = y onde todos os termos que envolvem o parâmetro desconhecido p foram convenientemente cancelados. Definição 10: Considere X1, X2, ... , Xn como variáveis aleatórias com as respectivas funções de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a função de probabilidade conjunta f (x1, x2, ... , xn ). Então X1, X2, ... , Xn são mutuamente independentes (17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn) para todas as combinações dos valores de x1, x2, ... , xn. Exemplo 9: Considere o experimento descrito no exemplo 8. Então, a função de probabilidade de X é dada por e a função de probabilidade de Y é dada por Desde que: f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y) O uso das equações (16) e (19) resulta na função de probabilidade conjunta de X e Y, sendo dada por x)-(y - 8x-y x- 6x p) - (1p x-y 8 p) - (1p x 6 y) f(x, y- 14y p) - (1p y 14 y) P(Y f(y) 8 x -y 0 6 x 0 para y 14 x-y 8 x 6 f(y) y) f(x, y)f(x )16( x- 6x 1 ) p - (1p x 6 x) (X P (x) f (18) y - 14y2 p) - (1p y 14 y) (Y P (y)f (19) 34 desde que: vemos que: f(x, y) é diferente de f1(x) f2(y) e, por esta razão, X e Y não são independentes. y - 14y y - 14y p) - (1p x-y 8 x 6 p) - (1p y 14 y 14 x-y 8 x 6 y) f(x, y - x - 20y x 21 p) - (1p y 14 y 6 (y)f (x)f 35 CAPÍTULO 5 DISTRIBUIÇÃO NORMAL Uma função de distribuição mostra, para uma população, a freqüência relativa (probabilidade) com que diferentes valores (números reais) de uma variável aleatória ocorrem. Em geral, cada população tende a ter a sua própria distribuição. No entanto, a distribuição normal é a mais popular de todas por causa de sua grande aplicabilidade na aproximação do comportamento de um grande número de variáveis aleatórias naturais que são contínuas. Ela é conhecida como distribuição de Gauss (difusor) ou distribuição com a forma de sino – V. Figura 5.1. abaixo. Função: 1 n (x; , ) = ----------- e -0,5((x-)^2)/) σ √ 2 para: - < x < + μ σ -3 -2 -1 1 2 3 z 68,27% 95,45% 99,73% - + Figura 5.1: Curva normal padrão Propriedades: A curva normal padrão (CNP) tem = 0 e = 1 Área sob a CNP é igual a 1 A CNP se estende indefinidamente em ambas direções A CNP é simétrica em torno de zero A maior parte (99,73%) da CNP fica entre -3 e +3 Toda a estatística paramétrica foi desenvolvida com base nos pressupostos da distribuição normal. Se você usar os testes desenvolvidos com base na distribuição normal, sem atender a condicionante da normalidade, o teste perde a robustez e a consistência e os seus resultados podem perder toda a confiabilidade. Entretanto, nem sempre as variáveis 36 aleatórias distribuem-se na forma perfeita de um sino ( = 0 e = 1). Há várias maneiras de superar este tipo de obstáculo, como aumentar o número de amostras e fazer transformações. Só não pode ignorar o detalhe da normalidade. 5.1. Estimando a média da população: Na estatística de inferência tudo gira em torno da obtenção da estimativa da média verdadeira da população, . Por exemplo, podemos estar interessados em saber: o volume médio, , de uma determinada área florestal a idade média, , dos estudantes da turma-2006 do CFT Se a população é pequena, é calculada sem problemas; no caso de populações maiores, a média tem que ser estimada usando amostragem de parte da população. No caso do CFT, 18 estudantes, obter a idade média é uma tarefa muito fácil. Não há necessidade de fazer amostragem, basta somar a idade de cada um e dividir por 18. Entretanto, em nossa área de conhecimento, a gente só trabalha com populações “muito grande” com tendência ao infinito. Neste caso, fica muito difícil e caro, senão impossível, obter a média verdadeira da população, . Levando em conta os princípios e as condicionantes da amostragem, é possível obter informação suficientemente precisa (e confiável) sobre tomando apenas parte da população para estimar a média amostral x _ . Exemplo 1: queremos saber a idade média dos estudantes da pós-graduação do INPA, que tem uma população igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes e anotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma população de 200 - hipoteticamente. estudante 1 2 3 4 5 6 7 8 9 10 idade 23 25 26 28 26 24 25 27 30 26 A idade média (amostral) será: x _ = ( ∑ xi ) / n para: n = 10 e i = 1, 2, ... n x _ = 26 anos Se você utilizou uma amostra representativa da população, você estará afirmando que a média verdadeira da população dos 200 estudantes, , deve ser em torno de 26 anos. Diante disso, surgem algumas questões: (i) Qual é a justificativapara utilizar a média amostral x _ para estimar a média da população ? (ii) Qual é a confiança sobre a precisão envolvida ao usar x _ para estimar ? No exemplo 1, se uma amostragem com 10 estudantes é utilizada, qual é a probabilidade da idade média amostral, x _ , estar dentro de um intervalo (vamos dizer, 1 ano) da média da população, ? 37 (iii) Qual é a necessária intensidade de amostragem para assegurar uma certa precisão com grande confiança? No exemplo 1, quão grande deveria ser uma amostragem (10? 20 estudantes?) para assegurar que 95% de todos os possíveis x _ caíssem dentro de um intervalo de 1 ano da média da população, ? Vamos responder todas estas questões nesta apostila. A primeira será respondida, parcialmente, neste capítulo e completada no capítulo 6. As outras duas (ii e iii) serão respondidas nos capítulos 6 e 7, respectivamente. Ao amostrar uma população, a média amostral, x _ , é uma variável aleatória. No capítulo 6, vamos ver, em detalhes, como este valor é “parecido” com a média da população. A incerteza da estimativa depende de uma chance sobre a qual a amostra foi selecionada. Apesar disso, a incerteza diminui com o aumento da intensidade de amostragem. Isto é uma sentença de um teorema matemático chamado “a lei dos grandes números” e é a nossa justificativa para usar x _ para estimar . 5.2. Curva normal padrão (CNP) ou curva-z: A “lei dos grandes números” é a nossa justificativa matemática para usar x _ para estimar ...justifica, mas não explica. Da mesma forma, ela não é particularmente útil para responder questões práticas envolvendo a precisão de tais estimativas. Esta lei, por exemplo, não informa sobre a probabilidade de x _ estar dentro do intervalo de 1 ano de . As probabilidades para x _ podem ser obtidas “aproximadamente” usando áreas sob certas curvas em forma de “sino”. Há várias curvas normais, que variam de acordo com a média e desvio padrão, e . No entanto, a curva que norteia todas as outras curvas, é a curva normal padrão (Figura 5.1). Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. Só existe uma única curva normal padrão, com = 0 e = 1. Quando você tem pela frente situações com médias e desvios diferentes de 0 e 1, respectivamente ... não entre em pânico! Tudo que tem que ser feito é “padronizar” a sua variável aleatória e, em seguida, usar a CNP para obtenção das probabilidades (ou áreas). A curva apresentada na Figura 5.1., foi desenhada depois de integrar a função de distribuição, de z = 0 a z = 3,9 para a primeira metade da curva à direita de 0. Como a parte da curva à esquerda de 0 é espelho da parte à direita, as probabilidades da esquerda foram calculadas de z = -3,9 a z = 0. Portanto, o trabalho braçal já está feito. A Tabela 1 (anexo da apostila) tem todas as probabilidades (áreas sob a CNP) calculadas com precisão de dois dígitos. Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As figuras que ilustram o uso da Tabela 1 estão no anexo deste capítulo. Exemplo 2: Achar a área sob a curva normal padrão (CNP) à esquerda de z = -0,97. A solução gráfica está na Figura 5.2-a. Você vai direto à tabela 1 e procure z = -0,9, depois o centésimo (7) e no encontro dos dois números (0,97), você tem a área (que é a probabilidade) sob a CNP. Neste caso, a área é igual a 0,1660. Isto quer dizer que 16,6% da área está à esquerda de z = -0,97 ou que 83,4% está à direita de z = -0,97. Não esquecer que a área total sob a CNP é igual a 1. 38 Exemplo 3: Achar a área sob a CNP à direita de z = 2,5. Veja a solução gráfica na Figura 5.2-b. De novo, você vai à tabela 1 e procure z = 2,5, depois o centésimo 0 e no encontro dos dois números (2,50), você tem a área (que é a probabilidade) sob a CNP. Neste caso, você está calculando a área sob a CNP de - até 2,5, que dá 0,9938 ... à esquerda de z = 2,5. Como você quer saber a área à direita de z = 2,5, você tem que subtrair de 1 (área total da CNP) e aí sim você terá a área à direita de z = 2,5. Assim, a área à direita será 1 – 0,9938 = 0,0062. Exemplo 4: Achar a área sob a CNP entre z = -1,04 e z = 2,06. Veja a solução gráfica na Figura 5.2-c. Neste caso, são necessários os seguintes passos: (1) achar a área à esquerda de z = 1,04, que é igual a 0,1492; (2) achar a área à esquerda de z = 2,06, que é igual a 0,9803; (3) calcular a área entre z = -1,04 e z = 2,06, que é dada pela diferença (0,9803 – 0,1492), que é igual a 0,8311. Portanto, a resposta é: a área sob a CNP entre z = -1,04 e z = 2,06 é 0,8311, ou seja, 83,11% da área da CNP está entre os dois pontos de “z”. 5.4. Áreas sob outras curvas normais: Na seção anterior mostramos como encontrar as áreas sob a curva normal padrão (CNP). No entanto, há várias curvas normais, que variam de acordo as variações da média e do desvio padrão . Para calcular as probabilidades (áreas sob a CNP) para a média amostral x _ (o principal objetivo), precisamos ser capazes de encontrar as áreas sob qualquer curva normal. Cada curva normal pode ser identificada por 2 números chamados parâmetros. Estes dois parâmetros são usualmente representados por média e desvio padrão . O parâmetro nos diz onde a curva está centrada e indica a dispersão da curva normal. Como vimos na Figura 5.1, quando = 0 e = 1, temos a curva normal padrão. No entanto, no mundo real esta condição de = 0 e = 1 é praticamente impossível de ser verificada. Os parâmetros e variam entre populações diferentes. Igual a CNP, a curva normal (ou curvas normais) é centrada em e quanto maior for , mais dispersa (achatada ou esparramada) será a curva. A curva normal tem as mesmas propriedades da CNP. A única diferença é que o eixo horizontal da CNP é z e das outras curvas normais, o eixo é x. As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c ilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como platicúrtica, mesocúrtica e leptocúrtica. É óbvio que existe um limite de achatamento para que a curva seja considerada normal. Este limite pode ser determinado usando o teste de achatamento ou curtose. Da mesma maneira, a curva normal pode ser simétrica ou assimétrica. A assimétrica pode ser negativa (maior freqüência dos dados tendendo à direita do eixo horizontal) e positiva (maior freqüência tendendo à esquerda do eixo) – V. Figura 5.4. Também neste caso, há limite para a assimetria, que pode ser definido usando o teste de assimetria. 39 Exemplo 5: Achar área sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1. Veja a solução gráfica na Figura 5.5-a. Primeiro de tudo é preciso padronizar a variável aleatória “x”. Os resultados da padronização são: z = 3,0 (para x = 1) e z = 1 (para x = -1). Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à esquerda de z = 3,0, que é igual a 0,9987; (2) achar a área à esquerda de z = 1, que é igual a 0,8413; (3) calcular a área entre z = 3,0 e z = 1,0, que é dada pela diferença (0,9987 – 0,8413), que é igual a 0,1574. Portanto, a resposta é: a área sob a curva normal entre x = -1,0 e x = 1,0 é 0,1574, ou seja, 15,74% da área sob a curva normal está entre os dois pontos de “x”. Exemplo 6: Achar a área sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7. Veja a solução gráfica na Figura 5.5-b. Primeiro de tudo é preciso padronizar a variável aleatória “x”. Os resultados da padronização são: z = -0,5 (para x = 2) e z = 2,0 (para x = 7). Agora, você vai a Tabela 1 (anexo da apostila) para: (1) achar a área à esquerda de z = 0,5, que é igual a 0,3085; (2) achar a área à esquerda de z = 2, que é igual a 0,9772; (3) calcular a área entre z = -0,5 e z = 2,0, que é dada pela diferença (0,9772 – 0,3085), que é
Compartilhar