Baixe o app para aproveitar ainda mais
Prévia do material em texto
2016 Estatística aplicada à Biologia Prof.ª Leila Meyer Copyright © UNIASSELVI 2016 Elaboração: Prof.ª Leila Meyer Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. M612e Meyer; Leila Estatística aplicada à biologia / Leila Meyer: UNIASSELVI, 2016. 215 p. : il ISBN 978-85-515-0040-8 1.Biologia. I. Centro Universitário Leonardo Da Vinci. COD 574 Impresso por: III aprEsEntação Caro acadêmico! Chegou a hora de você conhecer melhor a estatística e aprender um pouco mais sobre ela! Essa é uma disciplina de grande importância, tanto para a sua vida acadêmica e profissional quanto para o cotidiano. Durante o período de formação acadêmica, os conhecimentos em estatística poderão ser úteis de várias formas, como, por exemplo, ajudar na interpretação de gráficos e tabelas, facilitar o entendimento de livros e artigos científicos ou, ainda, auxiliar no planejamento e desenvolvimento de projetos em outras áreas do conhecimento. Em relação à vida profissional, os biólogos utilizam a estatística para resolver problemas em diferentes situações. Por exemplo, biólogos que seguiram a carreira acadêmica utilizam a estatística para orientar suas pesquisas científicas ao definir desenhos amostrais e análise de dados. Biólogos que trabalham em órgãos públicos, ONGs ou empresas privadas muitas vezes precisam desenvolver projetos, coletar e analisar dados, apresentar resultados em relatórios. A realização dessas atividades pode ser orientada pelo conhecimento estatístico. Biólogos que optaram pela docência em escolas também podem desenvolver projetos com seus acadêmicos e aplicar a estatística de diferentes formas. Já na vida cotidiana, saber ler gráficos e tabelas, entender um pouco de estatística descritiva pode ser muito útil para interpretar corretamente informações de noticiários. Conhecer os conceitos de distribuição normal e teorema do limite central permite entender porque eventos extremos (muito bons ou muito ruins) acontecem com menor frequência, ou porque, depois de um evento muito ruim, algo melhor acontece. Esse caderno de estudos fornece os conhecimentos básicos em estatística. Ele se divide em três unidades. Na primeira unidade você estudará conceitos básicos em estatística, incluindo os tipos de dados que a estatística trabalha, formas de coletar dados adequadamente, como descrever e apresentar dados por meio da estatística descritiva ou por tabelas e gráficos. Você também estudará um pouco sobre probabilidade e sobre distribuição de probabilidades. Para fechar esta primeira unidade, você aprenderá o que é um teste de hipótese e quais são suas etapas. Depois da primeira unidade você estará pronto para estudar e realizar os primeiros testes estatísticos. Na segunda unidade você estudará o teste t e a análise de variância. Também aprenderá um pouco mais sobre delineamento experimental. Na terceira unidade você aprenderá outros dois métodos estatísticos, que são a correlação linear e a regressão linear. Por fim, o último tópico da terceira unidade aborda os métodos não paramétricos equivalentes aos vistos ao longo do caderno. IV Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novidades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagramação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! NOTA Desejo a você um ótimo aprendizado! Espero que ao terminar o estudo deste caderno você tenha aprendido os conhecimentos básicos em estatística, consiga compreender a importância desta disciplina e também consiga aplicar esses conhecimentos na vida acadêmica, profissional e no cotidiano. Bons estudos! Leila Meyer V Olá acadêmico! Para melhorar a qualidade dos materiais ofertados a você e dinamizar ainda mais os seus estudos, a Uniasselvi disponibiliza materiais que possuem o código QR Code, que é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar mais essa facilidade para aprimorar seus estudos! UNI VI VII UNIDADE 1 - FUNDAMENTOS EM ESTATÍSTICA ...................................................................1 TÓPICO 1 - INTRODUÇÃO À ESTATÍSTICA ..............................................................................3 1 INTRODUÇÃO ..................................................................................................................................3 2 CONCEITOS BÁSICOS EM ESTATÍSTICA ................................................................................4 2.1 POPULAÇÃO, AMOSTRA E UNIDADE AMOSTRAL ..........................................................5 2.2 ESTIMATIVA E PARÂMETRO ...................................................................................................6 2.3 INFERÊNCIA ESTATÍSTICA ......................................................................................................7 3 TIPOS DE DADOS ............................................................................................................................7 3.1 VARIÁVEIS QUANTITATIVAS ..................................................................................................7 3.2 VARIÁVEIS QUALITATIVAS .....................................................................................................8 3.3 VARIÁVEIS DERIVADAS ...........................................................................................................8 4 INTRODUÇÃO À AMOSTRAGEM ..............................................................................................9 4.1 POR QUE AMOSTRAR? ..............................................................................................................9 4.1.1 Amostragem aleatória simples ..........................................................................................10 4.1.2 Amostragem sistemática .....................................................................................................10 4.1.3 Amostragem estratificada ...................................................................................................11 4.1.4 Amostragem de conveniência ............................................................................................13 4.2 TAMANHO AMOSTRAL E LEI DOS GRANDES NÚMEROS .............................................14 5 ESTATÍSTICA DESCRITIVA ..........................................................................................................155.1 MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................................16 5.1.1 Média .....................................................................................................................................16 5.1.2 Mediana .................................................................................................................................18 5.1.3. Moda .....................................................................................................................................19 5.2 MEDIDAS DE DISPERSÃO ........................................................................................................20 5.2.1 Amplitude .............................................................................................................................20 5.2.2 Intervalo interquartil ...........................................................................................................20 5.2.3 Variância ................................................................................................................................21 5.2.4 Desvio padrão ......................................................................................................................23 5.2.5 Coeficiente de variação .......................................................................................................24 6 USO DE TABELAS E GRÁFICOS ..................................................................................................26 6.1 TABELAS ........................................................................................................................................26 6.1.1 Tabelas de distribuição de frequências .............................................................................26 6.1.2 Tabelas de contingência ......................................................................................................29 6.2 GRÁFICOS .....................................................................................................................................29 6.2.1 Gráfico de barras ..................................................................................................................30 6.2.2 Histograma ...........................................................................................................................31 6.2.3 Box plot ...................................................................................................................................32 6.2.4 Gráfico de dispersão bidimensional .................................................................................33 RESUMO DO TÓPICO 1.....................................................................................................................35 AUTOATIVIDADE ..............................................................................................................................37 TÓPICO 2 - DISTRIBUIÇÃO DE PROBABILIDADES ................................................................39 1 INTRODUÇÃO ..................................................................................................................................39 2 DISTRIBUIÇÃO DE PROBABILIDADES ....................................................................................42 sumário VIII 2.1 DISTRIBUIÇÃO BINOMIAL ......................................................................................................43 2.2 DISTRIBUIÇÃO NORMAL .........................................................................................................46 2.2.1 Características da distribuição normal .............................................................................47 2.2.2 Distribuição normal padronizada .....................................................................................50 3 DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS ............................................................................53 RESUMO DO TÓPICO 2.....................................................................................................................57 AUTOATIVIDADE ..............................................................................................................................59 TÓPICO 3 - TESTE DE HIPÓTESES .................................................................................................61 1 INTRODUÇÃO ..................................................................................................................................61 2 TESTE DE HIPÓTESES ....................................................................................................................61 2.1 HIPÓTESE NULA .........................................................................................................................61 2.2 HIPÓTESE ALTERNATIVA ........................................................................................................62 2.3 P-VALOR ........................................................................................................................................63 2.4 NÍVEL CRÍTICO DE SIGNIFICÂNCIA.....................................................................................64 2.5 ETAPAS DE UM TESTE DE HIPÓTESES ..................................................................................65 3 TIPOS DE ERROS .............................................................................................................................66 3.1 ERRO TIPO I ..................................................................................................................................66 3.2 ERRO TIPO II ................................................................................................................................66 3.3 PODER DO TESTE........................................................................................................................67 LEITURA COMPLEMENTAR ............................................................................................................68 RESUMO DO TÓPICO 3.....................................................................................................................70 AUTOATIVIDADE ..............................................................................................................................71 UNIDADE 2 - TESTES ESTATÍSTICOS I ........................................................................................73 TÓPICO 1 - TESTE Z E TESTE T .......................................................................................................75 1 INTRODUÇÃO ..................................................................................................................................75 2 TESTE Z ...............................................................................................................................................75 3 TESTE T ...............................................................................................................................................79 3.1 DISTRIBUIÇÃO T .........................................................................................................................79 3.2 COMPARAÇÃO ENTRE DUAS MÉDIAS ................................................................................82 3.2.1 Comparação entre duas médias de amostras pareadas .................................................82 3.2.1.1 Pressupostos do teste T pareado ...........................................................................85 3.2.1.2 Vamos praticar .........................................................................................................85 3.2.2 Comparação entre duas médias de amostras independentes .......................................88 3.2.2.1 Pressupostos do teste T para amostras independentes .....................................90 3.2.2.2 Vamos praticar .........................................................................................................92 3.2.3 Comparação entre duas médias de amostras independentese com variâncias heterogêneas ...........................................................................................94 3.2.3.1 Pressupostos do teste T para variâncias heterogêneas .......................................95 3.2.3.2 Vamos praticar..........................................................................................................96 4 MÉTODO ALTERNATIVO – INTERVALOS DE CONFIANÇA .............................................98 RESUMO DO TÓPICO 1.....................................................................................................................103 AUTOATIVIDADE ..............................................................................................................................106 TÓPICO 2 - DELINEAMENTO EXPERIMENTAL .........................................................................109 1 INTRODUÇÃO ..................................................................................................................................109 2 EXPERIMENTO .................................................................................................................................109 2.1 EXPERIMENTO MANIPULATIVO ...........................................................................................110 2.2 EXPERIMENTO NATURAL .......................................................................................................111 2.3 REPLICAÇÃO ...............................................................................................................................112 IX 2.4 TRATAMENTO, FATOR E NÍVEL .............................................................................................113 2.5 GRUPO TRATADO E GRUPO CONTROLE ............................................................................113 2.6 CASUALIZAÇÃO.........................................................................................................................114 2.7 INDEPENDÊNCIA NAS OBSERVAÇÕES ................................................................................114 3 TIPOS DE DELINEAMENTO .........................................................................................................115 3.1 DELINEAMENTO INTEIRAMENTE CASUALIZADO .........................................................115 3.2 DELINEAMENTO EM BLOCOS CASUALIZADOS ...............................................................116 3.3 DELINEAMENTO FATORIAL ...................................................................................................119 RESUMO DO TÓPICO 2.....................................................................................................................121 AUTOATIVIDADE ..............................................................................................................................123 TÓPICO 3 - ANÁLISE DE VARIÂNCIA ..........................................................................................125 1 INTRODUÇÃO ..................................................................................................................................125 2 MÚLTIPLAS COMPARAÇÕES ENTRE MÉDIAS USANDO TESTE T ................................125 2.1 COMO A ANÁLISE DE VARIÂNCIA FUNCIONA ...............................................................126 2.2 TESTE A POSTERIORI DE TUKEY ............................................................................................132 2.3 PRESSUPOSTOS DA ANÁLISE DE VARIÂNCIA ..................................................................134 2.4 VAMOS PRATICAR .....................................................................................................................134 LEITURA COMPLEMENTAR ............................................................................................................141 RESUMO DO TÓPICO 3.....................................................................................................................143 AUTOATIVIDADE ..............................................................................................................................145 UNIDADE 3 - TESTES ESTATÍSTICOS II ......................................................................................147 TÓPICO 1 - CORRELAÇÃO ...............................................................................................................149 1 INTRODUÇÃO ..................................................................................................................................149 2 COEFICIENTE DE CORRELAÇÃO DE PEARSON ...................................................................151 2.1 TESTE DE HIPÓTESES PARA O COEFICIENTE DE CORRELAÇÃO DE PEARSON ..................................................................................................154 2.2 PRESSUPOSTOS PARA CALCULAR O COEFICIENTE DE CORRELAÇÃO DE PEARSON ..................................................................................................155 3 VAMOS PRATICAR ..........................................................................................................................156 3.1 CUIDADOS NA INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO DE PEARSON ..................................................................................................160 RESUMO DO TÓPICO 1.....................................................................................................................163 AUTOATIVIDADE ..............................................................................................................................165 TÓPICO 2 - REGRESSÃO LINEAR SIMPLES ...............................................................................169 1 INTRODUÇÃO ..................................................................................................................................169 2 REGRESSÃO LINEAR SIMPLES ...................................................................................................169 2.1 RETA DE REGRESSÃO LINEAR SIMPLES ..............................................................................170 2.2 AJUSTE DA RETA DE REGRESSÃO LINEAR SIMPLES .......................................................174 2.3 PRESSUPOSTOS DA REGRESSÃO LINEAR SIMPLES .........................................................177 3 VAMOS PRATICAR ..........................................................................................................................180 RESUMO DO TÓPICO 2.....................................................................................................................187 AUTOATIVIDADE ..............................................................................................................................189 TÓPICO 3 - QUI-QUADRADO E OUTROS TESTES NÃO PARAMÉTRICOS ......................191 1 INTRODUÇÃO ..................................................................................................................................191 2 TESTES PARAMÉTRICOS X TESTES NÃO PARAMÉTRICOS .............................................191 2.1 VANTAGENS E DESVANTAGENS DOS TESTES NÃO PARAMÉTRICOS .......................193 2.2 ALGUNS TESTES NÃO PARAMÉTRICOS ..............................................................................194 X 2.2.1 Teste T de Wilcoxon .............................................................................................................194 2.2.2 Teste U de Wilcoxon-Mann-Whitney ................................................................................194 2.2.3 Teste de Kruskal-Wallis .......................................................................................................195 2.2.4 Coeficiente de correlação de Spearman ............................................................................195 3 TESTE QUI-QUADRADO ...............................................................................................................196 3.1 PRESSUPOSTOS DO TESTE QUI-QUADRADO .....................................................................199 4 VAMOS PRATICAR ..........................................................................................................................1995 TESTE QUI-QUADRADO PARA TABELAS DE CONTINGÊNCIAS l x c ............................201 LEITURA COMPLEMENTAR ............................................................................................................202 RESUMO DO TÓPICO 3.....................................................................................................................205 AUTOATIVIDADE ..............................................................................................................................207 REFERÊNCIAS ......................................................................................................................................209 APÊNDICES ...........................................................................................................................................211 1 UNIDADE 1 FUNDAMENTOS EM ESTATÍSTICA OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS Caro acadêmico, o objetivo desta unidade é: • compreender fundamentos básicos em estatística e sua importância nas ciências biológicas; • compreender e usar o teste de hipóteses na resolução de questões bioló- gicas; • planejar delineamentos amostrais que forneçam dados adequados para resolução de questões biológicas; • fazer uso da estatística descritiva, gráficos e tabelas para resumir e apre- sentar dados adequadamente. Esta unidade está dividida em três tópicos. Em cada um deles você encontrará atividades visando à compreensão dos conteúdos apresentados. TÓPICO 1 – INTRODUÇÃO À ESTATÍSTICA TÓPICO 2 – DISTRIBUIÇÃO DE PROBABILIDADES TÓPICO 3 – TESTE DE HIPÓTESES 2 3 TÓPICO 1 UNIDADE 1 INTRODUÇÃO À ESTATÍSTICA 1 INTRODUÇÃO Assim como toda ciência, as ciências biológicas são movidas por perguntas. Podemos nos perguntar, por exemplo: que fatores influenciam na diferença do número de espécies de mamíferos entre duas regiões? O barramento de um rio para construção de uma hidrelétrica altera a densidade populacional dos peixes desse rio? Quais serão os efeitos das alterações na temperatura e precipitação decorrentes das mudanças climáticas sobre a vegetação? A infecção de mulheres gestantes pelo vírus Zika está associada à prevalência de microcefalia em seus bebês? Qual a didática mais eficiente para o ensino de doenças sexualmente transmissíveis aos educandos do Ensino Fundamental? Para responder perguntas como as citadas acima, a estatística é essencial. Com o auxílio do conhecimento estatístico podemos planejar corretamente a coleta de dados, bem como analisar e apresentar os dados coletados adequadamente, e assim, obter evidências sólidas para responder nossas perguntas (CALLEGARI- JACQUES, 2003). Na elaboração de conclusões, a estatística permite fazer generalização a partir de um conjunto limitado de dados. Apesar de não existir certeza sobre determinada conclusão, por meio da estatística é possível estabelecer um erro associado à conclusão, a partir do conhecimento da variabilidade observada nos dados (CALLEGARI-JACQUES, 2003). Assim, a estatística é definida como a ciência que tem por objetivo orientar a coleta, a organização, a análise e a interpretação de dados (CALLEGARI- JACQUES, 2003; PAGANO; GAUVREAU, 2013). Essa ciência pode ser dividida em duas grandes áreas: i) a estatística descritiva, que se preocupa com o resumo e a apresentação de dados; ii) a estatística inferencial, que é usada para obter conclusões sobre um conjunto amplo de dados a partir do estudo de apenas parte desses dados (CALLEGARI-JACQUES, 2003). Quando a estatística é usada nas ciências biológicas e na saúde, ela também pode ser chamada de Bioestatística. Breve histórico: O início da estatística remonta ao surgimento das primeiras cidades e a necessidade de realizar censos por interesse do Estado, principalmente para fins militares e tributários (CALLEGARI-JACQUES, 2003). Um exemplo foi o censo dos judeus, ordenado pelo imperador romano Cesar Augusto, que aconteceu por volta do ano zero da era cristã (CALLEGARI-JACQUES, 2003). UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 4 Por um longo período o foco da estatística foi somente descritivo. Mas, a partir do século XVII, com as primeiras interpretações de dados, a estatística começou a mudar (CALLEGARI-JACQUES, 2003). Em 1662, quando os primeiros registros de séries temporais de nascimentos e mortes estavam disponíveis, John Graunt (1620-1674) publicou um livro descrevendo proporções de nascimentos e mortes por idade e sexo de Londres (MEMÓRIA, 2004). Em 1693, Edmond Halley (1656-1742), um astrônomo, construiu a primeira tábua de sobrevivência (MEMÓRIA, 2004). Ainda no mesmo século, dois matemáticos, Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665), iniciaram o estudo formal da teoria de probabilidades, o que foi um grande marco no desenvolvimento da estatística (CALLEGARI-JACQUES, 2003). Já nos séculos XIX e XX, a estatística passou por grandes avanços graças a Karl Pearson (1857-1936), William Sealy Gosset (1876-1937) e, em especial, a Ronald Aylmer Fisher (1890-1962) (CALLEGARI-JACQUES, 2003; MEMÓRIA, 2004). Pearson se interessou pela aplicação dos métodos estatísticos na biologia, principalmente em estudos de seleção natural. Ele também foi muito importante no desenvolvimento teórico do coeficiente de correlação e do teste qui-quadrado (CALLEGARI-JACQUES, 2003). Gosset, que foi acadêmico de Pearson, se dedicou a solucionar problemas práticos com amostras pequenas e, com seus estudos, desenvolveu o teste t (CALLEGARI-JACQUES, 2003). Fisher, além de ter revolucionado a estatística, também foi essencial para o desenvolvimento da genética. Ele apresentou as bases do planejamento de experimentos, desenvolveu a análise da variância e introduziu o conceito de aleatorização. O trabalho de Fisher influenciou o uso da estatística em inúmeras áreas do conhecimento, sobretudo na agronomia, biologia e genética (CALLEGARI-JACQUES, 2003). 2 CONCEITOS BÁSICOS EM ESTATÍSTICA Agora que você sabe o que é a estatística e conheceu um pouco da sua história, é importante entender alguns conceitos básicos dessa ciência, que serão essenciais ao longo do desenvolvimento da disciplina. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 5 2.1 POPULAÇÃO, AMOSTRA E UNIDADE AMOSTRAL População, também denominada universo, é o conjunto de todas as unidades em estudo (VIEIRA, 2011). A Figura 1 representa, hipoteticamente, um reflorestamento de araucárias (Araucaria angustifolia (Bertol.) Kuntze). Vamos imaginar que queremos descobrir quantas pinhas são produzidas em média por cada araucária. Nesse caso, nossa população são todas as araucárias do reflorestamento. Amostra é um subconjunto de unidades da população, que de fato são observadas ou manipuladas (CALLEGARI-JACQUES, 2003). Geralmente é impossível observar ou manipular todas as unidades da população, por isso selecionamos algumas unidades que representem a população, as quais compõem a amostra. A estratégia de selecionar unidades da população para compor a amostra é chamada de amostragem. No exemplo do reflorestamento de araucárias (Figura 1), considerando que é impossível contar o número de pinhas de cada araucária do reflorestamento, podemos selecionar um determinado número de araucárias para contar as pinhas. Essas araucárias selecionadas serão nossa amostra. Unidade amostral é uma unidade, que pertence à população, sob a qual são feitas as observações ou manipulações para obtenção dos dados. No exemplo do reflorestamento de araucárias (Figura 1), cada araucária, que terá suas pinhas contadas, representa uma unidade amostral. Em raríssimos casos, quando todas as unidades da população são observadas ou manipuladas, obtemos um censo. Caro acadêmico, você sabia que o censo demográfico realizado pelo IBGE, em que uma porção representativa da população brasileira é entrevistada, é apenas uma amostra? O “Censo do IBGE” não é de fato um censo, pois nem todos os indivíduos que compõem a população brasileira são entrevistados. NOTA UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA6 Na figura a seguir temos a representação de um reflorestamento de araucárias (Araucaria angustifolia (Bertol.) Kuntze) para ilustrar o que é população, amostra e unidade amostral. Nesse exemplo, gostaríamos de saber qual é o número médio de pinhas produzidas por cada araucária. Lembrando que a araucária é uma espécie dioica, hipoteticamente todo o reflorestamento é composto por plantas pistiladas (“femininas”) e que produzem pinhas. FIGURA 1 – REFLORESTAMENTO DE ARAUCÁRIAS FONTE: A autora 2.2 ESTIMATIVA E PARÂMETRO A estimativa é um valor que resume uma característica da amostra (CALLEGARI-JACQUES, 2003). No exemplo do reflorestamento de araucárias (Figura 1), ao amostrarmos dez araucárias, o número médio de pinhas produzidas pelas dez araucárias é uma estimativa. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 7 2.3 INFERÊNCIA ESTATÍSTICA A inferência estatística é a obtenção de conclusões a respeito da população (do todo) com base na amostra (um subconjunto do todo). No exemplo do reflorestamento de araucárias (Figura 1), queremos estimar o número médio de pinhas por araucária no reflorestamento (a população), a partir da observação do número de pinhas de apenas algumas araucárias (a amostra). 3 TIPOS DE DADOS O dado é a menor unidade de informação obtida de cada unidade amostral (CALLEGARI-JACQUES, 2003). Os dados podem ser valores numéricos (por exemplo, alguma característica medida em metros ou tempo), ou categorias (por exemplo, grande, médio ou pequeno). No exemplo do reflorestamento de araucárias (Figura 1), em que queremos descobrir o número médio de pinhas produzidas por araucária, o dado é o valor numérico que representa a quantidade de pinhas produzida por cada araucária amostrada. Os dados fazem referência a variáveis. Variável é qualquer característica observada na unidade amostral e que pode variar entre as unidades amostrais (CALLEGARI-JACQUES, 2003). No exemplo do reflorestamento de araucárias (Figura 1), a variável é “número de pinhas por araucária”. As variáveis podem ser classificadas de acordo com suas características. A seguir estudaremos os principais tipos de variáveis. 3.1 VARIÁVEIS QUANTITATIVAS Os dados de variáveis quantitativas são valores numéricos e expressam quantidades. As variáveis quantitativas podem ser divididas em duas categorias: i) Variáveis quantitativas contínuas: os dados podem apresentar infinitos valores dentro de um intervalo determinado (VIEIRA, 2011). Um exemplo é a altura das araucárias adultas do reflorestamento, que hipoteticamente pode variar entre 10 e 25 metros. A observação de uma araucária com 15,5 metros de altura é possível, assim como uma araucária com 15,6 metros. Medições geralmente são variáveis quantitativas contínuas, como é o caso da altura, peso, comprimento e tempo. Já o parâmetro é um valor que resume uma característica da população (CALLEGARI-JACQUES, 2003). Conseguimos alcançar o parâmetro apenas quando realizamos um censo, ou seja, observamos todas as unidades da população. No exemplo do reflorestamento de araucárias (Figura 1), se contamos as pinhas de todas as araucárias, chegamos ao número médio de pinhas por araucária. Esse número é o parâmetro. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 8 3.2 VARIÁVEIS QUALITATIVAS Variáveis qualitativas, também denominadas categóricas, fornecem dados de natureza não numérica. Elas também se dividem em duas categorias: i) Variáveis qualitativas nominais: os dados são classificados em categorias não ordenadas (VIEIRA, 2011). Quando os dados são organizados em apenas duas categorias, dizemos que a variável qualitativa nominal é binária ou dicotômica. Um exemplo é o gênero de determinada espécie de primata, que pode ser masculino ou feminino. Quando existem mais de duas categorias, as variáveis são chamadas de polinomiais ou politômicas. Isso acontece com a síndrome de dispersão de plantas, por exemplo, que pode ser zoocórica, hidrocórica, anemocórica ou autocórica; ou os grupos sanguíneos do sistema ABO, que podem ser A, B, AB ou O. ii) Variáveis qualitativas ordinais: além de classificar os dados em categorias, também é possível identificar níveis de intensidade entre as categorias, o que permite ordená-las (CALLEGARI-JACQUES, 2003). Por exemplo, o estágio ontogenético de uma espécie de borboleta, que pode ser ovo, larva, pupa ou adulto; ou lesões, que podem ser classificadas em pequena, moderada, severa ou fatal, conforme sua gravidade. 3.3 VARIÁVEIS DERIVADAS As variáveis derivadas são variáveis criadas a partir de operações lógicas ou matemáticas de outras variáveis. Alguns casos de variáveis derivadas são: i) Razão é uma variável que expressa relação entre duas variáveis a partir de um único valor. Um exemplo é a razão entre comprimento e largura da asa de aves, que é usada para relacionar características da asa ao voo das aves. ii) Taxa é uma variável que expressa determinado valor, geralmente uma contagem, dentro de um intervalo de tempo ou espaço. Um exemplo é a densidade de palmiteiros (Euterpe edulis Mart.) em um fragmento florestal, que é expressa pelo número de palmiteiros por quilômetro quadrado. ii) Variáveis quantitativas discretas: os dados podem apresentar somente determinados valores numéricos, geralmente são números inteiros (VIEIRA, 2011). Contagens são exemplos desse tipo de variável. Uma araucária pode produzir de uma a 60 pinhas, mas nunca poderá produzir 5,5 pinhas. Isso também se aplica, por exemplo, ao número de filhotes por ninhada de uma espécie de roedor, ou o número de espécies de anfíbios em determinada área. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 9 4 INTRODUÇÃO À AMOSTRAGEM Você já estudou que um dos objetivos da estatística é fazer inferências a respeito da população com base em um conjunto reduzido de informações, a amostra. Para que as conclusões sobre a população sejam válidas, é preciso garantir que a amostra represente a população. Neste tópico você estudará por que precisamos amostrar e quais são os principais tipos de amostragem. Esses conhecimentos são fundamentais para definir qual é a melhor estratégia de amostragem. 4.1 POR QUE AMOSTRAR? Geralmente estamos interessados em responder uma pergunta científica cuja população é muito grande e é composta de muitas unidades amostrais (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A amostragem de todas as unidades da população é inviável. Desta forma, precisamos selecionar parte das unidades amostrais – uma amostra – que represente a população. Imagine que um pesquisador quer saber qual é a riqueza de espécies herbáceas da Mata Atlântica. Nesse estudo, a população compreende todas as espécies herbáceas da Mata Atlântica. Considerando a extensão do bioma e a alta diversidade de espécies, é inviável amostrar todas as espécies herbáceas. Assim, esse pesquisador terá que obter uma amostra que represente a riqueza de espécies herbáceas da Mata Atlântica. Em alguns casos, a população não é tão grande quanto o exemplo das espécies herbáceas da Mata Atlântica. No entanto, um censo – a amostragem de todas as unidades da população – continua inviável, pois os gastos com mão de obra e tempo seriam muito altos (PAGANO; GAUVREAU, 2013; VIEIRA, 2011). No exemplo hipotético do reflorestamento de araucárias, em que estamos interessados em descobrir qual o número médio de pinhas por árvore, a amostragem de todas as pinhas de todas as araucárias exigiria muito tempo e mão de obra. Assim, a contagem de pinhas em parte das araucárias – uma amostra – é suficiente para responder à pergunta. Uma amostragem bem delineada é essencial para obtermos dados de qualidade, que forneçam boas estimativas dos parâmetros populacionais e inferências confiáveis. A seguir são apresentados quatro tipos de amostragem e suas aplicações. iii) Índice é uma variável obtida a partir da aplicação de fórmulas matemáticas definidas. Um exemplo é o índice de massa corporal (IMC), calculado a partir da divisão da massa do indivíduo (em quilogramas)pelo quadrado de sua altura (em metros). UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 10 4.1.1 Amostragem aleatória simples Em uma amostra aleatória simples, todas as unidades amostrais que compõem a população têm igual chance de serem amostradas. As unidades amostrais são selecionadas independentemente, por meio de sorteio, até que o tamanho desejado da amostra seja alcançado (PAGANO; GAUVREAU, 2013). É necessário que as unidades amostrais estejam enumeradas para que se possa realizar o sorteio. Vamos imaginar que o reflorestamento de araucárias seja composto por 50 árvores. Nosso objetivo é quantificar o número médio de pinhas produzidas por árvore com base em uma amostra de 10 araucárias. Para isso, podemos atribuir um número para cada araucária, e dentre as 50 árvores, sorteamos 10 para contar o número de pinhas (Figura 2A). A amostragem aleatória simples representa a estratégia de seleção das unidades amostrais mais simples e mais eficientes para garantir que todas as unidades amostrais tenham igual chance de serem amostradas. Nesse tipo de amostragem não é necessário ter conhecimento prévio sobre possíveis variações ao longo das unidades amostrais, pois todas as unidades amostrais e suas respectivas proporções de variação serão representadas em uma amostragem aleatória simples. Por exemplo, vamos imaginar que as araucárias localizadas nas bordas do reflorestamento recebem mais sol que as araucárias do interior do reflorestamento, e a quantidade de luz solar influencia o número de pinhas produzidas. A amostragem aleatória simples permite que araucárias tanto da borda, quanto do interior do reflorestamento possam ser amostradas, se o tamanho amostral for grande o suficiente. Assim, a variação no número de pinhas associada à quantidade de luz solar que ocorre na população será representada na amostra. 4.1.2 Amostragem sistemática Na amostragem sistemática, as unidades amostrais não são escolhidas ao acaso, mas por um sistema predefinido (Figura 2B) (VIEIRA, 2011). É necessário que as unidades amostrais da população estejam ordenadas de alguma forma, como, por exemplo, em listas ou em filas. Também é necessário estabelecer um critério de intervalo em que as unidades amostrais serão selecionadas para compor Caro acadêmico, você verá adiante que garantir uma amostra aleatória, ou seja, assegurar que todas as unidades amostrais tiveram a mesma chance de terem sido amostradas é um dos pressupostos para todos os testes estatísticos que vamos aprender. ESTUDOS FU TUROS TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 11 4.1.3 Amostragem estratificada Uma amostragem estratificada pode ser utilizada quando se sabe, previamente, que a população é composta por subpopulações ou estratos e se presume que esses estratos influenciam a variável em estudo (Figura 2C) (CALLEGARI-JACQUES, 2003). Nesses casos, primeiramente se verifica quais são os estratos que compõem a população e que proporções eles representam da população. Na sequência, são selecionadas as unidades amostrais dentro de cada estrato, respeitando as proporções dos estratos em relação à população. A seleção das unidades amostrais dentro de cada estrato pode ser por sorteio, como no caso de uma amostragem aleatória simples, ou por algum critério preestabelecido, como na amostragem sistemática. Imagine que no exemplo do reflorestamento de araucária existem dois tipos de solos (Figura 2C). Metade do reflorestamento apresenta um tipo de solo e a outra metade, outro tipo de solo. O tipo de solo pode influenciar a produtividade das araucárias, portanto, é importante considerar essa variação do ambiente no momento do delineamento amostral. Podemos separar o reflorestamento em dois estratos de acordo com o tipo de solo. Em cada estrato podemos sortear cinco árvores, de modo que sejam amostradas 10 árvores das 50 araucárias que compõem o reflorestamento. Na figura a seguir temos a representação da amostragem aleatória simples (A), sistemática (B) e estratificada (C). Nos três casos foram selecionadas 10 araucárias (plantas destacadas com um círculo) para compor a amostra dentre as 50 araucárias do reflorestamento. a amostra. A primeira unidade amostral, a partir da qual o critério de seleção das unidades será aplicado, pode ser sorteada. No exemplo do reflorestamento de araucária, imagine que é necessário amostrar 10 árvores dentre as 50 araucárias que compõem o reflorestamento. Para isso, podemos amostrar sempre a quinta araucária a partir da última araucária amostrada, até que se completem 10 árvores. A primeira araucária a ser incluída na amostra pode ser sorteada entre as cinco primeiras araucárias. Na amostragem sistemática é importante que as unidades amostrais sejam homogêneas entre si (PAGANO; GAUVREAU, 2013). Caso as unidades amostrais não sejam homogêneas e apenas parte da variação seja contemplada pela amostragem sistemática, teremos uma amostra que não representa adequadamente a população. Por exemplo, se as araucárias da borda do reflorestamento recebem mais luz e isso influencia a produção de pinhas, enquanto as araucárias do interior do reflorestamento recebem menos luz, as unidades amostrais não são homogêneas entre si e a amostragem sistemática não seria a melhor estratégia. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 12 FIGURA 2 – REPRESENTAÇÃO DAS AMOSTRAGENS A) Amostragem aleatória simples: as 10 araucárias destacadas compõem a amostra e foram selecionadas por meio de om sorteio. Todas as araucárias tiveram a mesma chance de terem sido amostradas. B) Amostragem sistemática: dentre as cinco primeiras araucárias, foi sorteada a primeira araucária para compor a amostra (araucária nº 5). As araucárias seguintes foram incluídas na amostra respeitando o critério de incluir a quinta araucária a partir da última araucária amostrada. Após a araucária nº 5, foram amostradas as araucárias nº 10, nº 15, nº 20 e assim até a amostra atingir 10 araucárias. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 13 FONTE: A autora 4.1.4 Amostragem de conveniência Na amostragem de conveniência o pesquisador reúne unidades amostrais simplesmente porque dispõe delas ou porque são unidades de fácil acesso (VIEIRA, 2011). Esse tipo de amostragem tem maior propensão de ser tendenciosa, já que nem todas as unidades amostrais tiveram a mesma chance de serem amostradas (PAGANO; GAUVREAU, 2013). No entanto, a amostragem de conveniência é muito utilizada na área da saúde, em que geralmente o pesquisador trabalha com as unidades amostrais a que tem acesso, como, por exemplo, determinada linhagem de ratos de laboratório, ou pacientes do ambulatório da universidade sob um tratamento específico (VIEIRA, 2011). As conclusões a partir de amostras provenientes de amostragem de conveniência devem ser feitas com cuidado, geralmente são válidas apenas para as unidades amostrais avaliadas, e não permitem generalizações para a população como um todo. C) Amostragem estratificada: cada retângulo pode representar, por exemplo, um tipo de solo. A população (reflorestamento de araucárias) foi estratificada em dois estratos, conforme os retângulos. Para compor a amostra foram selecionadas, por sorteio, cinco araucárias em cada estrato. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 14 4.2 TAMANHO AMOSTRAL E LEI DOS GRANDES NÚMEROS Outra questão importante no planejamento da amostragem é o tamanho amostral, ou seja, o número de unidades amostrais que irá compor a amostra. No entanto, não existe um número fixo para definir o tamanho amostral do estudo (CALLEGARI-JACQUES, 2003). Esse número pode variar de acordo com diferentes fatores, como: i) o tipo de pergunta que se quer responder; ii) o tipo de variável (quantitativa, qualitativa ou derivada); iii) a incerteza em relação à inferência estatística que o pesquisador está disposto a assumir, uma vez que a incerteza sempre diminui com o aumento do tamanho amostral; iv) e a disponibilidade de recursos financeiros e tempo para coleta de dados (CALLEGARI-JACQUES,2003). No entanto, existe um teorema da probabilidade, chamado de Lei dos Grandes Números, que estabelece que quanto maior o tamanho amostral, mais próxima uma estimativa estará do parâmetro populacional (GOTELLI; ELLISON, 2011). Esse teorema foi demonstrado pelo matemático russo Andrei Kolmogorov (1903-1987). Vamos pensar em um exemplo hipotético. Voltando ao reflorestamento de araucárias, vamos imaginar que a quantidade de luz influencia a produção de pinhas. As araucárias localizadas na borda do reflorestamento, que recebem mais luz, apresentam um número maior de pinhas por árvore, em comparação às árvores do interior do reflorestamento. Para responder à pergunta de quantas pinhas cada araucária produz em média, um pesquisador decidiu amostrar apenas duas árvores dentre as 50 araucárias do reflorestamento. Esse pesquisador não sabia da relação entre a produção de pinhas e a quantidade de luz solar. Em um sorteio, as duas araucárias selecionadas localizaram-se na borda do reflorestamento. Neste caso, a amostra é representativa da população? Não, pois a amostra não incluiu árvores do interior do reflorestamento, que em média produzem menos pinhas. Com essa amostragem, o pesquisador deve concluir que as araucárias produzem um número de pinhas maior que o valor real. À medida que o tamanho amostral aumenta, a chance de amostrar apenas araucárias localizadas na borda ou no interior do reflorestamento diminui. Amostrando mais araucárias, a estimativa da média de pinhas produzidas por araucária fica mais próxima do parâmetro populacional, que é o valor real. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 15 5 ESTATÍSTICA DESCRITIVA Você acabou de aprender que um estudo científico sempre busca obter conclusão a respeito da população, no entanto, na maioria dos trabalhos não é possível amostrar todas as unidades amostrais da população para suportar as conclusões. Assim, é necessário trabalhar com uma amostra, ou seja, parte das unidades amostrais que compõem a população. A partir da amostra se estima os parâmetros populacionais e, com base nessas informações, inferências em relação à população são feitas. Você também estudou quais são os tipos de variáveis que podem ser coletadas nas unidades amostrais (variáveis quantitativas, qualitativas ou derivadas). Por fim, você estudou os principais métodos de amostragem das unidades amostrais. Portanto, até agora, você deve ter uma ideia por que coletamos dados de apenas algumas unidades amostrais da população; de que tipos podem ser os dados coletados; e como esses dados podem ser coletados por meio de um delineamento amostral. Um exemplo de conjunto de dados é apresentado na Tabela 1. Na Tabela 1 estão representadas as notas da primeira e segunda avaliação da disciplina de estatística de 10 acadêmicos de Ciências Biológicas da UNIASSELVI. Uma amostragem aleatória simples foi utilizada para selecionar 10 acadêmicos dentre todos os acadêmicos da turma de Ciências Biológicas. As variáveis amostradas foram as notas que cada acadêmico obteve nas duas avaliações da disciplina e, portanto, são variáveis quantitativas contínuas. A Tabela 1 é importante porque mostra os dados que foram coletados. No entanto, não é fácil tirar conclusões a partir dos números observados nessa tabela. Por exemplo, você diria que os acadêmicos tiveram um desempenho melhor na primeira ou na segunda avaliação? Não é muito fácil responder isso, certo? TABELA 1 - NOTAS DAS AVALIAÇÕES DE ESTATÍSTICA DE 10 ALUNOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI Unidade amostral (Acadêmico) 1° Avaliação de Estatística (Notas) 2° Avaliação de Estatística (Notas) 1 2 4 2 6 7 3 7 7 4 5 6 5 8 5 6 4 6 7 6 8 8 7 5 9 3 6 10 9 10 FONTE: A autora UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 16 Para facilitar a interpretação e apresentação de dados, podemos resumi- los em alguns números que descrevem todo o conjunto. Isso pode ser feito por meio da Estatística Descritiva. A partir de agora estudaremos como representar dados por meio de medidas de tendência central e medidas de dispersão, que são as duas formas de resumir dados pela Estatística Descritiva. 5.1 MEDIDAS DE TENDÊNCIA CENTRAL Uma medida de tendência central, também chamada de medida de posição, representa um valor central dentre a variabilidade de valores que uma variável pode apresentar na população. A seguir estudaremos três diferentes medidas de tendência central: média, mediana e moda. 5.1.1 Média A média é a medida de tendência central mais utilizada, pois é facilmente calculada e interpretada (CALLEGARI-JACQUES, 2003). Você mesmo já deve ter calculado alguma média antes! Além disso, a média tem propriedades estatísticas que permitem que ela seja usada em vários testes estatísticos e na inferência estatística (CALLEGARI-JACQUES, 2003), conforme veremos nas próximas unidades desse caderno. A média de uma amostra é representada pela mesma letra que identifica a variável, a partir da qual a média foi calculada, acrescida de um traço na parte superior. Se a variável é identificada pela letra x, a média é representada por x (lê-se “x barra”). Já a média de uma população é representada por m (letra “m” do alfabeto grego). A média de uma amostra representa uma estimativa, enquanto a média de uma população é um parâmetro. Para calcular uma média basta somar o valor de todas as unidades amostrais e dividir pelo número total de unidades amostrais da amostra. A equação matemática da média é: 1 1 n i i x x n = = ∑ Essa é a primeira equação matemática apresentada neste caderno de estatística! Você ficou assustado? Calma, vamos por partes para entender o que esta equação quer dizer. O termo xi representa uma unidade amostral da amostra, e o subscrito i indica qual das unidades amostrais estamos falando. Assim, x1 representa a primeira unidade amostral da amostra, x2 é a segunda unidade da amostra e assim por diante até a última unidade amostral da amostra, que é representada por xn. O n representa o número total de unidades amostrais da amostra. O símbolo ∑ é a letra grega maiúscula sigma e indica que devemos somar tudo o que está à direita dele. O intervalo de valores que devemos somar é indicado pelos termos que se encontram subscrito e sobrescrito no ∑, ou seja, o TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 17 subscrito do ∑, i = 1, indica que o somatório deve iniciar na unidade amostral x1. O sobrescrito do ∑, n, indica que o somatório deve terminar na última unidade amostral da amostra, que é xn. Portanto, 1 n ii x =∑ diz que devemos somar da primeira unidade amostral (x1) até a última unidade amostral (xn) da amostra, ou seja, devemos somar todas as unidades amostrais da amostra. Finalmente, 1 n indica que o resultado do somatório deve ser dividido pelo número de unidades amostrais da amostra (n). Agora que você já sabe o que cada termo da equação significa, vamos calcular a média das notas da primeira avaliação de estatística da turma de Ciências Biológicas da UNIASSELVI. Os dados estão na Tabela 1. Essa amostra é composta de 10 unidades amostrais (n = 10). Cada acadêmico representa uma unidade amostral (xi). Precisamos somar a nota de todos os acadêmicos, ou seja, a nota do primeiro acadêmico que é x1 = 2, a nota do segundo acadêmico que é x2 = 6 , a nota do terceiro acadêmico que é x3 = 7 e assim até o último acadêmico x10 = 9. O somatório das notas de todos os acadêmicos deve ser dividido pelo número total de acadêmicos da amostra, ou seja, n = 10. ( ) 1 1 1 2 6 7 5 8 4 6 7 3 9 10 57 5,7 10 n i i x x n x = = ≡ × + + + + + + + + + = = ∑ A média de notas da primeira avaliação de estatística foi de 5,7. Foi difícil fazer esse cálculo? Vamos praticar um pouco mais? Tente calcular a média para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. No final dos cálculos você deve chegar ao resultado x = 6,4. A média pode ser calculada apenas para variáveis quantitativas, como variáveis discretas e contínuas.A média não pode ser aplicada para variáveis categóricas, como as nominais ou ordinais (PAGANO; GAUVREAU, 2013). Além disso, a média é sensível a valores extremos. Por exemplo, a média dos números 3, 4 e 5 é x = 4. Caso o número 5 seja substituído por 55, a média passa a ser 20,7. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 18 5.1.2 Mediana Para achar o valor que representa a mediana, primeiramente precisamos fazer uma ordenação crescente de todos os valores das unidades amostrais da amostra (VIEIRA, 2011). A mediana é o valor que ocupa a posição central na ordenação. Assim, metade dos valores da amostra é igual ou menor que a mediana, enquanto metade dos valores é igual ou maior que a mediana. Quando o número de unidades da amostra é ímpar, existe um único valor que ocupa a posição central, e esse valor é a mediana. Por exemplo, para a sequência de três números (1, 5 e 7), a mediana é o valor que ocupa a 2ª posição, ou seja, a mediana é igual a 5. Já quando o número de unidades da amostra é par, dois números ocupam a posição central e é preciso fazer uma média dos dois valores para encontrar a mediana. Por exemplo, para a sequência de quatro números (1, 5, 6 e 7), precisamos calcular a média dos valores que estão nas posições 2 e 3, ou seja, a média de 5 e 6, o que resulta em uma mediana de 5,5. Vamos encontrar a mediana para as notas da primeira avaliação de estatística. Primeiro precisamos fazer uma ordenação crescente de todos os valores das notas, conforme está apresentado na Tabela 2. Como são 10 unidades amostrais, um número par, a mediana está entre as posições 5 e 6. A 5ª posição é ocupada pela nota 6 e a 6ª posição também é ocupada pela nota 6. Calculando a média entre 6 e 6, temos que a mediana das notas da primeira avaliação de bioestatística é igual a 6. TABELA 2 - ORDENAÇÃO CRESCENTE DAS NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DE 10 ALUNOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI Posição (Ordenação crescente das notas) Unidade amostral (Acadêmico) 1° Avaliação de Estatística (Notas) 1° 1 2 2° 9 3 Caro acadêmico, você entendeu como calcular uma média? Se não, leia novamente para tentar entender. É muito importante que você tenha entendido isso, pois utilizaremos a média em outros momentos ao longo do caderno. ESTUDOS FU TUROS TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 19 FONTE: A autora É fácil encontrar uma mediana, certo? Agora tente encontrar qual é a mediana para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que a mediana das notas da segunda avaliação também é igual a 6. A mediana não é sensível a valores extremos, pois a única informação utilizada é o valor que ocupa a posição central na ordenação de todas as unidades da amostra (PAGANO; GAUVREAU, 2013). A mediana pode ser usada tanto para variáveis discretas e contínuas, quanto para variáveis nominais ou ordinais (PAGANO; GAUVREAU, 2013). 5.1.3. Moda A moda é o valor observado com maior frequência. Na sequência de números 1, 7, 9, 3, 4, 3 e 5, a moda é igual a 3, pois é o valor observado mais vezes. No entanto, algumas amostras podem não apresentar uma moda. Por exemplo, na sequência 1, 6, 3, 1, 9, 3, 6 e 9 não existe uma moda, pois todos os valores foram observados duas vezes. Vamos encontrar a moda para as notas da primeira avaliação de estatística. Os dados estão na Tabela 1. Nesse exemplo, as notas 6 e 7 são observadas duas vezes, portanto, as notas da primeira avaliação de estatística apresentam duas modas, que são 6 e 7. Nesses casos dizemos que a amostra é bimodal, ou seja, apresenta dois valores mais frequentes. Encontrar a moda também é simples, certo? Tente encontrar a moda para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que a moda para as notas da segunda avalição é igual a 6. 3° 6 4 4° 4 5 5° 2 6 6° 7 6 7° 3 7 8° 8 7 9° 5 8 10° 10 9 UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 20 A moda pode ser usada tanto para variáveis discretas ou contínuas, quanto para variáveis nominais ou ordinais. 5.2 MEDIDAS DE DISPERSÃO As medidas de tendência central, como média, mediana e moda são muito importantes, pois descrevem o valor central dentre a variação de valores que as unidades amostrais podem apresentar. No entanto, também é necessário ter uma ideia de quanto os valores das unidades amostrais podem variar além da medida de tendência central. Será que todos os valores são parecidos, e assim, concentram-se próximos do centro? Ou será que os valores são muito diferentes e estão dispersos em um amplo intervalo? Para responder essas perguntas, utilizamos as medidas de dispersão, também chamadas de medidas de variabilidade, como a amplitude, intervalo interquartil, variância, desvio padrão e coeficiente de variação. 5.2.1 Amplitude A amplitude é o valor obtido pela diferença entre o menor e o maior valor observado na amostra. Apesar de ser facilmente calculada e interpretada, a amplitude não reflete bem a variabilidade da amostra, pois é obtida utilizando apenas dois valores da amostra (VIEIRA, 2011). Assim, dois conjuntos de dados podem apresentar a mesma amplitude, mas terem variabilidades muito diferentes (VIEIRA, 2011). Além disso, a amplitude é afetada pelos valores extremos e só pode ser utilizada para variáveis discretas ou contínuas. Vamos calcular a amplitude para as notas da primeira avaliação de estatística. Os dados estão na Tabela 1. A nota mais baixa foi 2 e a nota mais alta foi 9, o que resulta em uma amplitude de 7. Simples, você não achou? Agora tente calcular a amplitude para as notas da segunda avaliação de estatística (Tabela 1). Você deve encontrar como resultado uma amplitude igual a 6. 5.2.2 Intervalo interquartil A partir da ordenação crescente das unidades amostrais de uma amostra, como fizemos para encontrar a mediana (Tabela 2), é possível dividir as unidades em quatro grupos, que são chamados de quartis (CALLEGARI-JACQUES, 2003). Cada quartil corresponde a 25% das unidades amostrais da amostra. O primeiro quartil (Q1) engloba 25% das unidades amostrais com os menores valores, o segundo quartil (Q2) é igual à mediana, e o terceiro quartil (Q3) agrupa 75% das unidades amostrais. TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 21 Antes de calcular o intervalo interquartil é necessário descobrir qual posição na ordenação de valores é equivalente a cada quartil. Para isso podemos usar a equação Qi = i(n + 1)/4, em que i representa cada um dos quartis (1, 2, 3 ou 4), e n representa o número de unidades amostrais da amostra. Após encontrar as posições que equivalem ao primeiro e ao terceiro quartil, é possível calcular o intervalo interquartil pela subtração do valor que ocupa o terceiro quartil do valor que ocupa o primeiro quartil (Q3 - Q1). Vamos calcular o intervalo interquartil para as notas da primeira avaliação de estatística. Para facilitar, podemos observar os dados da Tabela 2, pois já estão ordenados. A posição que corresponde ao primeiro quartil é Q1 = 1 x (10 + 1)/4 = 2,75. Podemos arredondar o valor 2,75 para 3, e assim, Q1 é a nota da 3ª posição, que corresponde à nota 4. Já o terceiro quartil é Q3 = 3 x (10 + 1)/4 = 8,25. Arredondando para 8, Q3 equivale à nota na 8ª posição, ou seja, nota 7. O intervalo interquartil é resultante de Q3 - Q1, ou seja, 4 - 7 = |-3|. Agora calcule o intervalo interquartil para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve encontrar que o intervalo interquartil para as notas da segunda avaliação é igual a 2. O intervalo interquartil, que também pode ser chamado de intervalo interquartílico ou distância interquartílica, é uma medida de dispersão interessante, pois sofre menor influência de valores extremos, em comparação à amplitude (VIEIRA, 2011). 5.2.3 Variância Uma medida de dispersão muito usada é a variância, e como veremos nas próximas unidades desse caderno, ela é utilizada em váriostestes estatísticos. A variância mede como os dados variam em torno da média (PAGANO; GAUVREAU, 2013). Se a variância é pequena, quer dizer que os dados estão agrupados em torno da média, enquanto uma variância grande significa que os dados estão dispersos em relação à média (VIEIRA, 2011). A variância de uma amostra, que é uma estimativa, é representada por s2. Já a variância de uma população, que é o parâmetro, é representada por s2 (sigma minúsculo do alfabeto grego). Considerando que a variância mede a variabilidade das unidades amostrais em relação à média, uma maneira de quantificá-la é fazer uma média da distância das unidades amostrais em relação à média amostral, conforme a equação: ( )2 1 1 n i i s x x n = = -∑ UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 22 ( ) ( ) 22 1 1 1 44, 2 44, 2 4,9 1 10 1 9 n i i s x x n = = - = × = = - -∑ A variância para as notas da primeira avaliação de estatística é igual a 4,9. Agora tente calcular a variância para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que a variância das notas da segunda avaliação é igual a 2,9. Os termos que compõem essa equação são os mesmos que você aprendeu quando calculou a média. Caso você não lembre o que cada termo significa, consulte a Tabela 4 (adiante). A equação diz que devemos pegar cada uma das unidades amostrais e subtrair da média amostral (xi - x ), depois somar o resultado de cada uma das subtrações e, por fim, dividir o somatório pelo número total de unidades amostrais (n), ou seja, a equação da variância é uma média da soma das diferenças de cada unidade amostral em relação à média. No entanto, o somatório de (xi - x ) sempre resulta em zero. Isso acontece porque a soma das diferenças das unidades amostrais com valores menores que x é igual à soma das diferenças das unidades com valores maiores que x , ou seja, as duas somas se cancelam. Uma opção para resolver esse problema é elevar (xi - x ) ao quadrado, conforme a equação: ( ) ( ) 22 1 1 1 n i i s x x n = = - - ∑ Sempre que você for calcular uma variância, utilize essa última equação. A equação nos diz que devemos fazer o somatório do quadrado da diferença de cada unidade amostral em relação à média e depois dividir esse somatório por n - 1. Na equação anterior dividimos o somatório apenas por n, mas o correto é dividir por n - 1, pois a equação da variância apresenta uma estimativa, que é x . Sempre que existirem estimativas em uma equação, o número equivalente às estimativas deve ser descontado do tamanho amostral (n). Agora vamos calcular a variância para as notas da primeira avaliação de estatística. Para começar, precisamos calcular a diferença de cada unidade amostral em relação à média (xi - x ), cujo somatório deve ser igual a zero (terceira coluna da Tabela 3). Depois precisamos fazer o somatório de (xi - x )2, que nesse caso é igual a 44,2 (quarta coluna da Tabela 3). Substituindo os dados na equação, temos: TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 23 TABELA 3 - CÁLCULOS UTILIZADOS PARA SE OBTER A VARIÂNCIA DE UMA AMOSTRA FONTE: A autora A tabela a seguir demonstra que (xi - x ) é a diferença de cada unidade amostral em relação à média; (xi - x )2 é o quadrado da diferença de cada unidade amostral em relação à média. Dados referentes às notas da primeira avaliação de estatística dos acadêmicos de Ciências Biológicas da UNIASSELVI, que apresenta x = 5,7. 5.2.4 Desvio padrão O desvio padrão é obtido pela raiz quadrada positiva da variância (PAGANO; GAUVREAU, 2013). O desvio padrão é mais usado que a variância, pois está na mesma unidade de medida da variável investigada. O desvio padrão de uma amostra, que é uma estimativa, é representado por s. Já o desvio padrão de uma população, que é o parâmetro, é representado por s (sigma minúsculo do alfabeto grego). A equação do desvio padrão é: ( )22 1 x x s s n ∑ - = = - UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 24 5.2.5 Coeficiente de variação O coeficiente de variação (CV) é utilizado quando queremos comparar a variabilidade de dois conjuntos de dados que estão em unidades de medida diferentes (PAGANO; GAUVREAU, 2013). Por exemplo, podemos comparar a variabilidade na circunferência (medida em centímetros) e na altura (medida em metros) das araucárias do reflorestamento por meio do coeficiente de variação. O coeficiente de variação é obtido pela equação: 100sCV x = × , ou seja, o coeficiente de variação é a razão entre o desvio padrão (s) e a média (x ) amostral, multiplicado por 100. O coeficiente de variação é adimensional, pois a razão entre s e x faz com que as unidades de medidas se cancelem. O coeficiente de variação é expresso em porcentagem, em decorrência da multiplicação por 100. Vamos calcular o coeficiente de variação para as notas da primeira avaliação de estatística (Tabela 1). Para isso precisamos do desvio padrão (s = 2,2) e da média (x = 5,7). Substituindo os valores na equação, temos: Vamos calcular o desvio padrão para as notas da primeira avaliação de estatística (Tabela 1). Para isso precisamos da variância, que já foi calculada anteriormente e é igual a 4,9. Basta extrair a raiz quadrada de 4,9 para obter o desvio padrão, que é igual a 2,2. Tente calcular o desvio padrão para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que o desvio padrão das notas da segunda avalição é igual a 1,7. Caro acadêmico, você entendeu como calcular a variância e o desvio padrão? Se não, leia novamente para compreender melhor. É muito importante que você tenha entendido isso, pois utilizaremos a variância e o desvio padrão em outros momentos ao longo do caderno. ATENCAO 2,2 100 100 38,6% 5,7 sCV x = × = × = TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 25 Para as notas da primeira avaliação de estatística, o coeficiente de variação é igual a 38,6%. Não é possível dizer se esse coeficiente de variação é alto ou baixo, é preciso compará-lo em relação a outro valor. Agora tente calcular o coeficiente de variação para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que o coeficiente de variação das notas da segunda avaliação é igual a 26,6%, ou seja, um valor menor que o coeficiente de variação das notas da primeira avaliação de estatística. TABELA 4 - NOTAÇÕES MATEMÁTICAS E SEUS SIGNIFICADOS FONTE: Adaptado de Vieira (2011) UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 26 6 USO DE TABELAS E GRÁFICOS Na estatística descritiva você aprendeu como descrever um conjunto de dados com apenas dois valores: uma medida de tendência central e uma medida de dispersão. Além da estatística descritiva, também podemos resumir dados utilizando tabelas e gráficos. A partir de agora, você aprenderá um pouco sobre tabelas e gráficos, que são úteis para apresentar e sintetizar conjuntos de dados. 6.1 TABELAS Toda tabela é composta por quatro elementos: o título, que explica o conteúdo da tabela; o cabeçalho, que indica qual é o conteúdo de cada coluna; a coluna indicadora, que especifica o conteúdo de cada linha; e o corpo, que é preenchido pelos dados dispostos em linhas e colunas (VIEIRA, 2011). 6.1.1 Tabelas de distribuição de frequências Uma tabela de distribuição de frequência é constituída por um conjunto de classes ou categorias e o número de unidades amostrais que pertence a cada uma das classes ou categorias (PAGANO; GAUVREAU, 2013). Tanto variáveis nominais ou ordinais quanto variáveis discretas ou contínuas podem ser apresentadas em tabelas de distribuição de frequências. Variáveis nominais ou ordinais: Para resumir um conjunto de dados composto por variáveis nominais ou ordinais em uma tabela de distribuição de frequências, podemos simplesmente contar quantas unidades amostrais foram classificadas em cada categoria preestabelecida (Tabela 5) (VIEIRA, 2011). Dessa forma, chegamos à frequência absolutaem que cada categoria foi observada. Além disso, pode ser interessante expressar quanto o número de unidades amostrais em cada categoria representa do total de unidades da amostra (VIEIRA, 2011). Para isso, dividimos o número de unidades amostrais em cada categoria pelo total de unidades amostrais estudadas, depois multiplicamos por 100. Desta forma teremos a frequência relativa em que cada categoria foi observada, expressa em porcentagem. Com a frequência relativa podemos construir uma tabela de distribuição de frequências relativas. Para exemplificar como variáveis qualitativas podem ser resumidas em tabelas de distribuição de frequências, utilizaremos os dados do Inventário Florístico Florestal de Santa Catarina, que avaliou 723 espécies de plantas da Floresta Ombrófila Densa e classificou cada espécie quanto à síndrome de dispersão. Síndrome de dispersão é uma variável qualitativa nominal. A Tabela 5 apresenta o número de espécies de plantas que têm síndrome de dispersão zoocórica, anemocórica e autocórica, ou seja, a frequência absoluta de cada TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 27 síndrome. A mesma tabela também apresenta a porcentagem de espécies em cada categoria, ou seja, a frequência relativa de cada categoria, por exemplo, para calcular a frequência relativa da síndrome de dispersão zoocoria, basta fazer o seguinte cálculo: (564/723) x 100 = 78%, em que 564 é a frequência absoluta da síndrome de dispersão zoocoria e 723 é o número total de espécies estudadas. TABELA 5 - NÚMERO DE ESPÉCIES DE PLANTAS E PORCENTAGEM DE ESPÉCIES DE PLANTAS POR SÍNDROME DE DISPERSÃO NA FLORESTA OMBRÓFILA DENSA DE SANTA CATARINA Síndrome de dispersão Número de espécies Porcentagem de espécies (%) Zoocoria 564 78,0 Anemocoria 107 14,8 Autocoria 49 6,8 Espécies não classificadas 3 0,4 Total 723 100,0 FONTE: Adaptado de Gasper et al. (2014) Variáveis discretas ou contínuas: Para organizar dados de variáveis discretas ou contínuas em tabelas de distribuição de frequências, primeiramente é necessário dividir o intervalo de valores que a variável apresenta em classes, depois encaixar cada unidade amostral dentro de alguma classe criada e, no final, contar o número de unidades amostrais por classe (Tabela 6) (PAGANO; GAUVREAU, 2013). É interessante que as classes tenham intervalos com tamanhos iguais, o que facilita futuras comparações entre classes (PAGANO; GAUVREAU, 2013). Para definir os intervalos de classes é preciso ordenar as unidades amostrais em sequência crescente. Depois de ordenar todos os valores, é necessário identificar os valores máximo e mínimo para calcular a amplitude dos valores. A amplitude é dada pela diferença entre o máximo valor e o mínimo valor. Na sequência, é preciso dividir a amplitude pelo número de classes em que se deseja organizar os dados. A escolha do número de classes é arbitrária e fica a critério do pesquisador. O resultado da divisão da amplitude pelo número de classes corresponde ao intervalo de classes. Os limites da primeira classe serão: limite inferior, o valor mínimo observado na amostra; limite superior, o limite inferior da primeira classe somado ao intervalo de classes. Limites da segunda classe serão: limite inferior, o limite superior da primeira classe; limite superior, o limite inferior da segunda classe somado ao intervalo de classes. Assim sucessivamente até que toda variação de valores que a amostra apresenta seja incluída em classes. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 28 Como exemplo didático, vamos organizar as notas da primeira avaliação de estatística de 50 acadêmicos de Ciências Biológicas da UNIASSELVI (Quadro 1) em uma tabela de distribuição de frequências com três classes. Como as notas dos 50 acadêmicos já estão ordenadas no quadro, podemos calcular a amplitude de valores pela diferença da maior nota observada (nota 10) pela menor nota (nota 1). A amplitude é igual a 9. Para obter o intervalo de classes, é só dividir a amplitude (9) pelo número de classes (três classes), que já foi preestabelecido. Intervalo de classes é (9/3 = 3). Os limites da primeira classe são: limite inferior = 1, a menor nota observada na amostra; limite superior = 4, que corresponde à soma do limite inferior da primeira classe ao intervalo de classes. Os limites da segunda classe são 4 e 7 e da terceira classe, 7 e 10. Depois de estabelecer os limites das classes, contamos quantas notas se encaixam em cada classe. O resultado pode ser observado na Tabela 6. QUADRO 1 - NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ALUNOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI 1,0 1,5 2,0 2,2 2,3 2,8 3,0 3,3 3,7 3,9 4,0 4,2 4,4 4,9 5,0 5,0 5,0 5,3 5,5 5,7 5,7 5,9 6,0 6,0 6,0 6,0 6,0 6,1 6,4 6,5 6,5 6,5 6,9 7,0 7,0 7,0 7,2 7,3 7,5 7,5 7,6 7,9 8,0 8,3 8,4 8,5 9,0 9,5 10,0 10,0 FONTE: A autora Além disso, a frequência absoluta de cada classe também pode ser expressa em frequência relativa (veja a Tabela 6). Para isso, é necessário dividir o número de acadêmicos de cada classe pelo número total de acadêmicos estudados (n = 50) e multiplicar por 100. Por exemplo, a frequência relativa da primeira classe é (11 x 50)/100 = 22% (Tabela 6). TABELA 6 - TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS ABSOLUTAS E RELATIVAS DAS NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ACADÊMICOS DA TURMA DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI FONTE: A autora Classes de notas Número de acadêmicos por classe Porcentagem de acadêmicos por classe (%) 1 a 4 11 22 4 a 7 25 50 7 a 10 14 28 TÓPICO 1 | INTRODUÇÃO À ESTATÍSTICA 29 6.1.2 Tabelas de contingência Quando as unidades amostrais são classificadas de acordo com duas variáveis qualitativas, os dados podem ser organizados em uma tabela de contingência (Tabela 7) (VIEIRA, 2011). Tabelas de contingência são tabelas com duplas entradas, cada uma representando uma das variáveis qualitativas (VIEIRA, 2011). Também podemos construir tabelas de contingência para variáveis quantitativas discretas ou contínuas, desde que os valores das variáveis quantitativas sejam separados em classes e, assim, cada classe é equivalente a uma categoria de uma variável qualitativa. Para construir uma tabela de contingência, utilizaremos novamente os dados do Inventário Florístico Florestal de Santa Catarina, que avaliou 723 espécies de plantas da Floresta Ombrófila Densa e classificou cada espécie quanto à síndrome de dispersão e o estágio sucessional. A Tabela 7, que é uma tabela de contingência desses dados, expressa o número de espécies em cada uma das categorias de síndrome de dispersão e estágio sucessional. Por exemplo, dentre as 564 espécies zoocóricas, 106 delas são espécies pioneiras. TABELA 7 - SÍNDROME DE DISPERSÃO E ESTÁGIO SUCESSIONAL DAS ESPÉCIES DE PLANTAS DA FLORESTA OMBRÓFILA DENSA DE SANTA CATARINA Síndrome de dispersão Estágio sucessional Total Pioneira Secundária Climácica Não classificada Zoocoria 106 264 137 57 564 Anemocoria 32 64 5 6 107 Autocoria 16 20 6 7 49 Não classificada 0 0 0 3 3 Total 154 348 148 73 723 FONTE: Adaptado de Gasper et al. (2014) 6.2 GRÁFICOS Além da estatística descritiva e de tabelas, também podemos utilizar gráficos para organizar e resumir dados. A partir de agora você conhecerá os principais tipos de gráficos que podem ser usados para apresentar dados. UNIDADE 1 | FUNDAMENTOS EM ESTATÍSTICA 30 6.2.1 Gráfico de barras O gráfico de barras é utilizado para representar a distribuição de frequência de variáveis nominais ou ordinais (PAGANO; GAUVREAU, 2013). Em um plano cartesiano, no eixo horizontal (eixo x) são apresentadas as categorias em que as unidades amostrais foram classificadas. O eixo vertical (eixo y) representa a frequência absoluta ou relativa das observações dentro de cada categoria e obedece a uma escala. Sobre cada categoria no eixo horizontal são desenhadas barras. A altura de cada barra corresponde à frequência absoluta ou relativa em que cada categoria foi observada. As barras devem ter a mesma largura
Compartilhar