Baixe o app para aproveitar ainda mais
Prévia do material em texto
Fundamentos de estatística e epidemologia Aula 3: Noções básicas de Estatística Apresentação Falaremos sobre os processos básicos da disciplina, destacando as estatísticas descritiva e inferencial. Além disso, será possível compreender as medidas de tendência central veri�cando a mediana, moda, o desvio padrão, média e distribuição de dados utilizados pela ferramenta do Excel. Veri�caremos as características dos testes de hipóteses utilizando as probabilidades dos testes estatísticos. Objetivos Identi�car as diferenças entre estatísticas descritiva e inferencial; Analisar os testes de hipóteses com as características de probabilidades; Examinar a criação dos grá�cos gerados a partir da estatística descritiva. Estatística descritiva A estatística descritiva trata da apuração, apresentação, análise e interpretação dos dados observados. Ela tem o objetivo de resumir e organizar a informação relevante de uma massa de dados a partir de um conjunto de medidas por meio de representações grá�cas. Além disso, a partir dos dados resumidos, procura analisar alguma regularidade ou algum padrão nas observações. Por meio dessa análise inicial, é possível identi�car se os dados seguem algum modelo conhecido que permita estudar o fenômeno sob análise, ou se é necessário sugerir um novo modelo. As medidas descritivas são designadas por parâmetros, quando os dados se referem a uma população, e por estatísticas, quando dizem respeito a uma amostra. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Dica Na estatística descritiva, a análise incide sobre as características relevantes dos elementos que constituem as amostras e as populações. Cada característica é normalmente uma variável, uma vez que os elementos podem ter diferentes posicionamentos relativos a essa característica. Medidas de tendência central Os valores que, em estatísticas, caracterizam os valores médios são chamados de medidas de tendência central. Entre as principais medidas de tendência central, destacam-se a média aritmética, a moda e a mediana. StockSnap (Fonte: Pixabay). 1. Média aritmética Trata-se do protótipo das medidas de tendência central de�nido como o quociente entre a soma de todos os valores da variável e o número de elementos desta. Ela representa a abscissa do centro de gravidade do sistema formado pelos valores da variável com massas iguais às respectivas frequências absolutas. Geralmente, é um valor que não pertence ao conjunto original de dados, podendo não ter existência real. É simbolizado pela variável encimada por uma barra. Vantagens do emprego da média aritmética Como faz uso de todos os dados para o seu cálculo, pode ser determinada com precisão matemática. Pode ser determinada quando somente o valor total e o número de elementos forem conhecidos. Desvantagens do emprego da média aritmética Não pode ser empregada para dados qualitativos. Como a média é calculada a partir de todos os valores observados, apresenta o inconveniente de se tornar muito sensível a valores aberrantes ou outeliers, podendo, em alguns casos, não representar a série de forma satisfatória. Em distribuições de frequência em que o limite inferior da primeira classe ou o limite superior da última classe não forem de�nidos, a média não poderá ser calculada. 2. Moda Como o próprio nome indica, é o valor que ocorre com maior frequência em um conjunto de valores. Em outras palavras, é o valor que está na moda. As distribuições que apresentam uma moda única são chamadas de unimodais; duas modas, bimodais; mais de duas modas, multimodais. Existem ainda distribuições que não apresentam nenhuma moda, as chamadas amodais. Vantagens do emprego da moda É de uso prático. Exempli�cando: os empregadores geralmente adotam a referência modal de salário, ou seja, o salário pago por muitos outros empregadores. Além disso, carros e roupas são produzidos tomando como referência o tamanho modal. Pode ser empregada para dados qualitativos. A moda é geralmente um valor verdadeiro e, por conseguinte, pode se mostrar mais real e coerente. Desvantagens do emprego da moda Não inclui todos os valores de uma distribuição. Mostra-se ine�ciente quando a distribuição é largamente dispersa. 3. Mediana A mediana é o valor que centra um conjunto de valores ordenados, isto é, que o divide em duas partes de frequências iguais. Para fazermos o cálculo da mediana, precisamos considerar três casos: a variável em estudo é discreta, e n (número de termos) é ímpar.Nesse caso, a mediana será o valor da variável que ocupa o posto de ordem n+1 2 a variável em estudo é discreta, e n (número de termos) é par. Nesse caso, não existirá no conjunto ordenado um valor que ocupe o valor central, isto é, a mediana será indeterminada, pois qualquer valor compreendido entre os valores que ocupem os postos de ordem pode ser considerado o centro da ordenação. Dessa forma, por de�nição, a mediana será a média aritmética dos valores queocupam os referidos postos. e n 2 n+2 2 a variável é contínua. Em tal caso, a mediana é calculada sem levar em consideração se o número de termos da distribuição é par ou ímpar. A fórmula empregada para seu cálculo é a mesma utilizada para os percentis. 4. Desvio padrão O desvio padrão é o protótipo das medidas de dispersão em virtude de suas propriedades matemáticas e de seu uso na teoria da amostragem. A expressão matemática para o desvio padrão para dados não agrupados é dada por: Para dados agrupados, a expressão matemática para o desvio padrão assume a forma: Onde corresponde ao número de observações da série. σ = ∑ i=l n ( − )Xi X − 2 n − −−−−−−−− √ σ = ∑ i=l n ( − )Xi X − 2 fi n − −−−−−−−−−− √ n = ∑ni=l fi Analisando a fórmula proposta para o cálculo do desvio padrão, torna-se possível concluir que: quanto menor for o desvio padrão, mais aproximados estarão os valores da variável de sua média; se o desvio padrão for zero, então todos os valores da variável serão iguais; se o desvio padrão for grande, os valores da variável estarão muito afastados de sua média. A análise estatística pode se limitar a uma descrição dos resultados – estatística descritiva –, ou fazer uma análise dos dados – estatística inferencial. A importância da análise estatística é saber qual a probabilidade (valor de p), sendo responsável pelo resultado encontrado na pesquisa. A Estatística é a ciência que apresenta processos próprios para coletar, apresentar e interpretar adequadamente conjuntos de dados, sejam eles numéricos ou não. Pode-se dizer que seu objetivo é apresentar informações sobre dados em análise, para que se tenha maior compreensão dos fatos que eles representam. A estatística descritiva, como o próprio nome já diz, preocupa-se em descrever os dados. Por sua vez, a estatística inferencial, fundamentada na teoria das probabilidades, atenta-se para a análise desses dados e sua interpretação. 6689062 (Fonte: Pixabay). Estatística Inferencial Na estatística inferencial, deveremos utilizar as abordagens de estimativa dos resultados que são apresentados com intervalos de con�ança e utilizar o teste de hipóteses, no qual os resultados são apresentados como valores de P (P de probabilidade) por meio de testes estatísticos. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online StockSnap (Fonte: Pixabay). Teste estatístico de hipóteses A importância do teste estatístico de hipóteses é reconhecida pelos pesquisadores que aplicam o método cientí�co hipotético- dedutivo em busca de evidências, por meio da observação do fenômeno da natureza na construção do conhecimento cientí�co, em favor de uma hipótese ou contra. Se houver evidências em favor da hipótese testada, usando as informações provenientes de amostras, então ela não será rejeitada; caso contrário, será descartada. O método estatístico de testar hipóteses considera que as amostras sofrem a in�uência de fatores casuais,aleatórios, que, por mais que sejam pouco in�uentes, fazem com que os dados observados apresentem alguma variação. Ou seja, as unidades amostrais apresentarão respostas variadas, quantitativas ou categorizadas, que oscilarão em torno de um valor mais provável ou mais frequente. Essa variação induz a certa imprecisão, a qual in�uenciará na avaliação dos resultados. O teste estatístico de hipótese baseia-se na avaliação de distribuições de probabilidade provocadas pela variabilidade do fenômeno e representa um critério não subjetivo de encontrar evidências para falsear ou não a hipótese testada. Como tal avaliação é probabilística, as decisões podem incorrer em erros, como rejeitar uma hipótese que não deveria ser rejeitada ou não rejeitar uma hipótese que deveria ser rejeitada. Exemplo temos os testes auxiliares de diagnóstico, que podem incorrer em desfechos indevidos, como nos casos a seguir: em uma prova tuberculínica, o resultado do exame foi negativo, mas, na verdade, o indivíduo era portador de tuberculose – erro tipo falso- negativo; em outra, o resultado do exame foi positivo, mas o indivíduo estava sadio – erro tipo falso-positivo. 1 Se o estudo quer veri�car se há associação entre o consumo de álcool (fato de exposição), em gramas diárias, e incidência de câncer de esôfago (doença), então H0 seria “não há associação entre a incidência de câncer de esôfago e o consumo de álcool”; 2 Se o estudo pretende comparar o efeito de dois medicamentos, A e B, sobre a glicemia de pacientes com diabetes, então H0 seria “a média de glicemia de A é igual à de B”; 3 Se um estudo epidemiológico pretende comparar os coe�cientes de mortalidade infantil padronizados de duas cidades, então H0 seria “os coe�cientes são iguais”. Nesses exemplos, as hipóteses nulas partem da condição de igualdade, da nulidade de efeitos, que serão rejeitadas se houver evidências contrárias. No caso de haver a rejeição da hipótese nula, uma hipótese alternativa (H1) deve ser adotada. Nos exemplos anteriores, em: 1. H1 seria “a incidência da doença está associada à presença do fator de exposição”; 2. H1 seria “a média de glicemia do medicamento A difere da de B”; 3. H1 seria “os coe�cientes não são iguais”. A estatística, como instrumento do processo de decisão não subjetiva sobre essas hipóteses, tem como objetivo o conhecimento das medidas de probabilidade desses erros. Das combinações possíveis entre a hipótese nula e a decisão do investigador, podem resultar dois acertos e dois erros. Os acertos seriam a rejeição de falsa e a não rejeição de uma verdadeira; ou detecção de associação quando ela existe e rejeição de associação quando ela não existe. Por outro lado, pode ocorrer de ser verdadeira e o investigador rejeitá-la, o que caracteriza o erro do tipo I, cuja probabilidade de ocorrência é dada por α, sendo conhecido como nível de signi�cância, cujo valor é de�nido no planejamento do estudo de forma arbitrária. H0 H0 H0 Por convenção, o valor de α praticado na literatura é 5% (α = 0,05). Atualmente, com as facilidades computacionais, é comum encontrar publicações que mostrem o valor exato observado dessa medida de probabilidade, dando origem ao termo “valor p” (p-value). Aplicação dos conceitos do software Excel Grá�cos no Excel Os grá�cos são usados para facilitar o entendimento e o relacionamento entre diferentes séries de dados, exibindo-as em um formato grá�co. Dica Para criarmos um grá�co no Excel, primeiro inserimos os dados em uma planilha e, depois, criamos o grá�co. Assim, o Excel vincula automaticamente os dados ao grá�co, para que, caso sejam alterados, o grá�co seja atualizado automaticamente. Termos do grá�co Você deve estar familiarizado com a terminologia do grá�co para saber o nome do objeto que deseja modi�car / adicionar etc. Um estilo típico de grá�co teria um eixo X (horizontal) e um eixo Y (vertical). Tipos de grá�cos Abaixo, encontram-se algumas diretrizes gerais para selecionar o melhor tipo de grá�co para os dados que você deseja apresentar. Coluna – mostra alterações de dados durante determinado período ou ilustra comparações entre itens. Linha – mostra tendências nos dados em intervalos iguais. Torta – mostra o tamanho proporcional dos itens que compõem uma série de dados; mostra apenas 1 série de dados. Barra – ilustra comparações entre itens individuais. Área – enfatiza a magnitude da mudança ao longo do tempo. XY (dispersão) – mostra relações entre valores numéricos em várias séries de dados ou plota dois grupos de números como uma série de coordenadas XY. Estoque – mede o volume e possui dois eixos; um para medir o volume e o outro para medir o preço das ações. Superfície – mostra combinações ideais entre dois conjuntos de dados (como um mapa topográ�co). Rosquinha – mostra o relacionamento das partes com um todo, como uma torta, mas pode conter > 1 série de dados. Bolha – tipo de grá�co de dispersão; compara 3 conjuntos de valores com o terceiro exibido no tamanho de uma bolha. Radar – cada categoria tem seu próprio eixo de valor irradiando do ponto central. Cone, cilindro e pirâmide – criam os efeitos especi�cados usando marcadores de dados modelados em grá�cos 3D de colunas e barras. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Abaixo, encontram-se algumas diretrizes gerais para selecionar o melhor tipo de grá�co para os dados que você deseja apresentar. Coluna mostra alterações de dados durante determinado período ou ilustra comparações entre itens. Linha mostra tendências nos dados em intervalos iguais. Torta mostra o tamanho proporcional dos itens que compõem uma série de dados; mostra apenas 1 série de dados. Barra ilustra comparações entre itens individuais. Área enfatiza a magnitude da mudança ao longo do tempo. XY (dispersão) mostra relações entre valores numéricos em várias séries de dados ou plota dois grupos de números como uma série de coordenadas XY. Estoque mede o volume e possui dois eixos; um para medir o volume e o outro para medir o preço das ações. Superfície mostra combinações ideais entre dois conjuntos de dados (como um mapa topográ�co). Rosquinha 01 02 03 04 05 06 07 08 09 mostra o relacionamento das partes com um todo, como uma torta, mas pode conter > 1 série de dados. Bolha tipo de grá�co de dispersão; compara 3 conjuntos de valores com o terceiro exibido no tamanho de uma bolha. Radar cada categoria tem seu próprio eixo de valor irradiando do ponto central. Cone, cilindro e pirâmide criam os efeitos especi�cados usando marcadores de dados modelados em grá�cos 3D de colunas e barras. Diretrizes para você criar um grá�co 01 Diferentes tipos de grá�cos são adequados para exibir diferentes conjuntos de dados. Por exemplo, um grá�co de pizza exibe apenas uma série de dados e, portanto, seria inadequado para tentar comparar mais de um intervalo de dados. 02 De modo geral, algo mais simples é melhor. Organizar um grá�co com dados desnecessários ou muitos objetos adicionais pode diluir a mensagem que você está tentando apresentar com um grá�co. 03 Pode ser necessário consolidar alguns dos seus dados para apresentá-los efetivamente em um grá�co. Por exemplo, você pode apresentar subtotais para suas categorias em vez de plotar itens de dados individuais. O uso do recurso de subtotais interno do Excel (guia Dados, subtotais) geralmente pode ser útil para resumir os dados antes de plotá-los. 10 11 12 04 Os grá�cos podem ser criados no Excel e colados em outros aplicativos, como PowerPoint ou Word. Por padrão, o grá�co é colado como um link, para que, caso os dados sejam alterados no Excel, a visualização do grá�co seja atualizada em qualquer outro aplicativo no qual foi colado. Atividade 1. As medidas estatísticas adotadas na construção de diagrama de controle das doenças são: a) Desvio médio e desvio. b) Mediana e desvio padrão. c) Média, mediana e desvio padrão. d) Média e desvio padrão. e) Média, moda e amplitude de variação. 2. Foi estabelecido que otempo de duração de todos os casos de uma doença era: 2, 4, 3, 5, 3, 6, 7, 5, 5 e 4 dias. Então, a média aritmética, a mediana e a moda (em dias) para a duração da doença são respectivamente: a) 4,4 - 4,5 e 5 b) 4,4 - 4,5 e 4 c) 4,3 - 4 e 5 d) 4,5 - 4,5 e 5 e) Nenhuma das respostas. 3. Na ___________, utilizamos abordagens com intervalos de con�ança, podendo utilizar testes de hipóteses que gerem probabilidades. Estamos falando da: a) Estatística descritiva. b) Estatística inferencial. c) Estatística simples . d) Estatística matemática. e) Nenhuma das respostas. Notas Referências DE OLIVEIRA, F. E. M. SPSS básico para análise de dados. [s.l.] Ciência Moderna, 2007. BARBETTA, P. A. Estatística aplicada às ciências sociais. [s.l.] Ed. da UFSC, 2007. PASSOS, A. D. C.; FRANCO, L. J. Fundamentos de epidemiologia. [s.l.] Manole, 2005. Próxima aula Etapas do método epidemiológico; Problematização na pesquisa epidemiológica; Os diferentes papéis, responsabilidades e autoridades organizacionais.Estratégias de formulação de hipóteses epidemiológicas. Explore mais Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor online por meio dos recursos disponíveis no ambiente de aprendizagem.
Compartilhar