Baixe o app para aproveitar ainda mais
Prévia do material em texto
Módulo 2 Análise exploratória de dados Há duas grandes áreas de inferência estatística: as estatísticas de amostra são usadas para gerar estimativas sobre parâmetros de população desconhecidos. uma declaração específica ou hipótese é gerado sobre um parâmetro de população, e as estatísticas da amostra são usadas para avaliar a probabilidade de que a hipótese seja verdadeira. Estimativa é o processo de determinar um valor provável para um parâmetro de população (p. ex., a verdadeira média da população ou proporção da população) com base em uma amostra aleatória. Na prática, selecionamos uma amostra da população e usamos estatísticas da amostra (p. ex., a média da amostra ou a proporção da amostra) para estimar o parâmetro desconhecido. As técnicas para estimativa, bem como para outros procedimentos em inferência estatística, dependem da classificação adequada da principal variável do estudo (que também chamamos de resultado ou meta final) como contínua ou dicotômica. A segunda área de inferência estatística é o teste de hipóteses. No teste de hipóteses, uma declaração específica ou hipótese é gerada sobre um parâmetro de população, e as estatísticas da amostra são usadas para avaliar a probabilidade de que a hipótese seja verdadeira. O processo de teste de hipóteses envolve estabelecer duas hipóteses que competem entre si: Uma reflete nenhuma diferença, nenhuma associação ou nenhum efeito (chamada hipótese nula), se mantem ate que seja provado o contrario. A outra reflete a convicção do pesquisador (chamada de hipótese ou alternativa de pesquisa). Estimativa Testes de hipóteses Hipótese nula Hipótese de pesquisa (nenhuma alteração) Convicção do pesquisador O procedimento para teste de hipóteses é baseado nas ideias descritas anteriormente. Definimos hipóteses concorrentes, selecionamos uma amostra aleatória da população de interesse e computamos as estatísticas de resumo. Em seguida, determinamos se os dados da amostra sustentam a hipótese nula ou alternativa. O procedimento pode ser dividido nas cinco etapas a seguir. Primeira etapa: Definir a hipótese e determinar o nível de significância H0: Hipótese nula (nenhuma alteração, nenhuma diferença), H1: Hipótese de pesquisa (convicção do pesquisador), α = 0,05. A hipótese de pesquisa ou alternativa pode tomar uma das três formas. Um pesquisador pode acreditar que o parâmetro aumentou, diminuiu ou foi alterado. 1. H1: μ> μ0, em que μ0 é o comparador ou valor nulo e um aumento é a hipótese – esse tipo de teste é chamado de teste de cauda superior. 2. H1: μ< μ0, em que uma diminuição é a hipótese – chamado de teste de cauda inferior. 3. H1: μ≠ μ0, em que uma diferença é a hipótese – chamado de teste bicaudal. A estatística de teste é um único número que resume a informação da amostra. Um exemplo de uma estatística de teste é a estatística z computada como: A regra de decisão é uma declaração que diz sob quais circunstâncias rejeitar a hipótese nula. A regra de decisão é baseada em valores específicos da estatística de teste. A regra de decisão para um teste específico depende de três fatores: a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for maior que o valor crítico ou igual a ele. a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for menor que o valor crítico ou igual a ele. a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for extrema – maior que um valor crítico superior ou igual a ele, ou menor que um valor crítico inferior ou igual a ele. Computar a estatística de teste. Aqui computamos a estatística de teste substituindo os dados da amostra observados na estatística de teste identificada na Etapa 2. Segunda etapa: Selecionar a estatística de teste adequada Terceira etapa: Definir a regra de decisão Regra de decisão depende se é proposto um teste de: Cauda superior, Inferior ou Bicaudal. A hipótese de pesquisa, A estatística de teste e O nível de significância. Quarta etapa: Computar a estatística de teste A conclusão final é feita comparando-se a estatística de teste (que é um resumo das informações observadas na amostra) com a regra de decisão. A conclusão final é, ou rejeitar a hipótese nula (pois os dados da amostra são muito improváveis se a hipótese nula for verdadeira) ou não rejeitar a hipótese nula (pois os dados da amostra não são muito improváveis). Quinta etapa: Conclusão Métodos estatísticos multivariaveis são usados para avaliar as inter-relações entre diversos fatores de risco ou variáveis de exposição e um único resultado. O uso de técnicas de modelagem multivariável para abordar confusão. como uma distorção do efeito de uma exposição ou fator de risco em um resultado por outra característica ou variável. ocorre quando há uma relação diferente entre a exposição ou fator de risco e o resultado, dependendo do nível de outra característica ou variável. Para facilitar esse tipo de envolvimento, as tabelas e figuras devem ser configuradas de modo que forneçam, aos leitores ou consumidores, os dados corretos e suficientemente detalhados para tornar as comparações válidas e para descobrir o significado, conforme eles exploram os dados ou resultados estatísticos. Conjunto de princípios voltado para exibições gráficas, mas também aplicável a demonstrações tabulares são os princípios de CONVINCE para a visualização de dados eficiente. Os princípios de CONVINCE são consistentes com aqueles estabelecidos por Tufte, mas reforçam questões essenciais e são fáceis de lembrar pelo acrônimo: Comunicar significado: com identificação clara de títulos, eixos, legendas, variáveis, linhas e colunas. Objetividade: na apresentação, que é maximizada com dimensionamento justo de eixos de modo que os dados e resultados estatísticos não sejam ocultados ou exagerados. Verdade visual: novamente exigindo o uso adequado de tipos específicos de tabelas e gráficos, junto com o dimensionamento e a identificação que apresentam dados de modo honesto e equilibrado. Imaginar o público reforçar a noção de que nós, enquanto desenvolvedores de tabelas e figuras, devemos conhecer nosso público, o que eles precisam saber e como podemos melhor atender suas necessidades por meio da nossa entrega. Notabilidade: um princípio específico que talvez seja mais evidente em exibições gráficas, pelas quais os leitores ou consumidores conseguem acessar mais dados ou níveis adicionais de detalhes, caso precisem ou queiram se aprofundar mais. Isso talvez seja mais bem atingido através de gráficos interativos. Contexto: um princípio que se sobrepõe aos princípios de Tufte, estimulando-nos a oferecer, aos leitores ou consumidores, contexto suficiente para entender a pergunta de interesse e sua importância, e depois, dados e resultados estatísticos adequados, de modo que eles possam tirar conclusões válidas. Encorajar a interação: envolver os leitores e consumidores para que se interessem pelos dados e os explorem mais a fundo. Um terceiro conjunto de princípios vem de Steven Few, que sugere oito ideias ou princípios nucleares para a visualização de dados. 5 Mais uma vez, os princípios de Few são voltados para figuras, mas, de modo geral, podem ser aplicados para tabelas e figuras. Ele nos obriga a: Simplificar: os dados e resultados estatísticos para a apresentação. Esse é sempre um equilíbrio delicado, já que nunca queremos simplificar demais os dados, para não correr o risco de perder nuances importante, mas encontrar o ponto em que essas nuances fique claras e os dados sejam compreendidos. Comparar: Devemos desenvolver tabelas e figuras que permitam aos leitores fazer comparações válidas, de modo que possam interpretar diferenças, efeitos e impacto. Explorar: Devemos desenvolver tabelas e figuras que permitam aos leitores explorar os dados e descobrir coisas por conta própria. Comparecer: Princípio se refere à nossa necessidade de entender os leitores ou consumidores dos dados ou resultados estatísticos, para que possamos comunicar, mais efetivamente, nossos resultados. Garantir a diversidade: Sugerem que os dados devem ser apresentados sob diferentes pontos de vista para incentivar a diversidade de interpretações. Apresentar dados e resultados estatísticos que sejam amplamente acessíveis a públicos diversificados. Devemos considerar os níveis de alfabetização, o histórico educacional e diferentes perspectivas do nosso público. Ser cético: Enquanto criadores e consumidores de dados e resultados estatísticos, devemos questionar o que vemos. Responder: A noção aqui diz respeito a compartilhar dados e resultados estatísticos. Como bioestatísticos, certamente focamos a coleta, a administração e a análise dos dados. Um aspecto adicional essencial e necessário do nosso trabalho é a comunicação dos resultados. Boas tabelas têm um título claro e conciso. deve ser suficientemente claro para que o leitor não precise voltar ao texto para entender o que está sendo mostrado na tabela. O título deve descrever o que está sendo mostrado entre quem (ou seja, principais grupos de comparação) e quando. Não deve ter mais de duas linhas e deve aparecer na parte superior da tabela. (tamanhos da amostra, médias, percentuais, resultados de testes estatísticos) compõem o corpo da tabela. são, muitas vezes, organizadas dentro da tabela para estabelecer as comparações mais importantes dos dados. de uma tabela (às vezes chamada de estrutura da tabela) deveram levar em consideração as comparações de interesse. da coluna devem ser suficientemente concisos para que não ultrapassem uma linha. Um cabeçalho por coluna é o suficiente, já que mais de um cabeçalho pode gerar confusão. que muitas vezes são vistas em planilhas, são desnecessárias em tabelas; na verdade, podem dificultar a leitura dos dados em uma tabela. Deve haver algumas linhas, se for o caso, no corpo da tabela. A tabela deve usar espaçamento consistente e as colunas devem estar razoavelmente perto para facilitar as comparações de interesse. podem ser usadas para fornecer informações adicionais necessárias para interpretar os dados ou resultados estatísticos apresentados na tabela. Todas as abreviações e símbolos podem ser esclarecidos nas notas de rodapé. A decisão de usar ou não abreviações depende do público. Se o público estiver familiarizado com as abreviações, elas podem promover a legibilidade. Se o público não estiver familiarizado com as abreviações, elas dão mais trabalho para localizar as definições. Apenas um tipo deve ser usado em uma tabela; itálico, negrito e outros destaques devem ser usados com moderação, se necessário. O uso de negrito pode ser útil quando houver grande quantidade de dados para entender e pode ser útil chamar a atenção para aspectos específicos dos dados. Se desejarmos demonstrar os dados coletados em uma amostra de estudo pequena, uma boa opção para uma variável contínua é um gráfico dotplots (gráfico de pontos). mostram observações reais, em oposição a estatísticas de resumo, assim, são adequados para pequenas amostras. Devemos destacar os elementos importantes, sermos claros em nosso processo (quais etapas seguimos e por que), para garantir que o leitor ou o consumidor possa focar nos aspectos mais importantes dos dados e resultados estatísticos. Nossa meta final é nos certificarmos de que nossa mensagem seja precisa, clara e inesquecível. O objetivo é a clareza – criar uma tabela que permita que o leitor ou o consumidor se aprimore sobre as principais mensagens dos dados e resultados estatísticos. É uma boa prática rascunhar estruturas de tabelas, ou modelos, antes de começar uma análise estatística. Gráficos de barras são usados para resumir variáveis dicotômicas e categóricas e são consideradas as figuras mais fáceis de construir e entender. Um gráfico de barras é uma exibição gráfica adequada. As barras de um gráfico de barras podem ser verticais ou horizontais; podemos demonstrar frequências ou frequências relativas – a que fizer mais sentido para transmitir a mensagem desejada. Histogramas são usados para resumir as distribuições de variáveis ordinais. Histogramas podem ser feitos para mostrar frequências ou frequências relativas – a que for melhor para transmitir a mensagem. O histograma, também conhecido como distribuição de frequências, é a representação gráfica em colunas ou em barras de um conjunto de dados previamente tabulado e dividido em classes uniformes ou não uniformes. Barras Histogramas Dispersão São figuras úteis para mostrar associações entre duas variáveis contínuas – frequentemente, um resultado contínuo ou variável dependente (Y) e um indicador contínuo (X). São representações de dados de duas ou mais variáveis que são organizadas em um gráfico. O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. Analisa a relação entre duas variáveis quantitativas — uma de causa e uma de efeito. Precisam ser construídos cuidadosamente, já que podem levar a leituras erradas. Gráficos de pizza é um tipo popular de exibição gráfica, mas, em geral, não recomendamos seu uso porque podem ser bastante difíceis de interpretar. Os gráficos de pizza foram feitos para representar graficamente os vários componentes de um todo (p. ex., o percentual de distribuição de uma categoria única ou variável ordinal). Infelizmente, pode ser difícil para os leitores e consumidores diferenciar, com precisão, os tamanhos dos segmentos que compõem o gráfico de pizza, ou comparar precisamente os segmentos entre gráficos de pizza. Pizza
Compartilhar