Buscar

Bioestatística (Módulo 2)- Análise exploratória de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Módulo 2 
Análise exploratória de dados 
Há duas grandes áreas de inferência estatística: 
 
 
 as estatísticas de amostra são usadas para gerar 
estimativas sobre parâmetros de população desconhecidos. 
 uma declaração específica ou hipótese é 
gerado sobre um parâmetro de população, e as estatísticas da 
amostra são usadas para avaliar a probabilidade de que a 
hipótese seja verdadeira. 
 
 
 
Estimativa é o processo de determinar um valor provável para 
um parâmetro de população (p. ex., a verdadeira média da 
população ou proporção da população) com base em uma 
amostra aleatória. Na prática, selecionamos uma amostra da 
população e usamos estatísticas da amostra (p. ex., a média da 
amostra ou a proporção da amostra) para estimar o parâmetro 
desconhecido. As técnicas para estimativa, bem como para 
outros procedimentos em inferência estatística, dependem da 
classificação adequada da principal variável do estudo (que 
também chamamos de resultado ou meta final) como contínua 
ou dicotômica. 
 
 
 
 
 
 
 
 
A segunda área de inferência estatística é o teste de hipóteses. 
No teste de hipóteses, uma declaração específica ou hipótese é 
gerada sobre um parâmetro de população, e as estatísticas da 
amostra são usadas para avaliar a probabilidade de que a 
hipótese seja verdadeira. 
 
O processo de teste de hipóteses envolve estabelecer duas 
hipóteses que competem entre si: 
 Uma reflete nenhuma diferença, nenhuma associação 
ou nenhum efeito (chamada hipótese nula), se mantem 
ate que seja provado o contrario. 
 A outra reflete a convicção do pesquisador (chamada 
de hipótese ou alternativa de pesquisa). 
 
 
Estimativa Testes de 
hipóteses 
 
Hipótese nula Hipótese de 
pesquisa 
 
 (nenhuma alteração) 
Convicção do 
pesquisador 
O procedimento para teste de hipóteses é baseado nas ideias 
descritas anteriormente. Definimos hipóteses concorrentes, 
selecionamos uma amostra aleatória da população de 
interesse e computamos as estatísticas de resumo. Em 
seguida, determinamos se os dados da amostra sustentam a 
hipótese nula ou alternativa. O procedimento pode ser 
dividido nas cinco etapas a seguir. 
 
 
 Primeira etapa: Definir a hipótese e determinar o nível de significância 
H0: Hipótese nula (nenhuma alteração, nenhuma diferença), 
H1: Hipótese de pesquisa (convicção do pesquisador), α = 0,05. 
A hipótese de pesquisa ou alternativa pode tomar uma das três formas. Um pesquisador pode acreditar que o parâmetro aumentou, 
diminuiu ou foi alterado. 
1. H1: μ> μ0, em que μ0 é o comparador ou valor nulo e um aumento é a hipótese – esse tipo de teste é chamado de teste de 
cauda superior. 
2. H1: μ< μ0, em que uma diminuição é a hipótese – chamado de teste de cauda inferior. 
3. H1: μ≠ μ0, em que uma diferença é a hipótese – chamado de teste bicaudal. 
 
 
 
A estatística de teste é um único número que resume a informação da amostra. Um exemplo de uma estatística de teste é a estatística z 
computada como: 
 
 
 
 
 
A regra de decisão é uma declaração que diz sob quais circunstâncias rejeitar a hipótese nula. A regra de decisão é baseada em valores 
específicos da estatística de teste. A regra de decisão para um teste específico depende de três fatores: 
 
 
 
 
 a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for maior que o valor crítico ou 
igual a ele. 
 a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for menor que o valor crítico ou 
igual a ele. 
 a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for extrema – maior que um valor crítico 
superior ou igual a ele, ou menor que um valor crítico inferior ou igual a ele. 
 
 
 
Computar a estatística de teste. Aqui computamos a estatística de teste substituindo os dados da amostra observados na estatística de 
teste identificada na Etapa 2. 
 
Segunda etapa: Selecionar a estatística de teste adequada 
 
Terceira etapa: Definir a regra de decisão 
Regra de decisão depende se é proposto um teste de: 
 Cauda superior, 
 Inferior ou 
 Bicaudal. 
 A hipótese de pesquisa, 
 A estatística de teste e 
 O nível de significância. 
 
Quarta etapa: Computar a estatística de teste 
 
 
 
 
A conclusão final é feita comparando-se a estatística de teste (que é um resumo das informações observadas na amostra) com a regra de 
decisão. A conclusão final é, ou rejeitar a hipótese nula (pois os dados da amostra são muito improváveis se a hipótese nula for 
verdadeira) ou não rejeitar a hipótese nula (pois os dados da amostra não são muito improváveis). 
 
Quinta etapa: Conclusão 
 
 
Métodos estatísticos multivariaveis são usados para avaliar as 
inter-relações entre diversos fatores de risco ou variáveis de 
exposição e um único resultado. 
O uso de técnicas de modelagem multivariável para abordar 
confusão. 
 como uma distorção do efeito de uma exposição ou 
fator de risco em um resultado por outra característica ou 
variável. 
 ocorre quando há uma relação diferente 
entre a exposição ou fator de risco e o resultado, dependendo do 
nível de outra característica ou variável. 
 
 
 
Para facilitar esse tipo de envolvimento, as tabelas e figuras 
devem ser configuradas de modo que forneçam, aos leitores ou 
consumidores, os dados corretos e suficientemente detalhados 
para tornar as comparações válidas e para descobrir o 
significado, conforme eles exploram os dados ou resultados 
estatísticos. Conjunto de princípios voltado para exibições 
gráficas, mas também aplicável a demonstrações tabulares são 
os princípios de CONVINCE para a visualização de dados 
eficiente. Os princípios de CONVINCE são consistentes com 
aqueles estabelecidos por Tufte, mas reforçam questões 
essenciais e são fáceis de lembrar pelo acrônimo: 
 Comunicar significado: com identificação clara de títulos, 
eixos, legendas, variáveis, linhas e colunas. 
 Objetividade: na apresentação, que é maximizada com 
dimensionamento justo de eixos de modo que os dados e 
resultados estatísticos não sejam ocultados ou 
exagerados. 
 Verdade visual: novamente exigindo o uso adequado de 
tipos específicos de tabelas e gráficos, junto com o 
dimensionamento e a identificação que apresentam 
dados de modo honesto e equilibrado. 
 Imaginar o público reforçar a noção de que nós, 
enquanto desenvolvedores de tabelas e figuras, devemos 
conhecer nosso público, o que eles precisam saber e 
como podemos melhor atender suas necessidades por 
meio da nossa entrega. 
 Notabilidade: um princípio específico que talvez seja 
mais evidente em exibições gráficas, pelas quais os 
leitores ou consumidores conseguem acessar mais dados 
ou níveis adicionais de detalhes, caso precisem ou 
queiram se aprofundar mais. Isso talvez seja mais bem 
atingido através de gráficos interativos. 
 Contexto: um princípio que se sobrepõe aos princípios 
de Tufte, estimulando-nos a oferecer, aos leitores ou 
consumidores, contexto suficiente para entender a 
pergunta de interesse e sua importância, e depois, dados 
e resultados estatísticos adequados, de modo que eles 
possam tirar conclusões válidas. 
 Encorajar a interação: envolver os leitores e 
consumidores para que se interessem pelos dados e os 
explorem mais a fundo. 
Um terceiro conjunto de princípios vem de Steven Few, que 
sugere oito ideias ou princípios nucleares para a visualização de 
dados. 5 Mais uma vez, os princípios de Few são voltados para 
figuras, mas, de modo geral, podem ser aplicados para tabelas e 
figuras. Ele nos obriga a: 
 Simplificar: os dados e resultados estatísticos para a 
apresentação. Esse é sempre um equilíbrio delicado, já 
que nunca queremos simplificar demais os dados, para 
não correr o risco de perder nuances importante, mas 
encontrar o ponto em que essas nuances fique claras e 
os dados sejam compreendidos. Comparar: Devemos desenvolver tabelas e figuras que 
permitam aos leitores fazer comparações válidas, de 
modo que possam interpretar diferenças, efeitos e 
impacto. 
 Explorar: Devemos desenvolver tabelas e figuras que 
permitam aos leitores explorar os dados e descobrir 
coisas por conta própria. 
 Comparecer: Princípio se refere à nossa necessidade de 
entender os leitores ou consumidores dos dados ou 
resultados estatísticos, para que possamos comunicar, 
mais efetivamente, nossos resultados. 
 Garantir a diversidade: Sugerem que os dados devem 
ser apresentados sob diferentes pontos de vista para 
incentivar a diversidade de interpretações. Apresentar 
dados e resultados estatísticos que sejam amplamente 
acessíveis a públicos diversificados. Devemos considerar 
os níveis de alfabetização, o histórico educacional e 
diferentes perspectivas do nosso público. 
 
 
 Ser cético: Enquanto criadores e consumidores de dados 
e resultados estatísticos, devemos questionar o que 
vemos. 
 Responder: A noção aqui diz respeito a compartilhar 
dados e resultados estatísticos. Como bioestatísticos, 
certamente focamos a coleta, a administração e a análise 
dos dados. Um aspecto adicional essencial e necessário 
do nosso trabalho é a comunicação dos resultados. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Boas tabelas têm um título claro e conciso. 
 deve ser suficientemente claro para que o leitor não 
precise voltar ao texto para entender o que está sendo mostrado 
na tabela. O título deve descrever o que está sendo mostrado 
entre quem (ou seja, principais grupos de comparação) e quando. 
Não deve ter mais de duas linhas e deve aparecer na parte 
superior da tabela. 
 (tamanhos da amostra, médias, percentuais, resultados 
de testes estatísticos) compõem o corpo da tabela. 
são, muitas vezes, organizadas dentro da tabela para 
estabelecer as comparações mais importantes dos dados. 
de uma tabela (às vezes chamada de estrutura da 
tabela) deveram levar em consideração as comparações de 
interesse. 
 da coluna devem ser suficientemente concisos 
para que não ultrapassem uma linha. Um cabeçalho por coluna é o 
suficiente, já que mais de um cabeçalho pode gerar confusão. 
 que muitas vezes são vistas em 
planilhas, são desnecessárias em tabelas; na verdade, podem 
dificultar a leitura dos dados em uma tabela. Deve haver 
algumas linhas, se for o caso, no corpo da tabela. A tabela deve 
usar espaçamento consistente e as colunas devem estar 
razoavelmente perto para facilitar as comparações de 
interesse. 
 
 
 
 podem ser usadas para fornecer 
informações adicionais necessárias para interpretar os dados 
ou resultados estatísticos apresentados na tabela. Todas as 
abreviações e símbolos podem ser esclarecidos nas notas de 
rodapé. A decisão de usar ou não abreviações depende do 
público. Se o público estiver familiarizado com as abreviações, 
elas podem promover a legibilidade. Se o público não estiver 
familiarizado com as abreviações, elas dão mais trabalho para 
localizar as definições. 
 
 
 
 
 
 
 
 
 
Apenas um tipo deve ser usado em uma tabela; 
itálico, negrito e outros destaques devem ser usados com 
moderação, se necessário. O uso de negrito pode ser útil 
quando houver grande quantidade de dados para entender e 
pode ser útil chamar a atenção para aspectos específicos dos 
dados. 
 
 
Se desejarmos demonstrar os dados coletados em uma 
amostra de estudo pequena, uma boa opção para uma variável 
contínua é um gráfico dotplots (gráfico de pontos). 
 mostram observações reais, em 
oposição a estatísticas de resumo, assim, são adequados para 
pequenas amostras. 
 
 
Devemos destacar os elementos importantes, sermos claros 
em nosso processo (quais etapas seguimos e por que), para 
garantir que o leitor ou o consumidor possa focar nos 
aspectos mais importantes dos dados e resultados 
estatísticos. Nossa meta final é nos certificarmos de que 
nossa mensagem seja precisa, clara e inesquecível. 
 
O objetivo é a clareza – criar uma tabela que permita que 
o leitor ou o consumidor se aprimore sobre as principais 
mensagens dos dados e resultados estatísticos. 
É uma boa prática rascunhar estruturas de tabelas, ou 
modelos, antes de começar uma análise estatística. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Gráficos de barras são usados para resumir variáveis dicotômicas 
e categóricas e são consideradas as figuras mais fáceis de 
construir e entender. Um gráfico de barras é uma exibição gráfica 
adequada. As barras de um gráfico de barras podem ser verticais 
ou horizontais; podemos demonstrar frequências ou frequências 
relativas – a que fizer mais sentido para transmitir a mensagem 
desejada. 
 
 
 
 
Histogramas são usados para resumir as distribuições de 
variáveis ordinais. Histogramas podem ser feitos para mostrar 
frequências ou frequências relativas – a que for melhor para 
transmitir a mensagem. O histograma, também conhecido 
como distribuição de frequências, é a representação gráfica em 
colunas ou em barras de um conjunto de dados previamente 
tabulado e dividido em classes uniformes ou não uniformes. 
 
 
Barras 
 
 Histogramas 
Dispersão 
São figuras úteis para mostrar associações entre duas variáveis 
contínuas – frequentemente, um resultado contínuo ou 
variável dependente (Y) e um indicador contínuo (X). São 
representações de dados de duas ou mais variáveis que são 
organizadas em um gráfico. O gráfico de dispersão utiliza 
coordenadas cartesianas para exibir valores de um conjunto de 
dados. Analisa a relação entre duas variáveis quantitativas — 
uma de causa e uma de efeito. 
 
Precisam ser construídos cuidadosamente, já que podem levar 
a leituras erradas. 
 
 
 
 
Gráficos de pizza é um tipo popular de exibição gráfica, mas, em 
geral, não recomendamos seu uso porque podem ser bastante 
difíceis de interpretar. Os gráficos de pizza foram feitos para 
representar graficamente os vários componentes de um todo (p. 
ex., o percentual de distribuição de uma categoria única ou 
variável ordinal). Infelizmente, pode ser difícil para os leitores e 
consumidores diferenciar, com precisão, os tamanhos dos 
segmentos que compõem o gráfico de pizza, ou comparar 
precisamente os segmentos entre gráficos de pizza. 
 
 Pizza

Outros materiais

Outros materiais