Bioestatística (Módulo 2)- Análise exploratória de dados

•

FADERGS

5

0

5

0

1

Amanda Girelli Mensal pd IV

28/01/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.319 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Módulo 2
Análise exploratória de dados
Há duas grandes áreas de inferência estatística:

as estatísticas de amostra são usadas para gerar
estimativas sobre parâmetros de população desconhecidos.
uma declaração específica ou hipótese é
gerado sobre um parâmetro de população, e as estatísticas da
amostra são usadas para avaliar a probabilidade de que a
hipótese seja verdadeira.

Estimativa é o processo de determinar um valor provável para
um parâmetro de população (p. ex., a verdadeira média da
população ou proporção da população) com base em uma
amostra aleatória. Na prática, selecionamos uma amostra da
população e usamos estatísticas da amostra (p. ex., a média da
amostra ou a proporção da amostra) para estimar o parâmetro
desconhecido. As técnicas para estimativa, bem como para
outros procedimentos em inferência estatística, dependem da
classificação adequada da principal variável do estudo (que
também chamamos de resultado ou meta final) como contínua
ou dicotômica.

A segunda área de inferência estatística é o teste de hipóteses.
No teste de hipóteses, uma declaração específica ou hipótese é
gerada sobre um parâmetro de população, e as estatísticas da
amostra são usadas para avaliar a probabilidade de que a
hipótese seja verdadeira.

O processo de teste de hipóteses envolve estabelecer duas
hipóteses que competem entre si:
 Uma reflete nenhuma diferença, nenhuma associação
ou nenhum efeito (chamada hipótese nula), se mantem
ate que seja provado o contrario.
 A outra reflete a convicção do pesquisador (chamada
de hipótese ou alternativa de pesquisa).

Estimativa Testes de
hipóteses

Hipótese nula Hipótese de
pesquisa

(nenhuma alteração)
Convicção do
pesquisador
O procedimento para teste de hipóteses é baseado nas ideias
descritas anteriormente. Definimos hipóteses concorrentes,
selecionamos uma amostra aleatória da população de
interesse e computamos as estatísticas de resumo. Em
seguida, determinamos se os dados da amostra sustentam a
hipótese nula ou alternativa. O procedimento pode ser
dividido nas cinco etapas a seguir.

Primeira etapa: Definir a hipótese e determinar o nível de significância
H0: Hipótese nula (nenhuma alteração, nenhuma diferença),
H1: Hipótese de pesquisa (convicção do pesquisador), α = 0,05.
A hipótese de pesquisa ou alternativa pode tomar uma das três formas. Um pesquisador pode acreditar que o parâmetro aumentou,
diminuiu ou foi alterado.
1. H1: μ> μ0, em que μ0 é o comparador ou valor nulo e um aumento é a hipótese – esse tipo de teste é chamado de teste de
cauda superior.
2. H1: μ< μ0, em que uma diminuição é a hipótese – chamado de teste de cauda inferior.
3. H1: μ≠ μ0, em que uma diferença é a hipótese – chamado de teste bicaudal.

A estatística de teste é um único número que resume a informação da amostra. Um exemplo de uma estatística de teste é a estatística z
computada como:

A regra de decisão é uma declaração que diz sob quais circunstâncias rejeitar a hipótese nula. A regra de decisão é baseada em valores
específicos da estatística de teste. A regra de decisão para um teste específico depende de três fatores:

a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for maior que o valor crítico ou
igual a ele.
a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for menor que o valor crítico ou
igual a ele.
a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for extrema – maior que um valor crítico
superior ou igual a ele, ou menor que um valor crítico inferior ou igual a ele.

Computar a estatística de teste. Aqui computamos a estatística de teste substituindo os dados da amostra observados na estatística de
teste identificada na Etapa 2.

Segunda etapa: Selecionar a estatística de teste adequada

Terceira etapa: Definir a regra de decisão
Regra de decisão depende se é proposto um teste de:
 Cauda superior,
 Inferior ou
 Bicaudal.
 A hipótese de pesquisa,
 A estatística de teste e
 O nível de significância.

Quarta etapa: Computar a estatística de teste

A conclusão final é feita comparando-se a estatística de teste (que é um resumo das informações observadas na amostra) com a regra de
decisão. A conclusão final é, ou rejeitar a hipótese nula (pois os dados da amostra são muito improváveis se a hipótese nula for
verdadeira) ou não rejeitar a hipótese nula (pois os dados da amostra não são muito improváveis).

Quinta etapa: Conclusão

Métodos estatísticos multivariaveis são usados para avaliar as
inter-relações entre diversos fatores de risco ou variáveis de
exposição e um único resultado.
O uso de técnicas de modelagem multivariável para abordar
confusão.
como uma distorção do efeito de uma exposição ou
fator de risco em um resultado por outra característica ou
variável.
ocorre quando há uma relação diferente
entre a exposição ou fator de risco e o resultado, dependendo do
nível de outra característica ou variável.

Para facilitar esse tipo de envolvimento, as tabelas e figuras
devem ser configuradas de modo que forneçam, aos leitores ou
consumidores, os dados corretos e suficientemente detalhados
para tornar as comparações válidas e para descobrir o
significado, conforme eles exploram os dados ou resultados
estatísticos. Conjunto de princípios voltado para exibições
gráficas, mas também aplicável a demonstrações tabulares são
os princípios de CONVINCE para a visualização de dados
eficiente. Os princípios de CONVINCE são consistentes com
aqueles estabelecidos por Tufte, mas reforçam questões
essenciais e são fáceis de lembrar pelo acrônimo:
 Comunicar significado: com identificação clara de títulos,
eixos, legendas, variáveis, linhas e colunas.
 Objetividade: na apresentação, que é maximizada com
dimensionamento justo de eixos de modo que os dados e
resultados estatísticos não sejam ocultados ou
exagerados.
 Verdade visual: novamente exigindo o uso adequado de
tipos específicos de tabelas e gráficos, junto com o
dimensionamento e a identificação que apresentam
dados de modo honesto e equilibrado.
 Imaginar o público reforçar a noção de que nós,
enquanto desenvolvedores de tabelas e figuras, devemos
conhecer nosso público, o que eles precisam saber e
como podemos melhor atender suas necessidades por
meio da nossa entrega.
 Notabilidade: um princípio específico que talvez seja
mais evidente em exibições gráficas, pelas quais os
leitores ou consumidores conseguem acessar mais dados
ou níveis adicionais de detalhes, caso precisem ou
queiram se aprofundar mais. Isso talvez seja mais bem
atingido através de gráficos interativos.
 Contexto: um princípio que se sobrepõe aos princípios
de Tufte, estimulando-nos a oferecer, aos leitores ou
consumidores, contexto suficiente para entender a
pergunta de interesse e sua importância, e depois, dados
e resultados estatísticos adequados, de modo que eles
possam tirar conclusões válidas.
 Encorajar a interação: envolver os leitores e
consumidores para que se interessem pelos dados e os
explorem mais a fundo.
Um terceiro conjunto de princípios vem de Steven Few, que
sugere oito ideias ou princípios nucleares para a visualização de
dados. 5 Mais uma vez, os princípios de Few são voltados para
figuras, mas, de modo geral, podem ser aplicados para tabelas e
figuras. Ele nos obriga a:
 Simplificar: os dados e resultados estatísticos para a
apresentação. Esse é sempre um equilíbrio delicado, já
que nunca queremos simplificar demais os dados, para
não correr o risco de perder nuances importante, mas
encontrar o ponto em que essas nuances fique claras e
os dados sejam compreendidos. Comparar: Devemos desenvolver tabelas e figuras que
permitam aos leitores fazer comparações válidas, de
modo que possam interpretar diferenças, efeitos e
impacto.
 Explorar: Devemos desenvolver tabelas e figuras que
permitam aos leitores explorar os dados e descobrir
coisas por conta própria.
 Comparecer: Princípio se refere à nossa necessidade de
entender os leitores ou consumidores dos dados ou
resultados estatísticos, para que possamos comunicar,
mais efetivamente, nossos resultados.
 Garantir a diversidade: Sugerem que os dados devem
ser apresentados sob diferentes pontos de vista para
incentivar a diversidade de interpretações. Apresentar
dados e resultados estatísticos que sejam amplamente
acessíveis a públicos diversificados. Devemos considerar
os níveis de alfabetização, o histórico educacional e
diferentes perspectivas do nosso público.

 Ser cético: Enquanto criadores e consumidores de dados
e resultados estatísticos, devemos questionar o que
vemos.
 Responder: A noção aqui diz respeito a compartilhar
dados e resultados estatísticos. Como bioestatísticos,
certamente focamos a coleta, a administração e a análise
dos dados. Um aspecto adicional essencial e necessário
do nosso trabalho é a comunicação dos resultados.

Boas tabelas têm um título claro e conciso.
deve ser suficientemente claro para que o leitor não
precise voltar ao texto para entender o que está sendo mostrado
na tabela. O título deve descrever o que está sendo mostrado
entre quem (ou seja, principais grupos de comparação) e quando.
Não deve ter mais de duas linhas e deve aparecer na parte
superior da tabela.
(tamanhos da amostra, médias, percentuais, resultados
de testes estatísticos) compõem o corpo da tabela.
são, muitas vezes, organizadas dentro da tabela para
estabelecer as comparações mais importantes dos dados.
de uma tabela (às vezes chamada de estrutura da
tabela) deveram levar em consideração as comparações de
interesse.
da coluna devem ser suficientemente concisos
para que não ultrapassem uma linha. Um cabeçalho por coluna é o
suficiente, já que mais de um cabeçalho pode gerar confusão.
que muitas vezes são vistas em
planilhas, são desnecessárias em tabelas; na verdade, podem
dificultar a leitura dos dados em uma tabela. Deve haver
algumas linhas, se for o caso, no corpo da tabela. A tabela deve
usar espaçamento consistente e as colunas devem estar
razoavelmente perto para facilitar as comparações de
interesse.

podem ser usadas para fornecer
informações adicionais necessárias para interpretar os dados
ou resultados estatísticos apresentados na tabela. Todas as
abreviações e símbolos podem ser esclarecidos nas notas de
rodapé. A decisão de usar ou não abreviações depende do
público. Se o público estiver familiarizado com as abreviações,
elas podem promover a legibilidade. Se o público não estiver
familiarizado com as abreviações, elas dão mais trabalho para
localizar as definições.

Apenas um tipo deve ser usado em uma tabela;
itálico, negrito e outros destaques devem ser usados com
moderação, se necessário. O uso de negrito pode ser útil
quando houver grande quantidade de dados para entender e
pode ser útil chamar a atenção para aspectos específicos dos
dados.

Se desejarmos demonstrar os dados coletados em uma
amostra de estudo pequena, uma boa opção para uma variável
contínua é um gráfico dotplots (gráfico de pontos).
mostram observações reais, em
oposição a estatísticas de resumo, assim, são adequados para
pequenas amostras.

Devemos destacar os elementos importantes, sermos claros
em nosso processo (quais etapas seguimos e por que), para
garantir que o leitor ou o consumidor possa focar nos
aspectos mais importantes dos dados e resultados
estatísticos. Nossa meta final é nos certificarmos de que
nossa mensagem seja precisa, clara e inesquecível.

O objetivo é a clareza – criar uma tabela que permita que
o leitor ou o consumidor se aprimore sobre as principais
mensagens dos dados e resultados estatísticos.
É uma boa prática rascunhar estruturas de tabelas, ou
modelos, antes de começar uma análise estatística.

Gráficos de barras são usados para resumir variáveis dicotômicas
e categóricas e são consideradas as figuras mais fáceis de
construir e entender. Um gráfico de barras é uma exibição gráfica
adequada. As barras de um gráfico de barras podem ser verticais
ou horizontais; podemos demonstrar frequências ou frequências
relativas – a que fizer mais sentido para transmitir a mensagem
desejada.

Histogramas são usados para resumir as distribuições de
variáveis ordinais. Histogramas podem ser feitos para mostrar
frequências ou frequências relativas – a que for melhor para
transmitir a mensagem. O histograma, também conhecido
como distribuição de frequências, é a representação gráfica em
colunas ou em barras de um conjunto de dados previamente
tabulado e dividido em classes uniformes ou não uniformes.

Barras

Histogramas
Dispersão
São figuras úteis para mostrar associações entre duas variáveis
contínuas – frequentemente, um resultado contínuo ou
variável dependente (Y) e um indicador contínuo (X). São
representações de dados de duas ou mais variáveis que são
organizadas em um gráfico. O gráfico de dispersão utiliza
coordenadas cartesianas para exibir valores de um conjunto de
dados. Analisa a relação entre duas variáveis quantitativas —
uma de causa e uma de efeito.

Precisam ser construídos cuidadosamente, já que podem levar
a leituras erradas.

Gráficos de pizza é um tipo popular de exibição gráfica, mas, em
geral, não recomendamos seu uso porque podem ser bastante
difíceis de interpretar. Os gráficos de pizza foram feitos para
representar graficamente os vários componentes de um todo (p.
ex., o percentual de distribuição de uma categoria única ou
variável ordinal). Infelizmente, pode ser difícil para os leitores e
consumidores diferenciar, com precisão, os tamanhos dos
segmentos que compõem o gráfico de pizza, ou comparar
precisamente os segmentos entre gráficos de pizza.

Pizza