Realização de análises estatísticas

•

UFF

0

Alison Fonseca

10/07/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.736 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Realização de análises estatísticas – orientações básicas:

1. Observe a base de dados disponível. Avalie os resultados possíveis de
cada uma de suas variáveis e classifique-as como qualitativas ou
quantitativas. Mesmo aquelas que aparecem como codificadas, onde
números foram associados a nomes, considere a natureza da
informação original para fazer sua classificação. Assim, por exemplo,
mesmo que sexo masculino e feminino estejam codificados,
respectivamente, como 1 e 2, as possíveis respostas dessa variável se
expressam como nomes e, então, ela deve ser classificada como
qualitativa.
2. Para as quantitativas, avalie em seguida se a quantidade de valores
distintos que ela pode ter é pequeno ou grande, de forma a poder
classificá-la como discreta ou contínua. Lembre que, além da quantidade
de valores, a ideia das discretas é que entre dois valores quaisquer
consecutivos não existe nenhum outro valor, enquanto que para as
variáveis contínuas, entre quaisquer dois valores apresentados existirá
uma infinidade de outros valores possíveis de serem observados.
3. Para as qualitativas, identifique quantas categorias diferentes cada uma
delas possui. Isso pode adiantar suas escolhas, depois.
4. Toda pesquisa, em geral, parte de uma abordagem mais global para
algo mais específico. Então, é comum que toda análise estatística parta
da análise exploratória (estatística descritiva) para outras metodologias
inferenciais, que vão tentando responder aos objetivos da pesquisa ou
às perguntas que foram formuladas pelo pesquisador.
5. Até o momento, com as ferramentas que vocês aprenderam até o
momento, o que é mais comum é:
a. avaliar o comportamento de uma variável (análise univariada) ou
b. avaliar a existência de relação/associação entre duas
informações (variáveis) medidas sobre o mesmo objeto de estudo
(análise bivariada).
6. Identifique, então, em cada objetivo ou pergunta a ser respondida,
quantas são as variáveis envolvidas? Uma? Duas? Se for apenas uma
variável envolvida, já sabe que precisa descrever o seu comportamento,
da forma mais completa possível e a ferramenta para isso é a Análise
Exploratória. Essa descrição está diretamente ligada à sua natureza:
qualitativa ou quantitativa. Se forem duas as variáveis envolvidas na
pergunta (são duas colunas da sua base de dados), então, precisa
identificar, para cada uma delas, qual é a sua natureza (novamente,
qualitativa ou quantitativa). Vamos, então, por partes, olhar as possíveis
opções:

1º caso: Uma variável apenas e ela é qualitativa:
Neste caso, as principais ferramentas estão associadas às
frequências. Então, pense logo em fazer uma tabela de frequências, mostrando
a frequência por categoria (possível resposta) da variável e um gráfico (colunas
ou barras ou em setores). Não tem mais o que fazer, em geral, por aqui.

2º caso: Uma variável apenas e ela é quantitativa:
Neste segundo caso, já temos mais coisas a explorar: medidas de
posição (média, mediana, moda, mínimo, máximo) e de dispersão (desvio
padrão, coeficiente de variação, amplitude total) são as principais estatísticas
descritivas a serem produzidas e comentadas. Não precisa produzir tudo, mas
é bom, no mínimo, falar de média, desvio padrão, mediana, mínimo e máximo.
Produzir e incluir, significa comentar. Não inclua o que não tiver interesse em
comentar. Além dessas, ainda existem medidas de assimetria e de curtose que
só devem ser usadas quando existir um propósito para isso bem claro – por
exemplo, você vai usar em outra análise a suposição de normalidade para a
distribuição da variável. E como gráficos, os principais são histograma, box
plot, barras de erro. Histograma e box plot se complementam e podem ajudar
no entendimento de outras inferências que podem nascer depois, com outros
objetivos da pesquisa.

3º caso: São duas variáveis e ambas são qualitativas – comparação de
amostras independentes quanto a uma variável qualitativa:
Em primeiro lugar, estabeleça quais e quantos são os grupos
sendo comparados quanto à outra informação qualitativa. Neste tipo de
situação, o mais comum é que o objetivo seja verificar se existe
associação entre as duas variáveis qualitativas.
Se ambas as variáveis são qualitativas, por sua natureza acabam
forçando a volta do aparecimento das frequências. Então, produza uma
tabela de contingência com as frequências de cada cruzamento (de
categorias) entre as duas variáveis. Se possível, inclua os totais de linha
e de coluna. Os gráficos mais usados para representar a distribuição
existente na tabela de contingência são o gráfico de colunas múltiplas
(em geral, baseado nas frequências absolutas) e o gráfico em colunas
totais (onde as colunas todas vão até 100% e são divididas
proporcionalmente à participação de cada categoria).
Para ter mais certeza se a distribuição de frequências de uma
variável está associada à distribuição de frequência da outra, rodamos o
teste de hipóteses. Pode ser feito com auxilio do teste exato de Fisher
(especialmente para tabelas 2x2) ou do teste de qui-quadrado de
independência (para tabelas maiores e “grandes” amostras – onde a
contagem esperada de casos sob a hipótese nula deve ser maior ou
igual a 5. Se for menor que isso, precisamos usar a correção de Yates ,
pelo menos). É importante saber definir bem as hipóteses nula
(conservadora, parte da igualdade, da não existência de diferença entre
os grupos sendo comparados) e alternativa (complementar à primeira).
Também é essencial definir o nível de significância com o qual tomar
decisões a partir dos resultados fornecidos pelas análises.
Faça tudo: a parte exploratória e o teste. Uma coisa completa a
outra. Se tiver mais de 2 grupos independentes (k grupos) sendo
comparados quanto à outra informação qualitativa, lembre que o
resultado do teste de hipóteses te indicará apenas se existe alguma
diferença entre os grupos (que estão sendo comparados) quanto à
distribuição de frequências na outra variável qualitativa.
Para saber, em caso afirmativo, onde estão (ou está a diferença),
é necessário comparar os k grupos 2 a 2, realizando um teste para cada
par de grupos e vendo onde a hipótese nula é rejeitada. Com essas
comparações múltiplas, tomando o cuidado para usar um nível de
significância que esteja, pelo menos, em torno do nível de significância
inicial dividido pelo número de comparações múltiplas realizadas (ideia
da correção pesada de Bonferroni), você conseguirá responder se um
grupo foi diferente de algum outro grupo e tirar uma conclusão mais
detalhada a respeito da forma de associação entre as duas variáveis
qualitativas consideradas.

4º caso: São duas variáveis e ambas são quantitativas:
Neste caso, se são pouquíssimos os valores distintos e a variável
pode ser considerada discreta, você quase pode considera-la qualitativa e
trabalhar com a ideia de categorias de valores e rodar as mesmas análises.
Mas, em geral, não é isso que acontece. O objetivo, em geral, por aqui é
verificar se existe alguma relação entre as duas variáveis e se é possível
identificar um padrão para essa relação.
Como sempre, a primeira avaliação a ser feita é de natureza
exploratória e o melhor instrumento para isso é o Diagrama de Dispersão
(scatterplot), onde os valores de cada variável são localizados (aos pares), em
eixos numéricos e cada objeto de estudo é representado através de pontos ou
bolinhas no(s) respectivo(s) quadrante(s). A ideia é que a nuvem formada pelos
pontos possa ser avaliada e que se busque identificar a existência (ou não) de
algum padrão matemático que pudesse relacionar as duas quantidades.Outra ferramenta importante que auxilia essa percepção a respeito de
uma eventual relação entre as variáveis é o coeficiente de correlação linear de
Pearson. Ele se chama “linear” porque mede, exatamente, se a relação entre
as duas variáveis pode ser considerada semelhante ao padrão de uma reta no
plano que é definido pelos eixos. Ele não mede se existe alguma relação
qualquer. Ele só avalia se essa relação pode ser enxergada como
minimamente linear. Seu valor varia entre -1 e +1, sendo os extremos
associados à linearidade perfeita (a nuvem de pontos formaria exatamente uma
reta e ela passaria por todos os pontos, sem exceção). O valor central desse
intervalo, o zero, identifica a ausência completa de relação linear entre as
variáveis. Pode até ser que a relação ainda exista, mas ela não teria nada de
linear (poderia ser, por exemplo, uma parábola ou hipérbole).
Existe um teste de hipóteses associado ao coeficiente de correlação
linear de Pearson. Esse teste está baseado na pressuposição que a
distribuição das variáveis pode ser modelada por uma Normal. Ainda assim, ele
é usado frequentemente sem essa preocupação. Esse teste tem por hipótese
nula que o valor do coeficiente de correlação linear de Pearson estimado
poderia ser considerado igual a zero. Se ele fosse considerado igual a zero,
então não haveria relação linear entre as duas variáveis. Se eu rejeito essa
hipótese, posso entender que o valor que estimei para esse coeficiente de
correlação não foi considerado próximo de zero.
Rejeitar essa hipótese não significa que a relação linear existe. Quando
ela existe? Quando além de rejeitar essa hipótese do teste sobre o coeficiente
de correlação linear, eu ainda encontro o valor absoluto (módulo) desse mesmo
coeficiente na faixa dos valores maiores ou iguais a 0,6. Valores entre 0,5
(inclusive) e abaixo de 0,6 são considerados apenas indicadores de uma
tendência à linearidade – desde que o teste anterior tenha rejeitado a
correspondente hipótese nula. Valores abaixo de 0,5 indicam inexistência de
relação linear entre as duas variáveis consideradas.
5º caso: São duas variáveis e uma é qualitativa e a outra, quantitativa:
Se uma delas é qualitativa e a outra é quantitativa, é importante
entender que, no momento, com as ferramentas disponíveis, você só pode
tentar explicar as variações na variável quantitativa a partir da mudança de
categoria da variável qualitativa. Ou seja, será que se eu mudar de grupo,
mudam, também, os valores (a distribuição) da variável quantitativa?
Então, a qualitativa sempre determinará os grupos que estão sendo
comparados e a variável quantitativa passará a ser enxergada como variável
dependente ou variável resposta. A principal ferramenta aqui sempre será um
teste de hipóteses, mas existem alguns coeficientes que medem associação ou
concordância, e que podem ser usados.
É importante frisar que análises pareadas também podem se encaixar
aqui, quando, por exemplo, temos 2 grupos - antes e depois – sendo
comparados quanto a uma variável quantitativa.
Nessa abordagem, podemos ter comparação de amostras (grupos)
independentes (quando a entrada em 1 grupo exclui, automaticamente, a
participação em outro grupo) ou de amostras pareadas. Lembre, neste
momento, de contar quantos são os grupos ou as situações que estão sendo
comparadas no seu problema. Então, vamos subdividir ainda mais as
situações...
A) Comparação de 2 amostras independentes (grupos) quanto a uma
variável quantitativa
Na comparação de 2 grupos quanto a 1 variável quantitativa, é
importante fazer uma análise exploratória dessa variável quantitativa
dentro de cada grupo, ou fazer gráficos comparando as distribuições
dos grupos (como um box plot múltiplo ou um histograma por grupo),
para se perceber se parece existir alguma diferença entre os grupos
quanto àquela variável. Essa percepção será complementada pelos
testes de hipóteses.
Aqui, o próximo passo é perguntar a respeito da suposição de
normalidade porque testes paramétricos – como o teste t – estão
baseadas na suposição que, dentro de cada grupo, a distribuição de
probabilidade da variável resposta segue um modelo Normal.
Para verificar se essa suposição pode ser aceita, podemos usar
medidas de assimetria, histograma, ou teste de hipóteses que
medem a similaridade entre a distribuição empírica e o modelo
Normal. Use um punhado de ferramentas se puder, para tomar sua
decisão, com confiança, a respeito da adequação ao modelo Normal.
Se o modelo Normal puder ser adotado, pode-se partir para aplicar o
teste t. O único problema é, então, verificar antes se a hipótese de
igualdade de variância entre os grupos pode ou não ser aceita. Isso
pode ser feito por um teste F. Existe um teste t específico para
quanto ela pude e para quando essa hipótese não puder ser aceita.
Então, em primeiro lugar teste normalidade; se aceitar a hipótese
nula, teste a igualdade de variâncias e escolha o teste t – que
compara as médias dos 2 grupos –adequado.
Se a hipótese de normalidade para a distribuição da variável não
puder ser aceita em pelo menos 1 dos grupos sendo comparados,
então deve-se partir para uma abordagem não paramétrica, onde não
mais existe a necessidade de adequação ao modelo gaussiano.
Nessa nova situação, o teste adequado é o teste de Mann-Whitney
(ou Wilcoxon-Mann-Whitney) ou o teste da Mediana (que é uma
versão do teste de qui-quadrado, onde os dados de cada grupo são
comparados à mediana global (calculada com todos os valores de
todos os grupos) e são contados, dentro de cada grupo, quantos
valores estão abaixo e acima dessa mesma e única mediana dos
dados. Não esqueça de fixar antes seu nível de significância para
tomar as decisões a respeito da hipótese nula que propõe que os
dois conjuntos de valores (dos 2 grupos) foram amostrados de uma
mesma população. Em algumas versões do teste, isso é traduzido
através da comparação das medianas.
B) Comparação de 2 amostras pareadas quanto a uma variável
quantitativa
Nessa abordagem, a parte exploratória não muda. O que muda é que
os 2 valores foram tomados no mesmo indivíduo e esse efeito
“indivíduo” precisa ser descontado. A análise exploratória continua a
mesma. Os testes é que mudam. Nesse caso, para a abordagem
paramétrica, existe um teste t para amostras pareadas (tendo a
necessidade de verificar similaridade entre as variâncias, antes).
Já para a abordagem não paramétrica, os testes adequados são o
teste do sinal ou o teste de Wilcoxon para amostras pareadas.
Ambos trabalham sobre as diferenças observadas entre as situações
(por exemplo, olhando a diferença entre o peso depois e o peso
antes da dieta). A única diferença é que o teste do sinal só olha se
essa subtração deu origem a um número positivo ou negativo ou ao
valor zero (que não é considerado na análise) enquanto que o teste
de Wilcoxon quer saber o tamanho absoluto dessas diferenças entre
os valores e, por isso, inclui a informação dos postos (ranks, que
indicam a posição do valor na série ordenada). Para tomar decisão,
precisará de novo do nível de significância.
C) Comparação de k  2 amostras independentes (grupos) quanto a
uma variável quantitativa
Quando temos mais de 2 grupos (o caso de 2 até está incluído, mas
é redundante aqui, uma vez que já o apresentamos antes),
permanecem as mesmas ferramentas de análise exploratória e a
aceitação da suposição de normalidade é que vai determinar se
utilizaremos análise de variância (com suposição de normalidade
válida – abordagem paramétrica) ou o teste não paramétrico de
Kruskal-Wallis (abordagem não paramétrica). Em ambos os casos,quando rejeitamos a hipótese de semelhança entre as distribuições
dos valores (da variável resposta) entre os grupos, é necessário
realizar comparações múltiplas para identificar que grupos são
diferentes entre si em relação à variável resposta. Então, a
comparação 2 a 2 na análise de variância está atrelada à realização
de testes t e, no caso da abordagem não paramétrica, à realização
de testes de Wilcoxon-Mann-Whitney para identificar quem é
diferente de quem. Novamente, o nível de significância adotado em
cada teste dessa comparação múltipla deve ser igual ao nível de
significância global (usado na anova ou no Kruskal-Wallis) dividido
pelo número de comparações múltiplas a realizar.
D) Comparação de k  2 amostras pareadas quanto a uma variável
quantitativa
Nessa abordagem, a parte exploratória não muda. Quando a
comparação é entre amostras pareadas, a anova continua
funcionando para a abordagem paramétrica e o teste de Friedman no
caso da abordagem não paramétrica. As comparações múltiplas são
feitas, no primeiro caso, com testes t pareados e, no segundo caso,
usando o teste de Wilcoxon. Novamente, é necessária a correção
sobre o nível de significância adotado em cada teste da comparação
múltipla.

OBS: Lembre-se que antes da realização de testes de hipóteses é preciso
definir as hipóteses nula e alternativa, que estão sendo avaliadas. E que a
análise exploratória é a base para toda boa tomada de decisão.