Buscar

Realização de análises estatísticas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Realização de análises estatísticas – orientações básicas: 
 
1. Observe a base de dados disponível. Avalie os resultados possíveis de 
cada uma de suas variáveis e classifique-as como qualitativas ou 
quantitativas. Mesmo aquelas que aparecem como codificadas, onde 
números foram associados a nomes, considere a natureza da 
informação original para fazer sua classificação. Assim, por exemplo, 
mesmo que sexo masculino e feminino estejam codificados, 
respectivamente, como 1 e 2, as possíveis respostas dessa variável se 
expressam como nomes e, então, ela deve ser classificada como 
qualitativa. 
2. Para as quantitativas, avalie em seguida se a quantidade de valores 
distintos que ela pode ter é pequeno ou grande, de forma a poder 
classificá-la como discreta ou contínua. Lembre que, além da quantidade 
de valores, a ideia das discretas é que entre dois valores quaisquer 
consecutivos não existe nenhum outro valor, enquanto que para as 
variáveis contínuas, entre quaisquer dois valores apresentados existirá 
uma infinidade de outros valores possíveis de serem observados. 
3. Para as qualitativas, identifique quantas categorias diferentes cada uma 
delas possui. Isso pode adiantar suas escolhas, depois. 
4. Toda pesquisa, em geral, parte de uma abordagem mais global para 
algo mais específico. Então, é comum que toda análise estatística parta 
da análise exploratória (estatística descritiva) para outras metodologias 
inferenciais, que vão tentando responder aos objetivos da pesquisa ou 
às perguntas que foram formuladas pelo pesquisador. 
5. Até o momento, com as ferramentas que vocês aprenderam até o 
momento, o que é mais comum é: 
a. avaliar o comportamento de uma variável (análise univariada) ou 
b. avaliar a existência de relação/associação entre duas 
informações (variáveis) medidas sobre o mesmo objeto de estudo 
(análise bivariada). 
6. Identifique, então, em cada objetivo ou pergunta a ser respondida, 
quantas são as variáveis envolvidas? Uma? Duas? Se for apenas uma 
variável envolvida, já sabe que precisa descrever o seu comportamento, 
da forma mais completa possível e a ferramenta para isso é a Análise 
Exploratória. Essa descrição está diretamente ligada à sua natureza: 
qualitativa ou quantitativa. Se forem duas as variáveis envolvidas na 
pergunta (são duas colunas da sua base de dados), então, precisa 
identificar, para cada uma delas, qual é a sua natureza (novamente, 
qualitativa ou quantitativa). Vamos, então, por partes, olhar as possíveis 
opções: 
 
1º caso: Uma variável apenas e ela é qualitativa: 
 Neste caso, as principais ferramentas estão associadas às 
frequências. Então, pense logo em fazer uma tabela de frequências, mostrando 
a frequência por categoria (possível resposta) da variável e um gráfico (colunas 
ou barras ou em setores). Não tem mais o que fazer, em geral, por aqui. 
 
2º caso: Uma variável apenas e ela é quantitativa: 
 Neste segundo caso, já temos mais coisas a explorar: medidas de 
posição (média, mediana, moda, mínimo, máximo) e de dispersão (desvio 
padrão, coeficiente de variação, amplitude total) são as principais estatísticas 
descritivas a serem produzidas e comentadas. Não precisa produzir tudo, mas 
é bom, no mínimo, falar de média, desvio padrão, mediana, mínimo e máximo. 
Produzir e incluir, significa comentar. Não inclua o que não tiver interesse em 
comentar. Além dessas, ainda existem medidas de assimetria e de curtose que 
só devem ser usadas quando existir um propósito para isso bem claro – por 
exemplo, você vai usar em outra análise a suposição de normalidade para a 
distribuição da variável. E como gráficos, os principais são histograma, box 
plot, barras de erro. Histograma e box plot se complementam e podem ajudar 
no entendimento de outras inferências que podem nascer depois, com outros 
objetivos da pesquisa. 
 
3º caso: São duas variáveis e ambas são qualitativas – comparação de 
amostras independentes quanto a uma variável qualitativa: 
Em primeiro lugar, estabeleça quais e quantos são os grupos 
sendo comparados quanto à outra informação qualitativa. Neste tipo de 
situação, o mais comum é que o objetivo seja verificar se existe 
associação entre as duas variáveis qualitativas. 
Se ambas as variáveis são qualitativas, por sua natureza acabam 
forçando a volta do aparecimento das frequências. Então, produza uma 
tabela de contingência com as frequências de cada cruzamento (de 
categorias) entre as duas variáveis. Se possível, inclua os totais de linha 
e de coluna. Os gráficos mais usados para representar a distribuição 
existente na tabela de contingência são o gráfico de colunas múltiplas 
(em geral, baseado nas frequências absolutas) e o gráfico em colunas 
totais (onde as colunas todas vão até 100% e são divididas 
proporcionalmente à participação de cada categoria). 
Para ter mais certeza se a distribuição de frequências de uma 
variável está associada à distribuição de frequência da outra, rodamos o 
teste de hipóteses. Pode ser feito com auxilio do teste exato de Fisher 
(especialmente para tabelas 2x2) ou do teste de qui-quadrado de 
independência (para tabelas maiores e “grandes” amostras – onde a 
contagem esperada de casos sob a hipótese nula deve ser maior ou 
igual a 5. Se for menor que isso, precisamos usar a correção de Yates , 
pelo menos). É importante saber definir bem as hipóteses nula 
(conservadora, parte da igualdade, da não existência de diferença entre 
os grupos sendo comparados) e alternativa (complementar à primeira). 
Também é essencial definir o nível de significância com o qual tomar 
decisões a partir dos resultados fornecidos pelas análises. 
Faça tudo: a parte exploratória e o teste. Uma coisa completa a 
outra. Se tiver mais de 2 grupos independentes (k grupos) sendo 
comparados quanto à outra informação qualitativa, lembre que o 
resultado do teste de hipóteses te indicará apenas se existe alguma 
diferença entre os grupos (que estão sendo comparados) quanto à 
distribuição de frequências na outra variável qualitativa. 
Para saber, em caso afirmativo, onde estão (ou está a diferença), 
é necessário comparar os k grupos 2 a 2, realizando um teste para cada 
par de grupos e vendo onde a hipótese nula é rejeitada. Com essas 
comparações múltiplas, tomando o cuidado para usar um nível de 
significância que esteja, pelo menos, em torno do nível de significância 
inicial dividido pelo número de comparações múltiplas realizadas (ideia 
da correção pesada de Bonferroni), você conseguirá responder se um 
grupo foi diferente de algum outro grupo e tirar uma conclusão mais 
detalhada a respeito da forma de associação entre as duas variáveis 
qualitativas consideradas. 
 
4º caso: São duas variáveis e ambas são quantitativas: 
 Neste caso, se são pouquíssimos os valores distintos e a variável 
pode ser considerada discreta, você quase pode considera-la qualitativa e 
trabalhar com a ideia de categorias de valores e rodar as mesmas análises. 
Mas, em geral, não é isso que acontece. O objetivo, em geral, por aqui é 
verificar se existe alguma relação entre as duas variáveis e se é possível 
identificar um padrão para essa relação. 
 Como sempre, a primeira avaliação a ser feita é de natureza 
exploratória e o melhor instrumento para isso é o Diagrama de Dispersão 
(scatterplot), onde os valores de cada variável são localizados (aos pares), em 
eixos numéricos e cada objeto de estudo é representado através de pontos ou 
bolinhas no(s) respectivo(s) quadrante(s). A ideia é que a nuvem formada pelos 
pontos possa ser avaliada e que se busque identificar a existência (ou não) de 
algum padrão matemático que pudesse relacionar as duas quantidades.Outra ferramenta importante que auxilia essa percepção a respeito de 
uma eventual relação entre as variáveis é o coeficiente de correlação linear de 
Pearson. Ele se chama “linear” porque mede, exatamente, se a relação entre 
as duas variáveis pode ser considerada semelhante ao padrão de uma reta no 
plano que é definido pelos eixos. Ele não mede se existe alguma relação 
qualquer. Ele só avalia se essa relação pode ser enxergada como 
minimamente linear. Seu valor varia entre -1 e +1, sendo os extremos 
associados à linearidade perfeita (a nuvem de pontos formaria exatamente uma 
reta e ela passaria por todos os pontos, sem exceção). O valor central desse 
intervalo, o zero, identifica a ausência completa de relação linear entre as 
variáveis. Pode até ser que a relação ainda exista, mas ela não teria nada de 
linear (poderia ser, por exemplo, uma parábola ou hipérbole). 
Existe um teste de hipóteses associado ao coeficiente de correlação 
linear de Pearson. Esse teste está baseado na pressuposição que a 
distribuição das variáveis pode ser modelada por uma Normal. Ainda assim, ele 
é usado frequentemente sem essa preocupação. Esse teste tem por hipótese 
nula que o valor do coeficiente de correlação linear de Pearson estimado 
poderia ser considerado igual a zero. Se ele fosse considerado igual a zero, 
então não haveria relação linear entre as duas variáveis. Se eu rejeito essa 
hipótese, posso entender que o valor que estimei para esse coeficiente de 
correlação não foi considerado próximo de zero. 
Rejeitar essa hipótese não significa que a relação linear existe. Quando 
ela existe? Quando além de rejeitar essa hipótese do teste sobre o coeficiente 
de correlação linear, eu ainda encontro o valor absoluto (módulo) desse mesmo 
coeficiente na faixa dos valores maiores ou iguais a 0,6. Valores entre 0,5 
(inclusive) e abaixo de 0,6 são considerados apenas indicadores de uma 
tendência à linearidade – desde que o teste anterior tenha rejeitado a 
correspondente hipótese nula. Valores abaixo de 0,5 indicam inexistência de 
relação linear entre as duas variáveis consideradas. 
5º caso: São duas variáveis e uma é qualitativa e a outra, quantitativa: 
Se uma delas é qualitativa e a outra é quantitativa, é importante 
entender que, no momento, com as ferramentas disponíveis, você só pode 
tentar explicar as variações na variável quantitativa a partir da mudança de 
categoria da variável qualitativa. Ou seja, será que se eu mudar de grupo, 
mudam, também, os valores (a distribuição) da variável quantitativa? 
Então, a qualitativa sempre determinará os grupos que estão sendo 
comparados e a variável quantitativa passará a ser enxergada como variável 
dependente ou variável resposta. A principal ferramenta aqui sempre será um 
teste de hipóteses, mas existem alguns coeficientes que medem associação ou 
concordância, e que podem ser usados. 
É importante frisar que análises pareadas também podem se encaixar 
aqui, quando, por exemplo, temos 2 grupos - antes e depois – sendo 
comparados quanto a uma variável quantitativa. 
Nessa abordagem, podemos ter comparação de amostras (grupos) 
independentes (quando a entrada em 1 grupo exclui, automaticamente, a 
participação em outro grupo) ou de amostras pareadas. Lembre, neste 
momento, de contar quantos são os grupos ou as situações que estão sendo 
comparadas no seu problema. Então, vamos subdividir ainda mais as 
situações... 
A) Comparação de 2 amostras independentes (grupos) quanto a uma 
variável quantitativa 
Na comparação de 2 grupos quanto a 1 variável quantitativa, é 
importante fazer uma análise exploratória dessa variável quantitativa 
dentro de cada grupo, ou fazer gráficos comparando as distribuições 
dos grupos (como um box plot múltiplo ou um histograma por grupo), 
para se perceber se parece existir alguma diferença entre os grupos 
quanto àquela variável. Essa percepção será complementada pelos 
testes de hipóteses. 
Aqui, o próximo passo é perguntar a respeito da suposição de 
normalidade porque testes paramétricos – como o teste t – estão 
baseadas na suposição que, dentro de cada grupo, a distribuição de 
probabilidade da variável resposta segue um modelo Normal. 
Para verificar se essa suposição pode ser aceita, podemos usar 
medidas de assimetria, histograma, ou teste de hipóteses que 
medem a similaridade entre a distribuição empírica e o modelo 
Normal. Use um punhado de ferramentas se puder, para tomar sua 
decisão, com confiança, a respeito da adequação ao modelo Normal. 
Se o modelo Normal puder ser adotado, pode-se partir para aplicar o 
teste t. O único problema é, então, verificar antes se a hipótese de 
igualdade de variância entre os grupos pode ou não ser aceita. Isso 
pode ser feito por um teste F. Existe um teste t específico para 
quanto ela pude e para quando essa hipótese não puder ser aceita. 
Então, em primeiro lugar teste normalidade; se aceitar a hipótese 
nula, teste a igualdade de variâncias e escolha o teste t – que 
compara as médias dos 2 grupos –adequado. 
Se a hipótese de normalidade para a distribuição da variável não 
puder ser aceita em pelo menos 1 dos grupos sendo comparados, 
então deve-se partir para uma abordagem não paramétrica, onde não 
mais existe a necessidade de adequação ao modelo gaussiano. 
Nessa nova situação, o teste adequado é o teste de Mann-Whitney 
(ou Wilcoxon-Mann-Whitney) ou o teste da Mediana (que é uma 
versão do teste de qui-quadrado, onde os dados de cada grupo são 
comparados à mediana global (calculada com todos os valores de 
todos os grupos) e são contados, dentro de cada grupo, quantos 
valores estão abaixo e acima dessa mesma e única mediana dos 
dados. Não esqueça de fixar antes seu nível de significância para 
tomar as decisões a respeito da hipótese nula que propõe que os 
dois conjuntos de valores (dos 2 grupos) foram amostrados de uma 
mesma população. Em algumas versões do teste, isso é traduzido 
através da comparação das medianas. 
B) Comparação de 2 amostras pareadas quanto a uma variável 
quantitativa 
Nessa abordagem, a parte exploratória não muda. O que muda é que 
os 2 valores foram tomados no mesmo indivíduo e esse efeito 
“indivíduo” precisa ser descontado. A análise exploratória continua a 
mesma. Os testes é que mudam. Nesse caso, para a abordagem 
paramétrica, existe um teste t para amostras pareadas (tendo a 
necessidade de verificar similaridade entre as variâncias, antes). 
Já para a abordagem não paramétrica, os testes adequados são o 
teste do sinal ou o teste de Wilcoxon para amostras pareadas. 
Ambos trabalham sobre as diferenças observadas entre as situações 
(por exemplo, olhando a diferença entre o peso depois e o peso 
antes da dieta). A única diferença é que o teste do sinal só olha se 
essa subtração deu origem a um número positivo ou negativo ou ao 
valor zero (que não é considerado na análise) enquanto que o teste 
de Wilcoxon quer saber o tamanho absoluto dessas diferenças entre 
os valores e, por isso, inclui a informação dos postos (ranks, que 
indicam a posição do valor na série ordenada). Para tomar decisão, 
precisará de novo do nível de significância. 
C) Comparação de k  2 amostras independentes (grupos) quanto a 
uma variável quantitativa 
Quando temos mais de 2 grupos (o caso de 2 até está incluído, mas 
é redundante aqui, uma vez que já o apresentamos antes), 
permanecem as mesmas ferramentas de análise exploratória e a 
aceitação da suposição de normalidade é que vai determinar se 
utilizaremos análise de variância (com suposição de normalidade 
válida – abordagem paramétrica) ou o teste não paramétrico de 
Kruskal-Wallis (abordagem não paramétrica). Em ambos os casos,quando rejeitamos a hipótese de semelhança entre as distribuições 
dos valores (da variável resposta) entre os grupos, é necessário 
realizar comparações múltiplas para identificar que grupos são 
diferentes entre si em relação à variável resposta. Então, a 
comparação 2 a 2 na análise de variância está atrelada à realização 
de testes t e, no caso da abordagem não paramétrica, à realização 
de testes de Wilcoxon-Mann-Whitney para identificar quem é 
diferente de quem. Novamente, o nível de significância adotado em 
cada teste dessa comparação múltipla deve ser igual ao nível de 
significância global (usado na anova ou no Kruskal-Wallis) dividido 
pelo número de comparações múltiplas a realizar. 
D) Comparação de k  2 amostras pareadas quanto a uma variável 
quantitativa 
Nessa abordagem, a parte exploratória não muda. Quando a 
comparação é entre amostras pareadas, a anova continua 
funcionando para a abordagem paramétrica e o teste de Friedman no 
caso da abordagem não paramétrica. As comparações múltiplas são 
feitas, no primeiro caso, com testes t pareados e, no segundo caso, 
usando o teste de Wilcoxon. Novamente, é necessária a correção 
sobre o nível de significância adotado em cada teste da comparação 
múltipla. 
 
OBS: Lembre-se que antes da realização de testes de hipóteses é preciso 
definir as hipóteses nula e alternativa, que estão sendo avaliadas. E que a 
análise exploratória é a base para toda boa tomada de decisão.

Continue navegando