Baixe o app para aproveitar ainda mais
Prévia do material em texto
Realização de análises estatísticas – orientações básicas: 1. Observe a base de dados disponível. Avalie os resultados possíveis de cada uma de suas variáveis e classifique-as como qualitativas ou quantitativas. Mesmo aquelas que aparecem como codificadas, onde números foram associados a nomes, considere a natureza da informação original para fazer sua classificação. Assim, por exemplo, mesmo que sexo masculino e feminino estejam codificados, respectivamente, como 1 e 2, as possíveis respostas dessa variável se expressam como nomes e, então, ela deve ser classificada como qualitativa. 2. Para as quantitativas, avalie em seguida se a quantidade de valores distintos que ela pode ter é pequeno ou grande, de forma a poder classificá-la como discreta ou contínua. Lembre que, além da quantidade de valores, a ideia das discretas é que entre dois valores quaisquer consecutivos não existe nenhum outro valor, enquanto que para as variáveis contínuas, entre quaisquer dois valores apresentados existirá uma infinidade de outros valores possíveis de serem observados. 3. Para as qualitativas, identifique quantas categorias diferentes cada uma delas possui. Isso pode adiantar suas escolhas, depois. 4. Toda pesquisa, em geral, parte de uma abordagem mais global para algo mais específico. Então, é comum que toda análise estatística parta da análise exploratória (estatística descritiva) para outras metodologias inferenciais, que vão tentando responder aos objetivos da pesquisa ou às perguntas que foram formuladas pelo pesquisador. 5. Até o momento, com as ferramentas que vocês aprenderam até o momento, o que é mais comum é: a. avaliar o comportamento de uma variável (análise univariada) ou b. avaliar a existência de relação/associação entre duas informações (variáveis) medidas sobre o mesmo objeto de estudo (análise bivariada). 6. Identifique, então, em cada objetivo ou pergunta a ser respondida, quantas são as variáveis envolvidas? Uma? Duas? Se for apenas uma variável envolvida, já sabe que precisa descrever o seu comportamento, da forma mais completa possível e a ferramenta para isso é a Análise Exploratória. Essa descrição está diretamente ligada à sua natureza: qualitativa ou quantitativa. Se forem duas as variáveis envolvidas na pergunta (são duas colunas da sua base de dados), então, precisa identificar, para cada uma delas, qual é a sua natureza (novamente, qualitativa ou quantitativa). Vamos, então, por partes, olhar as possíveis opções: 1º caso: Uma variável apenas e ela é qualitativa: Neste caso, as principais ferramentas estão associadas às frequências. Então, pense logo em fazer uma tabela de frequências, mostrando a frequência por categoria (possível resposta) da variável e um gráfico (colunas ou barras ou em setores). Não tem mais o que fazer, em geral, por aqui. 2º caso: Uma variável apenas e ela é quantitativa: Neste segundo caso, já temos mais coisas a explorar: medidas de posição (média, mediana, moda, mínimo, máximo) e de dispersão (desvio padrão, coeficiente de variação, amplitude total) são as principais estatísticas descritivas a serem produzidas e comentadas. Não precisa produzir tudo, mas é bom, no mínimo, falar de média, desvio padrão, mediana, mínimo e máximo. Produzir e incluir, significa comentar. Não inclua o que não tiver interesse em comentar. Além dessas, ainda existem medidas de assimetria e de curtose que só devem ser usadas quando existir um propósito para isso bem claro – por exemplo, você vai usar em outra análise a suposição de normalidade para a distribuição da variável. E como gráficos, os principais são histograma, box plot, barras de erro. Histograma e box plot se complementam e podem ajudar no entendimento de outras inferências que podem nascer depois, com outros objetivos da pesquisa. 3º caso: São duas variáveis e ambas são qualitativas – comparação de amostras independentes quanto a uma variável qualitativa: Em primeiro lugar, estabeleça quais e quantos são os grupos sendo comparados quanto à outra informação qualitativa. Neste tipo de situação, o mais comum é que o objetivo seja verificar se existe associação entre as duas variáveis qualitativas. Se ambas as variáveis são qualitativas, por sua natureza acabam forçando a volta do aparecimento das frequências. Então, produza uma tabela de contingência com as frequências de cada cruzamento (de categorias) entre as duas variáveis. Se possível, inclua os totais de linha e de coluna. Os gráficos mais usados para representar a distribuição existente na tabela de contingência são o gráfico de colunas múltiplas (em geral, baseado nas frequências absolutas) e o gráfico em colunas totais (onde as colunas todas vão até 100% e são divididas proporcionalmente à participação de cada categoria). Para ter mais certeza se a distribuição de frequências de uma variável está associada à distribuição de frequência da outra, rodamos o teste de hipóteses. Pode ser feito com auxilio do teste exato de Fisher (especialmente para tabelas 2x2) ou do teste de qui-quadrado de independência (para tabelas maiores e “grandes” amostras – onde a contagem esperada de casos sob a hipótese nula deve ser maior ou igual a 5. Se for menor que isso, precisamos usar a correção de Yates , pelo menos). É importante saber definir bem as hipóteses nula (conservadora, parte da igualdade, da não existência de diferença entre os grupos sendo comparados) e alternativa (complementar à primeira). Também é essencial definir o nível de significância com o qual tomar decisões a partir dos resultados fornecidos pelas análises. Faça tudo: a parte exploratória e o teste. Uma coisa completa a outra. Se tiver mais de 2 grupos independentes (k grupos) sendo comparados quanto à outra informação qualitativa, lembre que o resultado do teste de hipóteses te indicará apenas se existe alguma diferença entre os grupos (que estão sendo comparados) quanto à distribuição de frequências na outra variável qualitativa. Para saber, em caso afirmativo, onde estão (ou está a diferença), é necessário comparar os k grupos 2 a 2, realizando um teste para cada par de grupos e vendo onde a hipótese nula é rejeitada. Com essas comparações múltiplas, tomando o cuidado para usar um nível de significância que esteja, pelo menos, em torno do nível de significância inicial dividido pelo número de comparações múltiplas realizadas (ideia da correção pesada de Bonferroni), você conseguirá responder se um grupo foi diferente de algum outro grupo e tirar uma conclusão mais detalhada a respeito da forma de associação entre as duas variáveis qualitativas consideradas. 4º caso: São duas variáveis e ambas são quantitativas: Neste caso, se são pouquíssimos os valores distintos e a variável pode ser considerada discreta, você quase pode considera-la qualitativa e trabalhar com a ideia de categorias de valores e rodar as mesmas análises. Mas, em geral, não é isso que acontece. O objetivo, em geral, por aqui é verificar se existe alguma relação entre as duas variáveis e se é possível identificar um padrão para essa relação. Como sempre, a primeira avaliação a ser feita é de natureza exploratória e o melhor instrumento para isso é o Diagrama de Dispersão (scatterplot), onde os valores de cada variável são localizados (aos pares), em eixos numéricos e cada objeto de estudo é representado através de pontos ou bolinhas no(s) respectivo(s) quadrante(s). A ideia é que a nuvem formada pelos pontos possa ser avaliada e que se busque identificar a existência (ou não) de algum padrão matemático que pudesse relacionar as duas quantidades.Outra ferramenta importante que auxilia essa percepção a respeito de uma eventual relação entre as variáveis é o coeficiente de correlação linear de Pearson. Ele se chama “linear” porque mede, exatamente, se a relação entre as duas variáveis pode ser considerada semelhante ao padrão de uma reta no plano que é definido pelos eixos. Ele não mede se existe alguma relação qualquer. Ele só avalia se essa relação pode ser enxergada como minimamente linear. Seu valor varia entre -1 e +1, sendo os extremos associados à linearidade perfeita (a nuvem de pontos formaria exatamente uma reta e ela passaria por todos os pontos, sem exceção). O valor central desse intervalo, o zero, identifica a ausência completa de relação linear entre as variáveis. Pode até ser que a relação ainda exista, mas ela não teria nada de linear (poderia ser, por exemplo, uma parábola ou hipérbole). Existe um teste de hipóteses associado ao coeficiente de correlação linear de Pearson. Esse teste está baseado na pressuposição que a distribuição das variáveis pode ser modelada por uma Normal. Ainda assim, ele é usado frequentemente sem essa preocupação. Esse teste tem por hipótese nula que o valor do coeficiente de correlação linear de Pearson estimado poderia ser considerado igual a zero. Se ele fosse considerado igual a zero, então não haveria relação linear entre as duas variáveis. Se eu rejeito essa hipótese, posso entender que o valor que estimei para esse coeficiente de correlação não foi considerado próximo de zero. Rejeitar essa hipótese não significa que a relação linear existe. Quando ela existe? Quando além de rejeitar essa hipótese do teste sobre o coeficiente de correlação linear, eu ainda encontro o valor absoluto (módulo) desse mesmo coeficiente na faixa dos valores maiores ou iguais a 0,6. Valores entre 0,5 (inclusive) e abaixo de 0,6 são considerados apenas indicadores de uma tendência à linearidade – desde que o teste anterior tenha rejeitado a correspondente hipótese nula. Valores abaixo de 0,5 indicam inexistência de relação linear entre as duas variáveis consideradas. 5º caso: São duas variáveis e uma é qualitativa e a outra, quantitativa: Se uma delas é qualitativa e a outra é quantitativa, é importante entender que, no momento, com as ferramentas disponíveis, você só pode tentar explicar as variações na variável quantitativa a partir da mudança de categoria da variável qualitativa. Ou seja, será que se eu mudar de grupo, mudam, também, os valores (a distribuição) da variável quantitativa? Então, a qualitativa sempre determinará os grupos que estão sendo comparados e a variável quantitativa passará a ser enxergada como variável dependente ou variável resposta. A principal ferramenta aqui sempre será um teste de hipóteses, mas existem alguns coeficientes que medem associação ou concordância, e que podem ser usados. É importante frisar que análises pareadas também podem se encaixar aqui, quando, por exemplo, temos 2 grupos - antes e depois – sendo comparados quanto a uma variável quantitativa. Nessa abordagem, podemos ter comparação de amostras (grupos) independentes (quando a entrada em 1 grupo exclui, automaticamente, a participação em outro grupo) ou de amostras pareadas. Lembre, neste momento, de contar quantos são os grupos ou as situações que estão sendo comparadas no seu problema. Então, vamos subdividir ainda mais as situações... A) Comparação de 2 amostras independentes (grupos) quanto a uma variável quantitativa Na comparação de 2 grupos quanto a 1 variável quantitativa, é importante fazer uma análise exploratória dessa variável quantitativa dentro de cada grupo, ou fazer gráficos comparando as distribuições dos grupos (como um box plot múltiplo ou um histograma por grupo), para se perceber se parece existir alguma diferença entre os grupos quanto àquela variável. Essa percepção será complementada pelos testes de hipóteses. Aqui, o próximo passo é perguntar a respeito da suposição de normalidade porque testes paramétricos – como o teste t – estão baseadas na suposição que, dentro de cada grupo, a distribuição de probabilidade da variável resposta segue um modelo Normal. Para verificar se essa suposição pode ser aceita, podemos usar medidas de assimetria, histograma, ou teste de hipóteses que medem a similaridade entre a distribuição empírica e o modelo Normal. Use um punhado de ferramentas se puder, para tomar sua decisão, com confiança, a respeito da adequação ao modelo Normal. Se o modelo Normal puder ser adotado, pode-se partir para aplicar o teste t. O único problema é, então, verificar antes se a hipótese de igualdade de variância entre os grupos pode ou não ser aceita. Isso pode ser feito por um teste F. Existe um teste t específico para quanto ela pude e para quando essa hipótese não puder ser aceita. Então, em primeiro lugar teste normalidade; se aceitar a hipótese nula, teste a igualdade de variâncias e escolha o teste t – que compara as médias dos 2 grupos –adequado. Se a hipótese de normalidade para a distribuição da variável não puder ser aceita em pelo menos 1 dos grupos sendo comparados, então deve-se partir para uma abordagem não paramétrica, onde não mais existe a necessidade de adequação ao modelo gaussiano. Nessa nova situação, o teste adequado é o teste de Mann-Whitney (ou Wilcoxon-Mann-Whitney) ou o teste da Mediana (que é uma versão do teste de qui-quadrado, onde os dados de cada grupo são comparados à mediana global (calculada com todos os valores de todos os grupos) e são contados, dentro de cada grupo, quantos valores estão abaixo e acima dessa mesma e única mediana dos dados. Não esqueça de fixar antes seu nível de significância para tomar as decisões a respeito da hipótese nula que propõe que os dois conjuntos de valores (dos 2 grupos) foram amostrados de uma mesma população. Em algumas versões do teste, isso é traduzido através da comparação das medianas. B) Comparação de 2 amostras pareadas quanto a uma variável quantitativa Nessa abordagem, a parte exploratória não muda. O que muda é que os 2 valores foram tomados no mesmo indivíduo e esse efeito “indivíduo” precisa ser descontado. A análise exploratória continua a mesma. Os testes é que mudam. Nesse caso, para a abordagem paramétrica, existe um teste t para amostras pareadas (tendo a necessidade de verificar similaridade entre as variâncias, antes). Já para a abordagem não paramétrica, os testes adequados são o teste do sinal ou o teste de Wilcoxon para amostras pareadas. Ambos trabalham sobre as diferenças observadas entre as situações (por exemplo, olhando a diferença entre o peso depois e o peso antes da dieta). A única diferença é que o teste do sinal só olha se essa subtração deu origem a um número positivo ou negativo ou ao valor zero (que não é considerado na análise) enquanto que o teste de Wilcoxon quer saber o tamanho absoluto dessas diferenças entre os valores e, por isso, inclui a informação dos postos (ranks, que indicam a posição do valor na série ordenada). Para tomar decisão, precisará de novo do nível de significância. C) Comparação de k 2 amostras independentes (grupos) quanto a uma variável quantitativa Quando temos mais de 2 grupos (o caso de 2 até está incluído, mas é redundante aqui, uma vez que já o apresentamos antes), permanecem as mesmas ferramentas de análise exploratória e a aceitação da suposição de normalidade é que vai determinar se utilizaremos análise de variância (com suposição de normalidade válida – abordagem paramétrica) ou o teste não paramétrico de Kruskal-Wallis (abordagem não paramétrica). Em ambos os casos,quando rejeitamos a hipótese de semelhança entre as distribuições dos valores (da variável resposta) entre os grupos, é necessário realizar comparações múltiplas para identificar que grupos são diferentes entre si em relação à variável resposta. Então, a comparação 2 a 2 na análise de variância está atrelada à realização de testes t e, no caso da abordagem não paramétrica, à realização de testes de Wilcoxon-Mann-Whitney para identificar quem é diferente de quem. Novamente, o nível de significância adotado em cada teste dessa comparação múltipla deve ser igual ao nível de significância global (usado na anova ou no Kruskal-Wallis) dividido pelo número de comparações múltiplas a realizar. D) Comparação de k 2 amostras pareadas quanto a uma variável quantitativa Nessa abordagem, a parte exploratória não muda. Quando a comparação é entre amostras pareadas, a anova continua funcionando para a abordagem paramétrica e o teste de Friedman no caso da abordagem não paramétrica. As comparações múltiplas são feitas, no primeiro caso, com testes t pareados e, no segundo caso, usando o teste de Wilcoxon. Novamente, é necessária a correção sobre o nível de significância adotado em cada teste da comparação múltipla. OBS: Lembre-se que antes da realização de testes de hipóteses é preciso definir as hipóteses nula e alternativa, que estão sendo avaliadas. E que a análise exploratória é a base para toda boa tomada de decisão.
Compartilhar