Prévia do material em texto
ANÁLISE DE DADOS QUANTITATIVOS UNIVERSIDADE FEDERAL DO CEARÁ METODOLOGIA DE PESQUISA MATEUS COSTA LIMA CLEMENTINO PEDRO BARREIRA BENTEMULLER QUÉREM JACKELINE MOURA ANDRADE RAFAEL SALES DE ALMEIDA 17. Análise de Dados Quantitativos Este capítulo se concentra na análise de dados quantitativos, abordando desde a categorização e codificação até a aplicação de testes estatísticos. Ao final, será possível compreender a relevância da análise multivariada e a importância da interpretação dos resultados para a construção do conhecimento científico. Antonio Carlos Gil Preparação de dados Estabelecimento de categorias analíticas; Revisão de dados; Codificação de dados; Transformação de dados; Entrada dos dados. Estabelecimento de categorias analíticas O estabelecimento das categorias depende dos objetivos da pesquisa; Não há como definir previamente, porém considerar alguns critérios durante a elaboração dessas categorias é importante: 1.Garantia de que todos os itens derivem de um único princípio de classificação. 2. Inclusão de todas as respostas em um mesmo item, ou como o autor define, o estabelecimento de categorias exaustivas. 3.Mútua exclusividade, cada resposta deve ser incluída em apenas uma categoria. Revisão de dados Para uma análise ser adequada, todos os dados coletados precisam ser completas e coerentes. Porém, pode ser que nem todas as respostas recebidas são preenchidas corretamente ou existir problemas na coleta de dados. Como forma de soluções: 1.Quando a falta de dados é pequena, basta retirar o respondente ou as questões não respondidas; 2.Quando a falta de dados é disseminado, o pesquisador precisa tratá-los para não prejudicar a amostra. Diversos métodos podem ser utilizados para contornar essa questão, alguns podem envolver o uso da estatística para a resolução de problemas de dados. Codificação de dados Codificação é o prática em que os dados brutos são transformados em símbolos que facilitam seu processamento analítico. A forma mais prática para pré-codificação em questionários padronizados é imprimir um número ao lado da resposta. A realização de uma pós-codificação é justificada quando os dados forem obtidos em questões abertas e respostas livres, requisitando categorias analíticas após a coleta ou quando necessitar de alguma transformação desses dados. Existem situações em que a transformação de dados da sua forma original é conveniente. Exemplo: Idade dos respondentes de uma pesquisa mediante as suas respostas na indicação do ano de nascimento como forma de reduzir o tendenciosidade das respostas. A transformação dos dados também pode ocorrer quando dados foram obtidos mediante escalas que incluem itens positivos e negativos. Exemplo: Escalas com número negativos e positivos. Outra situação que requer a transformação dos dados ocorre quando o pesquisador opta por desmembrar ou combinar categorias de uma variável com vistas a reduzir seu número. Exemplo: Escalas de concordância de sete pontos. O pesquisador pode optar pela utilização do escore somatório médio como forma de transformação de dados Transformação de dados Entrada dos dados Com a popularização dos computadores pessoais e, sobretudo, de softwares como o Statistical Package for the Social Sciences (SPSS), as tarefas, que eram usadas manualmente, passaram a ser feitas eletronicamente, tornando a análise mais eficiente e precisa. Para que uma análise eletrônica dos dados possa ser executada é necessário que os dados estejam em uma formatação adequado para entrada no computador. Softwares para auxiliar na limpeza de dados : OpenRefine DataWrangler DataCleaner Análise Univariada A análise inicial em pesquisas geralmente envolve a apresentação das variações das variáveis de interesse. Em estudos descritivos, tabelas, gráficos, medidas de tendência central e dispersão são suficientes para exibir a distribuição de frequências e subconjuntos de casos. Tópicos a serem vistos 1. Distribuição de frequência 2. Medidas de tendência central 3. Medidas de dispersão Distribuição de frequência Como aplicar? São tabelas e gráficos que apresentam os dados correspondentes a cada variável isoladamente, indicando as frequências de respostas para cada uma de suas categorias Medidas de dispersão O que são? São medidas utilizadas para indicar o grau de variabilidade dos elementos de um conjunto de informações. Indicam o quanto os valores estão dispersos em relação aos valores médios, como a média e a mediana. Como são utilizadas? São utilizadas porque na maioria das situações as medidas de tendência central não são suficientes para tirar conclusões sobre os objetos em estudo. Medidas de dispersão Amplitude Total: corresponde à diferença entre o maior e o menor valor de um conjunto de dados Desvio-padrão: Indica o quanto os dados se concentram em torno da média. Quanto mais próximo de zero for o seu valor, menos dispersos serão os dados. Análise Bivariada Algumas pesquisas em ciências sociais analisam variáveis isoladamente, enquanto outras investigam relações entre elas, um processo conhecido como análise bivariada. Esse método é essencial em pesquisas explicativas, que buscam testar hipóteses e identificar a relação entre variáveis independentes e dependentes. Coeficientes de correlação São métodos utilizados para medir a relação entre duas variáveis em uma análise bivariada. Essa relação é expressa por um coeficiente de correlação, que pode variar de -1,00 a +1,00. Interpretação dos coeficientes Correlação positiva (+1,00): quando uma variável aumenta, a outra também aumenta. Exemplo: idade e altura de uma criança. Correlação negativa (-1,00): quando uma variável aumenta, a outra diminui. Exemplo: calor e consumo de cobertores. Correlação zero (0,00): indica que não há relação entre as variáveis. Exemplo: número do calçado e nível intelectual. Coeficientes de correlação Coeficiente de Correlação de Pearson É o coeficiente mais conhecido e utilizado, mas sua aplicação depende de algumas condições: 1.As variáveis devem ser medidas em escalas métricas (intervalar ou de razão). 2.A relação deve ser linear, ou seja, os dados devem formar uma linha reta no gráfico. 3.Os dados devem seguir uma distribuição normal (distribuídos em forma de sino). Outros coeficientes de correlação: Spearman, o t de Kendall, o de Cramér, o phi e o Q de Yule Análise Multivariada É uma abordagem estatística usada quando três ou mais variáveis são analisadas simultaneamente. Seu principal objetivo é controlar o impacto de variáveis adicionais sobre a relação entre duas variáveis, identificando se essa relação é real ou influenciada por outros fatores. Análise Multivariada Ela é útil para: 1. Identificar relações hipotéticas: quando duas variáveis parecem estar relacionadas, mas a conexão entre elas não é real, pois ambas são influenciadas por uma terceira variável. Exemplo: consumo de café e câncer de pulmão parecem estar correlacionados, mas a real influência vem do hábito de fumar. 2.Analisar variáveis intervenientes: variáveis que mediam a relação entre a variável independente e a variável dependente. Exemplo: nível de escolaridade influencia a ocupação, que, por sua vez, determina a renda. 3.Especificar condições: determinar se uma relação entre duas variáveis muda conforme uma terceira variável. Exemplo: a relação entre religiosidade e preferência política pode variar dependendo do gênero. Análise fatorial e de regressão logistica Regressão Logística Aplicada quando a variável dependente é categórica (exemplo: sim/não, masculino/feminino). Utilizada para estimar a probabilidade de um evento ocorrer. Menos restritiva que a regressão múltipla, pois não exige normalidade da variável independente. Análise Fatorial Técnica usada para identificar padrões de correlação entre muitas variáveis e agrupá-las em fatores menores e mais interpretáveis. Permite resumir e reduzir dados complexos. Tipos principais: Análise de Componentes Principais: transforma um grande númerode variáveis em um conjunto menor de componentes principais. Análise Fatorial Comum: explica a variabilidade de um conjunto de variáveis a partir de fatores subjacentes. Avaliação da significância dos dados Objetivo: Determinar se as diferenças observadas em amostras refletem diferenças reais na população ou se são devido ao acaso. Teste de Hipóteses: Hipótese Nula (H₀): Não há diferença significativa entre as amostras. Hipótese Alternativa (H₁): Existe uma diferença significativa. Erros: Erro Tipo I: Rejeitar H₀ quando é verdadeira (falso positivo). Erro Tipo II: Aceitar H₀ quando é falsa (falso negativo). Nível de Significância (α): Probabilidade de cometer erro Tipo I (comum 0,05 ou 0,01). Exemplo: α = 0,05 significa que a diferença observada ocorre por acaso no máximo 5 vezes em 100. Tipos de Testes: Paramétricos: Teste Z (amostras grandes), Teste T (amostras pequenas). Não Paramétricos: Teste Qui-quadrado (χ²), Teste de McNemar, Teste de Wilcoxon, Teste de Mann-Whitney. Teste de Normalidade: Usado para verificar se os dados seguem distribuição normal (ex: Kolmogorov-Smirnov). Interpretação dos Dados Conexão com Teorias: A interpretação vai além da análise dos dados, buscando entender seu significado através de teorias existentes. Desarmonia Entre Dados e Teoria: Cuidado com a supervalorização dos dados ou com construções teóricas excessivas que não se conectam com a realidade empírica. Importância da Teoria: A teoria ajuda a integrar dados dentro de um contexto mais amplo, fornecendo um sentido mais profundo aos resultados. Riscos do Uso Exclusivo de Estatísticas: Crença cega nos resultados estatísticos pode comprometer a interpretação. É crucial ir além dos números e integrá-los em um entendimento teórico. Teorias Sustentáveis: A interpretação deve se basear em teorias bem fundamentadas, evitando explicações sem comprovação sólida, que podem criar falsas sensações de adequação à realidade. Teorias de Alcance Médio: Não é necessário utilizar grandes teorias, especialmente em ciências sociais, onde teorias mais específicas e fundamentadas podem ser mais úteis. Como fazer seu projeto de pesquisa 14. Analise de Dados Quantitativos Passando dos dados brutos as descobertas. Gerenciamento de Dados e definição de variáveis. Estatística Descritiva. Zina O´Leary Analise e interpretação Entender o objetivo da pesquisa: Os dados precisam responder à pergunta principal do estudo. Fazer perguntas certas: O que eu esperava encontrar? Há algo inesperado? Meus dados fazem sentido? Usar a tecnologia a nosso favor: Softwares ajudam nos cálculos, mas a interpretação sempre depende do pesquisador. Analise Estatística - o que precisamos entender? como gerenciar seus dados a natureza das variáveis o papel e a função da estatística, tanto descritiva quanto inferencial. o uso adequado de testes estatísticos apresentação eficaz dos dados. Estatística Descritiva Como o nome sugere, a estatística descritiva serve para descrever as características básicas de um conjunto de dados e é essencial para resumir variáveis. O objetivo é apresentar descrições quantitativas de maneira viável e inteligível. Mais especificamente, a estatística descritiva fornece medidas de tendência central, dispersão e forma da distribuição. Tais medidas variam segundo o tipo de dados (nominais, ordinais, intervalares, de razão) e são cálculos típicos em programas de estatística. Causa e efeito Variável Dependente: É o que estamos tentando medir ou entender na pesquisa. Exemplo: Se estamos estudando o impacto do tempo de estudo nas notas dos alunos, a nota é a variável dependente. Variável Independente: É aquilo que pode influenciar a variável dependente. Exemplo: No mesmo estudo sobre notas, o tempo de estudo é a variável independente, pois ele pode afetar a nota final. Escalas de Medição das Variáveis 1.Nominal (categorias sem ordem definida) Exemplo: Cores de camiseta em uma pesquisa sobre moda. Podemos ter: 1 = Azul 2 = Vermelho 3 = Preto O número aqui é apenas um código para organizar as respostas, mas não significa que azul vale mais que vermelho. 2.Ordinal (categorias ordenadas, mas sem medir a diferença exata entre elas) Exemplo: Grau de satisfação em um serviço: 1 = Muito insatisfeito 2 = Insatisfeito 3 = Neutro 4 = Satisfeito 5 = Muito satisfeito Aqui, sabemos que "Muito satisfeito" é melhor que "Satisfeito", mas não sabemos exatamente a diferença entre eles. 3. Intervalar (diferenças entre valores são fixas, mas sem zero absoluto) Exemplo: Temperatura em graus Celsius: A diferença entre 20°C e 30°C é a mesma que entre 30°C e 40°C. Mas 0°C não significa "ausência de temperatura", pois existem temperaturas negativas. 4.Razão (escala numérica que tem zero absoluto e permite cálculos precisos) Exemplo: Peso de uma pessoa: Se alguém pesa 60 kg e outra pessoa pesa 30 kg, podemos dizer que a primeira pessoa pesa o dobro da segunda. Se o peso for 0 kg, significa realmente que não há peso. Medidas de Tendência Central Média: A soma de todos os valores dividida pelo número total de valores (representa o "valor médio"). Moda: O valor que mais se repete em um conjunto de dados. Mediana: O valor central quando os dados são organizados em ordem crescente. Medidas de Dispersão Amplitude: Diferença entre o maior e o menor valor de um conjunto de dados. Mede a variação total dos valores. Desvio Padrão: Indica o quanto os valores se afastam da média. Quanto maior o desvio, mais espalhados os dados estão. Quartis: Dividem os dados em quatro partes iguais. O 1º quartil (Q1) é o valor que separa os 25% menores, o 2º quartil (Q2) é a mediana (50%) e o 3º quartil (Q3) separa os 75% menores. Quartis exemplo prático: Suponha que temos as notas de 10 alunos em uma prova: 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 1.Ordenamos os dados (já estão em ordem crescente). 2.Calculamos os quartis: Q1 (1º quartil - 25%): É a mediana da primeira metade dos dados → 60 Q2 (2º quartil - 50%): É a mediana dos dados inteiros → 72,5 (média entre 70 e 75) Q3 (3º quartil - 75%): É a mediana da segunda metade dos dados → 85 Interpretação: 25% dos alunos tiraram até 60 (Q1). 50% dos alunos tiraram até 72,5 (Q2, a mediana). 75% dos alunos tiraram até 85 (Q3). Isso ajuda a entender a distribuição dos dados e identificar se há alunos com notas muito altas ou muito baixas em relação ao grupo. Distribuição dos Dados Distribuição Normal (Curva em Sino) O que é? Os dados estão distribuídos de maneira equilibrada ao redor da média, formando um gráfico que se parece com um sino. Características: Média, mediana e moda têm o mesmo valor. A maioria dos valores está no meio, com poucos nas extremidades. Exemplo Prático: A altura das pessoas segue essa distribuição – a maioria tem altura média, enquanto poucas pessoas são muito baixas ou muito altas. Regra Empírica (68-95-99,7%) Isso significa que: ✔ 68% dos valores estão a 1 desvio-padrão da média. ✔ 95% dos valores estão a 2 desvios-padrão. ✔ 99,7% dos valores estão a 3 desvios-padrão. 68% 95% 97% Como interpretar isso na prática? 68% dos adultos têm altura entre: (170 - 10) cm até (170 + 10) cm → 160 cm a 180 cm 95% dos adultos têm altura entre: (170 - 20) cm até (170 + 20) cm → 150 cm a 190 cm Isso significa que quase todas as pessoas têm altura entre 140 cm e 200 cm, e apenas 0,3% das pessoas têm altura fora desse intervalo. Passo 1: Definir Média e Desvio-Padrão Suponha que: Média da altura = 170 cm Desvio-padrão = 10 cm Passo 2: Aplicar a Regra Empírica Agora, aplicamos os intervalos da regra empírica: Distribuição dos Dados 2 . Assimetria – Quando os Dados Estão Desbalanceados A assimetria mostra se os dados estão mais concentrados em um dos lados. Tipos de Assimetria: Simétrica (Assimetria = 0) → Os valores estão equilibrados em torno da média. Exemplo: Altura de adultos. Assimetria Positiva (Assimetria > 0) → A cauda do gráfico é mais longa à direita (existem poucos valores altos). Exemplo: Renda das pessoas – poucos ganham muito, a maioria ganha pouco.Assimetria Negativa (Assimetria 0) → Distribuição mais pontuda, com mais valores concentrados no centro e caudas longas. Exemplo: Notas em um concurso difícil – a maioria tira notas médias, mas há alguns extremos. Platicúrtica (Kurtosis