Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

ANÁLISE DE DADOS
QUANTITATIVOS
UNIVERSIDADE FEDERAL DO CEARÁ
METODOLOGIA DE PESQUISA
MATEUS COSTA LIMA CLEMENTINO
PEDRO BARREIRA BENTEMULLER
QUÉREM JACKELINE MOURA ANDRADE
RAFAEL SALES DE ALMEIDA
17. Análise de Dados Quantitativos
Este capítulo se concentra na análise de dados quantitativos, abordando desde a
categorização e codificação até a aplicação de testes estatísticos. Ao final, será
possível compreender a relevância da análise multivariada e a importância da
interpretação dos resultados para a construção do conhecimento científico.
Antonio Carlos Gil
Preparação de dados
Estabelecimento de categorias analíticas;
Revisão de dados;
Codificação de dados;
Transformação de dados;
Entrada dos dados.
Estabelecimento de categorias analíticas
O estabelecimento das categorias depende dos objetivos da pesquisa;
Não há como definir previamente, porém considerar alguns critérios durante a
elaboração dessas categorias é importante: 
1.Garantia de que todos os itens derivem de um único princípio de classificação.
2. Inclusão de todas as respostas em um mesmo item, ou como o autor define, o
estabelecimento de categorias exaustivas.
3.Mútua exclusividade, cada resposta deve ser incluída em apenas uma
categoria. 
Revisão de dados
Para uma análise ser adequada, todos os dados coletados precisam ser completas
e coerentes. Porém, pode ser que nem todas as respostas recebidas são
preenchidas corretamente ou existir problemas na coleta de dados.
Como forma de soluções: 
1.Quando a falta de dados é pequena, basta retirar o respondente ou as questões
não respondidas;
2.Quando a falta de dados é disseminado, o pesquisador precisa tratá-los para não
prejudicar a amostra.
Diversos métodos podem ser utilizados para contornar essa questão, alguns
podem envolver o uso da estatística para a resolução de problemas de dados.
Codificação de dados
Codificação é o prática em que os dados
brutos são transformados em símbolos que
facilitam seu processamento analítico.
A forma mais prática para pré-codificação
em questionários padronizados é imprimir
um número ao lado da resposta.
 
A realização de uma pós-codificação é
justificada quando os dados forem obtidos
em questões abertas e respostas livres,
requisitando categorias analíticas após a
coleta ou quando necessitar de alguma
transformação desses dados.
Existem situações em que a transformação de dados da sua forma original é conveniente. 
Exemplo: Idade dos respondentes de uma pesquisa mediante as suas respostas na indicação
do ano de nascimento como forma de reduzir o tendenciosidade das respostas. 
A transformação dos dados também pode ocorrer quando dados foram obtidos mediante escalas
que incluem itens positivos e negativos. 
Exemplo: Escalas com número negativos e positivos.
Outra situação que requer a transformação dos dados ocorre quando o pesquisador opta por
desmembrar ou combinar categorias de uma variável com vistas a reduzir seu número. 
Exemplo: Escalas de concordância de sete pontos.
O pesquisador pode optar pela utilização do escore somatório médio como forma de
transformação de dados
Transformação de dados
Entrada dos dados
Com a popularização dos computadores
pessoais e, sobretudo, de softwares como o
Statistical Package for the Social Sciences
(SPSS), as tarefas, que eram usadas
manualmente, passaram a ser feitas
eletronicamente, tornando a análise mais
eficiente e precisa.
Para que uma análise eletrônica dos dados
possa ser executada é necessário que os
dados estejam em uma formatação
adequado para entrada no computador.
Softwares para auxiliar na
limpeza de dados :
OpenRefine
DataWrangler
DataCleaner
Análise Univariada
A análise inicial em pesquisas
geralmente envolve a apresentação das
variações das variáveis de interesse. Em
estudos descritivos, tabelas, gráficos,
medidas de tendência central e
dispersão são suficientes para exibir a
distribuição de frequências e
subconjuntos de casos.
Tópicos a serem vistos
1. Distribuição de frequência
2. Medidas de tendência central
3. Medidas de dispersão
Distribuição de frequência
Como aplicar? São tabelas e gráficos que apresentam os dados
correspondentes a cada variável isoladamente, indicando as frequências de
respostas para cada uma de suas categorias 
Medidas de dispersão
O que são? São medidas utilizadas para indicar o grau de variabilidade dos
elementos de um conjunto de informações. Indicam o quanto os valores estão
dispersos em relação aos valores médios, como a média e a mediana.
Como são utilizadas? São utilizadas porque na maioria das situações as
medidas de tendência central não são suficientes para tirar conclusões sobre os
objetos em estudo. 
Medidas de dispersão
Amplitude Total: corresponde à
diferença entre o maior e o menor valor
de um conjunto de dados
Desvio-padrão: Indica o
quanto os dados se
concentram em torno da
média. Quanto mais
próximo de zero for o seu
valor, menos dispersos
serão os dados.
Análise Bivariada
Algumas pesquisas em ciências sociais analisam variáveis isoladamente,
enquanto outras investigam relações entre elas, um processo conhecido como
análise bivariada. 
Esse método é essencial em pesquisas explicativas, que buscam testar
hipóteses e identificar a relação entre variáveis independentes e dependentes.
Coeficientes de correlação
São métodos utilizados para medir a relação entre duas variáveis em uma
análise bivariada. Essa relação é expressa por um coeficiente de correlação,
que pode variar de -1,00 a +1,00.
Interpretação dos coeficientes
Correlação positiva (+1,00): quando uma variável aumenta, a outra também
aumenta. Exemplo: idade e altura de uma criança.
Correlação negativa (-1,00): quando uma variável aumenta, a outra diminui.
Exemplo: calor e consumo de cobertores.
Correlação zero (0,00): indica que não há relação entre as variáveis.
Exemplo: número do calçado e nível intelectual.
Coeficientes de correlação
Coeficiente de Correlação de Pearson
É o coeficiente mais conhecido e utilizado, mas sua aplicação
depende de algumas condições:
1.As variáveis devem ser medidas em escalas métricas (intervalar
ou de razão).
2.A relação deve ser linear, ou seja, os dados devem formar uma
linha reta no gráfico.
3.Os dados devem seguir uma distribuição normal (distribuídos
em forma de sino).
Outros coeficientes de correlação: Spearman, o t de Kendall, o
de Cramér, o phi e o Q de Yule 
Análise Multivariada
É uma abordagem estatística usada quando três ou mais variáveis são
analisadas simultaneamente. Seu principal objetivo é controlar o impacto de
variáveis adicionais sobre a relação entre duas variáveis, identificando se
essa relação é real ou influenciada por outros fatores.
Análise Multivariada
Ela é útil para:
1. Identificar relações hipotéticas: quando duas variáveis parecem estar
relacionadas, mas a conexão entre elas não é real, pois ambas são
influenciadas por uma terceira variável. Exemplo: consumo de café e câncer
de pulmão parecem estar correlacionados, mas a real influência vem do
hábito de fumar.
2.Analisar variáveis intervenientes: variáveis que mediam a relação entre a
variável independente e a variável dependente. Exemplo: nível de
escolaridade influencia a ocupação, que, por sua vez, determina a renda.
3.Especificar condições: determinar se uma relação entre duas variáveis
muda conforme uma terceira variável. Exemplo: a relação entre
religiosidade e preferência política pode variar dependendo do gênero.
Análise fatorial e de regressão logistica
Regressão Logística
Aplicada quando a variável dependente é categórica (exemplo: sim/não, masculino/feminino).
Utilizada para estimar a probabilidade de um evento ocorrer.
Menos restritiva que a regressão múltipla, pois não exige normalidade da variável
independente.
Análise Fatorial
Técnica usada para identificar padrões de correlação entre muitas variáveis e agrupá-las em
fatores menores e mais interpretáveis.
Permite resumir e reduzir dados complexos.
Tipos principais:
Análise de Componentes Principais: transforma um grande númerode variáveis em um
conjunto menor de componentes principais.
Análise Fatorial Comum: explica a variabilidade de um conjunto de variáveis a partir de
fatores subjacentes.
Avaliação da significância dos dados
Objetivo: Determinar se as diferenças
observadas em amostras refletem
diferenças reais na população ou se são
devido ao acaso.
Teste de Hipóteses:
Hipótese Nula (H₀): Não há diferença
significativa entre as amostras.
Hipótese Alternativa (H₁): Existe uma
diferença significativa.
Erros:
Erro Tipo I: Rejeitar H₀ quando é verdadeira
(falso positivo).
Erro Tipo II: Aceitar H₀ quando é falsa (falso
negativo).
Nível de Significância (α): Probabilidade de
cometer erro Tipo I (comum 0,05 ou 0,01).
Exemplo: α = 0,05 significa que a diferença
observada ocorre por acaso no máximo 5
vezes em 100.
Tipos de Testes:
Paramétricos: Teste Z (amostras grandes), Teste T (amostras pequenas).
Não Paramétricos: Teste Qui-quadrado (χ²), Teste de McNemar, Teste de Wilcoxon, Teste de Mann-Whitney.
Teste de Normalidade: Usado para verificar se os dados seguem distribuição normal (ex: Kolmogorov-Smirnov).
Interpretação dos Dados
Conexão com Teorias: A interpretação vai
além da análise dos dados, buscando
entender seu significado através de teorias
existentes.
Desarmonia Entre Dados e Teoria:
Cuidado com a supervalorização dos dados
ou com construções teóricas excessivas que
não se conectam com a realidade
empírica.
Importância da Teoria: A teoria ajuda a
integrar dados dentro de um contexto mais
amplo, fornecendo um sentido mais
profundo aos resultados.
Riscos do Uso Exclusivo de Estatísticas:
Crença cega nos resultados estatísticos pode
comprometer a interpretação. É crucial ir além
dos números e integrá-los em um
entendimento teórico.
Teorias Sustentáveis: A interpretação deve se
basear em teorias bem fundamentadas,
evitando explicações sem comprovação sólida,
que podem criar falsas sensações de
adequação à realidade.
Teorias de Alcance Médio: Não é necessário
utilizar grandes teorias, especialmente em
ciências sociais, onde teorias mais específicas e
fundamentadas podem ser mais úteis.
Como fazer seu projeto de pesquisa
14. Analise de Dados Quantitativos
Passando dos dados brutos as descobertas.
Gerenciamento de Dados e definição de variáveis.
Estatística Descritiva.
Zina O´Leary
Analise e interpretação
Entender o objetivo da pesquisa: Os dados precisam
responder à pergunta principal do estudo.
Fazer perguntas certas: O que eu esperava encontrar?
Há algo inesperado? Meus dados fazem sentido?
Usar a tecnologia a nosso favor: Softwares ajudam nos
cálculos, mas a interpretação sempre depende do
pesquisador.
Analise Estatística - o que precisamos
entender?
como gerenciar seus dados
a natureza das variáveis
o papel e a função da estatística, tanto descritiva quanto inferencial.
o uso adequado de testes estatísticos
apresentação eficaz dos dados.
Estatística Descritiva 
Como o nome sugere, a estatística descritiva serve para descrever as características
básicas de um conjunto de dados e é essencial para resumir variáveis. O objetivo é
apresentar descrições quantitativas de maneira viável e inteligível. Mais
especificamente, a estatística descritiva fornece medidas de tendência central,
dispersão e forma da distribuição. Tais medidas variam segundo o tipo de dados
(nominais, ordinais, intervalares, de razão) e são cálculos típicos em programas de
estatística.
Causa e efeito
Variável Dependente: É o que estamos tentando medir ou entender na
pesquisa.
Exemplo: Se estamos estudando o impacto do tempo de estudo nas notas
dos alunos, a nota é a variável dependente.
Variável Independente: É aquilo que pode influenciar a variável dependente.
Exemplo: No mesmo estudo sobre notas, o tempo de estudo é a variável
independente, pois ele pode afetar a nota final.
Escalas de Medição das Variáveis
1.Nominal (categorias sem ordem definida)
Exemplo: Cores de camiseta em uma pesquisa sobre moda. Podemos ter:
1 = Azul
2 = Vermelho
3 = Preto
O número aqui é apenas um código para organizar as respostas, mas não significa que azul vale mais que vermelho.
2.Ordinal (categorias ordenadas, mas sem medir a diferença exata entre elas)
Exemplo: Grau de satisfação em um serviço:
1 = Muito insatisfeito
2 = Insatisfeito
3 = Neutro
4 = Satisfeito
5 = Muito satisfeito
Aqui, sabemos que "Muito satisfeito" é melhor que "Satisfeito", mas não sabemos exatamente a diferença entre eles.
3. Intervalar (diferenças entre valores são fixas, mas sem zero absoluto)
Exemplo: Temperatura em graus Celsius:
A diferença entre 20°C e 30°C é a mesma que entre 30°C e 40°C.
Mas 0°C não significa "ausência de temperatura", pois existem temperaturas negativas.
4.Razão (escala numérica que tem zero absoluto e permite cálculos precisos)
Exemplo: Peso de uma pessoa:
Se alguém pesa 60 kg e outra pessoa pesa 30 kg, podemos dizer que a primeira pessoa pesa o dobro da segunda.
Se o peso for 0 kg, significa realmente que não há peso.
Medidas de Tendência Central
Média: A soma de todos os valores dividida pelo número total de valores (representa o "valor médio").
Moda: O valor que mais se repete em um conjunto de dados.
Mediana: O valor central quando os dados são organizados em ordem crescente.
Medidas de Dispersão
Amplitude: Diferença entre o maior e o menor valor de um conjunto de dados. Mede a variação total dos
valores.
Desvio Padrão: Indica o quanto os valores se afastam da média. Quanto maior o desvio, mais espalhados os
dados estão.
Quartis: Dividem os dados em quatro partes iguais. O 1º quartil (Q1) é o valor que separa os 25% menores, o 2º
quartil (Q2) é a mediana (50%) e o 3º quartil (Q3) separa os 75% menores.
Quartis
exemplo prático:
Suponha que temos as notas de 10 alunos em uma prova:
50, 55, 60, 65, 70, 75, 80, 85, 90, 95
1.Ordenamos os dados (já estão em ordem crescente).
2.Calculamos os quartis:
Q1 (1º quartil - 25%): É a mediana da primeira metade dos dados → 60
Q2 (2º quartil - 50%): É a mediana dos dados inteiros → 72,5 (média entre 70 e 75)
Q3 (3º quartil - 75%): É a mediana da segunda metade dos dados → 85
Interpretação:
25% dos alunos tiraram até 60 (Q1).
50% dos alunos tiraram até 72,5 (Q2, a mediana).
75% dos alunos tiraram até 85 (Q3).
Isso ajuda a entender a distribuição dos dados e identificar se há alunos com notas muito altas ou muito baixas em
relação ao grupo.
Distribuição dos Dados
Distribuição Normal (Curva em Sino)
O que é?
 Os dados estão distribuídos de maneira equilibrada ao redor da média, formando um gráfico
que se parece com um sino.
Características:
Média, mediana e moda têm o mesmo valor.
A maioria dos valores está no meio, com poucos nas extremidades.
Exemplo Prático:
 A altura das pessoas segue essa distribuição – a maioria tem altura média, enquanto poucas
pessoas são muito baixas ou muito altas.
Regra Empírica (68-95-99,7%)
 Isso significa que:
✔ 68% dos valores estão a 1 desvio-padrão da média.
✔ 95% dos valores estão a 2 desvios-padrão.
✔ 99,7% dos valores estão a 3 desvios-padrão.
68% 95% 97%
Como interpretar isso na prática?
68% dos adultos têm altura entre:
(170 - 10) cm até (170 + 10) cm →
160 cm a 180 cm
95% dos adultos têm altura entre:
(170 - 20) cm até (170 + 20) cm →
150 cm a 190 cm
Isso significa que quase todas as
pessoas têm altura entre 140 cm e
200 cm, e apenas 0,3% das pessoas
têm altura fora desse intervalo.
Passo 1: Definir Média e Desvio-Padrão
Suponha que: Média da altura = 170 cm
Desvio-padrão = 10 cm
Passo 2: Aplicar a Regra Empírica
Agora, aplicamos os intervalos da regra empírica:
Distribuição dos Dados
2 . Assimetria – Quando os Dados Estão Desbalanceados
A assimetria mostra se os dados estão mais concentrados em um dos lados.
Tipos de Assimetria:
Simétrica (Assimetria = 0) → Os valores estão equilibrados em torno da média.
Exemplo: Altura de adultos.
Assimetria Positiva (Assimetria > 0) → A cauda do gráfico é mais longa à direita (existem
poucos valores altos).
Exemplo: Renda das pessoas – poucos ganham muito, a maioria ganha pouco.Assimetria Negativa (Assimetria 0) → Distribuição mais pontuda, com mais valores concentrados
no centro e caudas longas.
Exemplo: Notas em um concurso difícil – a maioria tira notas médias, mas há alguns
extremos.
Platicúrtica (Kurtosis

Mais conteúdos dessa disciplina