Buscar

BC_Aula3

Prévia do material em texto

�
Bases Computacionais da Ciência (BC-0005)
Noções de Estatística, Correlação e 
Regressão
David Correa Martins Jr
david.martins@ufabc.edu.br
Universidade Federal do ABC (UFABC)
1
Objetivos
� Introduzir algumas ferramentas básicas de Análise Estatística:
� Permitem visualizar e compreender características de dados 
experimentais e realizar formas simples de inferência
� Utilizar o software LibreOffice Calc (clone do MS Excel):
� Familiarizar o aluno com o uso da ferramenta para automatizar 
tarefas de análise estatística, que seria por demais tediosas ou 
(impossíveis/dificeis) de se realizar manualmente
� A objetivo desta aula NÃO é esgotar o assunto da análise 
estatística de dados
2
Introdução
3
Exemplo de aplicação: pesquisa eleitoral
•O objetivo de uma pesquisa eleitoral é fornecer 
um retrato momentâneo da intenção de voto em 
cada candidato.
•Em uma pesquisa, apenas um pequeno 
contingente do eleitorado é entrevistado.
•Por isso, é impossível dizer que a verdadeira 
intenção de voto em um candidato é igual ao 
percentual obtido por ele na pesquisa.
•Os números de intenção são divulgados 
juntamente com a margem de erro da pesquisa, 
indicando um intervalo que provavelmente 
contém a intenção real de voto em cada candidato 3
Introdução
� O que pode-se observar no exemplo anterior é a incerteza resultante 
de trabalharmos com um subconjunto dos dados de interesse.
� Este subconjunto é denominado de AMOSTRA.
� O conjunto total é chamado de POPULACAO.
4
4
O processo de gerar uma amostra é aleatório
Então, se gerarmos duas amostras distintas para 
estudar um mesmo processo, provavelmente vamos
obter dois resultados diferentes
Em princípio, não podemos dizer que um desses 
resultados é “mais verdadeiro” que o outro
Introdução
� A Estatística é um ramo da Matemática que estuda como se pode 
usar uma amostra para tirar conclusões sobre um universo maior de 
objetos, levando em conta que sempre há variação e incerteza nas 
medidas consideradas.
� A Estatística está presente na base de toda a ciência experimental, 
pois ela fornece diretrizes para a coleta de dados, permite comparar
diferentes hipóteses e avaliar a precisão dos resultados obtidos 
experimentalmente.
� A estatística moderna:
� Apresenta amplas ferramentas computacionais
� Os softwares de baixo custo, ou mesmo gratuitos, disponibilizam 
métodos sofisticados de análise estatística
5
Conceitos Básicos
6
Variáveis
� Variáveis:
� Medição de certas características de interesse para cada um dos casos 
presentes na amostra
� As características medidas são conhecidas como variáveis
� Por exemplo:
� Estudo sobre habitantes de uma cidade, as variáveis podem ser:
� Altura, sexo, cor do cabelo, cor dos olhos, etc
� Divididas em dois tipos:
� Dependente: deve variar em resposta a alguma outra variável 
manipulada
� Independente: é a variável candidata a explicar a variável 
dependente. No experimento ela está sendo manipulada e/ou 
supostamente exerce uma influência sobre a variável de resposta
7
Análise Estatística
� Após a coleta dos dados, quando as variáveis de interesse já
foram medidas para todos os casos da amostra, inicia-se a 
etapa de Análise Estatística:
� Caracterizada pelo cálculo de parâmetros a partir das variáveis 
medidas, que nos permitem entender o comportamento dos 
dados e fazer previsões sobre casos futuros
� A Análise Estatística pode ser dividida em duas áreas:
� Estatística descritiva: é a área da Estatística que preocupa-se 
com a apresentação, organização e resumo dos dados
� Estatística inferencial: é a área que estuda métodos para 
generalizar um resultado obtido de uma amostra de dados para 
um grande número de sujeitos (população)
8
Análise Estatística
� Estatística Descritiva:
� O número de acidentes (= frequência) nas rodovias federais no 
estado de São Paulo antes e depois da Lei Seca
� Gráfico com a distribuição da idade dos ingressantes nos 
bacharelados interdisciplinares da UFABC
� Estatística Inferencial/Indutiva:
� Estimação da porcentagem da população que votará para um/a 
determinado/a candidato/a à presidência, junto com uma 
margem de erro (“intervalo de confiança”)
� Teste estatístico de tendência de queda nas populações de atum-
rabilho entre 2000 e 2010, a partir de observações sistemáticas
9
Tipos de Dados
� A identificação da natureza dos dados é de extrema 
importância para uma escolha correta do método estatístico de 
análise
� Os dados são divididos em dois tipos:
� Categóricos, ou qualitativos
� Nominal
� Ordinal
� Numéricos, ou quantitativos
� Contínuo
� Discreto
10
Dados Categóricos, Qualitativos
� Nominal:
� Dados são rotulados por nomes ou números, com o propósito de 
agrupar os sujeitos que possuam características semelhantes em 
determinadas categorias
� Exemplo: Sexo, estado civil, grupo sanguíneo, cor dos olhos, etc.
Exemplo: Por gênero
1 Feminino
2 Masculino
Exemplo: Etnia
1 para Africanos
2 para Americanos
3 para Hispânicos
4 para Orientais
Exemplo: Classificação dos empregados
1 para Educador
2 para trabalhador na Construção Civil
3 para trabalhador na Indústria 
Mecânica
11
Dados Categóricos, Qualitativos
� Ordinal:
� É possível verificar se o valor é maior, igual ou menor quando 
comparado a outro caso
� No entanto, não podemos dizer o quanto um caso é maior ou menor 
que outro
� Exemplo: Nível sócio-econômico (baixa, média e alta), avaliação de um 
estudante (insuficiente, suficiente, excelente)
Exemplo : Posição na organização
1 para Presidente
2 para Vice Presidente
3 para Gerente
4 para Supervisor de 
Departamento
5 para Empregados
12
Dados Numéricos, Quantitativos
� Contínuo: 
� As variáveis podem assumir qualquer valor dentro de um 
intervalo
� Exemplo: A altura de um indivíduo pode corresponder a qualquer 
número entre 1,65 m e 1,78 m; 1,65009 m ou 1,65699 m
� Discreto: 
� Neste caso os dados podem assumir apenas determinados 
valores numéricos
� Exemplo: O número de crianças que apresentaram TOC 
(Transtorno Obsessivo Compulsivo) entre os cinco e os dez anos 
corresponde a um número N que pode assumir valores tais como 
0, 1, 2, 3, 4... mas não pode ser 2,5 ou 4,876
13
Distribuição de Frequências
� Após o levantamento de dados, torna-se necessária a descrição
e a organização destes dados
� A partir dos dados brutos (da forma como são coletados) pode-
se construir uma Distribuição de Frequências
� A frequência é definida como o número de indivíduos 
pertencentes a cada categoria
14
Distribuição de Frequências: Exemplo
Exemplo 1: Em um estudo feito com 100 estudantes norte-americanos foi 
perguntado qual o curso que eles menos gostaram durante o colégio. A 
distribuição de frequências desse estudo é mostrada na tabela a seguir:
A partir deste exemplo poderíamos 
perguntar: 
O curso de Economia foi realmente 
menos apreciado pelos alunos, ou a 
diferença foi apenas casual?
Para que os resultados fiquem mais claros, e para respondermos a
estas perguntas, podemos utilizar alguns métodos para padronizar 
tamanhos (normalizar) e possibilitar a comparação de distribuições
15
Distribuição de Frequências: Método da 
Proporção
No método da proporção comparamos o número 
(frequência f) de sujeitos de uma dada categoria 
com o total de sujeitos (N) que compõem a 
distribuição.
P=42/100 = 0,42
P=25/100 = 0,25
P=8/100 = 0,08
P=13/100 = 0,13
P=12/100 = 0,12
16
Distribuição de Frequências: Método da 
Porcentagem
No método da porcentagem multiplicamos uma dada 
proporção por 100.
P=42/100 = 0,42*100 (42%)
P=25/100 = 0,25*100 (25%)
P=8/100= 0,08*100 (8%)
P=13/100 = 0,13*100 (13%)
P=12/100 = 0,12*100 (12%)
17
Distribuição de Frequências
� Estudar em casa:
� Coeficientes e taxas
� Método da razão
� Frequência com dados agrupados
18
Medidas de Tendência Central
� É conveniente dispor de medidas que informem sobre a 
amostra de maneira mais resumida do que os dados brutos são 
capazes de fazer
� As medidas de tendência central cumprem este papel, dando o 
valor do ponto em torno do qual os dados se distribuem
� Por exemplo, são medidas de tendência central:
� Média
� Mediana
� Moda
19
Medidas de Tendência Central: Média Aritmética
� Utilizada para dados numéricos, dados categóricos intervalares ou do 
tipo razão.
� A média aritmética é definida como a soma de todos valores de uma 
variável em um conjunto, dividida pelo número de elementos do 
conjunto.
20
Medidas de Tendência Central: Média Aritmética
� Exemplo: Calcular a média da classe cujas notas são dadas pela 
tabela. Nesse caso, a somatória das notas é 60 e o número total 
de sujeitos é 11.
21
Medidas de Tendência Central: Mediana
� Valor central do conjunto que divide a distribuição em duas 
partes iguais (mesmo número de “valores” abaixo e acima 
do valor)
� Os dados devem estar ordenados
� Depois de ordenados os valores, por ordem crescente ou 
decrescente, a mediana é:
� O valor que ocupa a posição central, se a quantidade desses 
valores for ímpar
� A média dos dois valores centrais, se a quantidade desses 
valores for par
22
Medidas de Tendência Central: Mediana
Gasto de Energia Elétrica
Quantidade ímpar de valores
23
Meses JAN FEV MAR ABR MAI
Custo(R$) 25 22 35 28 35
Mediana: 28
22 25 28 35 35 
Medidas de Tendência Central: Mediana
Gasto de Energia Elétrica
Quantidade par de valores
24
Mediana: 30,5
22 25 28 33 35 35 
28 + 33 = 61
61/2=30,5
Meses JAN FEV MAR ABR MAI JUN
Custo(R$) 25 22 35 28 35 33
25
Medidas de Tendência Central: Moda
� A moda é o valor mais frequente de um conjunto de dados
� A moda pode não existir ou pode não ser única
� Exemplos: 
1,1,3,3,5,7,7,7,11,13 Moda 7 
3,5,8,11,13,18 Não tem moda 
3,5,5,5,6,6,7,7,7,11,12 Tem duas modas: 5,7 (bimodal)
Distribuição Unimodal
0
1
2
3
4
2 3 4 5 6 7 8 9
Nota
F
r
e
q
ü
ê
n
c
i
a
Distribuição Bimodal
0
1
2
3
4
2 3 4 5 7 8 9
Nota
F
r
e
q
ü
ê
n
c
i
a
25
Medidas de Dispersão
� O processo de trabalhar com amostras introduz uma 
variabilidade dos resultados obtidos, pois cada amostra vai ter 
características ligeiramente diferentes
� Essa variabilidade afeta nosso grau de confiança nos 
resultados. Por isso, as medidas de variabilidade (ou 
dispersão) têm papel central na Estatística
� São elas que permitem avaliar a precisão das conclusões que 
obtemos a partir dos dados experimentais
� Dentre as medidas de dispersão tem-se:
� Variância
� Desvio-padrão
26
Medidas de Dispersão: Desvio
27
Medidas de Dispersão: Desvio
28
� Podemos calcular o desvio, que é a diferença de cada nota em 
relação à média
� Como posso calcular o desvio médio? Somando todos os 
desvios e dividindo por cinco
� 3,8 + 1,8 - 0,2 - 2,2 - 3,2 = ZERO!!!
Medidas de Dispersão: Variância
29
� Para resolver o problema anterior do somatório
dos desvios sendo igual à zero
� Basta elevar cada desvio ao quadrado
1
)( 2
−
−
=
∑
N
Xx
VAR
� A variância é uma forma de se medir a dispersão dos dados. 
Indica o quanto os dados dispersam-se em torno de um valor 
(média)
� A variância é a média dos quadrados dos desvios, onde 
desvio é a diferença entre cada dado e a média do conjunto
Medidas de Dispersão: Variância
30
2,8
4
8,32
1
)( 2
==
−
−
=
∑
N
Xx
VAR
Medidas de Dispersão: Desvio Padrão
� Mas pensar em número ao quadrado não é usual. O que fazer? 
� Calcular a raiz quadrada
� Devio padrão é a raiz quadrada da variância
31
86,22,8
1
)( 2
==
−
−∑
N
Xx
2,8
4
8,32
1
)( 2
==
−
−
=
∑
N
Xx
VAR
Parte Prática
32
Parte Prática: Calc do LibreOffice
� O software Calc do LibreOffice é utilizado para a construção de 
gráficos em programas de planilhas
� O pacote LibreOffice pode ser baixado para uso livre
� Abre (botão início):
� → programas → LibreOffice.org → LibreOffice Calc
33
Exercício 01
34
35
36
37
38
39
40
� Repita os passos para o cálculo da moda, mediana, desvio 
padrão, máximo e mínimo. Para tanto, utilize as seguintes 
funções estatísticas
Função Estatística Comando no LibreOffice Calc
Média Aritmética MEDIA()
Mediana MED()
Moda MODO()
Variância VAR()
Desvio Padrão DESVPAD()
Máximo MAXIMO
Mínimo MINIMO
41
Gráficos
42
Gráficos
� Tem por finalidade representar os resultados obtidos
� Permite chegar a conclusões sobre a evolução do fenômeno ou sobre 
como se relacionam os valores
� Não há uma única maneira de representar graficamente uma série 
estatística
� Escolha do gráfico mais apropriado ficará a critério do analista
� Alguns critérios:
� Simplicidade
� Clareza
� Veracidade
43
Apresentação Gráfica – Estrutura de um Gráfico
Abscissa (eixo-X)
var independente 
Ordenada (eixo-Y)
var dependente
Série 1
Série 2
Série 
Título (opcional)
Legenda (se aplicável)
Origem
1
2
3
4
Escala
44
Gráfico de Colunas
dependente:
contínua
Área de
Plantação
Ano independente:
ordinal
45
Gráficos de Linhas
dependente:
contínua
independente:
ordinal
Compare: 
Gráfico de linhas destaca evolução
Gráfico de colunas destaca níveis absolutos
Ano
Variação em temperatura 
relativa a uma referência
(oC)
Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1880 1900 1920 1940 1960 1980 2000
ano
v
a
r
i
a
ç
ã
o
 
(
°
C
)
46
Gráfico de Dispersão
Índice de 
sucesso financeiro
Razão indicador/anular 
independente:
contínua
dependente:
contínua
Pontos de dados
Linha de tendência:
opcional
John M. Coates, Mark Gurnell, and Aldo Rustichini
Second-to-fourth digit ratio predicts success among high-frequency financial traders
PNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106
47
Correlação e Regressão
48
Correlação e Regressão
� As técnicas de correlação e regressão analisam dados amostrais, 
procurando determinar como duas ou mais variáveis estão 
relacionadas umas com as outras.
� A tabela a seguir mostra alguns exemplos de possíveis relações
� Qual é o tipo de relação que existe entre as variáveis desta 
tabela? Por exemplo, quando uma aumenta a outra diminui?
49
Correlação e Regressão
� Este tipo de estudo é bastante utilizado quando o 
trabalho/pesquisa/relatório é caracterizado pela pesquisa 
exploratória.
� Isto é, um analista/pesquisador busca determinar quais 
variáveis são relevantes, e o foco está no grau do 
relacionamento.
50
•A análise de correlação tem como resultado um
número que expressa o grau de relacionamento 
entre duas variáveis
•A análise de regressão expressa o resultado em 
uma equação matemática, descrevendo o 
relacionamento
Gráficos de Dispersão e Correlação 
� Construir o gráfico de dispersão da variável dependente versus
variável independente é, usualmente, o primeiro passo em uma 
análise de correlação
51
� A análise de correlação
partede uma hipótese, isto 
é, um enunciado formal das 
relações esperadas entre 
pelo menos uma variável 
independente e uma 
variável dependente
Qual a hipótese 
deste gráfico?
Gráficos de Dispersão e Correlação 
� No gráfico de dispersão abaixo o eixo X (variável independente) 
representa horas de treinamento em uma linha de produção de 
automóveis, e o eixo Y (variável dependente) representa o 
número de acidentes na fábrica
52
• A análise gráfica do 
comportamento entre as 
variáveis mostra a 
existência de correlação 
negativa, pois à medida que 
X cresce, Y decresce
• O gráfico mostra que a 
empresa, ao investir em 
treinamento, reduz o 
número de acidentes na 
fábrica
Gráficos de Dispersão e Correlação 
� No gráfico abaixo o eixo X representa o aumento da renda média 
da população, e o eixo Y representa o consumo de bens duráveis 
em milhões/ano
53
� A análise mostra que há
correlação positiva, pois 
à medida que X cresce, Y 
também cresce
� O gráfico mostra que, 
com o aumento médio 
da renda da população, o 
consumo de bens 
duráveis aumenta
Gráficos de Dispersão e Correlação 
� No gráfico abaixo o peso de uma pessoa é representado no eixo 
X, enquanto seu Q.I. (Quociente de Inteligência) está
representado no eixo Y
54
� Não há correlação 
linear, o gráfico 
mostra que não 
existe evidência de 
alguma relação 
entre o peso de uma 
pessoa com seu Q.I.
Correlação Linear e Não Linear 
� Podemos ter dois tipos de correlação entre as variáveis:
� Correlação linear, em que a relação entre as duas variáveis é
expressa adequadamente por uma reta.
� Correlação não-linear. Apesar de existir uma relação clara entre as 
variáveis, esta não pode ser modelada por uma reta.
55
55
Coeficiente de Correlação
� Utilizar apenas o mapa/gráfico de dispersão para interpretar a 
existência de uma correlação pode ser uma tarefa bastante subjetiva.
� Como medida mais objetiva, mede-se o grau e o tipo de uma correlação 
linear entre duas variáveis por meio do cálculo do coeficiente de 
correlação.
� O intervalo de variação do coeficiente de correlação r varia entre -1 e 1.
56
Valor de r próximo de 
1: as variáveis X e Y 
têm forte correlação 
linear positiva
Valor de r próximo 
de -1: as variáveis X e 
Y têm forte 
correlação linear 
negativa
Valor de r próximo de 
zero: se não existir, ou 
se existir pouca
correlação linear entre 
as variáveis X e Y
Coeficiente de Correlação
� O Coeficiente de Correlação pode ser calculado pela fórmula:
57
Fórmula mais prática
para fazer conta na mão
Coeficiente de Correlação
� Como exemplo, vamos analisar o coeficiente de correlação entre 
o número de faltas dos alunos por semestre, em relação a suas 
respectivas notas finais em uma determinada disciplina
58
Causalidade e Correlação
� Pesquisadores frequentemente são tentados a inferir uma 
relação de causa e efeito entre X e Y, quando eles ajustam 
um modelo de regressão, ou realizam uma análise de 
correlação
� Uma associação significativa entre X e Y não 
necessariamente implica em uma relação de causa e 
efeito
59
Correlação não necessariamente implica em 
causalidade
Causalidade e Correlação
60
Correlação não necessariamente implica em causalidade
� Como exemplo, o gráfico de dispersão a seguir mostra a 
população de Oldenburg, Alemanha contra o número de 
cegonhas (X) (amostras tomadas de 7 em 7 anos)
Causalidade e Correlação
61
Correlação não necessariamente implica em causalidade
� O exame do gráfico pode 
induzir à interpretação de que 
existe associação entre X e Y
� Frequentemente, quando duas
variáveis parecem estar 
fortemente associadas, pode 
ser porque X e Y estão, de fato, 
associadas com uma terceira 
variável, W
• Neste exemplo, X e Y aumentam com W, que é a 
variável tempo
Causalidade e Correlação
62
RETA DE REGRESSÃO LINEAR
� Depois de constatar que existe uma correlação linear significativa, é
possível escrever uma equação que descreva a relação linear entre as 
variáveis X e Y.
� Essa equação chama-se reta de regressão, ou reta do ajuste ótimo
� Pode-se escrever a equação de uma reta como y = mx + b, onde m é a 
inclinação da reta e b, o intercepto y (fator de translação). Assim, a 
reta de regressão é:
� A inclinação m é dada por:
� E o intercepto y (b) é: 
63
m
Parte Prática
64
Gráfico de Correlação no LibreOffice Calc
65
1) Inserção das 
informações. Os 
valores das 
variáveis 
independente (X) e 
dependente (Y). No 
exemplo a seguir 
são as Horas de 
Treinamento versus 
Número de 
Acidentes
66
2) Podemos usar diretamente o ícone Gráfico da barra de ferramentas, ou 
a opção Inserir Gráfico. Em seguida escolhemos o gráfico de dispersão
67
3) Definimos o intervalo de dados, selecionando todas as colunas de dados 
68
4) Inserir a coluna X
69
5) Inserir a coluna Y
70
6) Escolher título do gráfico, subtítulo, nomes das variáveis X e Y
71
7) Após a inserção de todas as informações podemos clicar em “Concluir” e 
o gráfico será gerado
72
8) Clicando-se sobre o gráfico é possível criar a reta de regressão e a 
equação da reta
Após clicar sobre o gráfico, vá ate o menu da parte superior “Inserir” e 
clique em “Linha de Tendência”. Aparecerá a janela denominada 
“Linhas de tendência”. Clique em “Linear”
73
74
9) O valor do coeficiente de correlação (r) pode ser calculado no 
LibreOffice Calc seguindo o mesmo procedimento para calcular outras 
funções
Clique no ícone do assistente de funções ou use o menu 
Inserir/Função. Selecione o grupo de funções estatísticas e escolha a 
função CORREL
75
10) O próximo passo é selecionar as colunas de dados
Neste exemplo, para o campo “Dados 1” é selecionada a coluna “Horas 
de Treinamento", e para o campo “Dados 2" é selecionada a coluna 
“Acidentes"
76
Finalmente, o valor calculado é inserido na planilha, sendo igual a -0,98
Neste caso, o valor de r é negativo, pois há uma forte correlação negativa
Noções de Estatística, Correlação e 
Regressão
77
77
Atividades para casa
78
� Capítulos 4 e 5 do livro
� Slides da aula 3 (referentes ao capítulo 4 do livro)
�Tidia, seção Repositório
� Slides da aula 4 (referentes ao capítulo 5 do livro)
�Tidia, seção Repositório
�Estudar e fazer os exercícios

Continue navegando