Baixe o app para aproveitar ainda mais
Prévia do material em texto
� Bases Computacionais da Ciência (BC-0005) Noções de Estatística, Correlação e Regressão David Correa Martins Jr david.martins@ufabc.edu.br Universidade Federal do ABC (UFABC) 1 Objetivos � Introduzir algumas ferramentas básicas de Análise Estatística: � Permitem visualizar e compreender características de dados experimentais e realizar formas simples de inferência � Utilizar o software LibreOffice Calc (clone do MS Excel): � Familiarizar o aluno com o uso da ferramenta para automatizar tarefas de análise estatística, que seria por demais tediosas ou (impossíveis/dificeis) de se realizar manualmente � A objetivo desta aula NÃO é esgotar o assunto da análise estatística de dados 2 Introdução 3 Exemplo de aplicação: pesquisa eleitoral •O objetivo de uma pesquisa eleitoral é fornecer um retrato momentâneo da intenção de voto em cada candidato. •Em uma pesquisa, apenas um pequeno contingente do eleitorado é entrevistado. •Por isso, é impossível dizer que a verdadeira intenção de voto em um candidato é igual ao percentual obtido por ele na pesquisa. •Os números de intenção são divulgados juntamente com a margem de erro da pesquisa, indicando um intervalo que provavelmente contém a intenção real de voto em cada candidato 3 Introdução � O que pode-se observar no exemplo anterior é a incerteza resultante de trabalharmos com um subconjunto dos dados de interesse. � Este subconjunto é denominado de AMOSTRA. � O conjunto total é chamado de POPULACAO. 4 4 O processo de gerar uma amostra é aleatório Então, se gerarmos duas amostras distintas para estudar um mesmo processo, provavelmente vamos obter dois resultados diferentes Em princípio, não podemos dizer que um desses resultados é “mais verdadeiro” que o outro Introdução � A Estatística é um ramo da Matemática que estuda como se pode usar uma amostra para tirar conclusões sobre um universo maior de objetos, levando em conta que sempre há variação e incerteza nas medidas consideradas. � A Estatística está presente na base de toda a ciência experimental, pois ela fornece diretrizes para a coleta de dados, permite comparar diferentes hipóteses e avaliar a precisão dos resultados obtidos experimentalmente. � A estatística moderna: � Apresenta amplas ferramentas computacionais � Os softwares de baixo custo, ou mesmo gratuitos, disponibilizam métodos sofisticados de análise estatística 5 Conceitos Básicos 6 Variáveis � Variáveis: � Medição de certas características de interesse para cada um dos casos presentes na amostra � As características medidas são conhecidas como variáveis � Por exemplo: � Estudo sobre habitantes de uma cidade, as variáveis podem ser: � Altura, sexo, cor do cabelo, cor dos olhos, etc � Divididas em dois tipos: � Dependente: deve variar em resposta a alguma outra variável manipulada � Independente: é a variável candidata a explicar a variável dependente. No experimento ela está sendo manipulada e/ou supostamente exerce uma influência sobre a variável de resposta 7 Análise Estatística � Após a coleta dos dados, quando as variáveis de interesse já foram medidas para todos os casos da amostra, inicia-se a etapa de Análise Estatística: � Caracterizada pelo cálculo de parâmetros a partir das variáveis medidas, que nos permitem entender o comportamento dos dados e fazer previsões sobre casos futuros � A Análise Estatística pode ser dividida em duas áreas: � Estatística descritiva: é a área da Estatística que preocupa-se com a apresentação, organização e resumo dos dados � Estatística inferencial: é a área que estuda métodos para generalizar um resultado obtido de uma amostra de dados para um grande número de sujeitos (população) 8 Análise Estatística � Estatística Descritiva: � O número de acidentes (= frequência) nas rodovias federais no estado de São Paulo antes e depois da Lei Seca � Gráfico com a distribuição da idade dos ingressantes nos bacharelados interdisciplinares da UFABC � Estatística Inferencial/Indutiva: � Estimação da porcentagem da população que votará para um/a determinado/a candidato/a à presidência, junto com uma margem de erro (“intervalo de confiança”) � Teste estatístico de tendência de queda nas populações de atum- rabilho entre 2000 e 2010, a partir de observações sistemáticas 9 Tipos de Dados � A identificação da natureza dos dados é de extrema importância para uma escolha correta do método estatístico de análise � Os dados são divididos em dois tipos: � Categóricos, ou qualitativos � Nominal � Ordinal � Numéricos, ou quantitativos � Contínuo � Discreto 10 Dados Categóricos, Qualitativos � Nominal: � Dados são rotulados por nomes ou números, com o propósito de agrupar os sujeitos que possuam características semelhantes em determinadas categorias � Exemplo: Sexo, estado civil, grupo sanguíneo, cor dos olhos, etc. Exemplo: Por gênero 1 Feminino 2 Masculino Exemplo: Etnia 1 para Africanos 2 para Americanos 3 para Hispânicos 4 para Orientais Exemplo: Classificação dos empregados 1 para Educador 2 para trabalhador na Construção Civil 3 para trabalhador na Indústria Mecânica 11 Dados Categóricos, Qualitativos � Ordinal: � É possível verificar se o valor é maior, igual ou menor quando comparado a outro caso � No entanto, não podemos dizer o quanto um caso é maior ou menor que outro � Exemplo: Nível sócio-econômico (baixa, média e alta), avaliação de um estudante (insuficiente, suficiente, excelente) Exemplo : Posição na organização 1 para Presidente 2 para Vice Presidente 3 para Gerente 4 para Supervisor de Departamento 5 para Empregados 12 Dados Numéricos, Quantitativos � Contínuo: � As variáveis podem assumir qualquer valor dentro de um intervalo � Exemplo: A altura de um indivíduo pode corresponder a qualquer número entre 1,65 m e 1,78 m; 1,65009 m ou 1,65699 m � Discreto: � Neste caso os dados podem assumir apenas determinados valores numéricos � Exemplo: O número de crianças que apresentaram TOC (Transtorno Obsessivo Compulsivo) entre os cinco e os dez anos corresponde a um número N que pode assumir valores tais como 0, 1, 2, 3, 4... mas não pode ser 2,5 ou 4,876 13 Distribuição de Frequências � Após o levantamento de dados, torna-se necessária a descrição e a organização destes dados � A partir dos dados brutos (da forma como são coletados) pode- se construir uma Distribuição de Frequências � A frequência é definida como o número de indivíduos pertencentes a cada categoria 14 Distribuição de Frequências: Exemplo Exemplo 1: Em um estudo feito com 100 estudantes norte-americanos foi perguntado qual o curso que eles menos gostaram durante o colégio. A distribuição de frequências desse estudo é mostrada na tabela a seguir: A partir deste exemplo poderíamos perguntar: O curso de Economia foi realmente menos apreciado pelos alunos, ou a diferença foi apenas casual? Para que os resultados fiquem mais claros, e para respondermos a estas perguntas, podemos utilizar alguns métodos para padronizar tamanhos (normalizar) e possibilitar a comparação de distribuições 15 Distribuição de Frequências: Método da Proporção No método da proporção comparamos o número (frequência f) de sujeitos de uma dada categoria com o total de sujeitos (N) que compõem a distribuição. P=42/100 = 0,42 P=25/100 = 0,25 P=8/100 = 0,08 P=13/100 = 0,13 P=12/100 = 0,12 16 Distribuição de Frequências: Método da Porcentagem No método da porcentagem multiplicamos uma dada proporção por 100. P=42/100 = 0,42*100 (42%) P=25/100 = 0,25*100 (25%) P=8/100= 0,08*100 (8%) P=13/100 = 0,13*100 (13%) P=12/100 = 0,12*100 (12%) 17 Distribuição de Frequências � Estudar em casa: � Coeficientes e taxas � Método da razão � Frequência com dados agrupados 18 Medidas de Tendência Central � É conveniente dispor de medidas que informem sobre a amostra de maneira mais resumida do que os dados brutos são capazes de fazer � As medidas de tendência central cumprem este papel, dando o valor do ponto em torno do qual os dados se distribuem � Por exemplo, são medidas de tendência central: � Média � Mediana � Moda 19 Medidas de Tendência Central: Média Aritmética � Utilizada para dados numéricos, dados categóricos intervalares ou do tipo razão. � A média aritmética é definida como a soma de todos valores de uma variável em um conjunto, dividida pelo número de elementos do conjunto. 20 Medidas de Tendência Central: Média Aritmética � Exemplo: Calcular a média da classe cujas notas são dadas pela tabela. Nesse caso, a somatória das notas é 60 e o número total de sujeitos é 11. 21 Medidas de Tendência Central: Mediana � Valor central do conjunto que divide a distribuição em duas partes iguais (mesmo número de “valores” abaixo e acima do valor) � Os dados devem estar ordenados � Depois de ordenados os valores, por ordem crescente ou decrescente, a mediana é: � O valor que ocupa a posição central, se a quantidade desses valores for ímpar � A média dos dois valores centrais, se a quantidade desses valores for par 22 Medidas de Tendência Central: Mediana Gasto de Energia Elétrica Quantidade ímpar de valores 23 Meses JAN FEV MAR ABR MAI Custo(R$) 25 22 35 28 35 Mediana: 28 22 25 28 35 35 Medidas de Tendência Central: Mediana Gasto de Energia Elétrica Quantidade par de valores 24 Mediana: 30,5 22 25 28 33 35 35 28 + 33 = 61 61/2=30,5 Meses JAN FEV MAR ABR MAI JUN Custo(R$) 25 22 35 28 35 33 25 Medidas de Tendência Central: Moda � A moda é o valor mais frequente de um conjunto de dados � A moda pode não existir ou pode não ser única � Exemplos: 1,1,3,3,5,7,7,7,11,13 Moda 7 3,5,8,11,13,18 Não tem moda 3,5,5,5,6,6,7,7,7,11,12 Tem duas modas: 5,7 (bimodal) Distribuição Unimodal 0 1 2 3 4 2 3 4 5 6 7 8 9 Nota F r e q ü ê n c i a Distribuição Bimodal 0 1 2 3 4 2 3 4 5 7 8 9 Nota F r e q ü ê n c i a 25 Medidas de Dispersão � O processo de trabalhar com amostras introduz uma variabilidade dos resultados obtidos, pois cada amostra vai ter características ligeiramente diferentes � Essa variabilidade afeta nosso grau de confiança nos resultados. Por isso, as medidas de variabilidade (ou dispersão) têm papel central na Estatística � São elas que permitem avaliar a precisão das conclusões que obtemos a partir dos dados experimentais � Dentre as medidas de dispersão tem-se: � Variância � Desvio-padrão 26 Medidas de Dispersão: Desvio 27 Medidas de Dispersão: Desvio 28 � Podemos calcular o desvio, que é a diferença de cada nota em relação à média � Como posso calcular o desvio médio? Somando todos os desvios e dividindo por cinco � 3,8 + 1,8 - 0,2 - 2,2 - 3,2 = ZERO!!! Medidas de Dispersão: Variância 29 � Para resolver o problema anterior do somatório dos desvios sendo igual à zero � Basta elevar cada desvio ao quadrado 1 )( 2 − − = ∑ N Xx VAR � A variância é uma forma de se medir a dispersão dos dados. Indica o quanto os dados dispersam-se em torno de um valor (média) � A variância é a média dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto Medidas de Dispersão: Variância 30 2,8 4 8,32 1 )( 2 == − − = ∑ N Xx VAR Medidas de Dispersão: Desvio Padrão � Mas pensar em número ao quadrado não é usual. O que fazer? � Calcular a raiz quadrada � Devio padrão é a raiz quadrada da variância 31 86,22,8 1 )( 2 == − −∑ N Xx 2,8 4 8,32 1 )( 2 == − − = ∑ N Xx VAR Parte Prática 32 Parte Prática: Calc do LibreOffice � O software Calc do LibreOffice é utilizado para a construção de gráficos em programas de planilhas � O pacote LibreOffice pode ser baixado para uso livre � Abre (botão início): � → programas → LibreOffice.org → LibreOffice Calc 33 Exercício 01 34 35 36 37 38 39 40 � Repita os passos para o cálculo da moda, mediana, desvio padrão, máximo e mínimo. Para tanto, utilize as seguintes funções estatísticas Função Estatística Comando no LibreOffice Calc Média Aritmética MEDIA() Mediana MED() Moda MODO() Variância VAR() Desvio Padrão DESVPAD() Máximo MAXIMO Mínimo MINIMO 41 Gráficos 42 Gráficos � Tem por finalidade representar os resultados obtidos � Permite chegar a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores � Não há uma única maneira de representar graficamente uma série estatística � Escolha do gráfico mais apropriado ficará a critério do analista � Alguns critérios: � Simplicidade � Clareza � Veracidade 43 Apresentação Gráfica – Estrutura de um Gráfico Abscissa (eixo-X) var independente Ordenada (eixo-Y) var dependente Série 1 Série 2 Série Título (opcional) Legenda (se aplicável) Origem 1 2 3 4 Escala 44 Gráfico de Colunas dependente: contínua Área de Plantação Ano independente: ordinal 45 Gráficos de Linhas dependente: contínua independente: ordinal Compare: Gráfico de linhas destaca evolução Gráfico de colunas destaca níveis absolutos Ano Variação em temperatura relativa a uma referência (oC) Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/ -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1880 1900 1920 1940 1960 1980 2000 ano v a r i a ç ã o ( ° C ) 46 Gráfico de Dispersão Índice de sucesso financeiro Razão indicador/anular independente: contínua dependente: contínua Pontos de dados Linha de tendência: opcional John M. Coates, Mark Gurnell, and Aldo Rustichini Second-to-fourth digit ratio predicts success among high-frequency financial traders PNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106 47 Correlação e Regressão 48 Correlação e Regressão � As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas ou mais variáveis estão relacionadas umas com as outras. � A tabela a seguir mostra alguns exemplos de possíveis relações � Qual é o tipo de relação que existe entre as variáveis desta tabela? Por exemplo, quando uma aumenta a outra diminui? 49 Correlação e Regressão � Este tipo de estudo é bastante utilizado quando o trabalho/pesquisa/relatório é caracterizado pela pesquisa exploratória. � Isto é, um analista/pesquisador busca determinar quais variáveis são relevantes, e o foco está no grau do relacionamento. 50 •A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis •A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento Gráficos de Dispersão e Correlação � Construir o gráfico de dispersão da variável dependente versus variável independente é, usualmente, o primeiro passo em uma análise de correlação 51 � A análise de correlação partede uma hipótese, isto é, um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente Qual a hipótese deste gráfico? Gráficos de Dispersão e Correlação � No gráfico de dispersão abaixo o eixo X (variável independente) representa horas de treinamento em uma linha de produção de automóveis, e o eixo Y (variável dependente) representa o número de acidentes na fábrica 52 • A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce • O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica Gráficos de Dispersão e Correlação � No gráfico abaixo o eixo X representa o aumento da renda média da população, e o eixo Y representa o consumo de bens duráveis em milhões/ano 53 � A análise mostra que há correlação positiva, pois à medida que X cresce, Y também cresce � O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta Gráficos de Dispersão e Correlação � No gráfico abaixo o peso de uma pessoa é representado no eixo X, enquanto seu Q.I. (Quociente de Inteligência) está representado no eixo Y 54 � Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I. Correlação Linear e Não Linear � Podemos ter dois tipos de correlação entre as variáveis: � Correlação linear, em que a relação entre as duas variáveis é expressa adequadamente por uma reta. � Correlação não-linear. Apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta. 55 55 Coeficiente de Correlação � Utilizar apenas o mapa/gráfico de dispersão para interpretar a existência de uma correlação pode ser uma tarefa bastante subjetiva. � Como medida mais objetiva, mede-se o grau e o tipo de uma correlação linear entre duas variáveis por meio do cálculo do coeficiente de correlação. � O intervalo de variação do coeficiente de correlação r varia entre -1 e 1. 56 Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva Valor de r próximo de -1: as variáveis X e Y têm forte correlação linear negativa Valor de r próximo de zero: se não existir, ou se existir pouca correlação linear entre as variáveis X e Y Coeficiente de Correlação � O Coeficiente de Correlação pode ser calculado pela fórmula: 57 Fórmula mais prática para fazer conta na mão Coeficiente de Correlação � Como exemplo, vamos analisar o coeficiente de correlação entre o número de faltas dos alunos por semestre, em relação a suas respectivas notas finais em uma determinada disciplina 58 Causalidade e Correlação � Pesquisadores frequentemente são tentados a inferir uma relação de causa e efeito entre X e Y, quando eles ajustam um modelo de regressão, ou realizam uma análise de correlação � Uma associação significativa entre X e Y não necessariamente implica em uma relação de causa e efeito 59 Correlação não necessariamente implica em causalidade Causalidade e Correlação 60 Correlação não necessariamente implica em causalidade � Como exemplo, o gráfico de dispersão a seguir mostra a população de Oldenburg, Alemanha contra o número de cegonhas (X) (amostras tomadas de 7 em 7 anos) Causalidade e Correlação 61 Correlação não necessariamente implica em causalidade � O exame do gráfico pode induzir à interpretação de que existe associação entre X e Y � Frequentemente, quando duas variáveis parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W • Neste exemplo, X e Y aumentam com W, que é a variável tempo Causalidade e Correlação 62 RETA DE REGRESSÃO LINEAR � Depois de constatar que existe uma correlação linear significativa, é possível escrever uma equação que descreva a relação linear entre as variáveis X e Y. � Essa equação chama-se reta de regressão, ou reta do ajuste ótimo � Pode-se escrever a equação de uma reta como y = mx + b, onde m é a inclinação da reta e b, o intercepto y (fator de translação). Assim, a reta de regressão é: � A inclinação m é dada por: � E o intercepto y (b) é: 63 m Parte Prática 64 Gráfico de Correlação no LibreOffice Calc 65 1) Inserção das informações. Os valores das variáveis independente (X) e dependente (Y). No exemplo a seguir são as Horas de Treinamento versus Número de Acidentes 66 2) Podemos usar diretamente o ícone Gráfico da barra de ferramentas, ou a opção Inserir Gráfico. Em seguida escolhemos o gráfico de dispersão 67 3) Definimos o intervalo de dados, selecionando todas as colunas de dados 68 4) Inserir a coluna X 69 5) Inserir a coluna Y 70 6) Escolher título do gráfico, subtítulo, nomes das variáveis X e Y 71 7) Após a inserção de todas as informações podemos clicar em “Concluir” e o gráfico será gerado 72 8) Clicando-se sobre o gráfico é possível criar a reta de regressão e a equação da reta Após clicar sobre o gráfico, vá ate o menu da parte superior “Inserir” e clique em “Linha de Tendência”. Aparecerá a janela denominada “Linhas de tendência”. Clique em “Linear” 73 74 9) O valor do coeficiente de correlação (r) pode ser calculado no LibreOffice Calc seguindo o mesmo procedimento para calcular outras funções Clique no ícone do assistente de funções ou use o menu Inserir/Função. Selecione o grupo de funções estatísticas e escolha a função CORREL 75 10) O próximo passo é selecionar as colunas de dados Neste exemplo, para o campo “Dados 1” é selecionada a coluna “Horas de Treinamento", e para o campo “Dados 2" é selecionada a coluna “Acidentes" 76 Finalmente, o valor calculado é inserido na planilha, sendo igual a -0,98 Neste caso, o valor de r é negativo, pois há uma forte correlação negativa Noções de Estatística, Correlação e Regressão 77 77 Atividades para casa 78 � Capítulos 4 e 5 do livro � Slides da aula 3 (referentes ao capítulo 4 do livro) �Tidia, seção Repositório � Slides da aula 4 (referentes ao capítulo 5 do livro) �Tidia, seção Repositório �Estudar e fazer os exercícios
Compartilhar