Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 1 25/02/2014 Prof. Gabriel Pivaro Decom/FEEC - Unicamp Ementa: Estatística descritiva. Probabilidade. Distribuições: Binomial, Poisson e Normal. Amostragem Estimação. Testes de hipótese. Intervalos de confiança. Regressão. Correlação. Objetivos da Disciplina: Introduzir os conceitos e técnicas fundamentais emanados na Estatística básica, favorecendo o desenvolvimento dos alunos em probabilidade e inferência. Metodologia de Ensino: A disciplina será desenvolvida com base em aulas expositivas e trabalho em grupo na resolução dos exercícios. 2 Bibliografia Básica: Bussab, W. O., Morettin, P. A, Estatística Básica, 5 ª ed., 2004. Bibliografia Indicada: Triola, M. Introdução a Estatística, LTC, Rio de Janeiro, 7 ª ed., 1999. Farber & Larson, Estatística Aplicada, Pearson, São Paulo, 2ª ed., 2004. Spiegel, M. R., Curso de Estatística, Makron Books. Vieira e outros., Estatística: Introdução Ilustrada, Atlas. Fonseca, J.S., Curso de Estatística, Atlas. Morettini, L.G. Estatística Básica, Inferência, Makron Books. Critérios de Avaliação: A avaliação será realizada por meio de duas provas (P1 e P2, valendo 10 pontos cada). A média final será calculada através da média aritmética entre P1, P2. Freqüência: A freqüência mínima permitida na disciplina é de 75%. Arquivos disponíveis em: TelEduc 3 Análise Exploratória dos Dados Probabilidades Inferência Estatística 4 Resumo de Dados Medidas-Resumo Análise Bidimensional 5 Probabilidades Variáveis Aleatórias Discretas Variáveis Aleatórias Contínuas Variáveis Aleatórias Multidimensionais 6 Introdução à Inferência Estatística Estimação Testes de Hipóteses Regressão Linear Simples 7 Problema: Pesquisador/Engenheiro/Estudante em alguma fase do seu trabalho se depara com o problema de analisar e entender um conjunto de dados. Objetivo: Trabalhar os dados para transformá-los em informações, para compará-los com outros resultados, ou ainda para julgar sua adequação a teoria. Resumindo: essência da Ciência é a observação, objetivo é a inferência. Inferência estatística: parte da metodologia da Ciência, objetivo a coleta, redução, análise e modelagem dos dados, e inferência para uma população. 9 Redução, análise e interpretação dos dados Obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise confirmatória dos dados (ou inferência). Modelos: busca-se alguma forma de regularidade ou padrão ou, ainda, modelo, presente nas observações. Ex: modelo linear. Softwares estatísticos: Excel, Minitab, R, Mathematica, Matlab, etc. 10 • Buscar padrões e relações • Confirmar (ou não) certas expectativas que se tinha sobre os dados • Descobrir novos fenômenos • Confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados • Apresentar resultados de modo mais rápido e fácil Domicílios Brasileiros (%) com Telefone Fixo e Celular 12 13 14 15 Serviços de manicure sobe 12% nos últimos treze meses em SP 16 Estatísticas de Celulares no Brasil Fonte: Anatel 17 Pesquisa mostra que 94% dos moradores de favela são felizes 18 19 20 Cap. 2 Resumo dos Dados Para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica(s). Característica (variável) estado civil: solteiro, casado, separado, viúvo. X representa a variável estado civil. Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V X possui como possíveis realizações uma qualidade (atributo) do indivíduo pesquisado. Z: 0, 1, 2, .... Possíveis re a l i z a ç õ e s n ú m e ro s r e s u l t a n t e s d e u m a contagem ou mensuração, i.e., quantidades. 22 N° Estado civil Grau de instrução N° de filhos Salário (x sal. mín) Anos Meses Região de procedência 1 solteiro ens. fundamental 0 4 26 3 interior 2 casado ens. fundamental 1 4,56 32 10 capital 3 casado ens. fundamental 2 5,25 36 5 capital 4 solteiro ens. médio 0 5,73 20 10 outra 5 solteiro ens. fundamental 0 6,26 40 7 outra 6 casado ens. fundamental 0 6,66 28 0 interior 7 solteiro ens. fundamental 0 6,86 41 0 interior 8 solteiro ens. fundamental 0 7,39 43 4 capital 9 casado ens. médio 1 7,59 34 10 capital 10 solteiro ens. médio 0 7,44 23 6 outra 11 casado ens. médio 2 8,12 33 6 interior 12 solteiro ens. fundamental 0 8,46 27 11 capital 13 solteiro ens. médio 0 8,74 37 5 outra 14 casado ens. fundamental 3 8,95 44 2 outra 15 casado ens. médio 0 9,13 30 5 interior 16 solteiro ens. médio 0 9,35 38 8 outra 17 casado ens. médio 1 9,77 31 7 capital Tabela 2.1 23 Y: ens. fundamental, ens. médio, ens. superior. V: Sul, Centro-Oeste, Nordeste, Sudeste, Norte. Variável Qualitativa Quantitativa Nominal Ordinal Discreta Contínua X, V Y Z, U Para cada tipo de variável. existem técnicas apropriadas para resumir as informações. Pode-se atribuir valores numéricos às variáveis qualitativas. S 24 Conhecer o comportamento da variável, analisando a ocorrência de suas possíveis realizações. Apresentar um conjunto de realizações, para se ter ideia global sobre elas, ou seja, de sua distribuição. Grau de Instrução Frequência ni Proporção fi Porcentagem 100fi Fundamental 12 0,3333 33,33 Médio 18 0,5000 50,00 Superior 6 0,1667 16,67 Total 36 1,000 100,00 Tabela 2.2 Distribuição de frequências da variável grau de instrução. Outras medidas: proporção, porcentagem. ni freq. absoluta fi=ni/n freq. relativa 25 Proporções (fi) são muito úteis quando se quer comparar resultados de duas pesquisas distintas. Frequências absolutas muitas vezes não podem ser diretamente comparadas, porém, as frequências relativas podem ser diretamente comparadas. Grau de Instrução Frequência ni Proporção fi Porcentagem 100fi Fundamental 650 0,325 32,50 Médio 1020 0,51 51,00 Superior 330 0,165 16,50 Total 2000 1,000 100,00 Tabela 2.3 ni freq. absoluta fi=ni/n freq. relativa 26 Tabelas de frequências para variáveis contínuas necessita de certo cuidado. Para o caso da variável salário, como não existem observações iguais, a solução para agrupar os dados foi criar faixas de salário. Perda de informação. Classe de salários Frequência ni Proporção fi Porcentagem 100fi 4 - 8 10 0,2778 27,78 8 - 12 12 0,3333 33,33 12 - 16 8 0,2222 22,22 16 - 20 5 0,1389 13,89 20 - 24 1 0,0278 2,78 Total 36 1,00 100 Tabela 2.4 Mais classes: menor agrupamento;Menos classes: perda de informação 27 Representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Gráficos para variáveis qualitativas: barras e de composição em setores. 0 5 10 15 20 Fundamental Médio Superior F re q u ên ci a 33% 50% 17% Fundamental Médio Superior Variável Y: grau de instrução Gráfico em barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni ou fi). 28 A gama de possibilidades para gráficos de variáveis quantitativas é maior. Entretanto, os gráficos de barras e de setores ainda podem ser utilizados para representar as variáveis quantitativas. Variável Z: número de filhos Gráfico em barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni ou fi). Número de Filhos Frequência ni Porcentagem 100fi 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total 20 100 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 F re q u ên ci a Número de filhos 29 Além dos gráficos usados para variáveis qualitativas, mostrados anteriormente, podemos considerar um gráfico chamado gráfico de dispersão unidimensional. Variável Z: número de filhos 30 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 F re q u ên ci a Número de filhos Variações deste gráfico podem apresentar pontos ao longo da reta acompanhados do frequência absoluta, ou os valores repetidos podem ser empilhados um em cima do outro. 0 20% 1 25% 2 35% 3 15% 4 0% 5 5% Para variáveis quantitativas contínuas, necessita-se de alguma adaptação nos dados. Variável S: salário 31 Para fazer uma representação similar as anteriores, usamos o artifício de aproximar a variável contínua por uma variável discreta. Suponha que todos os salários em uma determinada classe são iguais ao ponto médio desta classe. Assim, por exemplo, os 10 salários da primeira classe serão iguais a 6,00. Classe de salários Frequência ni Proporção fi Porcentagem 100fi 4 - 8 10 0,2778 27,78 8 - 12 12 0,3333 33,33 12 - 16 8 0,2222 22,22 16 - 20 5 0,1389 13,89 20 - 24 1 0,0278 2,78 Total 36 1,00 100 Tabela 2.4 Classe de salários Ponto médio si Frequência ni Proporção fi Porcen- tagem 100fi 4 - 8 6,00 10 0,2778 27,78 8 - 12 10,00 12 0,3333 33,33 12 - 16 14,00 8 0,2222 22,22 16 - 20 18,00 5 0,1389 13,89 20 - 24 22,00 1 0,0278 2,78 Total - 36 1,00 100 Tabela 2.6 Com a tabela assim construída podemos representar os pares (si, ni) ou (si, fi), por um gráfico em barras, setores ou dispersão unidimensional. Variável S: salário 32 O artifício usado acima para representar uma variável contínua faz com que se perca muita das informações nelas contidas. Uma alternativa a ser usada nestes casos é o gráfico conhecido como histograma. 0 2 4 6 8 10 12 14 6 10 14 18 22 F re q u ên ci a Salário 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0 5 10 15 20 25 P ro p or çã o Salário O histograma é um gráfico de barras contíguas, com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência. Indiquemos a amplitude do i-ésimo intervalo por Δi. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a fi/Δi (ou a ni/Δi), que é chamada densidade de frequência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Variável S: salário 33 Com essa convenção, a área total do histograma será igual a 1. Quando os intervalos das classes forem todos iguais a Δ, a densidade de frequência da i-ésima classe passa a ser fi/Δi (ou a ni/Δi). 28% 33% 22% 14% 3% 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 4 - 8 8 - 12 12 - 16 16 - 20 20 - 24 Densidade de frequência Salário Tanto o histograma como os gráficos em barras dão uma ideia da forma da d i s t r i b u i ç ã o d a v a r i á v e l s o b consideração. Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma ideia da forma de sua distribuição, é o ramo-e-folhas. Uma vantagem deste diagrama sobre o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si. A ideia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. 34 4 0 56 5 25 73 6 26 66 86 7 39 44 59 8 12 46 74 95 9 13 35 77 80 10 53 76 11 6 59 12 0 79 13 23 60 85 14 69 71 15 99 16 22 61 17 26 18 75 19 40 20 21 22 23
Compartilhar