Baixe o app para aproveitar ainda mais
Prévia do material em texto
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estatística para Cursos de Estatística para Cursos de Engenharia e InformáticaEngenharia e Informática Cap. 3 Cap. 3 –– Análise exploratória de Análise exploratória de dadosdados Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 APOIO: Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC) Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Dados e variáveisDados e variáveis BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Dados e variáveisDados e variáveis BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Dados e variáveisDados e variáveis variável qualitativa ou categórica quantitativa dados qualitativos ou categorizados dados quantitativos BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição de freqüênciasDistribuição de freqüências • A distribuição de freqüências consiste na organização dos dados de acordo com as ocorrências dos diferentes resultados observados. • Pode ser apresentada em tabela ou gráfico. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 DadosDados Provedor usado por cada usuárioProvedor usado por cada usuário A A B C B D B B B C 31 32 33 34 35 36 37 38 39 40 B A A B A A B D D C 21 22 23 24 25 26 27 28 29 30 C A B D A B B C D B 11 12 13 14 15 16 17 18 19 20 C A B B C B D B B A 1 2 3 4 5 6 7 8 9 10 provedorindivíduoprovedorindivíduoprovedorindivíduoprovedorindivíduo BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas 100,040Total 15,06D 17,57C 42,517B 25,010A PercentagemFreqüênciaProvedor Tabela. Distribuição de freqüências do provedor usado pelo visitante do site. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Gráfico de colunas para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site. 0% 10% 20% 30% 40% 50% A B C D provedor Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas Gráfico de setores para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site. 25% 42% 18% 15% A B C D BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição de freqüências para variáveis Distribuição de freqüências para variáveis quantitativas discretasquantitativas discretas 0 2 4 6 8 10 12 14 16 0 1 2 3 4 5 6 7 Número de defeitos % de itens BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Variáveis contínuasVariáveis contínuas Construção da distribuição de freqüênciasConstrução da distribuição de freqüências 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9 amplitude dos dados 11 classes de amplitude unitária 4 5 6 7 8 9 10 11 12 13 14 15 4,7 14,1 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Tabela de freqüências: variável contínuaTabela de freqüências: variável contínua -10050-Total 14 50 76 84 94 98 98 98 98 98 100 14 36 26 8 10 4 0 0 0 0 2 7 18 13 4 5 2 0 0 0 0 1 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 4 |— 5 5 |— 6 6 |— 7 7 |— 8 8 |— 9 9 |— 10 10 |— 11 11 |— 12 12 |— 13 13 |— 14 14 |— 15 Percentagem acumulada 100Fj Percentagem de observações 100fj Número de observações nj Ponto médio Classes de tempo BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 HistogramaHistograma tempo (em segundos) para carga de um aplicativo n ú m e r o d e o b s e r v a ç õ e s 0 2 4 6 8 10 12 14 16 18 20 3 4 5 6 7 8 9 10 11 12 13 14 15 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências • Distribuições diferentes em termos da posição central BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências • Distribuições diferentes quanto à dispersão BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências • Distribuições diferentes quanto à assimetria BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências • Distribuições diferentes quanto à curtose BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Medidas descritivasMedidas descritivas • A média aritmética: uma medida de posição central. ∑ = =+++= n i i n x nn xxx x 1 21 1... BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 ExemploExemplo 36,0 31,3 36,6 32,5 39,2 35,9 37,0 34,4 29,8 33,9 43,2 35,5 40,2 33,6 33,4 35,2 38,1 33,0 80 34,8 36,8 37,4 38,9 38,7 42,5 35,7 40,4 41,7 36,9 34,5 40,0 36,6 35,7 35,3 35,1 30,2 37,2 70 32,9 32,7 34,8 34,9 33,8 34,9 31,0 30,6 32,8 31,9 31,2 31,2 29,7 28,7 30,2 31,3 31,2 31,7 60 302520Temperatura (0C) Tempo (minutos) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 ExemploExemplo 35,335,635,680 38,238,235,070 34,031,430,560 302520tura (0C) Tempo (minutos)Tempera- Médias aritméticas do rendimento, para diferentes níveis de temperatura e tempo de reação, num processo químico. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 ExemploExemplo Rendimento médio em função do tempo e temperatura 60 graus 70 graus 80 graus20 25 30 Tempo (minutos) 29 30 31 32 33 34 35 36 37 38 39 R e n d i m e n t o ( % ) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas 6,00 6,00 6,00 4 5 5 6 6 7 7 8 1 2 4 6 6 9 10 10 0 6 7 7 7 7,5 7,5 A B C Média da turmaNotas dos alunosTurma BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenhariae Informática. Atlas, 2004 Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas 0 2 4 6 8 10 12 notas Turma A Turma B Turma C BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Como medir a dispersão?Como medir a dispersão? Exemplo: Turma A (4 5 5 6 6 7 7 8) 4 5 6 7 8 distância (desvio) em relação à média BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Como medir a dispersão?Como medir a dispersão? xxi − 4 1 1 0 0 1 1 4Desvios quadráticos -2 -1 -1 0 0 1 1 2Desvios em relação à média 6Média 4 5 5 6 6 7 7 8xiValores (notas dos alunos) resultados numéricosnotaçãoDescrição ( )2xxi − x ( )∑ = −−= n i i xxn s 1 22 1 1Variância (da amostra): 1,71 18 411001142 =− +++++++=s BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Como medir a dispersão?Como medir a dispersão? xxi − 4 1 1 0 0 1 1 4Desvios quadráticos -2 -1 -1 0 0 1 1 2Desvios em relação à média 6Média 4 5 5 6 6 7 7 8xiValores (notas dos alunos) resultados numéricosnotaçãoDescrição ( )2xxi − x Desvio padrão (da amostra): ( )∑ = −−= n i i xxn s 1 2 1 1 31,11,71 18 41100114 ==− +++++++=s BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Medidas descritivas das notas finais dos Medidas descritivas das notas finais dos alunos de três turmas. alunos de três turmas. 1,31 3,51 2,69 6,00 6,00 6,00 8 8 7 A B C Desvio padrão MédiaNúmero de alunos Turma Interprete. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Ex:Ex: Rendimento de um processo químicoRendimento de um processo químico Desvio padrão do rendimento em função do tempo e temperatura 60 graus 70 graus 80 graus20 25 30 Tempo 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 D e s v i o p a d r ã o d o r e n d i m e n t o Rendimento médio em função do tempo e temperatura 60 graus 70 graus 80 graus20 25 30 Tempo (minutos) 29 30 31 32 33 34 35 36 37 38 39 R e n d i m e n t o ( % ) Interprete. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Outra forma de calcular o desvio padrãoOutra forma de calcular o desvio padrão ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ −−= ∑= 2 1 2 1 1 xnx n s n i i Valores xi : 4 5 5 6 6 7 7 8 48 1 =∑ = n i ix 6=x Valores ao quadrado xi2 : 16 25 25 36 36 49 49 64 300 1 2 =∑ = n i ix 1,31 = 7 12 = 7 288 300 = 7 )8.(6 300 = 2 −−s BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados 25% 25% 25% 25% Quartil inferior mediana Quartil superior qi md qs BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados 4 1:deposição +nqi 2 1:deposição +nmd 4 )1(3:deposição +nqs Dados ordenados: 25% 25%25% 25% qi md qs Se fracionário Î interpolação linear BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 ExemploExemplo Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12. Ordenando: 3 5 5 6 7 8 9 11 12 15 18 n = 11 3 4 1: deposição =+nqi 6 2 1: de posição =+nmd 5=iq 8=dm 9 4 )1(3:deposição =+nqs 12=sq BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Comparação entre média e medianaComparação entre média e mediana • A média é mais influenciada por valores discrepantes. 0 10 20 30 40 50 60 70 md = 22,5 50% dos valores 50% dos valores 7,24=x BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Comparação entre média e medianaComparação entre média e mediana 50%50% média = mediana (a) distribuição simétrica 50% 50% mediana média (b) distribuição assimétrica BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Diagrama em caixasDiagrama em caixas qs + 1,5dq qi md qs max min dq = qs - qi BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Diagrama em caixas e forma da distribuiçãoDiagrama em caixas e forma da distribuição 25% 25% 25% 25% 25% 25% 25% 25% y BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Interprete o gráficoInterprete o gráfico 3 8 13 18 23 28 Monte Verde Encosta do Morro Renda familiar (sal. mín.) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Observações ao longo do tempoObservações ao longo do tempo • EXEMPLO: todos os dias é retirada uma amostra de dez sacos de leite de um laticínio, durante 23 dias. • Quer-se acompanhar o nível e a variabilidade do peso. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Observações ao longo do tempoObservações ao longo do tempo Gráfico das médias amostrais amostra p e s o ( g ) 1029,8 1033,0 1036,2 1029 1030 1031 1032 1033 1034 1035 1036 1037 1 5 10 15 20 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Observações ao longo do tempoObservações ao longo do tempo Gráfico dos desvios padrão amostrais amostra p e s o ( g ) 0,92 3,30 5,68 0 1 2 3 4 5 6 7 1 5 10 15 20 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Orientação geral para análise exploratória de Orientação geral para análise exploratória de dados não temporaisdados não temporais Análise univariada Variável qualitativa Variável quantitativa Distribuição de freqüências Percentagens Tabela Gráfico de barras, colunas ou setores Distribuição de freqüências Medidas descritivas (média, desvio padrão, mediana, etc.) Histograma Ramo-e-folhas BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Orientação geral para análise exploratória de Orientação geral para análise exploratória de dados não temporaisdados não temporais Análise biivariada Uma variável quantitativa e outra qualitativa Duas variáveis qualitativas Duas variáveis quantitativas Medidas descritivas da variável quantitativa em cada categoria da qualitativa Diagrama em caixas múltiplo Tabela de contingência (Cap. 10) Diagrama de dispersão (Cap. 11) Coeficiente de correlação (Cap. 11)
Compartilhar