Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • O Que é Estatística? DADOS INFORMAÇÃO→→→→ ESTATÍSTICA: Estatística é a ciência que permite obter informações sobre um fenômeno, a partir do registro de observações deste fenômeno. A estatística divide-se em duas áreas: - Estatística Descritiva - Inferência Estatística Estatística Descritiva ou Análise Exploratória de Dados A estatística descritiva ocupa-se da análise/descrição de um conjunto de dados por intermédio de tabelas, gráficos e/ou medidas-resumo, com o objetivo de facilitar sua visualização e compreensão. Exemplo: Cálculo do coeficiente de rendimento (c.r.) = média ponderada das notas em cada disciplina → medida-resumo do desempenho acadêmico de um aluno. Inferência Estatística ou Estatística Inferencial A inferência estatística consiste de um conjunto de técnicas para, a partir de uma amostra selecionada de um universo, formular conclusões para este universo. Exemplo: Pesquisa eleitoral → estimação dos percentuais de intenções de voto em todo o universo eleitoral, a partir de uma amostra de, digamos, 2.000 pessoas. 2 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Tipos de Dados Dados = matéria prima da estatística. A identificação da ferramenta estatística adequada para tratá-los depende da identificação correta do tipo dos dados. A seguir são apresentadas as tipologias mais importantes para classificar dados. 1 - Dados Populacionais x Amostrais • Dados populacionais são aqueles que representam todo o universo em estudo. • Dados amostrais são aqueles que representam um subconjunto do universo em estudo, sendo em geral utilizados para tirar conclusões acerca desse universo. 2 - Dados Primários x Secundários • Dados primários são aqueles obtidos de forma direta, mediante observação, pesquisas ou experimentos controlados. • Dados secundários são aqueles que não são obtidos diretamente, e sim mediante publicações (como relatórios ou artigos). 3 - Dados em Corte x Séries Temporais • Dados em corte (transversal) são aqueles referentes ao mesmo instante de tempo. • Dados de séries temporais são aqueles registrados ao longo de um período de tempo, com determinada frequência. 4 - Dados Qualitativos x Quantitativos • Dados qualitativos são aqueles que representam um atributo ou qualidade. Exemplos: profissão, gênero, raça, estado civil, classe social, nível de educação, etc. • Dados quantitativos são números que resultam de uma contagem ou medida. Exemplos: idade, peso, altura, renda, número de filhos, número de banheiros em casa, etc. No caso desta última tipologia, também é importante especificar a escala dos dados. 3 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Dados qualitativos podem estar em escala nominal ou ordinal. • Escala nominal é aquela na qual a ordem dos atributos é indiferente. Exemplo: cursos de Mestrado em Economia no Rio de Janeiro. • Escala ordinal é aquela na qual faz sentido estabelecer uma ordem. Exemplo: avaliação em excelente, boa, regular, ruim ou péssima. Neste exemplo, se a avaliação fosse por notas de 1 a 5, as notas também seriam classificadas como dados qualitativos em escala ordinal! Dados quantitativos podem estar em escala discreta ou contínua. • Dados discretos são aqueles provenientes de uma contagem. Exemplo: número de filhos. • Dados contínuos, por outro lado, são definidos em um intervalo contínuo. Exemplos: altura, renda. 1. ESTATÍSTICA DESCRITIVA Exemplo 1.1 - Faturamento bruto no mês passado, em milhões de R$, das 30 filiais de uma determinada empresa de varejo: 11,8 3,6 16,6 13,5 4,8 8,3 8,9 9,1 7,7 2,3 12,1 6.1 10,2 8,0 11,4 6,8 9,6 19,5 15,3 12,3 8,5 15,9 18,7 11,7 6,2 11,2 10,4 7,2 5,5 14,5 Que conclusões você pode tirar? É disto que trata a estatística descritiva! Esses dados estão na chamada forma bruta, difícil de analisar diretamente. Precisamos usar técnicas adequadas para resumí-los ou facilitar sua visualização. A distribuição de frequências é uma tabela que agrupa os dados em classes (intervalos), indicando o número ou a proporção de observações que pertencem a cada uma das classes. Distribuição de Frequências As classes não precisam ter amplitudes iguais. 4 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Distribuição de Frequências Absolutas Classe Frequência 2 | 5 3 5 | 8 7 8 | 11 7 11 | 14 7 14 | 17 4 17 | 20 2 Total: 30 A notação | significa que o extremo inferior da classe não está incluído, e o extremo superior está incluído! Limitações da distribuição de frequências absolutas: 1. A frequência absoluta de cada classe não tem interpretação direta. É sempre necessário olhar para o total de observações consideradas. 2. Não permite a comparação com outra distribuição cujos totais sejam diferentes. O uso de frequências relativas soluciona os problemas acima. • Distribuição de Frequências Relativas Representam a proporção ou o percentual de observações que caem em cada classe. Classe Frequência Relativa 2 | 5 3/30 = 0,1 = 10% 5 | 8 = 7/30 ou 23,33% 8 | 11 23,33% 11| 14 23,33% 14 | 17 13,33% 17 | 20 6,67% Total: 1 = 100% • Distribuição de Frequências Acumuladas Classe Frequência Acumulada 2 | 5 3 ou 10% 5 | 8 3 + 7 = 10 ou 33,3% 8 | 11 3 + 7 + 7 = 17 ou 56,7% 11| 14 24 ou 80% 14 | 17 28 ou 93,3% 17 | 20 30 ou 100% Representa a soma das frequências até a classe considerada (inclusive). O histograma é uma representação gráfica da distribuição de frequências. Como obter o histograma? Colocar as classes no eixo horizontal, as frequências no eixo vertical, e traçar um diagrama de barras. Histograma Histograma (Frequências Absolutas) - ex. 1.1: 0 2 4 6 8 10 2-|5 5-|8 8-|11 11-|14 14-|17 17-|20 Frequências Classes Ligando os pontos médios das linhas superiores das barras, obtemos o polígono ou curva de frequências. 5 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Gráfico de Barras Representação gráfica apropriada para dados qualitativos, ou quantitativos em escala discreta (isto é, contagens). Consiste de barras verticais centradas nos valores assumidos pela variável, e com espaços separando as barras. Exemplo 1.2 Frequências das reclamações diárias no SAC de uma empresa em um certo mês: • Gráfico de Pareto e Ogiva O gráfico de Pareto é um gráfico de barras no qual os eventos são dispostos em ordem decrescente de frequência de ocorrência. Em geral, é sobreposta a ele uma curva de frequências acumuladas, denominada ogiva. Exemplo 1.3 - Análise dos tipos de defeito nas chapas fabricadas por uma empresa siderúrgica. Ogiva • Gráfico de Pizza ou de Setores O gráfico de pizza, ou de setores, é um diagrama estatístico bastante popular. É apropriado quando o objetivo é identificar partes de um todo. Exemplo 1.4: 6 FGV/EPGE - Mestradoem Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Medidas de Posição Uma medida de posição é um valor em torno do qual os dados estão concentrados. Sinônimos: medida de localização ou de tendência central. Principais medidas de posição: Média , Mediana e Moda. É a soma das observações dividida pelo número de observações: Média . n x...xx n x n21 n 1i i +++ ==µ ∑ = i-ésima observação no de observações No exemplo 1.1, o faturamento médio é µ = 307,7/30 = 10,3 milhões. Nenhum problema! A média de um conjunto de dados não precisa ser um dos valores observados. Note que o valor 10,3 não ocorre. Exemplo 1.5: Salários de economistas recém-formados (em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0. Salário médio (destes 5 economistas): µ = 3,5 (R$ 3.500,00). Este número é representativo dos salários desses 5 economistas? R: Não, pois está bem acima de 4 dos 5 valores. Claramente, o valor responsável por esta distorção foi o “6,0”. O “6,0” é um valor atípico ou discrepante, tecnicamente denominado outlier. Conclusão: A média é uma medida de posição muito sensível à presença de outliers! Neste caso, é recomendável utilizar outra medida de posição, chamada mediana! 7 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos É o valor Md que divide os dados ordenados em duas partes iguais. Se n for ímpar: Md = observação central. Se n for par: Md = média das duas observações centrais. Mediana Exemplo 1.5 (cont.): Salários ordenados: 2,6; 2,8; 3,0; 3,1; 6,0. Md = 3,0. 3,0 é certamente mais representativo da “tendência central” destes salários. Obs - A mediana é uma medida de posição chamada robusta ou resistente (o sentido é que ela continua representando a posição dos dados, resistindo a eventuais outliers). Em algumas situações, nem a média nem a mediana serão medidas apropriadas. Exemplo 1.6 - O gerente de uma loja de calçados está interessado em saber qual tamanho de calçado ele deve priorizar na hora de planejar seu estoque, a partir dos tamanhos dos calçados vendidos no último mês. Qual a medida de posição adequada? A moda é o valor que ocorre com maior frequência em um conjunto de observações (notação: Mo). Moda Exercício 1.1 - As notas de uma turma foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a média, a mediana e a moda das notas. Um conjunto de dados que possua 2 modas é chamado bimodal. Se possui mais de 2, multimodal. Se não possui moda, amodal. 8 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Medidas de Posição no Excel Considere que os dados estão na coluna A, células A1 a A8. Média: MEDIA(A1:A8). Mediana: MED(A1:A8). Moda: MODO(A1:A8). Exemplo 1.7 - Em uma pequena empresa, os salários dos 12 funcionários estão distribuídos da seguinte forma: 5 ganham R$ 2.500,00; 2 ganham R$ 3.000,00; 3 ganham R$ 4.000,00; 2 ganham R$ 4.500,00. Calcule o salário médio dos funcionários desta empresa. A média ponderada, µp, é definida como: . ... x...xxx n21 nn2211 n 1i i n 1i ii p ω++ω+ω ω++ω+ω = ω ω =µ ∑ ∑ = = Média Ponderada peso da i-ésima observação (no exemplo, frequência de ocorrência do i-ésimo salário). Resposta do exemplo 1.7: R$ 3.291,67. • Média para Dados Agrupados Quando os dados estão disponíveis agrupados (na forma de uma distribuição de frequências), só é possível obter a média por aproximação. O que se faz é a média dos pontos médios das classes, ponderados por suas frequências. Classe Frequência 40 | 50 Kg 2 50 | 60 Kg 5 60 | 70 Kg 7 70 | 80 Kg 8 80 | 90 Kg 3 Exercício 1.2 - Obtenha o peso médio da população cuja distribuição de frequências é: Solução: µ ≅ (2*45 + 5*55 + 7*65 + 8*75 + 3*85)/25 = 67 Kg. • Mediana para Dados Agrupados Exemplo 1.8 - Considere a distribuição de frequências dos consumos domiciliares mensais de energia elétrica em uma determinada área, apresentada a seguir: 9 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Faixas de Consumo Frequência Relativa 0 | 50 KWh 8% 50 | 100 KWh 12% 100 | 150 KWh 32% 150 | 300 KWh 40% 300 | 500 KWh 8% Total: 100% O cálculo da mediana é feito por meio de uma regra de 3. Faixas de Consumo Frequência Acumulada 0 | 50 KWh 8% 50 | 100 KWh 20% 100 | 150 KWh 52% 150 | 300 KWh 92% 300 | 500 KWh 100% O primeiro passo é obter a distribuição acumulada: A figura a seguir posiciona a mediana (= 100+h) na distribuição acumulada: h é calculado por meio da seguinte regra de três: Assim, a mediana é: Md ≅ 146,8 KWh. . 2050 2052 h 100150 − − = − A média geométrica µg é definida da seguinte forma: Média Geométrica ( ) .x...xx n1 n21g =µ Exemplo 1.9 - Seja um investimento com taxas de retorno anuais de 10 e 20% nos anos 1 e 2, respectivamente. A média simples (aritmética) dos retornos é 15%. Isto poderia levar à impressão de que alguém que invista neste ativo por 2 anos obteria um retorno de 15% ao ano, uma conclusão totalmente equivocada. 10 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Para ilustrar, considere um capital de R$ 1000,00 investido no início do ano 1. Qual o valor capitalizado ao final dos 2 anos? 1.000*(1+R1)*(1+R2) = 1.000*1,1*1,2 = R$ 1.320,00. fator de capitalização no ano 1 fator de capitalização no ano 2 O retorno médio efetivo ou equivalente Req é o retorno por período que levaria ao mesmo valor final caso os retornos de todos os períodos fossem iguais. O fator de capitalização equivalente referente a n períodos é obtido por meio da média geométrica dos fatores de capitalização referentes à cada período: (1+Req)n = (1+R1)(1+R2)...(1+Rn) ⇓ (1+Req) = [(1+R1)(1+R2)...(1+Rn)]1/n E daí se obtém o Req. No exemplo 1.9: de tal forma que Req = 14,8913%. Interpretação: para obter o valor final de R$ 1.320,00 com a mesma taxa de retorno em cada ano, esta taxa teria que ser 14,8913%. ,148913,132,1)R1)(R1( )R1( 21eq ==++=+ Adendo para os economistas (não cai na prova) Outro exemplo de aplicação de média geométrica em economia surge em números índices, no cálculo do índice de Fischer. Índice de Fisher: O índice de Fisher é a média geométrica dos índices de Laspeyres e Paasche: Este índice possui algumas propriedades desejáveis que os índices mais conhecidos (de Laspeyres e de Paasche) não possuem. .PLF e PLF qt q t q t p t p t p t == 11 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Medidas de Dispersão Frequentemente, uma medida de posição não fornece todas as informações de que precisamos para tomar uma certa decisão. Exemplo 1.10 - Dois fornecedores, A e B, apresentaram os seguintes prazos de entrega, referentes aos últimos 5 clientes: (em dias) Fornecedor A – 18; 10; 17; 3; 2. Fornecedor B – 9; 10; 10; 9; 12. Com base nos prazos acima, qual dos fornecedores você escolheria: A ou B? Naturalmente,você escolheria o fornecedor B (menor risco inerente ao prazo de entrega). Uma medida de dispersão é um valor que nos diz o quanto os dados estão variando em relação à uma medida de posição (no caso usual, a medida de posição considerada é a média µ). Seja (xi-µ) o desvio de xi em relação à média. Possíveis medidas de dispersão seriam: . n )x( ou )x( n 1i in 1i i ∑ ∑ = = µ− µ− Problema: sempre! ,0)x(n 1i i∑ = =µ− Solução: trabalhar com os módulos ou quadrados dos desvios! É a média dos módulos dos desvios: . n |x| DM n 1i i∑ = µ− = Esta medida não é muito usada. É mais usual trabalhar com os quadrados dos desvios. • Desvio (Absoluto) Médio Variância (σσσσ2) . n )x( n 1i 2 i 2 ∑ = µ− =σ Exercício 1.3 - Seja um conjunto de 3 dados: x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6. É a média dos quadrados dos desvios: 12 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Forma alternativa para o cálculo de σ2: . n x n nx 2 n 1i 2 i 2 n 1i 2 i 2 µ−= µ− =σ ∑∑ == Exercício 1.3 (cont.) - Recalcule a variância utilizando a forma alternativa sugerida acima. Exemplo 1.10 (cont.): Prazos de entrega aos últimos 5 clientes: Fornecedor A – 18; 10; 17; 3; 2. Fornecedor B – 9; 10; 10; 9; 12. Para o fornecedor A: σ2 = 45,2. Para o fornecedor B: σ2 = 1,2. . Interpretação? A variância apresenta um sério problema: ela é expressa no quadrado da unidade original, em geral uma unidade que sequer faz sentido. Como consequência, a variância não possui interpretação direta. Por esta razão o desvio padrão, apresentado a seguir, é adotado com maior frequência. Desvio Padrão (σσσσ) . 2σ=σ No exemplo 1.10, para o fornecedor A: σ = 6,72 dias, e para o fornecedor B: σ = 1,10 dias. O desvio padrão preserva a unidade original dos dados e ainda possui interpretação direta. 99,72% Interpretação de σ (válida se o histograma apresentar formato similar ao de um sino): Regra Z para definir outliers: valores fora de [µ-3σ,µ+3σ]. • Aplicação em Análise de Investimentos É usual analisar a média e o desvio padrão dos retornos (variações de preço) de um ativo. Neste contexto, o desvio padrão é uma medida do risco do ativo, chamada volatilidade. 13 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos RETORNOS DIÁRIOS DE 2 AÇÕES -8 -6 -4 -2 0 2 4 6 8 10 12 1 5 9 13 17 21 25 29 33 37 41 45 49 DIAS Ação A Ação B Exemplo 1.11: Em compensação, a flutuação dos retornos da ação B é bem maior → maior risco. A curva mais clara (ação B) oscila em torno de um patamar superior àquele em torno do qual oscilam os retornos da ação A. Medidas de Dispersão no Excel Considere que os dados estão na coluna A, células A1 a A8. Variância: VARP(A1:A8). Desvio Padrão: DESVPADP(A1:A8). Questão: por que o “P” no final do comando? Para enfatizar que estamos calculando as quantidades Populacionais, ou seja, considerando que o conjunto de dados é o nosso universo de estudo, como é o caso. Quando trabalharmos com uma amostra, com o objetivo de estimar a variância σ2 de uma população (matéria da P2), a fórmula apropriada passará a ser a do slide seguinte. . 1n xnx 1n )xx( s n 1i 22 i n 1i 2 i 2 − − = − − = ∑∑ == Esta medida é usada para estimar a variância de uma população. Os comandos no excel são, respectivamente: VARA e DESVPADA. média amostral. • Variância Amostral (s2) graus de liberdade • Variância para Dados Agrupados Quando os dados estão disponíveis na forma de distribuição de frequências (isto é, agrupados), só é possível obter a variância por meio de uma aproximação, a partir da média dos quadrados dos desvios dos pontos médios das k classes em relação à média, ponderados pelas frequências: . n )x(k 1j 2 jj 2 ∑ µ−ω ≅σ = Exercício 1.4 - Calcule a variância dos pesos na população do exercício 1.2, com base apenas na distribuição de frequências: Classe Frequência 40 | 50 Kg 2 50 | 60 Kg 5 60 | 70 Kg 7 70 | 80 Kg 8 80 | 90 Kg 3 R: 128. 14 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Quando queremos comparar dados expressos em diferentes unidades ou magnitudes, o uso do desvio padrão leva a conclusões equivocadas, sendo necessário utilizar uma outra medida chamada coeficiente de variação. Coeficiente de Variação (CV) Exemplo 1.12 - Suponha que estejamos interessados em estudar a variabilidade de salários em diferentes ramos de atividade profissional. Como um caso extremo, considere a comparação entre salários de gerentes e de auxiliares de escritório. Sabe-se que o salário médio dos gerentes é de R$ 5.000,00 e o dos auxiliares de escritório é de R$ 500,00. O desvio padrão dos salários dos gerentes foi igual ao dos salários dos auxiliares de escritório, ambos iguais a 100 Isto indica variabilidade alta ou baixa? No caso dos auxiliares de escritório, cujos salários estão em torno de R$ 500,00, é alta. Já para os gerentes, cujos salários estão em torno de R$ 5.000,00, é relativamente baixa. .CV µ σ = CV dos salários dos auxiliares de escritório: 100/500 = 0,2 ou 20%. CV dos salários dos gerentes: 100/5.000 = 0,02 ou 2% ⇒ dispersão relativa menor. Fórmula do Coeficiente de Variação: Propriedades do Coeficiente de Variação: 1 - É adimensional, isto é, não é expresso em nenhuma unidade de medida. 2 - É uma medida de dispersão relativa. Um CV menor significa dados relativamente menos dispersos ou mais homogêneos. • Outras Medidas Importantes Medidas de posição e de dispersão, embora muito importantes, não são as únicas medidas resumo que descrevem um conjunto de dados. Para uma análise mais completa, em algumas situações específicas, podemos precisar de medidas mais sofisticadas, como assimetria, curtose e percentis (= quantis = separatrizes). 15 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos A assimetria é uma medida do quanto a curva de frequência dos dados está afastada de um aspecto simétrico em relação ao eixo central. Se a metade esquerda da curva é um “espelho” da metade direita, dizemos que os dados são simétricos. Caso contrário, que são assimétricos. Assimetria e Curtose As figuras a seguir comparam as curvas de frequência de dados simétricos e assimétricos: dados simétricos dados com assimetria positiva ou à direita. Dados com assimetria negativa ou à esquerda. A curtose é uma medida do “achatamento” da curva de frequência dos dados. As figuras a seguir ilustram as 3 situações possíveis: Aspecto achatado, com valores distribuídos de modo uniforme (curtose < 3). aspecto pontiagudo, com valores concentrados em um intervalo pequeno (curtose > 3). referência (curtose 3). Coeficientes de Assimetria e Curtose Possíveis medidas da assimetria e da curtose de um conjunto de dados são, respectivamente: 3 n 1i 3 i n )x( a σ µ− = ∑ = 4 n 1i 4 i n )x( k σ µ− = ∑ = e Outra forma de medir assimetria é por meio dos coeficientes de Pearson:. Mx3 ou Mxa do σ − σ − = O p-ésimo percentil ou percentil p de um conjunto de dados é o valor x tal que p% dos dados são menores ou iguais a x. Os percentis 25, 50 e 75 são chamados quartis: 250 Percentil = primeiro quartil (Q1) 500 Percentil = segundo quartil (Q2) = mediana 750 Percentil = terceiro quartil (Q3). Percentis/Quantis/Separatrizes Quartis São medidas Q1, Q2 e Q3 que dividem os dados em 4 partes iguais. 16 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Cálculo de Percentis - Dados Brutos Existe na literatura diversas formas de calcular percentis para dados brutos (= desagrupados). Estas formas em geral não conduzem aos mesmos resultados. Não entraremos em detalhes sobre este ponto. Aos interessados, recomenda-se o link: http://www.amstat.org/publications/jse/v14n3/langford.html. Cálculo de Percentis - Dados Agrupados O cálculo de quartis para dados agrupados segue o mesmo procedimento do cálculo da mediana, apresentado no exemplo 1.8. Por exemplo, para calcular Q1, deve-se traçar uma linha tal que 25% dos dados estejam abaixo dela. E para calcular Q3, a linha deve ser tal que 75% dos dados estejam abaixo dela (no caso da mediana, era 50%). É uma medida de dispersão robusta dada pela diferença entre o terceiro e o primeiro quartis: ∆Q = Q3 – Q1. Amplitude Interquartil(tílica) • Esquema de 5 Números (ECN) Representação esquemática que mostra os quartis e os valores máximo e mínimo de um conjunto de dados, da seguinte forma: É um diagrama que representa: - a mediana, - os quartis Q1 e Q3, - uma linha que vai de Q3 até a maior observação menor ou igual a LS = Q3+1,5∆Q, - outra linha que vai de Q1 até a menor observação maior ou igual a LI = Q1-1,5∆Q. Box-Plot Exemplo 1.13 - Seja o seguinte conjunto de dados (ordenado): 5, 10, 12, ... , 37, 42, 45. Sabendo-se que os quartis são 20, 25 (mediana) e 28, obtenha o box-plot. 17 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Aplicações do Box-Plot 1. Comparar dispersões (via amplitudes interquartílicas) de dois conjuntos de dados. 2. Identificar a presença de assimetria (e o tipo dela – se é positiva ou negativa). Como detectar e identificar o tipo de assimetria? A partir das distâncias da mediana aos quartis. Se a mediana está mais próxima de Q1, os dados apresentam assimetria positiva. Se a mediana está mais próxima de Q3, os dados apresentam assimetria negativa. Se a distância da mediana para os quartis é a mesma, os dados tem distribuição simétrica. Aplicações do Box-Plot (cont.) 3. Detectar a presença de outliers: Valores acima de LS são outliers (superiores) Valores abaixo de LI são outliers (inferiores) Os outliers costumam ser assinalados com *. Exercício 1.5 - Identifique se existe assimetria e/ou outliers no exemplo 1.13. Obs - Por que quem está fora dos limites LI e LS é considerado outlier? Por que estes limites são construídos de tal forma que, se os dados seguirem uma distribuição Normal, aproximadamente 99,5% dos dados estarão contidos em [LI,LS]. O critério baseado no Box-Plot é mais geral do que a regra Z, pois também permite identificar outliers no caso de assimetria. Exercício 1.6 - As idades das mulheres com 40 anos ou mais, em uma localidade, apresentam Q1 = 49, Md = 54 e Q3 = 63. A mais velha tem 71 anos. Obtenha o box-plot. Solução: Exercício 1.7 - Considere os dados a seguir: 2, 6, 5, 4, 3, 2, 7, 1, 29. Sabe-se que: Q1 = 2 e Q3 = 6. Construa o box-plot e verifique se alguma das observações acima é um outlier. 18 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos • Análise Bidimensional É a análise estatística que envolve 2 variáveis. Por exemplo: 1) gasto com alimentação e renda 2) nota em uma prova e horas de estudo 3) vendas e investimento em publicidade etc. Um diagrama de dispersão é um gráfico de pontos {(xi,yi); i = 1,2,...,n} que indica se parece ou não existir alguma relação entre 2 variáveis X e Y, e identificar qual o tipo desta relação. Diagrama de Dispersão cada ponto desses representa o valor de X e de Y para a i-ésima observação Questões que o diagrama de dispersão permite responder: 1 - É possível observar algum padrão que indique uma associação entre X e Y? 2 - Em caso positivo, a relação aparente: 2.1 - É crescente ou decrescente? 2.2 - É linear ou não-linear? uma relação é linear quando podemos traçar uma reta que se ajusta bem aos pontos, no sentido de descrever sua disposição no diagrama 3 - Havendo relação linear, ela é perfeita? (os pontos estão todos sobre uma reta?) 4 - No caso de relação linear imperfeita, o grau de associação é forte ou fraco? uma relação é chamada mais forte à medida que os pontos estejam mais concentrados em torno da reta Exemplos de diagramas de dispersão: O diagrama de dispersão permite visualizar uma relação de associação. Este é um dos objetivos da estatística descritiva. Todavia, é muito importante saber mensurar a força desta associação. Para isto, precisamos de medidas-resumo. 19 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos A covariância é uma medida da variabilidade conjunta de X e Y. Fórmula: Covariância . n )y)(x( n 1i YiXi XY ∑ = µ−µ− =σ Interpretação da Covariância: Uma covariância positiva nos diz que quando X tende a variar acima de sua média (xi>µX), Y também tende (yi>µY), e quando X tende a variar abaixo de sua média (xi<µX), Y também tende (yi<µY), ou seja: X e Y variam no mesmo sentido. Interpretação da Covariância (cont.): Uma covariância negativa nos diz que quando X tende a variar acima de sua média (xi>µX), Y tende a variar abaixo de sua média (yi<µY), e quando X tende a variar abaixo de sua média (xi<µX), Y tende a variar acima de sua média (yi>µY), ou seja: X e Y variam em sentidos opostos. Exemplo 1.14 - Considere 3 alunos cujos números X de faltas a um curso e notas Y na prova são dados a seguir: X Y Aluno 1 4 3 Aluno 2 4 4 Aluno 3 1 8 Calcule a covariância entre faltas e notas. R: σXY = -3. Fórmula alternativa para a covariância: . n yx n nyx YX n 1i ii n 1i YXii XY µµ−= µµ− =σ ∑∑ == A covariância evidencia o sentido da relação entre as variáveis, mas o interesse maior costuma ser medir a força desta associação. É aí que entra o coeficiente de correlação. 20 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos O coeficiente de correlação é um número entre -1 e 1, que mede a força da associação linear entre X e Y. Fórmula: Coeficiente de Correlação . YX XY XY σσ σ =ρ Interpretação do Coeficiente de Correlação: - Se a relação linear entre X e Y for positiva e perfeita, a correlação é igual a 1. - Se a relação linear entre X e Y for negativa e perfeita, a correlação é igual a -1. - Se não houver relação linear: o valor do coeficiente de correlação é zero. Obs - Correlação x Independência! É importante frisar que a correlação mede apenas a força de uma associação linear, não fornecendo informação acerca de relações de dependência não linear. Por exemplo, se Y = X2, ρXY = 0, porém as variáveissão dependentes. Se a relação linear entre X e Y for positiva, mas não perfeita, a correlação está entre 0 e 1. Neste caso, quanto maior a intensidade da associação, mais próximo ρXY está de 1. Por exemplo, um coeficiente de correlação igual a 0,95 indica uma relação linear positiva e forte entre X e Y. Se a relação linear entre X e Y for negativa, mas não perfeita, a correlação está entre -1 e 0. Neste caso, quanto maior a intensidade da associação, mais próximo ρXY está de -1. Por exemplo, um coeficiente de correlação igual a -0,1 indica uma relação linear negativa e fraca entre X e Y. Exemplo 1.15 - No exemplo 1.14, ache a correlação entre notas e faltas. Os desvios padrão são, respectivamente, 2,16 e 1,41. Resposta: .98,0 41,1*16,2 3 YX XY XY −≅ − = σσ σ =ρ A associação linear entre o número de faltas e a nota é negativa ou inversa (o que era de se esperar), e bastante forte. 21 FGV/EPGE - Mestrado em Finanças e Economia Empresarial Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos Resumo das Propriedades do Coeficiente de Correlação: 1 - varia entre -1 e 1 2 - é adimensional (não possui unidade) 3 - representa apenas a relação linear Esta última propriedade significa que o fato de X e Y serem descorrelacionadas não implica que sejam independentes! Exemplo 1.16 - Uma loja decide avaliar a sua relação publicidade/vendas. Para isto, registrou, durante 10 semanas, o número de comerciais veiculados e o nível de vendas: Diagrama de dispersão número de comerciais x vendas (n = 10): 0 10 20 30 40 50 60 70 0 1 2 3 4 5 6 Número de Comerciais Ve n da s Por simples inspeção gráfica, o que você diria sobre o grau de associação linear entre X e Y? A covariância é: O coeficiente de correlação é (faça a conta): Interpretação: a relação linear entre X e Y é positiva/crescente e bastante forte. .9,951*3 10 46*2...57*550*2 XY =− +++ =σ .9305,0XY =ρ Medidas de Associação no Excel Covariância: COVAR(A1:A8;B1:B8). Correlação: CORREL(A1:A8;B1:B8). Importante: na hora de calcular a covariância e a correlação entre duas variáveis, não ordene os dados. Isto não faz o menor sentido e induz uma relação crescente espúria entre as variáveis. • Covariância e Correlação Amostrais . 1n )yy)(xx( s n 1i ii XY − −− = ∑ = , ss s r YX XY XY = onde sX e sY são os desvios padrão amostrais. (perceba que, numericamente, rXY = ρXY) É isto que a função COVAR do Excel calcula!
Compartilhar