Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 1 (11/05) Revisão de Estatística Levine. Cap 3. Estatística para Administração 2020.1 Prof. Marcelo Bila 1 Cap 3-2 Objetivos Nesta parte, aprenderemos: a descrever as propriedades de tendência central, variação e formato em dados numéricos a calcular medidas resumo para a população a construir e interpretar um gráfico Box- plot a descrever a covariância e coeficiente de correlação 2 Cap 3-3 Propriedades dos dados -Definições A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor central típico. A variação corresponde ao montante de dispersão, ou spread (espalhamento), de valores em relação a um valor central. O formato corresponde ao padrão da distribuição de valores do valor mais baixo para o mais alto. 3 Cap 3-4 Medidas de Tendência Central A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor central típico. Medidas tipicamente usadas: Média aritmética Mediana Moda 4 Cap 3-5 Média A média aritmética (média) é a mais comum das medidas de tendência central. Para uma amostra de tamanho n: Tamanho da amostra Valores observados 5 Cap 3-6 Exemplo: Média A tabela abaixo lista o tempo de viagem de casa para o trabalho de 15 pessoas em minutos: O tempo médio de viagem das pessoas é: x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 6 Cap 3-7 Média Média = soma dos valores dividido pelo número de valores Afetada por valores atípicos também chamados de valores extremos ou outliers. 0 1 2 3 4 5 6 7 8 9 10 Média = 3 0 1 2 3 4 5 6 7 8 9 10 Média = 4 7 Cap 3-8 Média:o ponto de equilíbrio A média é « Ponto de equilíbrio » em um conjunto de dados (gangorra), onde todos os valores desempenham um papel igual (mesma massa). 0 1 2 3 4 5 6 7 8 9 10 Média = 4 8 Cap 3-9 Média:o ponto de equilíbrio Propriedade: A soma dos desvios em relação a média é nula. Desvio de Xi em relação a média ! 9 Cap 3-10 Mediana Em um rol, a mediana é o “número” do meio, (50% acima, 50% abaixo) Não é afetada por valores atípicos (extremos) 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4 10 Cap 3-11 Localizando a Mediana A mediana de um conjunto de dados ordenado é localizada no valor. Se o número de valores é ímpar, a mediana é o número do meio. Se o número de valores é par, a mediana é a média dos dois valores do meio. Note que NÃO é o valor da mediana, apenas a posição da mediana nos dados ordenados. 11 Em um rol, a mediana é o “número” do meio, (50% acima, 50% abaixo) Cap 3-12 A Mediana 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4.5 0 1 2 3 4 5 6 7 8 9 10 Mediana = 4 Exemplo com 5 dados (número ímpar). Posição da mediana = (5+1)/2=3. Exemplo com 6 dados (número par). Posição da mediana = (6+1)/2=3.5, entre 4 e 5. 12 Cap 3-13 Exercício: Mediana Exercício: Determine o tempo mediano de viagem de casa para o trabalho para as pessoas da cidade. x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 13 Cap 3-14 Média x Mediana Vimos que a média é afetada por valores extremos, enquanto a mediana é robusta a valores extremos. 14 Cap 3-15 Medidas de Tendência Central: a moda Valor que ocorre com maior frequência Não é afetada por valores extremos Usada tanto para dados numéricos quanto para dados categóricos (cuidado: afetada pela escolha de classes de agrupamento) Pode não haver moda e pode haver várias modas 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 0 1 2 3 4 5 6 Sem Moda 15 Cap 3-16 Medidas de Tendência Central: Exemplo Preços das casas: $2,000,000 500,000 300,000 100,000 100,000 Soma 3,000,000 Média: ($3,000,000/5) = $600,000 Mediana: valor do meio dos dados ordenados = $300,000 Moda: valor mais frequente = $100,000 16 Cap 3-17 Exemplo Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos: 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 Em rol: 5 10 10 10 10 12 15 20 20 25 30 30 40 40 60 17 Cap 3-18 Medidas de Tendência Central: Qual medida escolher? A média geralmente é usada, a menos que existam valores extremos e com distribuição muito assimétricas. Nesse caso, a mediana é a mais usada, uma vez que não é sensível a valores extremos. Por exemplo, o preço mediano de casas pode ser registrado para uma região por ser menos sensível a outliers. 18 Cap 3-19 Medidas de Tendência Central: Resumo Tendência Central Média Aritmética Mediana Moda Valor do meio em um rol Valor observado com mais frequência 19 Cap 3-20 Medidas de Variação Medidas de variação medem a dispersão de valores em um conjunto de dados, i. e., o grau de afastamento dos dados em torno de um valor central. Medidas absolutas (Amplitude, Amplitude interquartil, Variância e Desvio-padrão) Indicam se um conjunto de dados é homogêneo ou heterogêneo. 20 Cap 3-21 Amplitude Medida de variação mais simples Diferença entre o maior e o menor dos valores: Amplitude = Xmaior – Xmenor 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Amplitude = 13 - 1 = 12 Exemplo: 21 Cap 3-22 Desvantagens da Amplitude Ignora a forma na qual os dados são distribuídos sensível a outliers 7 8 9 10 11 12 Amplitude = 12 - 7 = 5 7 8 9 10 11 12 Amplitude = 12 - 7 = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Amplitude = 5 - 1 = 4 Amplitude = 120 - 1 = 119 22 Cap 3-23 Exemplo Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos: 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 Em ordem crescente: 5 10 10 10 10 12 15 20 20 25 30 30 40 40 60 A amplitude é: 60 – 5 = 55 min Afetada pelo valor atípico… Como podemos ter uma ideia da variação que não seja sensível a valores atípicos? 23 Cap 3-24 Medidas Separatrizes Medidas separatrizes são valores de posição que dividem o rol em partes iguais. Medidas separatrizes tipicamente usadas: Quartis (4 partes) Decis (10 partes) Centis (100 partes) Geral: quantil ou pertencil 24 Cap 3-25 Exercício: Quartis Exercício: Você tem uma corda de um metro e deseja separá-la em 4 pedaços de 25 cm. Você deve cortar a corda em quantos pontos? Quais são estes pontos? 25 Cap 3-26 Quartis Quartis dividem os dados ordenados em 4 segmentos com o mesmo número de valores por segmento. 25% 25% 25% 25% Q1 Q2 Q3 O primeiro quartil, Q1, é o valor para o qual 25% das observações são menoros e 75% são maiores. Q2 é o mesmo que a mediana (50% são menores, 50% são maiores) Apenas 25% dos valores são maiores do que o terceiro quartil, Q3. 26 Cap 3-27 Localizando Quartis Encontre os quartis ao determinar o valor correspondente a posição apropriada nos dados ordenados, onde Posição do primeiro quartil: Q1 = (n+1)/4° valor ordenado Posição do segundo quartil: Q2 = (n+1)/2° valor ordenado Posiçãodo terceiro quartil: Q3 = 3(n+1)/4° valor ordenado em que n é o número observado de valores 27 Cap 3-28 Localizando Quartis Regra 1: se o resultado é um número inteiro, então o quartil corresponde ao valor ordenado nesta posição. Regra 2: se o resultado é uma fração com 0.5 (2.5, 3.5, etc), então o quartil é igual a média dos valores correspondendo as posições adjacentes (2 e 3, 3 e 4, etc). Regra 3: se o resultado não é inteiro, nem uma fração com 0.5, então arredonda-se a posiçao para o inteiro mais próximo e determina-se o valor correspondente. 28 Cap 3-29 Localizando o Primeiro Quartil Exemplo: Encontre o primeiro quartil Amostra ordenada de dados: 11 12 13 16 16 17 18 21 22 Primeiro, note que n = 9. Q1 esta na posição (9+1)/4 = 2.5 dos dados ordenados, então é o valor médio entre os 2° e 3° valores ordenados, Q1 = 12.5 Q1 e Q3 são medidas de locação não centrais Q2 = mediana, é uma medida de tendência central 29 Cap 3-30 Exercício: Quartis Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos: 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 Em rol: 5 10 10 10 10 12 15 20 20 25 30 30 40 40 60 Quais são os quartis da distribuição do tempo de viagem?? 30 Cap 3-31 Medidas de Variação: Amplitude Interquartil Uma boa medida de dispersão dos dados, que não é sensível a valores atípicos é a Amplitude Interquartil (AIQ). A Amplitude Interquartil elimina alguns dos maiores e menores valores e calcula a amplitude apenas com os valores restantes. Amplitude Interquartil= 3° quartil – 1° quartil = Q3 – Q1 31 Cap 3-32 Exercício: Quartis Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos: 30 20 10 40 25 20 10 60 15 40 5 30 12 10 10 Em rol: 5 10 10 10 10 12 15 20 20 25 30 30 40 40 60 Qual é a Amplitude Interquartil do tempo de viagem? 32 Cap 3-33 Resumo de Cinco Números Um Resumo de Cinco números consiste de: mínimo (Xmenor) Primeiro Quartil (Q1) Mediana (Q2) Terceiro Quartil (Q3) máximo (Xmaior) 33 Cap 3-34 Box-Plot (diagrama de caixa) O Box-Plot é uma apresentação gráfica dos resumo de 5 números. 25% 25% 25% 25% mínimo 1° Quartil Mediana 3° Quartil máximo 34 Cap 3-35 Box-Plot Min Q1 Mediana Q3 Max O quadro e a linha central estão localizados no meio dos pontos extremos se os dados forem simétricos em torno da média. Um gráfico Box-Plot pode ser apresentado tanto na vertical quanto na horizontal. 35 Cap 3-36 Box-Plot Assim. à Dir Assim. à Esq Simétrica Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3 OBS: Notem que estes dados tem um único pico. 36 Cap 3-37 Análise Exploratória de Dados: Box-Plot Formas alternativas para o « bigode » do box-plot: Mínimo e máximo 2° e 98° percentis. 1° e 99° percentis. Um desvio padrão abaixo e acima da média. O menor dado dentro de 1.5 AIQ (Amplitude interquartil) de Q1 e o maior dado dentro de 1.5 AIQ de Q3. 37 Cap 3-38 Variância e Desvio-padrão O resumo dos 5 números não é a descrição numérica mais comum de uma distribuição de dados. As medidas mais usadas para descrever os dados são: Média (tendência central) Variância ou desvio-padrão (variação)!! Medem o quanto as observações se afastam da média… 38 Cap 3-39 Medidas de Variação: Variância A variância é a média (aproximadamente*) do quadrado dos desvios dos valores em relação a média. Variância Amostral: * (n-1: graus de liberdade) Em que = média aritmética n = tamanho da amostra Xi = iesimo valor da variável X 39 Cap 3-40 Medidas de Variação: Desvio-padrão Medida de variação mais utilizada Mostra variações em relação a média Raiz quadrada da variância Tem a mesma unidade que os dados originais Desvio-padrão amostral: 40 Cap 3-41 Medidas de Variação: Desvio-padrão Passos para computar o desvio-padrão amostral Compute a diferença entre cada valor e a média. Eleve esta diferença ao quadrado. Some os quadrados das diferenças. Divida o total por n-1 para obter a variância amostral. Tire a raiz quadrada da vairância amostral para obter o desvio padrão amostral. 41 Cap 3-42 Medidas de Variação: Desvio-padrão Dados Amostrais (Xi) : 10 12 14 15 17 18 18 24 n = 8 Média = X = 16 Uma medida de afastamento “médio” dos dados em relação à média. 42 Cap 3-43 Medidas de Variação: Comparando Desvios-padrão Média = 15.5 S = 3.338 11 12 13 14 15 16 17 18 19 20 21 11 12 13 14 15 16 17 18 19 20 21 Dados B Dados A Média = 15.5 S = 0.926 11 12 13 14 15 16 17 18 19 20 21 Média = 15.5 S = 4.570 Dados C 43 Cap 3-44 Medidas de Variação: Comparando Desvios-padrão Desvio-padrão pequeno Desvio-padrão grande 44 Cap 3-45 Formato de uma Distribuição Medidas de formato descrevem como os dados se distribuem; Compreensão mais completa da distribuição de frequências Média = Mediana = Mo Média < Mediana < Mo Mo < Mediana < Média Assimétrica à direita Assimétrica à esquerda Simétrica 45 Cap 3-46 Medidas Numéricas Descritivas para a População As estatísticas descritivas discutidas descrevem uma amostra e não a população. Medidas descritivas para a população são chamadas de parâmetros e geralmente denotadas por letras gregas. Parâmetros de população importantes são a média populacional, a variância populacional e desvio-padrão populacional. 46 Cap 3-47 Média Populacional A média populacional é a soma dos valores na população dividida pelo tamanho da população, N. μ = média populacional N = tamanho da população Xi = iésimo valor da variável X Em que 47 Cap 3-48 Variância Populacional A variância populacional é a média do quadrado dos desvios dos valores em relação a média populacional. μ = média populacional N = tamanho da população Xi = iésimo valor da variável X Em que 48 Cap 3-49 Desvio-Padrão Populacional O desvio-padrão populacional é a medida de variação populacional mais usada. A raiz da variância. Ele tem a mesma unidade que os dados originais. μ = média populacional N = tamanho da população Xi = iésimo valor da variável X Em que 49 Cap 3-50 Estatísticas Amostrais Versus Parâmetros Populacionais Medida Parâmetro Populacional estatística Amostral Média Variância Desvio - Padrão 50 Cap 3-51 Exercício: Desvio-padrão A taxa metabólica de uma pessoa é a taxa segundo a qual o corpo consume energia. Veja abaixo a taxa metabólica (calorias/dia) de 7 homens que participaram de uma dieta. 1792 1666 1362 1614 1460 1867 1439 Determine a taxa metabólica média. Determine o desvio-padrão. 51 Cap 3-52 Localizando Valores Extremos Duas alternativas diferentes são usadas para localizar valores atípicos (extremos) dependendo das medidas usadas para variação usadas: Forma 1: Usando Amplitude Interquartil Forma 2: Usando o Desvio-padrão (Escore-Z) É a forma mais usada. 52 Cap 3-53 Localizando Valores Extremos Escore-Z O Escore-Z de um valor é o número de desvios-padrão que o valor está da média. Para computar o escore-Z de um dado, diminua a média e divida pelo desvio-padrão. Quanto maior o valor absoluto do escore-Z, mais longe o valor está da média. Um valor éconsiderado extremo se o seu escore-Z é menor do que -3 ou maior do que +3. 53 Cap 3-54 Localizando Valores Extremos Escore-Z Em que X representa o valor do dado observado X é a média amostral S é o desvio-padrão amostral 54 Cap 3-55 Localizando Valores Extremos Escore-Z Suponha que a nota média do ENEM seja de 490 e desvio-padrão de 100. Calcule o Escore-Z de um aluno com nota 620. Um escore de 620 equivale a 1.3 desvios-padrão acima da média e portanto não seria considerado um valor extremo. 55 Cap 3-56 Medidas numéricas para 2 variáveis Até agora trabalhamos com medidas para a descrição de apenas uma variável. Geralmente temos diversas variáveis que se relacionam entre si… Veremos agora medidas para a força da relação entre 2 variáveis!! 56 Cap 3-57 Covariância Amostral A covariância amostral mede a força da relação linear entre duas variáveis. Covariância amostral: A covariância somente reflete a força da relação entre as variáveis… Não representa um efeito de causalidade! 57 Cap 3-58 Covariância Amostral Covariância entre duas variáveis: cov(X,Y) > 0 : X e Y tendem a se mover na mesma direção. cov(X,Y) < 0: X e Y tendem a se mover em direções opostas cov(X,Y) = 0 : X e Y são linearmente independentes. 58 Cap 3-59 Coeficiente de Correlação O coeficiente de correlação mede a força relativa da relação linear entre duas variáveis. Coeficiente de correlação amostral: 59 Cap 3-60 Coeficiente de Correlação: Propriedades Adimensional Varia entre -1 e 1 Quanto mais próximo de -1 mais forte é a relação linear negativa entre as variavies Quanto mais próximo de 1, mais forte é a relação linear positiva entre as variáveis. Quanto mais próximo de 0, mais fraca é a relação linear entre as variáveis. 60 Cap 3-61 Coeficiente de Correlação Y X Y X Y X r = -1 r = -.6 r = 0 Y X r = +1 X Y X r = +.3 61 Cap 3-62 Coeficiente de Correlação: Exemplo r = .733 Claramente existe uma relação linear positiva entre a nota na 1a prova e a nota na 2a prova. Alunos que tiraram notas boas na 1a prova tendem a tirar notas boas na 2a prova. 62 Cap 3-63 Armadilhas em Medidas Descritivas A análise de dados é objetiva Uma análise de dados sempre deve apresentar as medidas descritivas que melhor atendem as hipóteses a respeito do conjunto de dados. A Interpretação dos dados é subjetiva A interpretação deve ser honesta, neutra e clara. 63 Cap 3-64 Considerações Éticas Medidas Descritivas Numéricas: Devem documentar tanto os resultados bons quanto os resultados ruins. Não deve-se usar medidas descritivas inadequadas para distorcer os fatos. Ficar atento para omissões ao ler estatísticas descritivas, pois elas podem esconder fatos que não estão de acordo com o ponto de vista do autor. 64 Cap 3-65 Resumo Medidas de tendência central Média, mediana, moda e média geométrica. Medidas separatrizes Medidas de variação Amplitude, Amplitude Interquartil, variância, desvio-padrão e coeficiente de variação Formatos de distribuição Momentos, Distribuições simétricas, assimétricas e diagramas Box-Plot. Armadilhas da estatística. Nesta parte, vimos: 65 Questões Recapitulativas Quais são as propriedades dos dados? O que significa a propriedade de tendência central? Quais são as diferenças entre a média aritmética, a mediana e a moda, e quais são as vantagens e desvantagens de cada uma delas? Como você interpreta o primeiro quartil, a mediana e o terceiro quartil? O que significa a propriedade de variação? Quais são as diferenças entre as diversas medidas de variação e quais as vantagens de cada uma delas? O que significa a medida de escore Z? Cap 3-66 66 Exercício Em muitos processos de fabricação, existe um termo chamado « work in progress ». Em uma gráfica, o wip representa o tempo necessário para que as folhas em uma prensa sejam dobradas, agrupadas, costuradas, alceadas e encadernadas. Os dados abaixo representam amostras de 7 livros, em cada uma das linhas de produção, e o tempo de processamento (em dias) para essas tarefas: Linha de produção A: 5.62, 5.29, 16.25, 10.92, 11.46, 21.62, 8.45 Linha de produção B: 9.54, 11.46, 16.62, 12.62, 25.75, 15.41, 14.29 Para cada uma das linhas de produção: a) Calcule a média, a mediana, o primeiro quartil e o terceiro quartil. b) Calcule a amplitude, a variância, o desvio-padrão e o coeficiente de variação. c) Construa Box-plots paralelos para cada uma das linhas de produção. Cap 3-67 67 n X X X n X X n 2 1 n 1 i i + + + = = å = L min 5 . 22 15 337 15 10 20 30 1 = = + + + = = å = L n x x n i i 3 5 15 5 5 4 3 2 1 = = + + + + 4 5 20 5 10 4 3 2 1 = = + + + + 0 4) - 10 ( 4) - 4 ( 4) - 3 ( 4) - 2 ( 4) - (1 = + + + + ( ) 0 1 1 1 1 = - = - = - å å å å = = = = n i i n i n i i n i i X n X X X X X 2 1 + n n X X n i i å = = 1 X 1 - n ) X (X S n 1 i 2 i 2 å = - = 1 - n ) X (X S n 1 i 2 i å = - = 4.2426 7 126 1 8 16) (24 16) (14 16) (12 16) (10 1 n ) X (24 ) X (14 ) X (12 ) X (10 S 2 2 2 2 2 2 2 2 = = - - + + - + - + - = - - + + - + - + - = L L N X X X N X N N i i + + + = = å = L 2 1 1 m N X N å = - = 1 i 2 i 2 μ) ( σ N X N å = - = 1 i 2 i μ) ( σ X 2 S S m 2 s s S X X Z - = 3 . 1 100 130 100 490 620 = = - = - = S X X Z 1 n ) Y Y )( X X ( ) Y , X ( cov n 1 i i i - - - = å = Y X n 1 i 2 i n 1 i 2 i n 1 i i i S S ) Y , X ( cov ) Y Y ( ) X X ( ) Y Y )( X X ( r = - - - - = å å å = = = 707580859095100707580859095100 Nota na 2a ProvaNota na 1a Prova Grafico de Dispersão das Notas nas Provas Chart1 78 92 86 83 95 85 91 76 88 79 Test #2 Score Nota na 1a Prova Nota na 2a Prova 82 88 91 90 92 85 89 81 96 77 Sheet4 Nota na 1a Prova Nota na 2a Prova Nota na 1a Prova 1 Test #2 Score 0.7332437047 1 Graph1 78 92 86 83 95 85 91 76 88 79 Test #2 Score Nota na 1a Prova Nota na 2a Prova Grafico de Dispersão das Notas nas Provas 82 88 91 90 92 85 89 81 96 77 Sheet1 Test #1 Score Test #2 Score 78 82 92 88 86 91 83 90 95 92 85 85 91 89 76 81 88 96 79 77 Sheet2 Sheet3
Compartilhar