Baixe o app para aproveitar ainda mais
Prévia do material em texto
Medidas numéricas descritivas Sandro Bruno do Nascimento Lopes Universidade Federal do Rio Grande do Norte 4 de março de 2015 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 1 / 86 Sumário 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 2 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 3 / 86 Introdução Alguns modelos de gráficos, como histogramas e diagramas de ramo-e-folha, permitem ter uma noção visual da distribuição dos valores de acordos com grupos determinados a priori; O objetivo é descrever tais informações de forma numérica. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 4 / 86 Introdução Para o cálculo das medidas numéricas, será utilizado como exemplo uma pesquisa realizada a 15 pessoas de uma determinada cidade, escolhidas aleatoriamente, sobre o tempo de viagem de casa para o trabalho em minutos. Os dados obtidos foram: 30, 20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 5 / 86 Introdução Em rol: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25, 30, 30, 40, 40, 60; Em diagrama de ramo-e-folha: 0 | 5 1 | 0 0 0 0 2 5 2 | 0 0 5 3 | 0 0 4 | 0 0 5 | 6 | 0 Algumas conclusões que podem ser extraídas dos dois gráficos: Menor valor: 5 minutos; Maior valor: 60 minutos; Valor com maior número de ocorrências: 10 (4 vezes); Ramo com maior ocorrência: 1 Distribuição assimétrica. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 6 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 7 / 86 Tipos de medidas A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor central típico; A variação corresponde ao montante de dispersão, ou espalhamento, de valores em relação a um valor central; O formato corresponde ao padrão da distribuição de valores do valor mais baixo para o mais alto. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 8 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 9 / 86 Medias de tendência central Tendência central: valores no centro da distribuição, em torno dos quais os dados se agrupam; Medidas tipicamente usadas: Média aritmética (média); Mediana; Moda. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 10 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 11 / 86 Média A média aritmética (média) é a mais comum das medidas de tendência central; Matematicamente, é a soma dos valores dividido pelo número de valores: Definição Para uma amostra de tamanho n, dada por {X1,X2, · · · ,Xn}, a média X é dada por: X = ∑n i=1 Xi n = X1 + X2 + · · ·+ Xn n Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 12 / 86 Média Fisicamente, a média pode ser vista como o ponto de “equilíbrio“ em um conjunto de dados (gangorra), onde todos os valores desempenham um papel igual (mesma massa); É afetada por valores atípicos, também chamados de valores extremos ou outliers. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 13 / 86 Média Propriedades: A soma dos desvios em relação a média é nula: o desvio mede a distância entre o valor e a média, possui valor negativo considerando valores abaixo da média e valores positivos considerando valores acima da média. n∑ i=1 (Xi − X ) = 0 A média é o valor que minimiza a soma do quadrado dos desvios: seja o valor c, denominado como “centro“ dos dados, tal que a “distância“ medida pela soma dos quadrados dos desvios dos outros valores em relação a c seja a menor possível. Este valor c sempre será a média. X = argmin c n∑ i=1 (Xi − c)2 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 14 / 86 Média Para o exemplo dado, a média X é dada por: X = 5+ 10+ 10+ 10+ 10+ 12+ 15+ 20+ 20+ 25+ 30+ 30+ 40+ 40+ 6015 = 337 5 ≈ 22, 5minutos Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 15 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariânciaamostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 16 / 86 Mediana Em um rol (lista dos dados em ordem crescente), a mediana é o número correspondente ao meio da lista, de forma que 50% dos valores estão acima e 50% estão abaixo dele; A mediana de um conjunto de dados ordenados é localizada na posição n + 1 2 : Se o número de valores é ímpar, então n + 12 é um valor inteiro. Então, a mediana é o valor correspondente a este índice (o número do meio da lista); Se o número de valores é par, então n + 12 é um valor não-inteiro. Então, convenciona-se que mediana é a média dos dois valores do meio. Não é afetada por valores atípicos (extremos): Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 17 / 86 Mediana Propriedade: A mediana é o valor que minimiza a soma do valor das distâncias (valor absoluto dos desvios): seja c o centro dos dados, tais que a distância dos outros valores em relação a c seja a menor possível. Este valor c sempre será a mediana. mediana = argmin c n∑ i=1 |Xi − c| Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 18 / 86 Mediana Para o exemplo dado, a posição da mediana no rol é: n + 1 2 = 15+ 1 2 = 16 2 = 8 A mediana está na 8◦ posição, correspondendo ao elemento 20. Logo, a mediana é 20 minutos. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 19 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 20 / 86 Moda A moda é o valor que ocorre com maior frequência; Usada tanto para dados numéricos quanto para dados categóricos (cuidado: afetada pela escolha de classes de agrupamento); Pode não haver moda e pode haver várias modas em um conjunto de dados; Não é afetada por valores extremos: No problema dado, a moda é 10 minutos, já que aparece mais vezes (4 vezes). Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 21 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 22 / 86 Qual utilizar? A média geralmente é usada, a menos que existam valores extremos e com distribuição muito assimétricas; Nesse caso, a mediana é a mais usada, uma vez que não é sensível a valores extremos. Por exemplo, o preço mediano de casas pode ser registrado para uma região por ser menos sensível a valores extremos; O conceito de moda pode ser aplicado a dados categóricos ou numéricos não-ordenados, ao contrário da média e da mediana. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 23 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 24 / 86 Medidas de variação Medidas de variação medem a dispersão de valores em um conjunto de dados, ou seja, o grau de afastamento dos dados em torno de um valor central; Indicam se um conjunto de dados é homogêneo (mais concentrado em torno do valor central) ou heterogêneo (mais disperso em torno do valor central); Medidas (absolutas) tipicamente utilizadas: Amplitude; Amplitude interquartil; Variância; Desvio-padrão. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 25 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 26 / 86 Amplitude Medida de variação mais simples; Definida como a diferença entre o maior e o menor dos valores dos dados: Amplitude = Maior valor − Menor valor Não leva em consideração o formato da distribuição dos dados: É sensível a valores extremos: Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 27 / 86 Amplitude Para o exemplo dado, a amplitude é dada por: amplitude = 60− 5 = 55 minutos Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 28 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 29 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 30 / 86 Medidas separatrizes Medidas separatrizes sãovalores que dividem o rol em partes iguais; Medidas separatrizes tipicamente usadas: Quartis (4 partes); Decis (10 partes); Centis (100 partes); A nomenclatura geral é quantil ou pertencil. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 31 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 32 / 86 Quartis Quartis dividem os dados ordenados em 4 segmentos com o mesmo número de valores por segmento: O primeiro quartil, Q1, é o valor para o qual 25% das observações são menores e 75% são maiores do que ele; Q2 é o mesmo que a mediana (50% são menores, 50% são maiores); Apenas 25% dos valores são maiores do que o terceiro quartil, Q3. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 33 / 86 Quartis Determinado os quartis: Em um rol de de n dados, os índices para os quartis são definidos como: Primeiro quartil: valor na posição n + 14 ; Segundo quartil: valor na posição n + 12 ; Terceiro quartil: valor na posição 3(n + 1)4 . Se a posição de um quartil é um número inteiro, então o quartil corresponde ao valor ordenado nesta posição; Se a posição é uma fração com 0, 5 (2, 5, 3, 5, etc), então o quartil é igual a média dos valores correspondendo as posições adjacentes (2 e 3, 3 e 4, etc); Se a posição não é um número inteiro e nem uma fração com 0, 5, então arredonda-se a posição para o inteiro mais próximo e determina-se o valor correspondente. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 34 / 86 Quartis Para o exemplo dado, as posições dos quartis são: Primeiro quartil: n + 14 = 15+ 1 4 = 16 4 = 4; Segundo quartil: n + 12 = 15+ 1 2 = 16 2 = 8; Terceiro quartil: 3(n + 1)4 = 3(15+ 1) 4 = 3(16) 4 = 3 ∗ 4 = 12. Logo, o primeiro, segundo e terceiro quartis são 10, 20 e 30 minutos, respectivamente. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 35 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 36 / 86 Amplitude interquartil A amplitude interquartil (AIQ) é a diferença entre o terceiro e o primeiro quartil: Amplitude interquartil = Q3 − Q1 Elimina alguns dos maiores e menores valores e calcula a amplitude apenas com os valores restantes; Não é sensível a valores atípicos. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 37 / 86 Amplitude interquartil No exemplo dado, sabe-se que o primeiro quartil é 10 minutos, e o terceiro quartil é 30 minutos. Logo, a amplitude interquartil é dada por: amplitude interquartil = 30− 10 = 20 minutos Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 38 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 39 / 86 Variância A variância (e o desvio-padrão) medem o quanto as observações se afastam da média; A variância é a média (aproximada, por n − 1 graus de liberdade) do quadrado dos desvios dos valores em relação a média: S2 = ∑n i=1 ( Xi − X )2 n − 1 Onde X é a média amostral. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 40 / 86 Variância Propriedades: A variância de uma constante k é nula; V (k) = 0 A variância da soma ou diferença de uma constante k com uma variável é igual a variância da variável; V (k + X ) = V (k − X ) = V (X ) A variância do produto de uma constante por uma variável é igual ao produto do quadrado da constante pela variância da variável. V (kX ) = k2 ∗ V (X ) Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 41 / 86 Variância No exemplo dado, a variância é dada como: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25, 30, 30, 40, 40, 60 Valor médio: 22, 5 minutos; Quadrado das diferenças: (5− 22, 5)2 = (−17, 5)2 = 306, 25; (10− 22, 5)2 = (−12, 5)2 = 156, 25; (12− 22, 5)2 = (−10, 5)2 = 110, 25; (15− 22, 5)2 = (−7, 5)2 = 56, 25; (20− 22, 5)2 = (−2, 5)2 = 6, 25; (25− 22, 5)2 = (2, 5)2 = 6, 25; (30− 22, 5)2 = (7, 5)2 = 56, 25; (40− 22, 5)2 = (17, 5)2 = 306, 25; (60− 22, 5)2 = (37, 5)2 = 1406, 25; Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 42 / 86 Variância Soma dos quadrados: 306, 25+ 156, 25+ 156, 25+ 156, 25+ 156, 25+ 110, 25+ 56, 25+ 6, 25 + 6, 25+ 6, 25+ 56, 25+ 56, 25+ 306, 25+ 306, 25+ 1406, 25 = 3247, 75 Divisão por n − 1: S2 = 3247, 7515− 1 = 3247, 75 14 ≈ 231, 9821 Logo a variância é de 231, 9821 minutos2 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 43 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 44 / 86 Desvio-padrão Medida de variação mais utilizada: “desvio médio dos dados em relação a média“. Raiz quadrada da variância; Tem a mesma unidade que os dados originais. S = √ S2 = √∑n i=1 ( Xi − X )2 n − 1 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 45 / 86 Desvio-padrão Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 46 / 86 Desvio-padrão Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 47 / 86 Desvio-padrão Passos para computar o desvio-padrão amostral: Computar a diferença entre cada valor e a média; Elevar cada uma das diferenças ao quadrado; Somar os quadrados das diferenças;Dividir o total por n − 1 para obter a variância amostral; Tirar a raiz quadrada da variância amostral. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 48 / 86 Desvio-padrão Para o exemplo dado, o desvio-padrão pode ser calculado como a raiz quadrada da variância. Logo: S = √ S2 = √ 231, 9821 ≈ 15, 2310 Logo, o desvio-padrão é de 15, 2310 minutos. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 49 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 50 / 86 Medidas de formato Medidas de formato tentam captar, em um número, características da distribuição dos dados como assimetria e “achatamento“; As medidas mais usadas são assimetria e curtose (não serão vistas neste curso): Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 51 / 86 Medidas de formato Para dados com uma única moda, a relação entre moda, mediana e média nos fornecem uma ideia sobre a simetria de uma distribuição: A assimetria segue a direção da cauda longa da distribuição. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 52 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 53 / 86 Box-plot Um box-plot é um gráfico montado a partir de cinco valores significativos em uma coleção de dados: Valor mínimo (Xminimo); Primeiro Quartil (Q1); Mediana ou segundo quartil (Q2); Terceiro Quartil (Q3); Valor máximo (Xmaximo). Formato de um box-plot: O quadro e a linha central estão localizados no meio dos pontos extremos se os dados forem simétricos em torno da média; Um gráfico box-plot pode ser apresentado tanto na vertical quanto na horizontal. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 54 / 86 Box-plot Quando os dados tem uma única moda, o box-plot nos dá uma ideia da direção da assimetria nos dados (sem precisar olhar a distribuição): Os valores mínimo e máximo do box-plot podem ser substituídos por outros valores: 1◦ e 99◦ percentis; 2◦ e 98◦ percentis; Um desvio padrão abaixo e acima da média; O menor dado dentro de 1, 5*AIQ (amplitude interquartil) de Q1 e o maior dado dentro de 1, 5*AIQ de Q3. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 55 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 56 / 86 Medidas numéricas descritivas para a população As estatísticas descritivas discutidas descrevem uma amostra e não a população; Medidas descritivas para a população são chamadas de parâmetros e geralmente denotadas por letras gregas; Os mais importantes parâmetros de uma população são a média populacional, a variância populacional e desvio-padrão populacional. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 57 / 86 Medidas numéricas descritivas para a população A média populacional é a soma dos valores Xi na população dividida pelo tamanho N da população: µ = ∑n i=1 Xi N = X1 + X2 + · · ·+ XN N A variância populacional é a média do quadrado dos desvios dos valores em relação a média populacional µ : σ2 = ∑n i=1 (Xi − µ)2 N O desvio-padrão populacional é a medida de variação populacional mais usada, tendo a mesma unidade que os dados originais, e equivale a raiz quadrada da variância: σ = √ σ2 = √∑n i=1 (Xi − µ)2 N Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 58 / 86 Medidas numéricas descritivas para a população Estatísticas amostrais versus parâmetros populacionais: Medida Parâmetro populacional Estatística amostral média µ X variância σ2 S2 desvio-padrão σ S Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 59 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 60 / 86 Localização de valores extremos Duas alternativas diferentes são usadas para localizar valores atípicos (extremos) dependendo das medidas usadas para variação: Usando amplitude interquartil; Usando o desvio-padrão (escore-Z). Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 61 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 62 / 86 Localização de valores extremos com a amplitude interquartil A amplitude Interquartil compreende 50% dos dados; Uma regra para localizar valores extremos é identificar dados que são: Menores ou iguais do que Q1 − 1, 5 ∗ AIQ; Maiores ou iguais do que Q3 + 1.5 ∗ AIQ; Dados nestas condições são considerados valores extremos. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 63 / 86 Localização de valores extremos com a amplitudeinterquartil Para o exemplo dado, os limites são: Q1 − 1, 5 ∗ AIQ = 10− 1, 5 ∗ 20 = 10− 30 = −20 Q3 + 1.5 ∗ AIQ = 30+ 1, 5 ∗ 20 = 30+ 30 = 60 Como 60 é um valor maio ou igual ao limite superior do teste, então ele é um valor extremo. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 64 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 65 / 86 Localização de valores extremos com o escore-Z O escore-Z, Zi , de um valor é a “distância“ que este valor está da média medida em unidades de desvio-padrão; Para computar o escore-Z de um dado, basta diminuir a média e divida pelo desvio-padrão: Zi = Xi − X S Quanto maior o valor absoluto do escore-Z, mais longe o valor está da média; Um valor Xi é considerado extremo se e somente se Zi ≤ −3 ou Zi ≥ 3. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 66 / 86 Localização de valores extremos com o escore-Z Para o exemplo dado, as condições do menor e valor valor dos dado é: Z1 = 5− 22, 5 15, 2310 = −17, 5 15, 2310 ≈ −1, 1490 Z2 = 60− 22, 5 15, 2310 = 37, 5 15, 2310 ≈ 2, 4621 Como Z1 > −3 e Z2 < 3, então não há valores extremos na lista. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 67 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 68 / 86 Medidas numéricas para duas variáveis As medidas numéricas vistas até agora descrição informações de apenas uma variável; Geralmente lida-se diversas variáveis que se relacionam entre si. Nestes casos, busca-se definir medidas para a força da relação entre as variáveis envolvidas; No caso de dados bivariados, as medidas mais utilizadas são: Covariância amostral; Coeficiente de correlação. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 69 / 86 Medidas numéricas para duas variáveis Para as definições de covariância e coeficiente de correlação, será utilizado o seguinte exemplo: Supõe-se que o conteúdo de hidrogênio (X) seja um fator importante na porosidade (Y) de fundições de liga de alumínio. Uma amostra das duas variáveis foi obtida e os dados estão dispostos abaixo: X 0,18 0,20 0,21 0,22 0,30 Y 0,46 0,70 0,41 0,44 0,72 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 70 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 71 / 86 Covariância amostral A covariância amostral mede a força da relação linear entre duas variáveis; Mede se as duas variáveis se movem juntas; Fórmula da covariância entre duas variáveis X e Y : Cov(X ,Y ) = ∑n i=1(Xi − X ) ∗ (Yi − Y ) n − 1 Interpretação da covariância entre duas variáveis: Positiva: X e Y tendem a se mover na mesma direção. (Xi ’s grandes observados ao mesmo tempo que Yi ’s grandes ou Xi ’s pequenos observados ao mesmo tempo que Yi ’s pequenos); Negativa: X e Y tendem a se mover em direções opostas. (Xi ’s grandes observados ao mesmo tempo que Yi ’s pequenos ou Xi ’s pequenos observados ao mesmo tempo que Yi ’s grandes); Nula: X e Y são linearmente independentes. A covariância varia de acordo com dimensões utilizadas, para as mesmas variáveis. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 72 / 86 Covariância amostral Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 73 / 86 Covariância amostral No exemplo dado, a covariância amostral pode ser resumida nas seguintes etapas: Cálculo da média de X: X = 0, 18+ 0, 20+ 0, 21+ 0, 22+ 0, 305 = 1, 11 5 = 0, 222 Cálculo da média de Y: Y = 0, 46+ 0, 70+ 0, 41+ 0, 44+ 0, 725 = 2, 73 5 = 0, 546 Cálculo do produto das diferenças das médias entre as duas variáveis: (0, 18− 0, 222) ∗ (0, 46− 0, 546) = 0, 003612; (0, 20− 0, 222) ∗ (0, 70− 0, 546) = −0, 003388; (0, 21− 0, 222) ∗ (0, 41− 0, 546) = 0, 001632; (0, 22− 0, 222) ∗ (0, 44− 0, 546) = 0, 000212; (0, 30− 0, 222) ∗ (0, 72− 0, 546) = 0, 013572. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 74 / 86 Covariância amostral Soma dos valores obtidos: 0, 003612− 0, 003388+ 0, 001632+ 0, 000212+ 0, 013572 = 0, 01564 Divisão por n − 1: Cov(X ,Y ) = 0, 015645− 1 = 0, 01564 4 = 0, 00391 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 75 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 76 / 86 Coeficiente de correlação O coeficiente de correlação mede a força relativa da relação linear entre duas variáveis; Cálculo do coeficiente de correlação amostral entre duas variáveis X e Y : r = ∑n i=1(Xi − X ) ∗ (Yi − Y )√∑n i=1 ( Xi − X )2√∑n i=1 ( Yi − Y )2 = Cov(X ,Y )SXSY Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 77 / 86 Coeficiente de correlação Propriedades: O coeficiente de correlação é adimensional; O coeficiente de correlação varia entre -1 e 1; Quanto mais próximo de -1 mais forte é a relação linear negativa entre as variáveis; Quanto mais próximo de 1, mais forte é a relação linear positiva entre as variáveis; Quanto mais próximo de 0, mais fraca é a relação linear entre as variáveis. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 78 / 86 Coeficiente de correlação Sandro Bruno (UFRN) Medidas numéricas descritivas4 de março de 2015 79 / 86 Coeficiente de correlação No exemplo dado, o coeficiente de correlação pode ser obtido a partir das seguintes etapas: Cálculo da covariância entre X e Y: Cov(X ,Y ) = 0, 01564; Cálculo do desvio-padrão de X: Cálculo do quadrado das diferenças: (0, 18− 0, 222)2 = 0, 001764; (0, 20− 0, 222)2 = 0, 000484; (0, 21− 0, 222)2 = 0, 000144; (0, 22− 0, 222)2 = 0, 000004; (0, 30− 0, 222)2 = 0, 006084 Soma dos quadrado das diferenças 0, 001764+ 0, 000484+ 0, 000144+ 0, 000004+ 0, 006084 = 0, 00848 Divisão por n − 1: 0, 08485− 1 = 0, 0848 4 = 0, 00212 Raiz quadrada da variância: SX = √ 0, 00212 ≈ 0, 04604 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 80 / 86 Coeficiente de correlação Cálculo do desvio-padrão de Y: Cálculo do quadrado das diferenças: (0, 46− 0, 546)2 = 0, 007396; (0, 70− 0, 546)2 = 0, 023716; (0, 41− 0, 546)2 = 0, 018496; (0, 44− 0, 546)2 = 0, 011236; (0, 72− 0, 546)2 = 0, 030276. Soma dos quadrado das diferenças 0, 007396+ 0, 023716+ 0, 018496+ 0, 011236+ 0, 030276 = 0, 09112 Divisão por n − 1: 0, 091125− 1 = 0, 09112 4 = 0, 02278 Raiz quadrada da variância: SX = √ 0, 02278 ≈ 0, 15093 Cálculo do coeficiente de correlação: r = 0, 003910, 04604 ∗ 0, 15093 ≈ 0, 56269 Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 81 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 82 / 86 Correlação versus causalidade Na causalidade, uma variável apenas acontece por causa da outra; Quando há correlação positiva observamos que duas variáveis costumam andar juntas. Pode ser que Y cause X , ou que X cause Y ou que exista outra variável (omitida) Z que cause as duas coisas... Exemplos de correlação e não causalidade: Com o passar do tempo, observamos primeiro o cantar do galo e uns minutos depois o nascer do Sol - mas isso não quer dizer que é o cantar do galo que causa o nascer do Sol; Pessoas que dormem de sapato acordam com dor de cabeça. Dormir de sapato causa dor de cabeça? Pessoas que dormem tarde tem salário mais elevados. Vou dormir mais tarde hoje para ver se acordo amanhã com o salário mais alto... Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 83 / 86 Correlação versus causalidade Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 84 / 86 Sumario 1 Introdução 2 Tipos de medidas 3 Medidas de tendência central Média Mediana Moda Qual utilizar? 4 Medidas de variação Amplitude Amplitude interquartil Medidas separatrizes Quartis Amplitude interquartil (AIQ) Variância Desvio-padrão 5 Medidas de formato 6 Box-plot 7 Medidas numéricas descritivas para a população 8 Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z 9 Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Correlação versus causalidade 10 Considerações éticas Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 85 / 86 Considerações éticas A análise de dados é objetiva: uma análise de dados sempre deve apresentar as medidas descritivas que melhor atendem as hipóteses a respeito do conjunto de dados; A Interpretação dos dados é subjetiva: a interpretação deve ser honesta, neutra e clara; As medidas descritivas numéricas devem documentar tanto os resultados bons quanto os resultados ruins; Não deve-se usar medidas descritivas inadequadas para distorcer os fatos; Ficar atento para omissões ao ler estatísticas descritivas, pois elas podem esconder fatos que não estão de acordo com o ponto de vista do autor. Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 86 / 86 Introdução Tipos de medidas Medidas de tendência central Média Mediana Moda Qual utilizar? Medidas de variação Amplitude Amplitude interquartil Variância Desvio-padrão Medidas de formato Box-plot Medidas numéricas descritivas para a população Localização de valores extremos Localização de valores extremos com a amplitude interquartil Localização de valores extremos com o escore-Z Medidas numéricas para duas variáveis Covariância amostral Coeficiente de correlação Considerações éticas
Compartilhar