Baixe o app para aproveitar ainda mais
Prévia do material em texto
Capítulo 2 - Apresentação e resumo de dados Estatística – 2019/20 Engenharia Mecânica e Engenharia e Gestão Industrial Adaptado dos apontamentos de Fernando Sebastião DMAT, ESTG – Instituto Politécnico de Leiria Sumário 1. Noções básicas: – População. Amostra. Unidade estatística. – Atributo. Modalidades. 2. Quadros de frequências: – Frequências absolutas. – Frequências relativas. – Dados agrupados em classes. 3. Redução dos dados: – Medidas de localização. – Medidas de dispersão. – Medidas de assimetria. 4. Representação gráfica: – Diagrama de barras. – Diagrama de setores. – Histograma. – Boxplot. 2Apresentação e resumo de dados 3 Objetivos/resultados de aprendizagem Gerais: • Explorar a informação contida num conjunto de dados. • Usar espírito crítico na análise dos resultados obtidos quer em termos numéricos quer em termos computacionais. Específicos: No fim deste capítulo da unidade curricular o estudante deverá saber: Noções básicas: Identificar a população em estudo. Identificar a amostra em análise. Identificar a unidade estatística. Identificar o atributo em estudo na população. Distinguir atributos qualitativos e quantitativos. Caracterizar as modalidades para um determinado atributo. Apresentação e resumo de dados 4 Objetivos/resultados de aprendizagem Específicos (continuação): Quadros de frequências: Determinar e interpretar as frequências absolutas. Determinar e interpretar as frequências relativas. Distinguir os vários tipos de frequências (absolutas e relativas). Agrupar os dados em classes para um determinado atributo. Representação gráfica de frequências: Representar e interpretar o diagrama de barras para atributos qualitativos e quantitativos. Representar e interpretar o diagrama de setores para atributos qualitativos e quantitativos. Representar e interpretar o histograma. Distinguir as várias representações gráficas. Identificar as representações gráficas mais adequadas a cada tipo de atributo. Apresentação e resumo de dados 5 Objetivos/resultados de aprendizagem Específicos (continuação): Redução dos dados: Definir, determinar e interpretar as medidas de tendência central: média aritmética, mediana e moda. Definir, determinar e interpretar as medidas de dispersão, nomeadamente amplitude total, amplitude interquartis, desvio padrão e variância. Definir e determinar os percentis, nomeadamente os quartis. Definir e identificar outliers. Representar e interpretar diagramas de extremos e quartis. Definir as medidas de assimetria. Interpretar as medidas de assimetria através das medidas de tendência central assim como através do coeficiente de assimetria. Distinguir a simetria da assimetria negativa e da assimetria positiva. Apresentação e resumo de dados 6 Tem como objetivo resumir a informação mais importante contida num conjunto de dados, permitindo assim facilitar a sua compreensão e interpretação. Descritiva Indutiva Tem como objetivo tirar conclusões sobre as características da população a partir da informação contida numa amostra. 1. Noções básicas Estatística Apresentação e resumo de dados 7 Antes de iniciarmos o estudo das metodologias de Estatística descritiva, importa referir alguma da terminologia comummente utilizada em qualquer estudo estatístico. Indivíduo ou unidade estatística Unidade base sobre a qual o observador realiza as observações. População ou universo Conjunto formado por todos os indivíduos em estudo. Amostra Subconjunto finito da população que seja representativo desta. Atributo ou variável Característica em estudo na população. Modalidades ou categorias Resultados possíveis para um determinado atributo. 1. Noções básicas Apresentação e resumo de dados 8 Uma variável é quantitativa (ex.: peso, altura, quantidade de calorias consumidas diariamente, temperatura, número de clientes …) quando se expressa numericamente. Caso contrário é qualitativa. Atributos ou Variáveis Qualitativas Quantitativas Quando assumem um conjunto de categorias que, embora possam ser representadas por números, não tem significado transformá-las através de operações usuais, tais como, adições ou subtrações. 1. Noções básicas Apresentação e resumo de dados 9 Variáveis Qualitativas Nominais Ordinais Não se pode estabelecer uma relação de ordem entre as categorias. Exemplos: sexo, cor, marca automóvel, … Exemplo: o sexo, feminino ou masculino, pode ser codificado por 0 ou 1. Pode-se estabelecer uma relação de ordem entre as categorias. Exemplos: grau de satisfação, nível de escolaridade, … Exemplo: o grau de satisfação relativamente a um serviço, pode ser codificado por muito insatisfeito (1), insatisfeito (2), satisfeito (3) e muito satisfeito (4). 1. Noções básicas Apresentação e resumo de dados 10 Variáveis Quantitativas ou de Escala Discretas Contínuas Podem tomar um nº finito ou uma infinidade numerável de valores (geralmente, as categorias definem-se no conjunto dos números inteiros). Exemplos: • Nº de clientes; • Nº de animais de estimação. Podem tomar uma infinidade de valores (as categorias definem-se no conjunto dos números reais). Exemplos: • Quantidade vendida de um produto (em kg); • Lucro anual (em euros). 1. Noções básicas Apresentação e resumo de dados 11 Considere-se uma amostra de observações válidas sobre uma característica que apresenta modalidades distintas 1 2 3 p. Frequências absolutas (“Frequency”) – ni : número de observações que pertencem à modalidade , com . Verifica-se que: Frequências relativas (“Valid Percent”) - i : percentagem de observações que pertencem à modalidade , com . Verifica-se que: e 2. Quadros de frequências Definição de Frequências Apresentação e resumo de dados 2. Quadros de frequências 12 counts: Idade_grupo Adulto Jovem Muito_jovem Muito_veterano Veterano 307 61 7 68 62 percentages: Idade_grupo Adulto Jovem Muito_jovem Muito_veterano Veterano 60.79 12.08 1.39 13.47 12.28 O Rcmdr fornece as frequências absolutas (“counts”), as frequências relativas em percentagem (“percentages”). Por exemplo, nesta amostra, existem 61 jogadores que são considerados jovens, o que corresponde a 12,08% dos jogadores da amostra. Variáveis Qualitativas Apresentação e resumo de dados 13 Para o caso em que as variáveis são quantitativas discretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes. Para o caso em que as variáveis são quantitativas contínuas os dados são agrupados em classes. Variáveis Quantitativas - Dados agrupados em classes 2. Quadros de frequências Quantas classes deverão ser utilizadas e quais são? Apresentação e resumo de dados 14 2. Quadros de frequências Seja i cada uma das observações da variável. • Amplitude total dos dados: T i i Quantas classes deverão ser utilizadas? Variáveis Quantitativas - Dados agrupados em classes Regra de Sturges: O número de classes, , a utilizar é o menor inteiro tal que . Para o caso em que as classes têm a mesma amplitude: • Amplitude de cada classe: Nota: Sempre que possível o número de classes deverá ser entre 5 e 20 inclusive. Apresentação e resumo de dados 15 2. Quadros de frequências Variáveis Quantitativas - Dados Agrupados em Classes Notas: • (válidos) • classes pois • i i T C No ficheiro DadosNBA.Rdata, considere-se a variável quantitativa contínua Altura cujo número de modalidades é relativamente elevado, pelo que as observações poderão ser agrupadas em classes conforme é exposto sem seguida. > numSummary(DadosNBA[,"Altura", drop=FALSE], statistics=c("quantiles"), + quantiles=c(0,.25,.5,.75,1)) 0% 25% 50% 75% 100% n NA 175.26 193.04 203.20 208.28 220.98 504.00 1.00 Apresentação e resumo de dados 16 2. Quadros de frequências Variáveis Quantitativas - Dados Agrupados em Classes counts: Altura_classes (175,180] (180,185] (185,190] (190,196] (196,201] (201,206] (206,211] (211,216] (216,221] 6 13 78 32 122 46164 34 9 percentages: Altura_classes (175,180] (180,185] (185,190] (190,196] (196,201] (201,206] (206,211] (211,216] (216,221] 1.19 2.58 15.48 6.35 24.21 9.13 32.54 6.75 1.79 Como proceder para efetuar o agrupamento da variável Altura em classes? Apresentação e resumo de dados 17 Se ao agrupar os dados em classes de igual amplitude, existir alguma que não contenha observações, então não faz sentido usar essas classes!!!.... Neste caso pode-se diminuir o número de classes de igual amplitude ou usar classes de diferentes amplitudes! Variáveis Quantitativas - Dados agrupados em classes 2. Quadros de frequências Apresentação e resumo de dados Observação: A classes consideradas pelo Rcmd dão a ideia que as classe têm amplitude 5 ou 6, no entanto tal deve-se a que os limites das classes estão arredondadas às unidades. Na verdade, as classes têm iguais amplitudes sendo o seu valor 5.08. 18 A redução dos dados tem por objetivo resumir a informação neles contida, isto é, representar as observações através de alguns resultados numéricos que analisam as características mais importantes. Medidas de localização Medidas de dispersão Medidas de assimetria 3. Redução dos Dados Servem para analisar se as frequências estão ou não distribuídas simetricamente em torno das medidas de tendência central. Dão indicação quer do centro da distribuição dos dados, quer de outros pontos importantes dessa distribuição- Dão informações quanto à variabilidade e flutuação dos dados, ou seja, sobre “quanto” se dispersam os dados e “quanto” estão espalhados em torno de um centro. Apresentação e resumo de dados 19 Interpretação: A média indica o valor que cada observação deveria ter para que a soma de todas as observações fosse igual à verificada. As medidas de tendência central representam a localização do centro das observações. Média Aritmética Mediana Moda Indica o valor em torno do qual se distribuem as observações. Sejam , , as observações da variável. Média Aritmética (“Mean”) 3.1 Medidas de localização Apresentação e resumo de dados 20 3.1 Medidas de localização Interpretação: Pelo menos 50% das observações têm valor superior ou igual à mediana e pelo menos 50% das observações têm valor inferior ou igual à mediana. É o valor que divide as observações em duas partes iguais. Consideremos as observações ordenadas por ordem crescente: ( ) ( ) ( ) ( ) ( ) Mediana (“Median”) Apresentação e resumo de dados 21 3.1 Medidas de localização É a modalidade ou categoria mais frequente na amostra e representa-se por . A moda não tem de ser única, pois pode haver mais do que uma modalidade com igual frequência, sendo essa frequência máxima. Nesse caso, o SPSS devolve o menor valor da moda. Moda (“Mode”) Observação: Para variáveis qualitativas a única medida de tendência central que faz sentido determinar é a moda. Apresentação e resumo de dados 22 3.1 Medidas de localização Exemplo: Se todos os indivíduos tivessem a mesma altura, essa altura teria que ser 200.8364 cm. Pelo menos 50% dos jogadores têm altura inferior ou igual a 203.2 cm e pelo menos 50% dos jogadores têm altura superior ou igual a 203.2 cm . O software não apresenta o valor da moda. Apresentação e resumo de dados mean 0% 25% 50% 75% 100% n NA 200.8364 175.26 193.04 203.2 208.28 220.98 504 1 23 3.1 Medidas de localização Características mais importantes da média • A média aritmética é a medida mais familiar e mais correntemente utilizada. • É uma medida influenciada por todos os valores observados. • O valor da média pode ser enviesado por apenas alguns valores extremos. Poder, por isso, deixar de ser representativa se a distribuição for altamente assimétrica devido a alguns valores extremos. • A média é a medida de tendência central mais eficiente quando se trata de inferir sobre uma população a partir de dados recolhidos apenas para uma amostra. Características mais importantes da moda • É, em geral, menos utilizada que a média e a mediana. • Em algumas distribuições pode haver mais que uma moda. Nesse caso a distribuição diz-se multimodal. • O valor da moda não sofre a influência de valores extremos. Apresentação e resumo de dados 24 3.1 Medidas de localização Características mais importantes da mediana • A mediana é fácil de calcular e de compreender. • É determinada pelo número de observações e não pelo seu valor. Deste modo, os valores extremos, quer sejam grandes ou pequenos, não afetam o valor da mediana. • É uma medida muito utilizada sobretudo para distribuições fortemente assimétricas por não ser afetada por valores extremos. • Para fins de inferência estatística, a mediana não satisfaz as propriedades de um bom estimador. Outras medidas: Mínimo (minimum) e máximo (maximum) Quartis (quartiles) – e Apresentação e resumo de dados 25 3.1 Medidas de localização Quartis (“Quartiles”): Os três quartis ( 1, 2 e 3) são os valores que dividem os dados em 4 partes iguais em termos de percentagem de observações. 1 2 3i i 25 % obs.25 % obs.25 % obs. 25 % obs. Consideremos as observações ordenadas por ordem crescente: Os valores dos 1º, 2º e 3º quartis com , respetivamente, são dados por: ( ) ( ) ( ) ( ) é natural [ ] não é natural [ ] é o maior número inteiro inferior a Apresentação e resumo de dados 26 3.1 Medidas de localização Nota: Existem diferentes formas de definir os quartis, podendo surgir valores ligeiramente diferentes para o mesmo quartil. Uma possível definição é a apresentada no slide anterior. Percentis ou Quantis (”Percentiles”): São os valores p tais que pelo menos das observações da amostra são inferiores ou iguais a p e pelo menos das observações da amostra são superiores ou iguais a p . • 25 - percentil 25 (q1) • 50 - percentil 50 (q2) • 75 - percentil 75 (q3) • 5 - percentil 5 • 95 - percentil 95 • 99 - percentil 99 Apresentação e resumo de dados 3.2 Medidas de Dispersão 27 As medidas de dispersão mais utilizadas são: • Amplitude (range) – diferença entre o mínimo e o máximo • Amplitude interquartis (interquartile range) – diferença entre o 3.º quartil e o 1.º quartil • Variância (variance) e desvio padrão (standard deviation) – e , o desvio padrão é a raiz quadrada (positiva) da variância. São um indicador do grau de afastamento dos dados relativamente à sua média aritmética. Quanto maior é o seu valor maior é a dispersão dos dados. • Coeficiente de variação – ̅ , é o quociente entre o desvio padrão e a média. Interpreta-se de forma semelhante às 2 medidas anteriores mas permite comparar amostras, quanto à dispersão, ainda que utilizem escalas distintas (por exemplo, toneladas e quilos). Esta medida não é calculada diretamente pelo SPSS. Apresentação e resumo de dados 28 3.2 Medidas de Dispersão É a diferença entre o valor observado mais elevado e o valor observado mais baixo: T i i As medidas de dispersão analisam o grau de variabilidade das observações de um conjunto de dados em torno das medidas de tendência central. Amplitude Total (“Range”) Amplitude Interquartis É a amplitude do intervalo que contém 50% das observações centrais: q 3 1. 50 % de observações 1 2 3i i Apresentação e resumo de dados 29 3.2 Medidas de Dispersão A variância é a média dos quadrados dos desvios das observações em relação à média aritmética e é dada por: Quanto maior for o valor da variância mais afastadas estão as observações da média e logo existe uma maior dispersão das observações, e vice-versa. Variância (“Variance”) Alguns autores (e o SPSS) utilizam a variância corrigida em vez da variância usual, que é dada por: Apresentação e resumo de dados 30 3.2 Medidas de Dispersão Quanto maior for o valor do desvio padrão mais afastadas estão as observações da média e logo existe uma maior dispersão das observações, e vice-versa. Desvio Padrão (“Standard Deviation”) O desvio padrão é a raiz quadrada da variância e é dado por:E o desvio padrão corrigido é dado por: Nota: Apresentação e resumo de dados 31 3.2 Medidas de Dispersão Exercício 2: Observe a seguinte representação gráfica: Apresentação e resumo de dados 32 3.2 Medidas de Dispersão Coeficiente de Variação (CV) As medidas de dispersão até agora apresentadas são medidas absolutas, pois estão dependentes das unidades em que vem expressa a variável, não servindo assim de medidas de comparação de dispersão de duas distribuições diferentes, sobretudo se estas estiverem definidas em unidades de medida diferentes. Quando tal acontece deve utilizar-se uma medida de dispersão relativa. O CV é uma medida de dispersão relativa, útil para a compreensão em termos relativos do grau de concentração em torno das médias, de distribuição de frequências distintas: Um CV superior a 50% indica uma grande dispersão relativa e uma pequena representatividade da média como medida estatística. Para valores do CV inferiores a 50% a média será tanto mais representativa quanto menor o valor deste coeficiente. Apresentação e resumo de dados 33 3.2 Medidas de Dispersão Coeficiente de Variação (CV) Exercício 2: Considere as seguintes estimativas referentes a duas amostrar de 50 pneus de marcas diferentes: Marca 1: Duração média: 50000 km Desvio-padrão: 12000 km Marca 2: Duração média: 30000 km Desvio-padrão: 8000 km Em termos relativos, qual das marcas de pneus apresenta uma maior dispersão relativa da sua duração? É a marca 2 pois 1 2 Apresentação e resumo de dados 34 3.3 Medidas de Assimetria Medidas de assimetria (skewness): Estas medidas caracterizam a forma da distribuição dos dados em torno da média. • Informam-nos sobre a forma como se distribuem os dados horizontalmente, isto é, indicam-nos o grau de concentração dos dados; • Assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria. • Este tipo de medidas têm bastante menos aplicação do que as medidas de localização, ou de dispersão. • Devem ser corretamente interpretadas, pois poderão não ser tão credíveis na informação que transmitem, pelo que devem ser tomadas como meros indicadores. Apresentação e resumo de dados 35 3.3 Medidas de Assimetria Coeficiente de Assimetria • É uma medida que assume o valor zero quando a distribuição de frequências da amostra é completamente simétrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuição não é simétrica. • Atenção que numa amostra é quase impossível observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Quanto mais afastado de zero estiver o coeficiente maior é a assimetria. Apresentação e resumo de dados 36 3.3 Medidas de Assimetria Uma distribuição diz-se assimétrica positiva (alternativamente assimétrica negativa) quando existe uma maior concentração de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra e uma maior dispersão para os valores mais elevados. Assimétrica positiva Quase simétrica Assimétrica negativa Coef. ass. > 0 Coef. ass. ~ 0 Coef. ass. < 0 Apresentação e resumo de dados 37 3.3 Medidas de Assimetria Assimetria por comparação da média, mediana e moda A assimetria também pode ser avaliada comparando os valores da média, mediana e moda. moda média mediana Assimétrica positiva: moda < mediana < média Apresentação e resumo de dados 38 3.3 Medidas de Assimetria Assimétrica negativa: média < mediana < moda Distribuição simétrica: média = mediana = moda Distribuição quase simétrica: média mediana moda Apresentação e resumo de dados 39 3.3 Medidas de Assimetria Grau de assimetria Coeficiente de Pearson ou, quando não dispomos da média ou desvio-padrão, utilizamos: 𝟏 𝒐 𝒆 𝟐 𝟑 𝟐 𝟐 𝟏 𝟑 𝟏 Apresentação e resumo de dados 40 Representação gráfica Diagrama de Extremos e Quartis ou Caixa de Bigodes (“Boxplot”) 3 1 i Quanto menor for a distância entre 2 destas medidas em relação às restantes, menor é a dispersão das observações nesse intervalo e vice- versa. Outlier moderado i max (xi) não outlier min (xi) não outlier Sem outliers Com outliersOutlier severo Apresentação e resumo de dados
Compartilhar