Prévia do material em texto
Capítulo 2: Estatística descritiva © 2016 Pearson. Todos os direitos reservados. slide 1 Objetivos de aprendizagem Como construir uma distribuição de frequência incluindo limites, pontos médios, frequências relativas, frequências acumuladas e limites reais ou fronteiras. Como construir histogramas de frequência, polígonos de frequência, histogramas de frequência relativa e ogivas. Como representar graficamente e interpretar conjuntos de dados quantitativos usando diagrama de ramo e folha e diagrama de pontos. Como representar graficamente e interpretar conjuntos de dados qualitativos usando gráficos setoriais (gráfico de pizza) e gráficos de Pareto. Como representar graficamente e interpretar conjuntos de dados emparelhados usando diagramas de dispersão e gráficos de série temporal. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Objetivos de aprendizagem Como encontrar a média, a mediana e a moda de uma população ou de uma amostra. Como encontrar uma média ponderada de um conjunto de dados e a média de uma distribuição de frequência. Como descrever a forma de uma distribuição: simétrica, uniforme ou assimétrica, e como comparar a média e a mediana para cada uma. Como encontrar a amplitude de um conjunto de dados. Como encontrar a variância e o desvio padrão de uma população e de uma amostra. Como usar a Regra Empírica e o teorema de Chebyshev para interpretar o desvio padrão. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Objetivos de aprendizagem Como aproximar o desvio padrão amostral para dados agrupados. Como usar o coeficiente de variação para comparar a variação em diferentes conjuntos de dados. Como encontrar o primeiro, o segundo e o terceiro quartis de um conjunto de dados, como encontrar a amplitude interquartil e como representar um conjunto de dados graficamente usando um diagrama de caixa (boxplot ). Como interpretar outras separatrizes, como o percentil, e como encontrar percentis para um valor específico. Como encontrar e interpretar o escore padrão (escore-z). © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Distribuições de frequência Uma distribuição de frequência é uma tabela que mostra classes ou intervalos dos valores com a contagem do número de ocorrências em cada classe ou intervalo. A frequência f de uma classe é o número de ocorrências de dados na classe. Cada classe tem um limite inferior de classe, que é o menor número que pode pertencer à classe, e um limite superior de classe, que é o maior número que pode pertencer à classe. A amplitude de classe é a distância entre os limites inferiores (ou superiores) de classes consecutivas. A diferença entre os valores máximo e mínimo dos dados é chamada de amplitude. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Distribuições de frequência Para construir uma distribuição de frequência com base em um conjunto de dados: Decida o número de classes para serem incluídas na distribuição de frequência. Encontre a amplitude de classe. Encontre os limites de classe. Faça uma marca de contagem para cada registro na linha da classe apropriada. Conte as marcas para encontrar a frequência total f para cada classe. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Distribuições de frequência Depois de construir uma distribuição de frequência padrão, você pode incluir diversas características adicionais que ajudarão a fornecer um melhor entendimento dos dados. Ponto médio: é a soma dos limites inferior e superior da classe dividida por dois. Frequência relativa: é a fração, ou proporção, de dados que está nessa classe. Para calcular a frequência relativa de uma classe, divida a frequência f pelo tamanho n da amostra. Frequência acumulada: é a soma das frequências dessa classe com todas as anteriores. A frequência acumulada da última classe é igual ao tamanho n da amostra. A soma das frequências relativas de todas as classes deve ser igual a 1 ou 100%. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Gráficos de distribuições de frequência Histograma de frequência: diagrama de barras que representa a distribuição de frequência de um conjunto de dados. Polígono de frequência: gráfico de linha que enfatiza as mudanças contínuas nas frequências. Histograma de frequência relativa: tem a mesma forma e a mesma escala horizontal do correspondente histograma de frequência. A diferença é que a escala vertical indica as frequências relativas, e não as frequências (absolutas). Gráfico de frequência acumulada ou ogiva: gráfico de linhas que mostra a frequência acumulada até cada classe em sua fronteira superior. As fronteiras superiores são marcadas no eixo horizontal e as frequências acumuladas são marcadas no eixo vertical. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Representando graficamente conjuntos de dados quantitativos Diagrama de ramo e folha: recurso da análise exploratória de dados (AED), que foi desenvolvida por John Turkey em 1977. Cada número é separado em um ramo (por exemplo, se o número é 155, os dígitos mais à esquerda do número formam o ramal 15) e uma folha (por exemplo, o dígito mais à direita: 5). Vantagens: o gráfico contém os valores originais dos dados e fornece uma maneira fácil de ordenar os dados. Diagrama de pontos: cada valor de dado é representado usando um ponto acima do eixo horizontal. Como no diagrama de ramo e folha, permite ver como os dados estão distribuídos, identificar valores específicos e valores incomuns extremos nos dados. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Representando graficamente conjuntos de dados qualitativos Gráfico de pizza: círculo dividido em setores que representam categorias. A área de cada setor é proporcional à frequência de cada categoria. Gráfico de Pareto: gráfico de barras verticais no qual a altura de cada barra representa a frequência ou a frequência relativa. As barras são posicionadas em ordem decrescente de altura, com a barra mais alta posicionada à esquerda. Tal posicionamento ajuda a destacar dados importantes e é frequentemente usado em negócios. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Representando graficamente conjuntos de dados emparelhados Gráfico de dispersão: os pares ordenados são representados como pontos em um plano coordenado (plano cartesiano). É usado para mostrar a relação entre duas variáveis quantitativas. Gráfico de série temporal: utilizado para representar um conjunto de dados quantitativos cujos valores são obtidos em intervalos regulares, durante um período de tempo. Por exemplo, a quantidade de precipitação medida a cada dia por um mês é uma série temporal. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Média, mediana e moda Uma medida de tendência central é um valor que representa uma observação típica ou central de um conjunto de dados. As três medidas da tendência central mais comumente usadas são a média, a mediana e a moda. Média: soma dos valores dos dados dividida pelo número de observações. Para determinar a média de um conjunto de dados, use uma das seguintes fórmulas: © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Média, mediana e moda Mediana: indica o centro de um conjunto de dados ordenado, dividindo-o em duas partes com quantidades iguais de valores. Quando o conjunto de dados tem um número ímpar de observações, a mediana é o elemento do meio. Se o conjunto de dados tem um número par de observações, a mediana é a média dos dois elementos que ocupam as posições centrais. Moda: é o valor que ocorre com a maior frequência. Um conjunto de dados pode ter uma moda, mais de uma moda, ou não ter moda. Quando nenhum valor se repete, o conjunto de dados não tem moda. Quando dois valores ocorrem com a mesma maior frequência, cada um é uma moda e o conjunto é chamado de bimodal. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Embora a média, a mediana e a moda descrevam, cada uma, um valor típico de um conjunto de dados, há vantagens e desvantagens em seus usos. Amédia é uma medida mais usual e confiável, pois leva em conta cada elemento de um conjunto de dados. Contudo, a média pode ser muito afetada quando o conjunto de dados contém valores discrepantes (outliers). Outlier é um valor que está muito afastado dos demais valores do conjunto de dados. Um conjunto de dados pode ter um ou mais outliers, causando lacunas em uma distribuição. As conclusões que são tomadas de um conjunto de dados que contém outliers podem ser falhas. Média, mediana e moda © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Média ponderada e média de dados agrupados Média ponderada: média de um conjunto de dados cujos valores têm pesos variados. A média ponderada é dada por: Para uma distribuição de frequência que representa uma população, a média é aproximada por: em que w é o peso de cada valor de x. em que N = Σf. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› As formas das distribuições Simétrica: quando uma linha vertical pode ser desenhada pelo meio do gráfico da distribuição e as metades resultantes são imagens espelhadas. Em termos práticos, um espelhamento aproximado pode caracterizar uma distribuição simétrica. Uniforme (ou retangular): quando todos os valores ou classes na distribuição têm frequências iguais ou aproximadamente iguais. Uma distribuição uniforme também é simétrica. Assimétrica quando a “cauda” do gráfico se alonga mais em um dos lados. Uma distribuição é assimétrica à esquerda (assimetria negativa) quando sua cauda se estende para a esquerda, e assimétrica à direita (assimetria positiva) quando sua cauda se estende para a direita. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Amplitude É a diferença entre os valores máximo e mínimo. Para encontrar a amplitude, os dados devem ser quantitativos. Amplitude = (valor máximo) – (valor mínimo) © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Variância e desvio padrão O desvio de um valor x em uma população é a diferença entre o valor e a média m do conjunto de dados. Desvio de x = x – m. A soma dos desvios para qualquer conjunto de dados é 0. Portanto, não faz sentido encontrar a média dos desvios. Para superar esse problema, tomamos o quadrado de cada desvio. A soma dos quadrados dos desvios, ou soma dos quadrados, é indicada por SSx. Em uma população, a média dos quadrados dos desvios é a variância populacional. A variância populacional de um conjunto de dados com N elementos é: © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Variância e desvio padrão O desvio padrão populacional de um conjunto de dados populacional de N elementos é a raiz quadrada da variância populacional. Fórmulas para calcular a variância amostral e o desvio padrão amostral de um conjunto de dados amostral de n elementos: © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Interpretando o desvio padrão Ao interpretar o desvio padrão de um conjunto de dados, lembre-se de que ele é uma medida que indica o quanto, em média, os valores se desviam da média desse conjunto. Quanto mais espalhados estiverem os valores, maior será o desvio padrão. Valores de dados que se encontram a mais ou menos dois desvios padrão da média são considerados incomuns, enquanto aqueles que se encontram a mais de três desvios padrão da média são muito incomuns. Valores incomuns e muito incomuns têm uma influência maior no desvio padrão do que aqueles que estão mais próximos da média. Isso acontece porque os desvios são elevados ao quadrado. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Interpretando o desvio padrão Muitos conjuntos de dados da vida real têm distribuições que são aproximadamente simétricas e em forma de sino. Para estes casos, o desvio padrão tem as seguintes características: Cerca de 68% dos dados encontram-se dentro do intervalo de ± 1 desvio padrão em relação à média. Cerca de 95% dos dados encontram-se dentro do intervalo de ± 2 desvios padrão em relação à média. Cerca de 99,7% dos dados encontram-se dentro do intervalo de ± 3 desvios padrão em relação à média. Trata-se da Regra Empírica. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Interpretando o desvio padrão O Teorema de Chebyshev fornece uma afirmação de desigualdade que se aplica a todas as distribuições. A percentagem de qualquer conjunto de dados que estiver dentro de ± k desvios padrão (k > 1) da média é, pelo menos: - k = 2: em qualquer conjunto de dados, pelo menos , ou 75%, dos dados encontram-se dentro de ±2 desvios padrão em relação à média. - k = 3: em qualquer conjunto de dados, pelo menos , ou 88,9%, dos dados encontram-se dentro de ±3 desvios padrão em relação à média. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Desvio padrão para dados agrupados A fórmula do desvio padrão amostral para uma distribuição de frequência é: Em que n = Σf é o número de elementos no conjunto de dados. Lembre-se que as fórmulas para dados agrupados precisam ser multiplicadas pelas frequências. Quando uma distribuição de frequência tem classes intervalores, podemos estimar a média amostral e o desvio padrão amostral usando o ponto médio de cada classe. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Coeficiente de variação Para comparar a variação em conjuntos de dados diferentes, podemos usar o desvio padrão quando os elementos dos conjuntos têm a mesma unidade de medida e suas médias são aproximadamente iguais. Para conjuntos de dados com unidades de medida diferentes ou médias diferentes, usa-se o coeficiente de variação. O coeficiente de variação (CV) de um conjunto de dados descreve o desvio padrão como uma percentagem da média. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Quartis Os quartis, Q1, Q2 e Q3, dividem um conjunto de dados ordenado em quatro partes iguais. Aproximadamente 1/4 dos dados recai sobre ou abaixo do primeiro quartil Q1. Aproximadamente metade dos dados recai sobre ou abaixo do segundo quartil Q2 (o segundo quartil é o mesmo que a mediana do conjunto de dados). Aproximadamente 3/4 dos dados recaem sobre ou abaixo do terceiro quartil Q3. A amplitude interquartil (AIQ) de um conjunto de dados é uma medida de variação que fornece a amplitude da porção central (aproximadamente metade) dos dados. A AIQ é a diferença entre o terceiro e o primeiro quartis. AIQ = Q3 – Q1 © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Quartis Outra aplicação importante dos quartis é representar conjuntos de dados usando diagramas de caixa-e-bigode. Um diagrama de caixa-e-bigode (ou boxplot) é uma ferramenta de análise exploratória de dados que destaca características importantes de um conjunto de dados. Para representar o boxplot, você deve conhecer os seguintes valores: O valor mínimo O primeiro quartil Q1 A mediana Q2 O terceiro quartil Q3 O valor máximo Esses cinco números são chamados resumo dos cinco números do conjunto de dados. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Percentis e outras separatrizes Os percentis são geralmente usados nas áreas relacionadas à saúde e educação para indicar como um indivíduo se compara a outros em um grupo. Os percentis também podem ser usados para identificar valores excepcionalmente altos ou baixos. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› Percentis e outras separatrizes Para encontrar o percentil que corresponde a um valor específico x, use a fórmula: e então arredonde o resultado para o valor inteiro mais próximo. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› O escore padrão O escore padrão ou escore-z representa o número de desvios padrão em que um valor x encontra-se a partir da média m. Para calcular o escore-z para um valor, use a seguinte fórmula: Um escore-z pode ser negativo, positivo ou zero. Quando z é negativo, o valor x correspondente é menor do que a média. Quando z é positivo, o valor x correspondente é maior que a média. E, para z = 0, o valor x correspondenteé igual à média. Um escore-z pode ser usado para identificar valores incomuns de um conjunto de dados que seja aproximadamente em formato de sino. © 2016 Pearson. Todos os direitos reservados. slide ‹nº› image2.jpg image1.jpg image3.png image4.png image5.png image6.png image7.png image8.png image9.png image10.png image11.png image12.png image13.png image14.png image15.png image16.png