Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA DESCRITIVA ANÁLISE EXPLORATÓRIA DE DADOS II Professor Rodrigo Vieira Aulas prévias Planejamento da pesquisa e amostragem: Procedimentos para coletar os dados. Análise Exploratória de Dados I: Descrição tabular e gráfica de conjuntos de dados referentes à 1 variável qualitativa, 1 quantitativa, 2 qualitativas, 2 quantitativas, 1 qualitativa e 1 quantitativa. Conteúdo desta aula Conceito de medidas de síntese. Medidas de posição: Média, mediana, moda, quartis. Medidas de dispersão: Intervalo, variância, desvio padrão. coeficiente de variação percentual. Assimetria das distribuições Medidas de síntese Terceira forma de resumir/descrever um conjunto de dados referente a uma variável quantitativa discreta ou contínua. São medidas numéricas que levam em conta todos ou apenas alguns valores observados no conjunto de dados. Medidas de posição Medidas de tendência central. Buscam calcular um valor numérico “típico” que represente todo o conjunto. Podem ser calculadas levando em consideração todos os valores do conjunto ou não. Média Média aritmética simples: somam-se todos os valores do conjunto e divide-se o resultado pelo número total de elementos. É o CENTRO DE MASSA do conjunto de dados. SEMPRE há média para um conjunto de dados e ela é ÚNICA. Média A média pode ser distorcida por valores discrepantes (outliers), pois leva em consideração todos os elementos do conjunto no seu cálculo. Média Turma � Valores� Soma valores� Média� � A� 4 5 5 6 6 7 7 8� 48� 6,0� � B� 1 2 4 6 6 9 10 10� 48� 6,0� � C� 0 6 6 7 7 7 7,5 7,5� 48� 6,0� � Diagrama de Pontos Mediana Divide o conjunto de dados em duas partes iguais: METADE (50%) dos dados é menor do que a mediana e a outra metade é maior do que a mediana. Pouco afetada por valores discrepantes. Conjunto precisa estar ordenado. Mediana Primeiramente é preciso obter a posição da mediana (a partir do conjunto ordenado): PMd = (n+1)/2 Depois encontra-se o elemento que está na posição da mediana. Se PMd for fracionário: faz-se a média entre os valores nas posições imediatamente anterior e posterior. Posição mediana = (n + 1)/2 = (8+1)/2 = 4,5o MdA = MdB = 6 MdC = 7 Mediana Turma � Valores� Soma valores� Média� � A� 4 5 5 6 6 7 7 8� 48� 6,0� � B� 1 2 4 6 6 9 10 10� 48� 6,0� � C� 0 6 6 7 7 7 7,5 7,5� 48� 6,0� � Moda Moda é o valor mais freqüente do conjunto de dados. Teoricamente é o valor mais provável. Um conjunto pode ter uma única moda, várias modas (dois ou mais valores ocorrem igual número de vezes) ou nenhuma moda (nenhum valor se repete). Quartis Dividem o conjunto em QUATRO partes iguais (25% dos dados). As distâncias entre os quartis possibilitam avaliar a assimetria, a dispersão e os eventuais valores discrepantes em um conjunto de dados. Conjunto precisa estar ordenado. Quartis Quartis Posição dos Quartis: Se as posições forem fracionárias fazer a média entre os valores que ocupam as posições imediatamente anterior e posterior (como na mediana). Exemplo 1 Encontrar os quartis dos dados a seguir. Exemplo 1 Posição do quartil inferior = (n + 1)/4 = (29 + 1)/4 = 7,5ª. Posição do quartil superior = [3×(n+1)]/4 = [3 × (29 + 1)]/4 = 22,5ª. Qi = (15,820 + 18,275)/2 = 17,0475 Qs = (26,775 + 27,085)/2 = 26,93. Medidas de dispersão (variabilidade) Medem a variabilidade (total ou em torno de uma medida de posição) dos dados. Intervalo, variância, desvio padrão coeficiente de variação percentual. Complementam as medidas de posição. Intervalo (amplitude) Mais simples das medidas de dispersão. Expresso de 2 maneiras: Simplesmente identificando o MÁXIMO e o MÍNIMO do conjunto - [Mínimo; Máximo]. Calculando a diferença entre MÁXIMO e MÍNIMO. Intervalo Variância (s2) Necessária uma medida que levasse em consideração todos os elementos do conjunto de dados. Média é o centro de massa do conjunto de dados Medida envolve os desvios em relação à média. Variância (s2) Soma dos desvios é igual a zero! Elevar os desvios ao quadrado! Variância (s2) Média da soma dos quadrados dos desvios de cada elemento do conjunto em relação à média. variância => dispersão do conjunto de dados variância => dispersão do conjunto de dados Variância 0. Variância (s2) Desvio padrão (s) Variância não tem a mesma unidade que a variável e a média. Desvio padrão (Standard Deviation) é a raiz quadrada positiva da variância. Fórmulas alternativas. Desvio padrão (s) Exemplo 2 encontrar o desvio padrão dos dados a seguir. Exemplo 2 Há 29 elementos no conjunto: n = 29 Exemplo 2 Há 29 elementos no conjunto: n = 29 s = 9,83 salários mínimos média = 22,584 salários mínimos Coeficiente de variação percentual Medida de dispersão relativa. Permite comparar a dispersão de conjuntos de dados com médias e desvios padrões diferentes. Indica se os dados estão mais ou menos concentrados em torno da média. Coeficiente de variação percentual Exemplo 3 Calcule os cv% da variável renda (em salários mínimos) nos dois grupos abaixo. Qual dos dois apresenta valores mais homogêneos? Casados: média = 10,904; desvio padrão = 4,362 Solteiros: média = 6,2683; desvio padrão = 3,0258 Exemplo 3 Menor cv% => mais homogêneo! Assimetria Distribuição dos dados em torno da média NÃO é equilibrada (média ≠ mediana). Análise da assimetria possibilita: Selecionar modelo mais apropriado para inferência estatística. Identificar erros de planejamento ou confirmar os resultados obtidos. Assimetria negativa (à esquerda) Assimetria positiva (à direita) Simetria Medidas de variável em função de outra Breakdown. Usualmente consiste em fazer uma análise categorizada de uma variável quantitativa em função de uma qualitativa (chamada de variável de agrupamento, independente, ou fator). Medidas de variável em função de outra Comportamento da variável em função dos valores de uma ou mais variáveis qualitativas. Cálculo de medidas de síntese por grupo definido em função dos valores da variável qualitativa. Construção de tabelas ou gráficos por grupo definido em função dos valores da variável qualitativa (ver aula 04). Medidas de variável em função de outra Funções do EXCEL Média: =MÉDIA ( ) Mediana: =MED ( ) Máximo, Mínimo: =MÁXIMO( ), =MÍNIMO( ) Quartis: =QUARTIL( ;1), =QUARTIL( ;3) Desvio padrão amostral: =DESVPAD( ) Desvio padrão populacional: =DESVPADP( ) Próxima aula Probabilidade Conceitos: experimento aleatório, espaço amostral, eventos. Definições de probabilidade. Probabilidade condicional e independência.
Compartilhar