Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
* ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS UNIVARIADOS Prof. José Fletes UFSC – CTC - INE * DESCRIÇÃO DE DADOS É a fase inicial do processo de estudo das unidades observadas que compõem a amostra. Nesta etapa, utilizam-se um conjunto de técnicas analíticas para o resumo, análise e interpretação dos dados. * DESCRIÇÃO DE DADOS Tenta-se obter dos dados a maior quantidade possível de informação, que indique modelos de comportamento a serem utilizados na fase final do processo (na Inferência Estatística ou Análise Confirmatória de Dados). VISÃO SISTÊMICA da Estatística. * VISÃO SISTÊMICA DA ESTATÍSTICA Inferência Estatística Estatística Descritiva e Exploratória (tomada de decisão) (Descrição e Exploração de dados) Probabilidades * TÉCNICAS UTILIZADAS NA DESCRIÇÃO DE DADOS OBJETIVOS: 1- Ter o melhor discernimento possível sobre o conjunto de dados existentes na amostra; 2- Descobrir estruturas básicas da organização (REGULARIDADE -> PADRÃO) da população; 3- Identificar anomalias e dados discrepantes (OUTLIERS); 4- Desenvolver modelos matemáticos adequados para seu uso na PROBABILIDADE e na ANÁLISE CONFIRMATÓRIA DE DADOS. * TABELA DE DADOS Forma de apresentação dos dados que permitem uma primeira análise de situações objeto de estudo, contendo linhas e colunas. Nas linhas identificam-se as unidades observadas (ou indivíduos) visando indivíduos semelhantes. Nas colunas identificam-se as variáveis objeto de análise visando a associação entre elas. * TABELAS DE DADOS Forma Geral: * Resumo de Dados: Variáveis Escalas Distribuições de Freqüências ou Tabelas de Freqüências (Modelos Empíricos) Histograma (Gráfico) ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS – A E D * RESUMO DE DADOS DISTRIBUIÇÕES DE FREQUÊNCIAS (ou TABELAS DE FREQUÊNCIAS) É o instrumento utilizado para se analisar o comportamento de uma variável quanto à ocorrência de suas possíveis realizações. (É A MODELAGEM EMPÍRICA) * Exemplo: TABELA DE DADOS * DISTRIBUIÇÃO DE FREQÜÊNCIAS (MODELOS EMPÍRICOS) com perda de informação: DADOS AGRUPADOS OU PONDERADOS * DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA VARIÁVEIS QUANTITATIVAS (com perda de informação) Ao agrupar os dados referente à variável em análise, subdividindo em Classes, os valores são aproximados (precisos) havendo perda de informação. Comparando os dados agrupados com os não agrupados (Dados originais), calcule o erro relativo para verificar o grau de precisão associado ao agrupamento: Erro relativo% = (|DNA - DA|/ DNA)*100 * DISTRIBUIÇÕES DE FREQÜÊNCIAS OU MODELO EMPÍRICO É o particionamento da variável quantitativa em análise, subdividida em classes ou faixas, associando as freqüências relativas observadas para um dado fenômeno estudado em forma tabular. Observação: agrupam-se dados quando n>30. * DISTRIBUIÇÕES DE FREQÜÊNCIAS A sua representação gráfica é o Histograma (diagrama onde o eixo horizontal representa faixas de valores da variável e o eixo vertical representa a freqüência relativa). Exemplo: Distribuição dos Salários (em S.M) * DISTRIBUIÇÃO DE FREQÜÊNCIAS (MODELO EMPÍRICO) Etapas básicas para sua construção: (n>30) (CRITÉRIO EMPÍRICO DE STURGES) 1- Identificar os extremos (MÍNIMO x e MÁXIMO X); 2- Calcular a amplitude ou variação total (“Range”) dos dados Range: R = X - x 3- Calcular o número de classes (k), usando a Fórmula de Sturges: k = 1 + 3,32 * log n 4- Calcular a amplitude de cada classe: C = R / k (Sugestão: arredondar só no valor de C) 5- Fazer a apuração dos dados. Observação: quando n < 30 analisam-se os dados originais (sem perda de informação) * SISTEMA DE PEARSON 1- VALOR CENTRAL VALOR A PARTIR DO QUAL AS MEDIÇÕES SE DISPERSAM (DISTANCIAM); 2- DISPERSÃO O QUANTO A MAIORIA DAS MEDIÇÕES SE DISPERSAM (DISTANCIAM) EM TORNO DO VALOR CENTRAL; 3- ASSIMETRIA (DISTORÇÃO) O GRAU EM QUE AS MEDIÇÕES SE ACUMULAM EM APENAS UM LADO DO VALOR CENTRAL....APARECIMENTO DE UMA CAUDA; 4- DISCREPANTES O QUANTO AS MEDIÇÕES RARAS OU ANÔMALAS (“OUTSIDERS” E/OU “OUTLIERS”) SE AFASTAM DO PADRÃO TÍPICO; 5- SUBGRUPOS CLASSIFICAÇÃO DE GRUPOS A PARTIR DE ALGUMA CARACTERISTICA RELEVANTE * Medidas de Resumo: - Medidas de Tendência Central ou de Posição ou de Localização; - Medidas de Dispersão ou Variação; e - Medidas de Forma e Curtose. ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS – A E D * MEDIDAS DE RESUMO OU DE SÍNTESE São indicadores quantitativos que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um estudo/experimento, informando o(s) valor(es) da variável que ocorre mais tipicamente. * MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO OU DE LOCALIZAÇÃO * MEDIDAS DE RESUMO Importante: SITUAÇÕES REAIS A ANALISAR 1- DADOS SIMPLES quando n < 30 (Dados não agrupados ou sem perda de informação) 2- DADOS AGRUPADOS quando n 30 (Tabelas de freqüências ou com perda de informação) * MEDIDAS DA TENDÊNCIA CENTRAL OU DE POSIÇÃO Média aritmética ou média Moda ou Norma (modo) Mediana (med) ou Medidas de ordem (Quantis ou Separatrizes) * MÉDIA ARITMÉTICA OU MÉDIA Média: É a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo dos dados como um todo (podendo ser típico ou atípico) representa o PONTO DE EQUILÍBRIO dos dados. * Média simples: Notação x¯ (xis barra) Média = f (Xi; n) Fórmula: Média = xi *(1/n) = xi*pi para dados ORIGINAIS OU NÃO agrupados MÉDIA ARITMÉTICA OU MÉDIA * Média ponderada: Média = f (Xi; pi) onde pi = ni/n Fórmula: Média = xi*pi para dados agrupados MÉDIA ARITMÉTICA OU MÉDIA * PROPRIEDADES DA MÉDIA 1ª PROPRIEDADE (do EQUILÍBRIO) (Xi - x¯)*(1/n) = 0 para dados simples (Xi - x¯)*(ni/n) = 0 para dados agrupados 2ª PROPRIEDADE (do MÍNIMO) (Xi - x¯)2*(1/n) é mínima para dados simples (Xi - x¯)2 *(ni/n) é mínima para dados agrupados * MODA OU NORMA (no Excel: modo) Moda: é o evento ou categoria de eventos que ocorreu com maior frequência, indicando o valor ou categoria mais provável. Ou seja, é o valor mais frequente! Ou valores, se existirem! Mas, também pode não existir! Notação x^ (xis chapéu) Observação: num modelo teórico é obtido o máximo da função! Moda = f (n max) * MEDIANA OU PERCENTIL 50 (no Excel: med) Mediana: é o valor da variável a partir do qual metade dos casos observados se encontra acima dele e metade se encontra abaixo dele. É o valor do meio! Notação x~ (xis tilde) É considerada uma medida SEPARATRIZ. Mediana = f(n) * SEPARATRIZES ou QUANTIS São medidas de ordem que permitem separar o conjunto inicial em subconjuntos de igual número de valores. Exemplos: Quartis (Q1; Q2 = X~; Q3) Quintis (Qui1; Qui2 ; Qui3; Qui4) Decis (D1; D2; D5= X~; ...D8; D9) Centis ou Percentis (C1; C2; C50= X~; ...C98; C99) * MEDIDAS DE VARIABILIDADE OU DE DISPERSÃO * MEDIDAS DE DISPERSÃO OU DE VARIAÇÃO VARIABILIDADE São as medidas que avaliam os desvios (distâncias) dos valores originais (Xi) em torno de uma medida de tendência central (média, a mais adequada pela sua tipicidade e equilíbrio dos dados). Conceito básico: Desvio = d i = X i – X¯ Soma dos desvios = d i = 0 (xi- X¯) = 0 (xi- X¯)*pi = 0 * MEDIDA DE DISPERSÃO ABSOLUTA VARIÂNCIA OU QUADRADO MÉDIO (Var) É a média dos quadrados dos desvios. Fórmula geral: QM = Var = SQD / n Var= (xi- X¯)2 /(n-1) Var= (xi- X¯)2 *pi Observação: usar fator de correção quando n < 30, isto é, dividir pelos Graus de liberdade “n – 1” * DESVIO PADRÃO (DP) É a raiz quadrada da variância Fórmula geral: DP = SQD / n Observação: usar fator de correção quando n < 30, isto é, dividir pelos Graus de liberdade “n – 1” MEDIDA DE DISPERSÃO ABSOLUTA * COEFICIENTE DE VARIAÇÀO (CV) DE PEARSON É a razão entre o desvio-padrão e a média. É uma medida adimensional que permite a análise da dispersão relativa dos dados em torno da média. Fórmula geral: CV = DP / X¯ Interpretação: 0 CV 1 0 0,25 0,50 0,75 1,0 Dispersão nula baixa média alta muito alta MEDIDA DE DISPERSÃO RELATIVA * ASSIMETRIA: É O GRAU DE ENVIESAMENTO DA DISTRIBUIÇÃO DE DADOS, MEDIDO PELA INFLUÊNCIA DE UM DOS LADOS (CAUDA) DA CURVA DE FREQÜÊNCIA (OU DO HISTOGRAMA). Cauda à direita da moda: A+ Cauda à esquerda da moda: A- MEDIDA DE FORMA: ASSIMETRIA (No Excel: DISTORÇÃO) * VISUALIZAÇÃO DA ASSIMETRIA * 1º COEFICIENTE DE ASSIMETRIA DE PEARSON: A = (X¯ - X^)/DP 2º COEFICIENTE DE ASSIMETRIA DE PEARSON: A = (3X¯ - 2X~)/DP Interpretação: -1 A +1 Simétrica........................... Se /A/ < 0,15 Assimétrica moderada..... Se 0,15 ≤ /A/ < 0,50 Assimétrica média ........... Se 0,50 ≤ /A/ < 0,75 Assimétrica forte............... Se 0,75 ≤ /A/ < 1,00 Assimétrica muito forte.... Se /A/ ≥ 1,00 MEDIDA DE FORMA: ASSIMETRIA (No Excel: DISTORÇÃO) * COEFICIENTE QUARTÍLICO DE ASSIMETRIA: CQA = (Q3 – 2*X~ + Q1)/IQR ONDE: IQR = Q3 – Q1 Interpretação: -1 CQA +1 (Usar mesmos intervalos de A) MEDIDA DE FORMA: ASSIMETRIA (No Excel: DISTORÇÃO) * CURTOSE (OU KURTOSIS): MEDE O GRAU DE ACHATAMENTO DA DISTRIBUIÇÃO DE DADOS (HISTOGRAMA OU CURVA DE FREQUENCIA). COEFICIENTE CENTÍLICO DE CURTOSE: K = (Q3 – Q1)/2(C90 – C10) INTERPRETAÇÃO: MESOCÚRTICA… SE K = 0,263 PLATICÚRTICA… SE K < 0,263 LEPTOCÚRTICA… SE K > 0,263 MEDIDA DE FORMA: CURTOSE (No Excel: CURT) * VISUALIZAÇÃO DA CURTOSE * ESQUEMA DOS 5 NÚMEROS X(1) menor valor observado Q1 quartil 1 Q2 quartil 2 (Mediana = X) Q3 quartil 3 X(n) maior valor observado * BOX PLOT OU DIAGRAMA EM CAIXA (DESENHO ESQUEMÁTICO) Os cinco números são representados através de um desenho do tipo: X1 Q1 Q2 Q3 Xn xxx ooo oooo xxxxx * CRITÉRIO PELOS QUARTIS: 1- POSSÍVEL SUSPEITO (OUTSIDERS) Q1 – 3* IQR X Q1 - 1,5* IQR ou Q3 + 1,5*IQR X Q3 + 3*IQR onde: IQR = Q3 – Q1 (intervalo inter-quartis) ANÁLISE DE DISCREPANTES * CRITÉRIO PELOS QUARTIS: 2- SUSPEITO (OUTLIERS) X < Q1 - 3* IQR ou X > Q3 + 3* IQR onde: IQR = Q3 – Q1 ANÁLISE DE DISCREPANTES * CRITÉRIO PELA MÉDIA E DESVIO PADRÃO: 1- POSSÍVEL SUSPEITO (OUTSIDERS) X¯ – 3*DP X X¯ - 2*DP ou X¯ + 2*DP X X¯ + 3*DP X¯ : MÉDIA ARITMÉTICA e DP: DESVIO PADRÃO ANÁLISE DE DISCREPANTES * CRITÉRIO PELA MÉDIA E DESVIO PADRÃO: 2- SUSPEITO (OUTLIERS) X < X¯ - 3* DP ou X > X¯ + 3* DP ANÁLISE DE DISCREPANTES
Compartilhar