Buscar

DESCRIÇÃO E EXPLORAÇÃO DE DADOS

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS UNIVARIADOS
	
	
Prof. José Fletes
UFSC – CTC - INE
*
	DESCRIÇÃO DE DADOS
É a fase inicial do processo de estudo das unidades observadas que compõem a amostra.
Nesta etapa, utilizam-se um conjunto de técnicas analíticas para o resumo, análise e interpretação dos dados.
*
	DESCRIÇÃO DE DADOS
Tenta-se obter dos dados a maior quantidade possível de informação, que indique modelos de comportamento a serem utilizados na fase final do processo (na Inferência Estatística ou Análise Confirmatória de Dados).
VISÃO SISTÊMICA da Estatística.
*
VISÃO SISTÊMICA DA ESTATÍSTICA
 		 				 
						
 Inferência Estatística Estatística Descritiva e Exploratória 
 (tomada de decisão) (Descrição e Exploração de dados)
			
					
				 Probabilidades	
*
TÉCNICAS UTILIZADAS NA
DESCRIÇÃO DE DADOS
OBJETIVOS:
1- Ter o melhor discernimento possível sobre o conjunto de dados existentes na amostra;
2- Descobrir estruturas básicas da organização (REGULARIDADE -> PADRÃO) da população;
3- Identificar anomalias e dados discrepantes (OUTLIERS);
4- Desenvolver modelos matemáticos adequados para seu uso na PROBABILIDADE e na ANÁLISE CONFIRMATÓRIA DE DADOS.
*
TABELA DE DADOS
Forma de apresentação dos dados que permitem uma primeira análise de situações objeto de estudo, contendo linhas e colunas. 
Nas linhas identificam-se as unidades observadas (ou indivíduos)  visando indivíduos semelhantes.
Nas colunas identificam-se as variáveis objeto de análise  visando a associação entre elas.
*
TABELAS DE DADOS
Forma Geral:
*
	
Resumo de Dados:
Variáveis  Escalas 
Distribuições de Freqüências ou Tabelas
de Freqüências (Modelos Empíricos)
		 Histograma (Gráfico)
ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS – A E D
*
RESUMO DE DADOS
DISTRIBUIÇÕES DE FREQUÊNCIAS
	(ou TABELAS DE FREQUÊNCIAS)
 
 É o instrumento utilizado para se analisar o comportamento de uma variável quanto à ocorrência de suas possíveis realizações.
		(É A MODELAGEM EMPÍRICA)
*
Exemplo: TABELA DE DADOS
 
*
DISTRIBUIÇÃO DE FREQÜÊNCIAS 
(MODELOS EMPÍRICOS) 
com perda de informação: DADOS AGRUPADOS OU PONDERADOS
*
DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA VARIÁVEIS QUANTITATIVAS
(com perda de informação)
Ao agrupar os dados referente à variável em análise, subdividindo em Classes, os valores são aproximados (precisos) havendo perda de informação. 
Comparando os dados agrupados com os não agrupados (Dados originais), calcule o erro relativo para verificar o grau de precisão associado ao agrupamento:
Erro relativo% = (|DNA - DA|/ DNA)*100
*
DISTRIBUIÇÕES DE FREQÜÊNCIAS
OU MODELO EMPÍRICO 
É o particionamento da variável quantitativa em análise, subdividida em classes ou faixas, associando as freqüências relativas observadas para um dado fenômeno estudado em forma tabular.
Observação: agrupam-se dados quando n>30.
*
DISTRIBUIÇÕES DE FREQÜÊNCIAS
A sua representação gráfica é o Histograma (diagrama onde o eixo horizontal representa faixas de valores da variável e o eixo vertical representa a freqüência relativa).
Exemplo: Distribuição dos Salários (em S.M)
*
DISTRIBUIÇÃO DE FREQÜÊNCIAS
(MODELO EMPÍRICO)
Etapas básicas para sua construção: (n>30)
 (CRITÉRIO EMPÍRICO DE STURGES)
1- Identificar os extremos (MÍNIMO  x e MÁXIMO X);
2- Calcular a amplitude ou variação total (“Range”) dos dados 
Range: R = X - x
3- Calcular o número de classes (k), usando a Fórmula de Sturges:
 k = 1 + 3,32 * log n
4- Calcular a amplitude de cada classe: C = R / k
 (Sugestão: arredondar só no valor de C)
5- Fazer a apuração dos dados.
Observação: quando n < 30  analisam-se os dados originais
 (sem perda de informação)
*
SISTEMA DE PEARSON
1- VALOR CENTRAL  VALOR A PARTIR DO QUAL AS MEDIÇÕES SE DISPERSAM (DISTANCIAM); 
2- DISPERSÃO  O QUANTO A MAIORIA DAS MEDIÇÕES SE DISPERSAM (DISTANCIAM) EM TORNO DO VALOR CENTRAL;
3- ASSIMETRIA (DISTORÇÃO)  O GRAU EM QUE AS MEDIÇÕES SE ACUMULAM EM APENAS UM LADO DO VALOR CENTRAL....APARECIMENTO DE UMA CAUDA; 
4- DISCREPANTES  O QUANTO AS MEDIÇÕES RARAS OU ANÔMALAS (“OUTSIDERS” E/OU “OUTLIERS”) SE AFASTAM DO PADRÃO TÍPICO;
5- SUBGRUPOS  CLASSIFICAÇÃO DE GRUPOS A PARTIR DE ALGUMA CARACTERISTICA RELEVANTE
*
	
Medidas de Resumo:
- Medidas de Tendência Central ou de Posição ou de Localização;	
 	- Medidas de Dispersão ou Variação; 
e 
- Medidas de Forma e Curtose. 
		
ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS – A E D
*
MEDIDAS DE RESUMO OU DE SÍNTESE
 São indicadores quantitativos que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um estudo/experimento, informando o(s) valor(es) da variável que ocorre mais tipicamente.
*
MEDIDAS DE TENDÊNCIA CENTRAL 
OU 
DE POSIÇÃO 
OU 
DE LOCALIZAÇÃO
*
MEDIDAS DE RESUMO
Importante:
SITUAÇÕES REAIS A ANALISAR
1- DADOS SIMPLES  quando n < 30
 (Dados não agrupados ou sem perda de informação)
2- DADOS AGRUPADOS  quando n  30
	(Tabelas de freqüências ou com perda de informação) 
*
MEDIDAS DA TENDÊNCIA CENTRAL
OU DE POSIÇÃO
Média aritmética ou média 
Moda ou Norma (modo)
Mediana (med) ou Medidas de ordem (Quantis ou Separatrizes)
*
MÉDIA ARITMÉTICA OU MÉDIA
Média:
 
 É a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo dos dados como um todo (podendo ser típico ou atípico)  representa o PONTO DE EQUILÍBRIO dos dados.
*
Média simples: 
	Notação x¯ (xis barra) 
	Média = f (Xi; n)
 Fórmula: Média =  xi *(1/n) =  xi*pi
 para dados ORIGINAIS OU NÃO agrupados
MÉDIA ARITMÉTICA OU MÉDIA
*
Média ponderada:
 Média = f (Xi; pi)
 onde pi = ni/n
 
 Fórmula: Média =  xi*pi 
 para dados agrupados
MÉDIA ARITMÉTICA OU MÉDIA
*
PROPRIEDADES DA MÉDIA
1ª PROPRIEDADE (do EQUILÍBRIO)
	  (Xi - x¯)*(1/n) = 0  para dados simples
  (Xi - x¯)*(ni/n) = 0  para dados agrupados
2ª PROPRIEDADE (do MÍNIMO)
	  (Xi - x¯)2*(1/n) é mínima  para dados simples
  (Xi - x¯)2 *(ni/n) é mínima  para dados agrupados
*
MODA OU NORMA (no Excel: modo)
Moda: é o evento ou categoria de eventos que ocorreu com maior frequência, indicando o valor ou categoria mais provável. Ou seja, é o valor mais frequente! Ou valores, se existirem! Mas, também pode não existir!
Notação  x^ (xis chapéu)
Observação: num modelo teórico é obtido o máximo da função!
Moda = f (n max)
*
MEDIANA OU PERCENTIL 50
(no Excel: med)
 Mediana: é o valor da variável a partir do qual metade dos casos observados se encontra acima dele e metade se encontra abaixo dele. É o valor do meio!
	Notação  x~ (xis tilde)
É considerada uma medida SEPARATRIZ.
 Mediana = f(n)
*
SEPARATRIZES ou QUANTIS
 São medidas de ordem que permitem separar o conjunto inicial em subconjuntos de igual número de valores.
 Exemplos:
 Quartis (Q1; Q2 = X~; Q3)
 Quintis (Qui1; Qui2 ; Qui3; Qui4)
 Decis (D1; D2; D5= X~; ...D8; D9)
 Centis ou Percentis (C1; C2; C50= X~; ...C98; C99)
*
MEDIDAS DE VARIABILIDADE
OU
DE DISPERSÃO
*
MEDIDAS DE DISPERSÃO OU
DE VARIAÇÃO  VARIABILIDADE
São as medidas que avaliam os desvios (distâncias) dos valores originais (Xi) em torno de uma medida de tendência central (média, a mais adequada pela sua tipicidade e equilíbrio dos dados).
 Conceito básico:
Desvio = d i = X i – X¯
Soma dos desvios =  d i = 0
 (xi- X¯) = 0
 (xi- X¯)*pi = 0
*
MEDIDA DE DISPERSÃO ABSOLUTA
VARIÂNCIA
OU QUADRADO MÉDIO (Var)
É a média dos quadrados dos desvios.
Fórmula geral:
QM = Var = SQD / n
Var= (xi- X¯)2 /(n-1)
Var= (xi- X¯)2 *pi
Observação: usar fator de correção quando n < 30, isto é, dividir
 pelos Graus de liberdade “n – 1”
*
DESVIO PADRÃO (DP)
É a raiz quadrada da variância
 Fórmula geral:
DP =  SQD / n
Observação: usar fator de correção quando n < 30, isto é,
 dividir pelos Graus de liberdade “n – 1”
MEDIDA DE DISPERSÃO ABSOLUTA
*
COEFICIENTE DE VARIAÇÀO (CV) DE PEARSON
É a razão entre o desvio-padrão e a média.
É uma medida adimensional que permite a análise da dispersão relativa dos dados em torno da média.
 Fórmula geral:
CV = DP / X¯
 Interpretação: 0  CV  1
 0 0,25 0,50 0,75 1,0
 Dispersão nula baixa média alta muito alta
MEDIDA DE DISPERSÃO RELATIVA
*
ASSIMETRIA:
	É O GRAU DE ENVIESAMENTO DA DISTRIBUIÇÃO DE DADOS, MEDIDO PELA INFLUÊNCIA DE UM DOS LADOS (CAUDA) DA CURVA DE FREQÜÊNCIA (OU DO HISTOGRAMA).
	Cauda à direita da moda: A+
	Cauda à esquerda da moda: A-
MEDIDA DE FORMA: ASSIMETRIA
(No Excel: DISTORÇÃO)
*
VISUALIZAÇÃO DA ASSIMETRIA
*
1º COEFICIENTE DE ASSIMETRIA DE PEARSON:
A = (X¯ - X^)/DP
2º COEFICIENTE DE ASSIMETRIA DE PEARSON:
A = (3X¯ - 2X~)/DP
Interpretação: -1  A  +1
 Simétrica........................... Se /A/ < 0,15
 Assimétrica moderada..... Se 0,15 ≤ /A/ < 0,50 
 Assimétrica média ........... Se 0,50 ≤ /A/ < 0,75
 Assimétrica forte............... Se 0,75 ≤ /A/ < 1,00 
Assimétrica muito forte.... Se /A/ ≥ 1,00
 
MEDIDA DE FORMA: ASSIMETRIA
(No Excel: DISTORÇÃO)
*
COEFICIENTE QUARTÍLICO DE ASSIMETRIA:
CQA = (Q3 – 2*X~ + Q1)/IQR
ONDE: IQR = Q3 – Q1
Interpretação: -1  CQA +1
(Usar mesmos intervalos de A)
MEDIDA DE FORMA: ASSIMETRIA
(No Excel: DISTORÇÃO)
*
	CURTOSE (OU KURTOSIS):
	MEDE O GRAU DE ACHATAMENTO DA DISTRIBUIÇÃO DE DADOS (HISTOGRAMA OU CURVA DE FREQUENCIA).
	COEFICIENTE CENTÍLICO DE CURTOSE:
		K = (Q3 – Q1)/2(C90 – C10)
INTERPRETAÇÃO:
MESOCÚRTICA… SE K = 0,263
PLATICÚRTICA… SE K < 0,263
LEPTOCÚRTICA… SE K > 0,263
	
MEDIDA DE FORMA: CURTOSE
(No Excel: CURT)
*
VISUALIZAÇÃO DA CURTOSE
*
ESQUEMA DOS 5 NÚMEROS
X(1)  menor valor observado
Q1	  quartil 1
Q2 	  quartil 2 (Mediana = X)
Q3	  quartil 3
X(n) 	  maior valor observado
*
BOX PLOT OU DIAGRAMA EM CAIXA
(DESENHO ESQUEMÁTICO)
Os cinco números são representados através de um desenho do tipo:
 X1 Q1 Q2 Q3 Xn
 xxx ooo oooo xxxxx 
*
CRITÉRIO PELOS QUARTIS:
1- POSSÍVEL SUSPEITO (OUTSIDERS)
	Q1 – 3* IQR  X  Q1 - 1,5* IQR
 ou
 Q3 + 1,5*IQR  X  Q3 + 3*IQR
 
 onde: IQR = Q3 – Q1 (intervalo inter-quartis)
ANÁLISE DE DISCREPANTES
*
CRITÉRIO PELOS QUARTIS:
 2- SUSPEITO (OUTLIERS)
	X < Q1 - 3* IQR
 ou
 X > Q3 + 3* IQR
 onde: IQR = Q3 – Q1
ANÁLISE DE DISCREPANTES
*
CRITÉRIO PELA MÉDIA E DESVIO PADRÃO:
1- POSSÍVEL SUSPEITO (OUTSIDERS)
	X¯ – 3*DP  X  X¯ - 2*DP
 ou
 X¯ + 2*DP  X  X¯ + 3*DP
 
X¯ : MÉDIA ARITMÉTICA e DP: DESVIO PADRÃO
ANÁLISE DE DISCREPANTES
*
CRITÉRIO PELA MÉDIA E DESVIO PADRÃO:
 2- SUSPEITO (OUTLIERS)
	X < X¯ - 3* DP
 ou
 X > X¯ + 3* DP
ANÁLISE DE DISCREPANTES

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando