Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Relações Econômicas Internacionais MQA1 - REI004 Análise Exploratória de Dados 2 Definição de Estatística A Estatística é um conjunto de técnicas e/ou metodologias pelas quais os dados são coletados, organizados, apresentados e analisados. A estatística pode ser dividida em duas partes: A estatística descritiva A estatística indutiva ou inferência estatística 3 Estatística descritiva Refere-se às técnicas de sistematização, síntese e descrição dos dados numéricos Redução, análise e interpretação, tentando obter dos dados a maior quantidade possível de informação, que indique modelos (regularidades ou padrões) plausíveis a serem utilizados na inferência estatística Compreende medidas resumidas de posição e variabilidade, e técnicas gráficas 4 Inferência estatística ou estatística indutiva Objetivo: coleta, redução, análise e modelagem dos dados, a partir do que faz-se a inferência para uma população da qual os dados (amostra) foram obtidos Compreende técnicas por meio das quais são tomadas decisões sobre uma população estatística, baseadas unicamente na observação de uma amostra Dado que tais decisões são tomadas em condições de incerteza, requer-se, na estatística inferencial, o uso de conceitos ligados a probabilidade 5 Fases do método estatístico Quando se deseja fazer um estudo estatístico qualquer, as seguintes fases, em geral, são observadas: Definição do problema Planejamento (elaboração de questionário, piloto da coleta, preparação logística, definição se a pesquisa será amostral ou censitária, custos) Coleta dos dados Apuração dos dados (ou também chamada de tabulação) Apresentação e analise dos dados (tabelas, gráficos, mapas e quadros) Análise e interpretação dos dados 6 Resumo de Dados: Tipos de Variáveis Para cada elemento investigado numa pesquisa (observações) estão associados resultados que correspondem à realização de características (variáveis) Tipos de variáveis: a) Qualitativas: realizações são um atributo (qualidade) do elemento pesquisado b) Quantitativas: realizações são números resultantes de uma contagem ou mensuração 7 Resumo de Dados: Tipos de Variáveis a) Qualitativas: a.1) nominais: não há ordenação nas realizações a.2) ordinais: há ordem nos resultados b) Quantitativas: b.1) discretas: valores formam conjunto finito ou enumerável de números, que resultam, em geral, de uma contagem b.2) contínuas: valores pertencem a um intervalo de números reais e que resultam de uma mensuração 8 Resumo de Dados: Tipos de Variáveis Para cada tipo de variável, há técnicas apropriadas para resumir as informações Necessário usar uma tipologia de identificação ou códigos e categorias Para variáveis qualitativas: por vezes pode-se atribuir valores numéricos às categorias ou atributos, e depois proceder à análise como se fossem quantitativas especialmente útil para variáveis dicotômicas ou binárias, para as quais só podem ocorrer duas realizações (sucesso e insucesso) 9 Resumo de Dados: Distribuições de Frequências Objetivo: conhecer o comportamento de uma variável, analisando a ocorrência de suas possíveis realizações Maneira de se dispor um conjunto de realizações, para se conhecer sua distribuição: tabela de distribuição de frequências da variável Medida na interpretação de tabelas de frequências: proporção de cada realização em relação ao total 10 Resumo de Dados: Distribuições de Frequências n : número total de observações ni : a frequência absoluta de cada categoria ou classe da variável Proporção ou frequência relativa de cada categoria: Útil para comparações, quando as frequências absolutas totais são diferentes n n f ii 11 Resumo de Dados: Distribuições de Frequências Tabela de frequências para variáveis contínuas: agrupar dados em classes das variáveis, dentro de intervalos definidos Arbitrária escolha dos intervalos (quantos e quais) pequeno nº pouco informativo e grande n º não resume dados basear no grau de suavidade da representação gráfica dos dados Em geral, mesma amplitude das classes Notação: intervalo de números [a, b) contém o extremo a, mas não o b 12 Resumo de Dados: Gráficos Representação gráfica da distribuição de uma variável: informação concisa sobre sua variabilidade a) Gráficos para variáveis qualitativas: barras (ni ou fi ) e setores (fi ) b) Gráficos para variáveis quantitativas: barras, linhas, dispersão, histograma (ni ou fi ) 13 Medidas-Resumo 14 Medidas-Resumo: Medidas de Posição Resumo de dados por meio de tabelas de frequência fornece mais informações sobre o comportamento de uma variável do que a própria tabela original de dados Maior resumo dos dados: valores representativos da série toda Medidas de posição ou localização central: média, mediana e moda 1) Moda: realização mais frequente do conjunto de valores observados; pode haver mais de uma distribuição bimodal, multimodal 15 Medidas-Resumo: Medidas de Posição 2) Mediana: realização que ocupa a posição central da série de observações (50% dos valores acima e abaixo), ordenadas em ordem crescente 3) Média aritmética: soma dos valores das observações (x1, ..., xn) dividida pelo número de observações (n) n i i n x nn xx x 1 1 1... 16 Medidas-Resumo: Medidas de Posição Se há n observações da variável X, das quais n1 são iguais a x1, n2 são iguais a x2, ..., nk são iguais a xk, então média de X k i ii k i ii kk xfxn nn xnxn x 11 11 1... 17 Medidas-Resumo: Medidas de Posição Média Ponderada: dado um conjunto de n valores observados (X1, X2,...,Xn) e conhecidos os respectivos fatores de ponderação (q1, q2,...,qn) a média ponderada (W) de X é: n i i n i ii q qx W 1 1 18 Medidas-Resumo: Medidas de Posição Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. No entanto, ela apresenta uma outra característica, tão importante quanto a primeira: ela separa a série em dois grupos que apresentam o mesmo número de valores. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam em sua posição na série. Essas medidas – os quartis, os percentis e os decis – são juntamente com a mediana, conhecidas como medidas separatrizes 19 Medidas-Resumo: Medidas de Posição Quartis: valores de uma série que a dividem em quatro partes iguais. Há portanto três quartis: O primeiro quartil (Q1) – valor situado de tal modo que na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. O segundo quartil (Q2) – evidentemente, coincide com a mediana (Q2=D). O terceiro quartil (Q3) – valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. 20 Medidas-Resumo: Medidas de Posição Percentis: os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos os mesmos por P1, P2, P3,... P99. Assim como Q2=D, no caso dos percentis, P50=D, P25=Q1 e P75=Q3. Decis: valores de uma série que a dividem em dez partes iguais 21 Medidas-Resumo: Medidas de Posição Medida de tendência central de um conjunto de dados mostra o valor em torno do qual se agrupam as observações Principais medidas de tendência central são a média aritmética (ousimplesmente, a média), a mediana e a moda; é bastante utilizada também a média ponderada Medidas de tendência central, assim como as medidas de dispersão, de assimetria, de desigualdade e outras permitem caracterizar de maneira bastante concisa um conjunto de dados 22 Medidas-Resumo: Medidas de Dispersão Resumo de um conjunto de dados por uma única medida representativa de posição central não revela toda a informação sobre a variabilidade do conjunto de observações Critério: dispersão dos dados em torno de sua média medidas: desvio médio e variância Para qualquer conjunto de dados, soma dos desvios é igual a zero e não é uma boa medida de dispersão 0 1 n i i xx 23 Medidas-Resumo: Medidas de Dispersão Opções: a) Soma dos desvios em valor absoluto b) Soma dos quadrados dos desvios Estas somas não são usadas quando há conjuntos de dados com números diferentes de observações medidas devem ser expressas como médias: desvio médio e variância n i i xx 1 n i i xx 1 2 24 Medidas-Resumo: Medidas de Dispersão Interpretação da variância mais difícil porque medida ao quadrado uso do desvio padrão = raiz quadrada da variância Medidas de desvio portanto indicam em média qual é o erro ao substituir a observação pela medida resumida do conjunto de dados (média) n xx Xdm n i i 1)( n xx X n i i 1 2 )var( 25 Medidas-Resumo: Medidas de Dispersão Da mesma forma, se há n observações da variável X, das quais n1 são iguais a x1, n2 são iguais a x2, ..., nk são iguais a xk k i ii k i ii xxf n xxn Xdm 1 1)( k i ii k i ii xxf n xxn X 1 21 2 )var( 26 Medidas-Resumo: Medidas de Dispersão Média e variância são boas medidas se a distribuição dos dados for aproximadamente normal Maneira mais eficiente de calcular a variância: 2 1 2 21 2 )var( )var( xxfX x n x X k i ii n i i 2 11 2 2 1 1 n i i n i i n i i xn xxx 27 Medidas-Resumo: Medidas de Dispersão Desvio padrão por si só não diz muita coisa: um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for 20, o mesmo não pode ser dito Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando comparamos duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes 28 Medidas-Resumo: Medidas de Dispersão Para contornar essa dificuldade e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos ao seu valor médio coeficiente de variação (CV) 100x x CV 29 Análise Bidimensional Análise do comportamento conjunto de duas ou mais variáveis aleatórias Dados aparecem na forma de uma matriz, com as colunas indicando as variáveis e as linhas os elementos (indivíduos, firmas, países, etc.) Principal objetivo: explorar relações entre as colunas Distribuição conjunta das frequências para compreender o comportamento dos dados 30 Análise Bidimensional Variável Observ. X1 X2 ... Xj ... Xp 1 x11 x12 ... x1j ... x1p 2 x21 x22 ... x2j ... x2p ... ... ... ... ... ... ... i xi1 xi2 ... xij ... xip ... ... ... ... ... ... ... n xn1 xn2 ... xnj ... xnp 31 Análise Bidimensional Considerando duas variáveis, há 3 situações: 1) Ambas são qualitativas: dados resumidos em tabelas de contingência (ou dupla entrada), nas quais aparecem as frequências absolutas ou contagens de observações que pertencem simultaneamente às categorias das variáveis 2) Ambas quantitativas: dados melhor resumidos em gráficos de dispersão; ou tabelas de dupla entrada de classes das variáveis 32 Análise Bidimensional 3) Uma qualitativa e a outra quantitativa: análise da quantitativa de acordo com a categorização da qualitativa Em todas as situações, objetivo: encontrar possíveis relações ou associações entre as variáveis, por meio de métodos gráficos e medidas numéricas 33 Análise Bidimensional: Variáveis Qualitativas Tabela de contingência: cada elemento (célula) dá a frequência observada das realizações simultâneas das 2 variáveis (X e Y) distribuição conjunta de X e Y Distribuições marginais: a) Linha dos totais: distribuição da variável Y b) Coluna dos totais: distribuição da variável X 34 Análise Bidimensional: Variáveis Qualitativas Y X y1 y2 y3 Total x1 n11 n12 n13 n1. x2 n21 n22 n23 n2. x3 n31 n32 n33 n3. Total n.1 n.2 n.3 n.. 35 Análise Bidimensional: Variáveis Qualitativas Para comparações, 3 possibilidades de tabelas com frequências relativas (proporções): 1) Em relação ao total geral 2) Em relação ao total de cada linha 3) Em relação ao total de cada coluna 36 Análise Bidimensional: Associação entre Variáveis Qualitativas Objetivo de se construir distribuição conjunta de duas variáveis qualitativas: descrever a associação entre elas ou grau de dependência Análise das proporções segundo as linhas ou colunas para fazer comparações Independência entre as variáveis se as proporções marginais são similares às proporções para cada categoria da outra variável Por outro lado, associação se as proporções marginais são díspares em relação às proporções nas categorias 37 Análise Bidimensional: Associação entre Variáveis Qualitativas X Y Mulher Homem Total Trabalha 26 (68%) 27 (64%) 53 (66%) Não trabalha 12 (32%) 15 (36%) 27 (34%) Total 38 (100%) 42 (100%) 80 (100%) 38 Análise Bidimensional: Associação entre Variáveis Qualitativas X Y Mulher Homem Total <=1,75m 32 (84%) 19 (45%) 51 (64%) > 1,75m 6 (16%) 23 (55%) 29 (36%) Total 38 (100%) 42 (100%) 80 (100%) 39 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Coeficientes de associação ou correlação: quantificam o grau de associação entre duas variáveis e descrevem, por meio de um único número, a associação ou dependência entre elas Usualmente, coeficientes variam entre 0 e 1, ou entre -1 e 1, sendo a proximidade de 0 indicadora de falta de associação Coeficiente de contingência (Pearson) e uma modificação deste coeficiente, os quais partem do cálculo dos desvios entre os valores observados e esperados 40 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Comparação entre tabelas de valores observados (oi) e esperados (ei) : discrepância entre valores caso as variáveis não forem associadas tabela de desvios = valores observados – esperados a) Soma total dos desvios é nula b) Desvios relativos: para cada célula : c) Qui-quadrado (χ2) de Pearson: soma total dos desvios relativos. Valores grandes indicam associação entre as variáveis i ii e eo 2 41 Análise Bidimensional: Associação entre Variáveis Qualitativas Observados: Esperados: X Y Mulher Homem Total <=1,75m 32 (84%) 19 (45%) 51 (64%) > 1,75m 6 (16%) 23 (55%) 29 (36%) Total 38 (100%) 42 (100%) 80 (100%) X Y Mulher Homem Total <=1,75m 24 (64%) 27 (64%) 51 (64%) > 1,75m 14 (36%) 15 (36%) 29 (36%) Total 38 (100%) 42 (100%) 80 (100%) 42 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Formalizando:supondo 2 variáveis qualitativas X e Y, classificadas respectivamente em r categorias A1, A2, ... Ar e s categorias B1, B2, ... Bs nij = número de observações da categoria i de X e j de Y ni. = Σj=1snij = número de observações da categoria i de X n.j = Σi=1rnij = número de observações da categoria j de Y n.. = n = Σi=1rΣj=1snij = número total de observações 43 Análise Bidimensional: Variáveis Qualitativas Y X B1 B2 ... Bj ... Bs Total A1 n11 n12 ... n1j ... n1s n1. A2 n21 n22 ... n2j ... n2s n2. ... ... ... ... ... ... ... ... Ai ni1 ni2 ... nij ... nis ni. ... ... ... ... ... ... ... ... Ar nr1 nr2 ... nrj ... nrs nr. Total n.1 n.2 ... n.j ... n.s n.. 44 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Sob a hipótese de que as variáveis X e Y sejam independentes (ou não sejam associadas): sjri n nn n sjri n n n n ri n n n n n n ji ij i j ij s isii ,...,2,1,,...,2,1, ,...,2,1,,...,2,1, ,...,2,1,... .. . . .2. 2 1. 1 45 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Portanto, em termos das frequências relativas, sob hipótese de independência: fij = fi. f.j Valores esperados: Qui-quadrado de Pearson: n nn n jiij ..* r i s j ij ijij n nn 1 1 * 2* 2 46 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Em termos das frequências relativas, qui-quadrado de Pearson: Medida de associação de Pearson: coeficiente de contingência r i s j ij ijij f ff n 1 1 * 2* 2 n C 2 2 47 Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas Contudo, este coeficiente não se restringe ao intervalo 0 e 1, dado que seu valor máximo depende de r e s Para restringir o máximo a 1 se r=s 11 2 sr nT 48 Análise Bidimensional: Associação entre Variáveis Quantitativas Distribuição conjunta também resumida em tabelas de dupla entrada, e por meio das distribuições marginais é possível analisar a associação entre as variáveis agrupamento em intervalos de classes Variáveis quantitativas permitem procedimentos analíticos e gráficos mais refinados Gráfico de dispersão: pares de valores (x, y); associação se, por exemplo, à medida que aumenta x, aumenta y; independência se os pontos não apresentam nenhuma tendência específica 49 Análise Bidimensional: Associação entre Variáveis Quantitativas 50 Análise Bidimensional: Associação entre Variáveis Quantitativas Para quantificar a associação linear: medida para avaliar o quanto a nuvem de pontos no gráfico de dispersão se aproxima de uma reta Medida varia entre -1 e 1 Situando a origem do gráfico no centro da nuvem de dispersão: a) há uma associação linear direta (positiva) se a maioria dos pontos está no primeiro e terceiro quadrantes: maioria das coordenadas dos pontos têm o mesmo sinal, sendo seu produto sempre positivo; somando o produto das coordenadas dos pontos, o resultado será um número positivo 51 Análise Bidimensional: Associação entre Variáveis Quantitativas b) há uma associação linear inversa (negativa) se a maioria dos pontos está no segundo e quarto quadrantes: maioria das coordenadas dos pontos têm o sinal contrário, sendo seu produto sempre negativo; somando o produto das coordenadas dos pontos, o resultado será um número negativo c) Não há associação linear: para cada resultado positivo, há um resultado negativo simétrico, anulando-se na soma; soma dos produtos das coordenadas igual a zero 52 Análise Bidimensional: Associação entre Variáveis Quantitativas Com base nestes fatos, definição do coeficiente de correlação linear entre as variáveis: medida do grau de associação entre elas e da proximidade dos dados a uma reta Obs.: soma dos produtos das coordenadas depende do número de observações, sendo difícil comparar conjuntos com números diferentes de pontos; portanto, mais comum usar a média da soma dos produtos das coordenadas 53 Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas Passos do cálculo: 1) Mudança da origem do sistema para o centro da nuvem de dispersão: ponto centrado em relação às médias dos valores de X e Y 2) Redução à mesma escala dos valores de X e Y: divisão dos pontos centrados (desvios em relação às médias) pelos desvios padrões respectivos 3) Produto das coordenadas padronizadas 4) Correlação = média do produto 54 Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas Definição do coeficiente de correlação entre duas variáveis X e Y, dados n pares de valores (x1, y1), ..., (xn, yn): média dos produtos dos valores padronizados das variáveis -1 ≤ corr (X,Y) ≤ 1 n i ii Ydp yy Xdp xx n YXcorr 1 )()( 1 ),( 55 Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas Definição da covariância entre duas variáveis X e Y, dados n pares de valores (x1, y1), ..., (xn, yn): média dos produtos dos valores centrados das variáveis n i ii yyxxn YX 1 1 ),cov( )().( ),cov( ),( YdpXdp YX YXcorr 56 Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas Box Plot Medida do grau de dependência entre as variáveis, utilizando as variâncias Se a variância dentro de cada categoria for menor do que a global, a variável qualitativa melhora a capacidade de previsão da quantitativa há uma relação entre as 2 variáveis Medida resumo da variância entre as categorias da variável qualitativa: média das variâncias, ponderada pelo número de observações em cada categoria 57 Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas Onde k é o número de categorias e vari(X) é a variância de X dentro da categoria i (i = 1, 2, ..., k) Dado que , o grau de associação entre as duas variáveis é o ganho relativo na variância, obtido pela introdução da variável qualitativa k i i k i ii n Xn X 1 1 var )var( )var()var( XX 58 Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas 0 ≤ R2 ≤ 1 )var( )var( 1 )var( )var()var(2 X X X XX R
Compartilhar