Baixe o app para aproveitar ainda mais
Prévia do material em texto
21/08/2017 1 Análise Exploratória de Dados Apresentação Tabular e Gráfica 2º Semestre de 2017 VARIÁVEIS Quantitativas / NuméricasQualitativas / Categóricas Discretas ContínuasNominais Ordinais Tabelas Estatísticas Um dos objetivos da estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação das mesmas Tabela é uma maneira de apresentar de forma resumida um conjunto de dados. Sintetizando Dados Qualitativos Tabela. Distribuição dos Recém-nascidos, segundo sexo Sexo Frequência Absoluta (n) Frequência Relativa (f) Frequência Relativa (%) Feminino 249 0,5461 54,61 Masculino 207 0,4539 45,39 Total 456 1,0000 100,00 Sexo n % Feminino 249 55 Masculino 207 45 Total 456 100 Tabela 1. Distribuição dos Recém-nascidos, segundo sexo. Estudo XYZ, 2014. Sintetizando Dados Qualitativos Ordem: Semelhante à construção de tabelas de variáveis categóricas nominais, mas deve-se respeitar a ordem natural das categorias Freq. Acumulada pode ser informação útil Tabela 1. Recém-nascidos, segundo o grau de anóxia. Estudo XYZ, 2016. Grau de Anóxia n % % acumulada Severa 194 37 37 Moderada 157 30 67 Sem Anóxia 174 33 100 Total 525 100 Sintetizando dados Quantitativos Distribuição de frequências Valores agrupados em intervalos/classes As classes devem abranger todas as informações Extremo superior de uma classe é o inferior da classe seguinte Cada valor observado deve-se enquadrar em apenas 1 classe Idade Contagem 0 a 5 ||||| 5 a 10 ||| 10 e + |||||||| < < 21/08/2017 2 Distribuição de Frequências Amplitute total = valor máximo – valor mínimo Amplitude da classe = amplitude total/no classes Pesos (kg) N % % acumulada 400 ├ 600 9 1,9 1,9 600 ├ 800 47 10,1 12,0 800 ├ 1000 73 15,7 27,7 1000 ├ 1200 104 22,4 50,1 1200 ├ 1400 121 26,0 76,1 1400 ├ 1600 111 23,9 100,0 Total 465 100,0 Tabela 1. Distribuição do peso dos recém-nascidos. Estudo XYZ, 2008. Exemplo PADUA, KS et al. Fatores associados à realização de cesariana em hospitais brasileiros. Rev. Saúde Pública [online]. 2010, vol.44, n.1, pp. 70-79. ISSN 0034-8910. (%) (RP) Psicol. Reflex. Crit. vol.24 no.4 Porto Alegre 2011 http://dx.doi.org/10.1590/S0102-79722011000400014 Distribuição de Frequência Sumário tabular de dados que mostra o número (frequência) de itens em cada uma das diversas classes não sobrepostas Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 21/08/2017 3 Tabela de Frequências Para a construção da Tabela de Frequências é necessário definir os tipos de frequências: - Frequência simples ou absoluta (fi ) – valores que representam o real número de dados do intervalo (classe). A soma das frequências absolutas é igual ao número total de dados ; Contagem dos casos em cada categoria ou intervalo (classe) Tabela de Frequências Frequência relativa (fri) – razão entre a frequência simples e total , ou seja, é a participação percentual de uma determinada classe em relação ao conjunto total de dados. A finalidade da frequência relativa é o de permitir a análise ou facilitar as comparações; Proporção do número total de observações de uma categoria ou intervalo Calculada dividindo-se o número total de valores na categoria ou intervalo pelo total da tabela Útil para comparar conjuntos de dados que contenham números desiguais de observações Tabela de Frequências Frequência Absoluta Acumulada (faci) – soma das frequências absolutas do valor da 1a. classe adicionados aos valores das frequências da classes posteriores. A última classe contém a soma total dos dados Número total de observações que tem um valor menor ou igual ao limite superior do intervalo Calculada pela soma das frequências absolutas para o intervalo especificado e todas as anteriores Útil para comparar conjuntos de dados ordenados Tabela de Frequências Frequência Relativa Acumulada (fraci) – soma das frequências relativas do valor da 1a. classe adicionados aos valores das frequências da classe posterior. A última classe contém o total em porcentagem (100%). Porcentagem do número total de observações que tem um valor menor ou igual ao limite superior do intervalo Calculada pela soma das frequências relativas para o intervalo especificado e todas as anteriores Útil para comparar conjuntos de dados ordenados Gráficos Utilizados para apresentar visualmente dados numéricos, proporcionando maior facilidade e rapidez de compreensão dos mesmos; Ou então, para apresentar conclusões ou resultados de uma análise. Representação Gráfica • Pirâmide populacional • Gráfico de setores (torta ou pizza) • Gráfico de barras • Gráfico de colunas • Gráfico de linha • Histograma • Diagrama de dispersão 21/08/2017 4 Pyramid population Source: http://www.census.gov/population/international/index.html Pyramid population Source: http://www.census.gov/population/international/index.html Pyramid population Source: http://www.census.gov/population/international/index.html Pyramid population Source: http://www.census.gov/population/international/index.html Pyramid population Source: http://www.census.gov/population/international/index.html Pyramid population Source: http://www.census.gov/population/international/index.html 21/08/2017 5 Source: http://www.census.gov/population/international/index.html Estimativas para o Brasil • Queda na fertilidade • Aumento da expectativa de vida • Mudança na forma da pirâmide populacional Pirâmide Populacional Pirâmide Populacional Gráfico de setores (tortas ou pizzas) • Variáveis categóricas nominais ou variáveis ordinais com poucas categorias Gráfico de setores (tortas ou pizzas) Uma escola realizou uma pesquisa com seus 400 alunos do Ensino Médio sobre a preferência por modalidades esportivas. Os dados foram distribuídos em uma tabela, veja: FA: frequência absoluta FR: frequência relativa Gráfico de setores (tortas ou pizzas) http://bio-quimica.blogspot.com.br/2009/10/setor-quimico-superou-us-1-bilhao-em.html 21/08/2017 6 Gráfico de setores (tortas ou pizzas) http://support.google.com/docs/bin/answer.py?hl=pt-BR&answer=190726 http://crowdfundingbr.com.br/post/2686404475/crowdfunding-quanto-voce-precisa-para-realizar-seu Gráfico de setores (tortas ou pizzas) Distribuição do investimento por foco de atuação Fonte: Instituto HSBC de Solidariedade, 2006 http://www.porummundomaisfeliz.org.br/porummundomaisfeliz_oquefizemos2006.html Gráfico de barras e de colunas http://www.revistaea.org/artigo.php?idartigo=789&class=02 Gráfico de barras e de colunas 4% 6% 8% 18% 23% 41% 0% 10% 20% 30% 40% 50% Insuficiência Cardíaca Doença arterial periférica Obesidade Diabetes mellitus Dislipidemia Hipertensão Arterial Sistêmica Condições clínicas associadas Gráfico de barras e de colunas http://msdn.microsoft.com/pt-br/library/ms159181%28v=sql.100%29 Gráfico de linha http://msdn.microsoft.com/pt-br/library/ms159640%28v=sql.100%29.aspx 21/08/2017 7 Histograma É o gráfico mais utilizado para variáveis contínuas Sucessão de retângulos contíguos, cuja base é o intervalo de classe e a altura é a frequência relativa em cada classe dividida por “h”, a amplitude do intervalo de classe Se as classes forem todas de igual amplitude, não é necessário realizar a divisão No final, tem-se uma figura geométrica, com área total considerada como 100%, ou 1 (a soma de todas as frequências relativas Histograma - Exemplo Histograma - Exemplo PESO (kg) 110,0 105,0100,0 95,0 90,0 85,0 80,0 75,0 70,0 65,0 60,0 55,0 50,0 45,0 40,0 % 40 30 20 10 0 Std. Dev = 14,30 Mean = 68,1 N = 192,00 Histograma vs Gráfico de colunas PESO (kg) 110,0 105,0 100,0 95,0 90,0 85,0 80,0 75,0 70,0 65,0 60,0 55,0 50,0 45,0 40,0 % 40 30 20 10 0 Std. Dev = 14,30 Mean = 68,1 N = 192,00 PESO 106,00 100,00 95,00 88,00 83,00 79,00 75,00 72,00 69,00 66,00 63,00 60,00 57,00 54,00 51,00 48,00 40,00 Pe rc en t 8 6 4 2 0 Histograma Gráfico de colunas Diagrama de dispersão 40 42 44 46 48 50 52 54 56 1500 2000 2500 3000 3500 4000 4500 5000 Co m pr im en to (c m ) Peso (g) Medidas do recém-nascido Exemplo de Série de dados R$0 R$100 R$200 R$300 R$400 R$500 R$600 R$700 R$800 R$900 R$1.000 Evolução do Salário Mínimo (em R$) de 1994 a 2016 21/08/2017 8 Exemplo de Série de dados R$0 R$200 R$400 R$600 R$800 R$1.000 R$1.200 R$1.400 R$1.600 R$1.800 R$2.000 Evolução do Salário Mínimo (em R$) de 1994 a 2016 Comparando os 2 gráficos, tem-se a impressão de que as frequências são maiores quando o valor máximo na escala é 40, porque as colunas são maiores nesse caso. Escalas
Compartilhar