Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DE ALAGOAS Instituto de Computação PROBABILIDADE E ESTATÍSTICA Estatística Descritiva TURMA: CIÊNCIA DA COMPUTAÇÃO / ENG. DA COMPUTAÇÃO SEMESTRE – 2021.1 1 ESTATÍSTICA DESCRITIVA Análise exploratória de dados 2 ESTATÍSTICA DESCRITIVA Uma análise descritiva de dados começa identificando as características de uma população ou amostra através de suas variáveis. Tipos de Variáveis: (CATEGÓRICAS) (NÚMERICAS) 3 ESTATÍSTICA DESCRITIVA Definir Dados - Tipos de Variáveis: Variáveis numéricas ou Variáveis quantitativas apresentam valores que representam quantidades. Variáveis numéricas podem ser: Variáveis discretas apresentam valores numéricos que surgem a partir de um processo de contagem. Variáveis contínuas produzem respostas numéricas que surgem a partir de um processo de medição. 4 ESTATÍSTICA DESCRITIVA Definir Dados - Tipos de Variáveis: Variáveis categóricas ou Variáveis qualitativas apresentam valores que podem ser posicionados em categorias. Variáveis qualitativas podem ser: Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio. Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1°, 2°, 3° graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro). 5 ESTATÍSTICA DESCRITIVA Dados tabulares: Cada linha da tabela corresponde a um caso (observações, instâncias, ou exemplos). Cada coluna corresponde a uma variável (atributo ou característica). A tabela de dados coletados é chamada de amostra. 6 ESTATÍSTICA DESCRITIVA Dados tabulares – Tipos de Variáveis: Numérica discreta ou contínua. Uma variável numérica: faz sentido somar, subtrair ou tomar médias destes valores. Exemplos: num char, line_breaks, ratioti e %obs. num char e line_breaks são variáveis discretas: assumem apenas alguns valores com saltos entre eles (inteiros, neste caso). ratioti e %obs são contínuas: em princípio pode ser qualquer valor num intervalo real. 7 ESTATÍSTICA DESCRITIVA Dados tabulares – Tipos de Variáveis: Variáveis categóricas nominal ou ordinal. Categórica Ordinal: valor é um rótulo para uma categoria dentre k possíveis e as categorias podem ser ordenadas. number, por exemplo. Existe uma ordem natural nos valores possíveis: none < small < big. Categórica Nominal: apenas rótulos para categorias, sem uma ordenação. Por exemplo: spam e format. 8 ESTATÍSTICA DESCRITIVA Definir Dados - Tipos de Variáveis: (nominal) Numérico (discreto) Numérico (contínuo) Categórico (nominal) 9 ESTATÍSTICA DESCRITIVA 10 ESTATÍSTICA DESCRITIVA 11 VISUALIZAÇÃO DE DADOS ESTATÍSTICA DESCRITIVA 12 Séries Estatísticas Série é uma sucessão de números referidos a qualquer variável. A palavra série é usada normalmente para designar um conjunto de dados dispostos de acordo com um caráter variável, residindo a qualidade serial na disposição desses valores. Tabela é um quadro que resume um conjunto de observações. As tabelas servem para apresentar séries estatísticas. Conforme varie um dos elementos da série, podemos classificá-la em: • Cronológicas - Tempo (fator temporal ou cronológico) – época do fenômeno analisado; • Geográficas - Local (fator espacial ou geográfico) – local onde o fenômeno acontece; • Específicas - Fenômeno (espécie do fato ou fator especificativo) – o que é descrito. VISUALIZAÇÃO DE DADOS 13 Série Cronológica VISUALIZAÇÃO DE DADOS 14 Série Geográfica VISUALIZAÇÃO DE DADOS 15 Série Específica - Também chamada de série categórica ou série por categoria, VISUALIZAÇÃO DE DADOS 16 Séries Estatísticas Tabelas Compostas (ou de dupla entrada) As tabelas apresentadas anteriormente são tabelas estatísticas simples, onde apenas uma série está representada. É comum, haver necessidade de apresentar, em uma única tabela, mais do que uma série. Quando as séries aparecem conjugadas, tem-se uma tabela de dupla entrada. Em uma tabela desse tipo são criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). VISUALIZAÇÃO DE DADOS 17 Séries Estatísticas Tabelas Compostas - Série específico-temporal VISUALIZAÇÃO DE DADOS 18 Séries Estatísticas Tabelas Compostas - Série geográfico-temporal VISUALIZAÇÃO DE DADOS 19 Séries Estatísticas A Tabela Abaixo constitui uma Série Estatística ? VISUALIZAÇÃO DE DADOS 20 Séries Estatísticas Nem sempre uma tabela representa uma série estatística. Por vezes, os dados reunidos não revelam uniformidade, sendo meramente um aglomerado de informações gerais sobre determinado assunto, as quais, embora úteis, não apresentam a consistência necessária para se configurar uma série estatística. A Tabela exibida apresenta resumos de dados, mas não representa uma série estatística. VISUALIZAÇÃO DE DADOS 21 Como apresentar os dados da melhor forma??? VISUALIZAÇÃO DE DADOS 22 Gráficos!!! VISUALIZAÇÃO DE DADOS 23 Gráficos A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos, permitindo que se chegue a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados, quando da elaboração de um gráfico. VISUALIZAÇÃO DE DADOS 24 Gráficos • Simplicidade – o gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise morosa ou sujeita a erros. • Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. • Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo. VISUALIZAÇÃO DE DADOS 25 Gráficos – Diretrizes para a Construção O título do gráfico deve ser o mais claro e completo possível. Quando necessário, deve-se acrescentar subtítulos; A orientação geral dos gráficos deve ser da esquerda para a direita; As quantidades devem ser representadas por grandezas lineares; Só devem ser incluídas no desenho as coordenadas indispensáveis para guiar o olhar do leitor ao longo da leitura; Os títulos e marcações do gráfico devem ser dispostos de maneira que sejam facilmente lidos. VISUALIZAÇÃO DE DADOS 26 Gráficos – Leitura e interpretação de um gráfico: Declarar qual o fenômeno ou fenômenos representados, a região considerada, o período de tempo, a fonte dos dados, etc; Examinar o tipo de gráfico escolhido, verificar se é o mais adequado; Analisar cada fenômeno separadamente, fazendo notar os pontos mais em evidência, o máximo e o mínimo, assim como as mudanças mais bruscas; Investigar se há uma “tendência geral” crescente ou decrescente ou, então, se o fato exposto é estacionário; Procurar descobrir a existência de possíveis ciclos periódicos, qual o período aproximado, etc. VISUALIZAÇÃO DE DADOS 27 Gráficos – Gráfico de Linhas VISUALIZAÇÃO DE DADOS 28 Gráficos – Gráfico de Colunas VISUALIZAÇÃO DE DADOS 29 Gráficos – Gráfico em Barras VISUALIZAÇÃO DE DADOS 30 Gráficos – Gráfico em Setores ou “Pizza” Muito usado para apresentação de dados Qualitativos. VISUALIZAÇÃO DE DADOS 31 Gráficos – Gráfico de Radar, Gráfico de Teia, Gráfico de Aranha, Gráfico de Estrela, Polígono Irregular, Gráfico Polar, ou Diagrama Kiviat. VISUALIZAÇÃO DE DADOS 32 Gráficos – Gráfico de Radar, Gráfico de Teia, Gráfico de Aranha, Gráfico de Estrela, Polígono Irregular, Gráfico Polar, ou Diagrama Kiviat. VISUALIZAÇÃO DE DADOS É um método gráfico de apresentar dados multivariáveis na forma de um gráfico bidimensional de três ou mais variáveis quantitativas representadas em eixos que partem do mesmo ponto. 33 Histograma (Distribuição de Frequências) VISUALIZAÇÃO DE DADOS É um gráficode frequência que ilustra como uma determinada amostra ou população de dados está distribuída. 34 Outros Gráficos conhecidos: Diagrama de Pareto O princípio de Pareto (Vilfredo Pareto) também conhecido como regra do 80/20, lei dos poucos vitais ou princípio de escassez do fator, afirma que, para muitos eventos, aproximadamente 80% dos efeitos vêm de 20% das causas. VISUALIZAÇÃO DE DADOS 35 Outros Gráficos conhecidos: Diagrama de Dispersão ou gráfico de dispersão é uma ferramenta que indica a existência, ou não, de relações entre variáveis de um processo e sua intensidade. Usado em Correlações e Regressão Linear. VISUALIZAÇÃO DE DADOS 36 Outros Gráficos conhecidos: Séries Temporais VISUALIZAÇÃO DE DADOS 37 Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa O boxplot fornece uma análise visual da posição, dispersão, simetria, caudas e valores discrepantes (outliers) do conjunto de dados. A distribuição é simétrica, quando a linha da mediana está no centro do retângulo. Linha da mediana está próxima ao primeiro quartil, os dados são assimétricos positivos; Linha da mediana está próxima ao terceiro quartil, os dados são assimétricos negativos. Os outliers indicam possíveis valores discrepantes. Limite Inferior = Primeiro Quartil – 1,5 * (Terceiro Quartil – Primeiro Quartil) Limite Superior = Terceiro Quartil + 1,5 * (Terceiro Quartil – Primeiro Quartil) VISUALIZAÇÃO DE DADOS 38 Outros Gráficos conhecidos: Bagplot VISUALIZAÇÃO DE DADOS Um bagplot é uma generalização bivariada do boxplot bem conhecido. Um bagplot é um método em estatísticas robustas para visualizar dados estatísticos bidimensionais. O bagplot permite visualizar a localização, dispersão, assimetria e outliers do conjunto de dados. O bagplot consiste em três polígonos aninhados, chamados “bag”, “fence” e “loop”. O bagplot é algumas vezes definido como a versão multidimensional (bivariada) do box plot. 39 Outros Gráficos conhecidos: HeatMap O heatmap é um gráfico muito útil para identificar padrões, principalmente quando temos muitas variáveis no gráfico. Normalmente precisa de uma variável de resposta e duas outras variáveis para compor os eixos x e y. Não há restrição quanto ao tipo de variável, qualquer uma delas podem ser quantitativa ou qualitativa. Talvez esse seja o trunfo do heatmap, essa flexibilidade quanto a natureza das variáveis nos permite substituir gráficos mais tradicionais quando eles não dão conta do recado. VISUALIZAÇÃO DE DADOS Sugestão: utilizar o pacote do R Heatmap3 40 Outros Gráficos conhecidos: HeatMap VISUALIZAÇÃO DE DADOS Sugestão: utilizar o pacote do R Heatmap3 https://italocegatta.github.io/os-graficos-que-explicam-nossos-dados-heatmap/ 41 DISTRIBUIÇÃO EM FREQUÊNCIA ESTATÍSTICA DESCRITIVA 42 Nem sempre é possível compreender o significado contido numa amostragem por simples inspeção visual dos dados numéricos coletados. Uma forma eficiente de visualização de dados para determinados estudos é através das distribuições de frequências e dos histogramas. DISTRIBUIÇÃO EM FREQUÊNCIA 8,5 7,5 9,0 7,5 5,5 9,5 10,0 8,5 6,0 6,0 6,5 4,5 10,0 6,5 9,0 6,5 Notas da Disciplina Estatistica - Ano 2012 10,0 10,0 9,5 9,0 9,0 8,5 8,5 7,5 7,5 6,5 6,5 6,5 6,0 6,0 5,5 4,5 Notas da Disciplina Estatistica - Ano 2012 Dados Bruto Rol de Dados 43 Elementos da Distribuição em Frequência: Após a realização de uma pesquisa em que os dados foram coletados, é necessário organiza-los e classifica-los. Isso poderá ser feito utilizando uma tabela de distribuição de frequência. Os dados são colocados em classes preestabelecidas, registrando a frequência de ocorrência. DISTRIBUIÇÃO EM FREQUÊNCIA 44 Valores pontuais: DISTRIBUIÇÃO EM FREQUÊNCIA 10,0 10,0 9,5 9,0 9,0 8,5 8,5 7,5 7,5 6,5 6,5 6,5 6,0 6,0 5,5 4,5 Notas da Disciplina Estatistica - Ano 2012 𝑿𝒊 (𝑓𝑎𝒊) (𝑓r𝒊) (𝑓𝑎c𝒊) (𝑓r𝑎c𝒊) 10,0 2 12,50% 2 12,50% 9,5 1 6,25% 3 18,75% 9,0 2 12,50% 5 31,25% 8,5 2 12,50% 7 43,75% 7,5 2 12,50% 9 56,25% 6,5 3 18,75% 12 75,00% 6,0 2 12,50% 14 87,50% 5,5 1 6,25% 15 93,75% 4,5 1 6,25% 16 100,00% 16 100% Exemplo 1: Notas da disciplina Estatística - Ano 2012 Fonte: Departamento de Ciência da computação da UFAL (2012). Frequência absoluta (𝑓𝑎 ) - corresponde ao numero de observações que temos em uma determinada classe ou em um determinado atributo de uma variável qualitativa. Frequência relativa (𝑓r ) - corresponde à proporção do número de observações em uma determinada classe em relação ao total de observações que temos. Frequência Acumulada ((𝑓𝑎c ) , (𝑓r𝑎c )) - corresponde à soma da frequência daquela classe às frequências de todas as classes abaixo dela. As frequências podem ser expressa em termos porcentuais. Para isto, basta multiplicar a frequência relativa obtida por 100. 45 Valores pontuais: DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 2: Estado civil de compradores de uma determinada loja de departamento. Fonte: Departamento da loja. solteiro separado casado casado viúvo separado casado separado casado viúvo separado solteiro separado casado viúvo casado casado separado separado casado viúvo separado casado separado casado viúvo solteiro casado solteiro casado viúvo solteiro viúvo solteiro separado casado separado solteiro solteiro casado solteiro separado solteiro separado casado casado casado casado Classe Estado civil (X)i Frequência (fa)i (fr)i (fac)i (frac)i 1 Casado 18 37,50% 18 37,50% 2 Separado 13 27,08% 31 64,58% 3 Solteiro 10 20,83% 41 85,42% 4 Viúvo 7 14,58% 48 100,00% 48 100,00% 46 Valores pontuais: DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 2: Estado civil de compradores de uma determinada loja de departamento. Classe Estado civil (X)i Frequência (fa)i (fr)i (fac)i (frac)i 1 Casado 18 37,50% 18 37,50% 2 Separado 13 27,08% 31 64,58% 3 Solteiro 10 20,83% 41 85,42% 4 Viúvo 7 14,58% 48 100,00% 48 100,00% 47 Valores Agrupados: DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 3. Produção diária de uma fábrica de bicicletas. Menor Valor 230 Maior Valor 369 Amplitude 139 Num.Classes 6,8678991 Amp. Classe 20,2390858 48 Elementos da Distribuição em Frequência: A amplitude (A) do conjunto de valores observados é igual (Maior valor – Menor valor). Classe ou classe de Frequência (K): é cada um dos grupos de valores (ou categorias) em que se subdivide os dados observados. Limite de classe: são os valores que definem a classe. São conhecidos como limite superior e inferior de classe. Amplitude do intervalo de classe: é o comprimento da classe, ou seja, a diferença entre os seus limites superior e inferior. Ponto médio de classe: é o valor que representa a classe para efeito de cálculo de certas medidas. É obtido através da média aritmética entre os limites superior e inferior de classe. DISTRIBUIÇÃO EM FREQUÊNCIA 49 Elementos da Distribuição em Frequência: As classes são um artifício para condensar o número de elementos diferentes de uma amostra. Principais pré-requisitos definição da quantidade e dos intervalos de classes: a) As classes devem abranger todas as observações; b) O extremo superior de uma classe é o extremo inferior da classe subsequente; c) Cada valor observado deve enquadrar-se em apenas uma classe; d) As unidades das classes devem ser as mesmas dos dados; e) k ≤ 25, de um modo geral, sendo k o número de classes; DISTRIBUIÇÃO EM FREQUÊNCIA 50 Elementos da Distribuição em Frequência: f) Cálculo do número de classes: Fórmula de Sturges: K = 1 + 3,3 log n O pesquisador, a seu critério, poderá modificar o número de classes. Quando o resultado não for exato deve-se arredondar. g) Determinar a amplitude de cada classe. = / h) Determinar os limites superior e inferior. Simbologia: ├ ─ ─, intervalo fechado à esquerda e aberto à direita; ─ ─ ─ | intervalo fechado à direita e aberto à esquerda. i) Construir a tabela de frequência. DISTRIBUIÇÃO EM FREQUÊNCIA Ou K = Onde: n é o número de informações dapopulação. 51 Gráficos Representativos da Distribuição em Frequência: DISTRIBUIÇÃO EM FREQUÊNCIA 52 Gráficos Representativos da Distribuição em Frequência: DISTRIBUIÇÃO EM FREQUÊNCIA 53 Gráficos Representativos da Distribuição em Frequência: Polígono de Frequência - É um gráfico de análise no qual as frequências das classes são localizadas sobre perpendiculares levantadas nos pontos médios das classes. DISTRIBUIÇÃO EM FREQUÊNCIA 54 Gráficos Representativos da Distribuição em Frequência: DISTRIBUIÇÃO EM FREQUÊNCIA 55 DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 3. Produção diária de uma fábrica de bicicletas - Usando R 56 DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 3. Produção diária de uma fábrica de bicicletas - Usando R 57 Gráficos Representativos da Distribuição em Frequência: DISTRIBUIÇÃO EM FREQUÊNCIA Exemplo 3. Produção diária de uma fábrica de bicicletas. Usando Excel. 230 230 244 245 248 249 250 255 257 260 264 271 278 280 280 280 281 284 289 292 292 293 294 294 296 299 299 299 302 305 308 309 309 310 311 312 314 315 316 318 318 320 321 324 326 333 335 335 337 337 339 341 342 342 342 348 356 360 365 369 Blocos Bloco Freqüência % cumulativo 230 230 2 3,33% 250 250 5 11,67% 270 270 4 18,33% 290 290 8 31,67% 310 310 15 56,67% 330 330 11 75,00% 350 350 11 93,33% 370 370 4 100,00% Mais 60 100,00% Valores da produção 0,00% 20,00% 40,00% 60,00% 80,00% 100,00% 0 5 10 15 230 250 270 290 310 330 350 370 Mais Fr eq üê nc ia Bloco Histograma Freqüência % cumulativo 58 GRÁFICOS NO SOFTWARE R ESTATÍSTICA DESCRITIVA 59 Entrada de Dados (tabelas) no R VISUALIZAÇÃO DE DADOS > tabela20a <- read.table(file = "C:/CCEstatistica/Tabela20alunos.csv", header = TRUE, sep = ";", dec = ",“ ) > tabela20a 60 Histograma (Distribuição de Frequências) VISUALIZAÇÃO DE DADOS 61 Histograma (Distribuição de Frequências) VISUALIZAÇÃO DE DADOS 62 Gráfico de Barras no R VISUALIZAÇÃO DE DADOS 63 Gráfico de Barras no R VISUALIZAÇÃO DE DADOS 64 Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa VISUALIZAÇÃO DE DADOS 65 Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa VISUALIZAÇÃO DE DADOS 66 Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa VISUALIZAÇÃO DE DADOS Com o boxplot comparativo podemos concluir, por exemplo, que o peso corporal dos gatos do sexo masculino apresentam maior variabilidade que o peso corporal dos gatos do sexo feminino. 67 ANÁLISE DE DADOS NO SOFTWARE R ESTATÍSTICA DESCRITIVA 68 ANÁLISE EXPLORATÓRIA DE DADOS Dados extraídos do livro “Estatística Básica” de W. O. Bussab e P. A. Morettin traz no segundo capítulo um conjunto de dados hipotético de atributos de 36 funcionários da companhia Mil S/A. Os dados estão reproduzidos na tabela ao lado. Classificar das variáveis desse conjunto de dados: Variável Classificação Funcionários Quantitativa discreta Estado Civil Qualitativa nominal Instrução Qualitativa ordinal Filhos Quantitativa discreta Salário Quantitativa contínua Anos Quantitativa contínua Meses Quantitativa contínua Região Qualitativa nominal Funcionários Estado Civil Instrução Filhos Salário Anos Meses Região 1 solteiro ensino fundamental 4.00 26 3 interior 2 casado ensino fundamental 1 4.56 32 10 capital 3 casado ensino fundamental 2 5.25 36 5 capital 4 solteiro ensino médio 5.73 20 10 outra 5 solteiro ensino fundamental 6.26 40 7 outra 6 casado ensino fundamental 0 6.66 28 0 interior 7 solteiro ensino fundamental 6.86 41 0 interior 8 solteiro ensino fundamental 7.39 43 4 capital 9 casado ensino médio 1 7.59 34 10 capital 10 solteiro ensino médio 7.44 23 6 outra 11 casado ensino médio 2 8.12 33 6 interior 12 solteiro ensino fundamental 8.46 27 11 capital 13 solteiro ensino médio 8.74 37 5 outra 14 casado ensino fundamental 3 8.95 44 2 outra 15 casado ensino médio 0 9.13 30 5 interior 16 solteiro ensino médio 9.35 38 8 outra 17 casado ensino médio 1 9.77 31 7 capital 18 casado ensino fundamental 2 9.80 39 7 outra 19 solteiro superior 10.53 25 8 interior 20 solteiro ensino médio 10.76 37 4 interior 21 casado ensino médio 1 11.06 30 9 outra 22 solteiro ensino médio 11.59 34 2 capital 23 solteiro ensino fundamental 12.00 41 0 outra 24 casado superior 0 12.79 26 1 outra 25 casado ensino médio 2 13.23 32 5 interior 26 casado ensino médio 2 13.60 35 0 outra 27 solteiro ensino fundamental 13.85 46 7 outra 28 casado ensino médio 0 14.69 29 8 interior 29 casado ensino médio 5 14.71 40 6 interior 30 casado ensino médio 2 15.99 35 10 capital 31 solteiro superior 16.22 31 5 outra 32 casado ensino médio 1 16.61 36 4 interior 33 casado superior 3 17.26 43 7 capital 34 solteiro superior 18.75 33 7 capital 35 casado ensino médio 2 19.40 48 11 capital 36 casado superior 3 23.30 42 2 interior http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html69 Os atributos 36 funcionários da companhia Mil S/A são lidos de uma planilha Excel, de nome TabelaLivro.csv e lidos para o data.frame milsa no software R, através dos comandos abaixo. http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html 70 ANÁLISE UNIVARIADA Analisar cada variável individualmente: Classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). Obter tabelas, gráficos e/ou medidas que resumam a variável. A partir destes resultados pode-se montar um resumo geral dos dados. ANÁLISE EXPLORATÓRIA DE DADOS http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html71 ANÁLISE UNIVARIADA a) Variável Qualitativa Nominal A variável Estado civil é uma qualitativa nominal. Desta forma podemos obter: 1. uma tabela de frequências (absolutas e/ou relativas), 2. um gráfico de setores, 3. a “moda”, o valor que ocorre com maior frequência. ANÁLISE EXPLORATÓRIA DE DADOS 72 ANÁLISE UNIVARIADA a) Variável Qualitativa Nominal ANÁLISE EXPLORATÓRIA DE DADOS 73 ANÁLISE UNIVARIADA a) Variável Qualitativa Nominal ANÁLISE EXPLORATÓRIA DE DADOS 74 ANÁLISE UNIVARIADA b) Variável Qualitativa Ordinal ANÁLISE EXPLORATÓRIA DE DADOS 75 ANÁLISE UNIVARIADA b) Variável Qualitativa Ordinal ANÁLISE EXPLORATÓRIA DE DADOS 76 ANÁLISE UNIVARIADA c) Variável Quantitativa Discreta ANÁLISE EXPLORATÓRIA DE DADOS 77 ANÁLISE UNIVARIADA c) Variável Quantitativa Discreta ANÁLISE EXPLORATÓRIA DE DADOS 78 ANÁLISE UNIVARIADA d) Variável Quantitativa Contínua Para se fazer uma tabela de frequências de uma VA contínua, é preciso primeiro agrupar os dados em classes. Verificar inicialmente os valores máximo e mínimo dos dados, depois usamos o critério de Sturges para definir o número de classes. Usar a função cut() para agrupar os dados em classes para obter as frequências absolutas e relativas. ANÁLISE EXPLORATÓRIA DE DADOS 79 ANÁLISE UNIVARIADA Variável Quantitativa Contínua 80 ANÁLISE UNIVARIADA Variável Quantitativa Contínua 81 ANÁLISE BIVARIADA Na análise bivariada procura-se identificar relações entre duas variáveis. Estas relações podem ser resumidas por gráficos, tabelas e/ou medidas estatísticas. O tipo de resumo vai depender dos tipos das variáveis envolvidas. Vamos considerar três possibilidades: Qualitativa vs qualitativa Qualitativa vs quantitativa Quantitativa vs quantitativa As análise mostradas a seguir não esgotam as possibilidades de análises envolvendo duas variáveis e devem ser vistas apenas como uma sugestão inicial. Relações entre duas variáveis devem ser examinadas com cautela pois podem ser mascaradas por uma ou mais variáveis adicionais não considerada na análise. ANÁLISE EXPLORATÓRIA DE DADOS http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html82 ANÁLISE BIVARIADA a) Qualitativa vs qualitativa Considerar as variáveis Estado.civil (estado civil), e Instrucao (grau de instrução). A tabela envolvendo duas variáveis é chamada tabela de cruzamentoou tabela de contingência, e pode ser apresentada de várias formas. A forma mais adequada de apresentação vai depender dos objetivos da análise e da interpretação desejada para os dados. Inicialmente obtemos a tabela de frequências absolutas para o cruzamento das duas variáveis, usando a função table(). A tabela estendida incluindo os totais marginais pode ser obtida com a função addmargins(). ANÁLISE EXPLORATÓRIA DE DADOS 83 ANÁLISE BIVARIADA a) Qualitativa vs qualitativa ANÁLISE EXPLORATÓRIA DE DADOS 84 ANÁLISE EXPLORATÓRIA DE DADOS ANÁLISE BIVARIADA - a) Qualitativa vs qualitativa 85 ANÁLISE BIVARIADA b) Qualitativa vs Quantitativa Considerar as variáveis Instrução e Salario. Para se obter uma tabela de frequências é necessário agrupar a variável quantitativa em classes. No exemplo a seguir vamos agrupar a variável salário em 4 classes definidas pelos quartis usando a função cut(). Lembre-se que as classes são definidas por intervalos abertos à esquerda, então usamos o argumento include.lowest = TRUE para garantir que todos os dados, inclusive o menor (mínimo) seja incluído na primeira classe. Após agrupar esta variável, obtemos a(s) tabela(s) de cruzamento como mostrado no caso anterior ANÁLISE EXPLORATÓRIA DE DADOS 86 ANÁLISE BIVARIADA b) Qualitativa vs Quantitativa ANÁLISE EXPLORATÓRIA DE DADOS 87 ANÁLISE BIVARIADA c) Quantitativa vs Quantitativa ANÁLISE EXPLORATÓRIA DE DADOS http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html88 Obrigado, até a próxima aula.. 89
Compartilhar