Prévia do material em texto
Inserir Título Aqui Inserir Título Aqui Estatística Aplicada a Análise de Dados Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Responsável pelo Conteúdo: Profa. Dra. Marise de Barros Miranda Gomes Revisão Textual: Profa. Dra. Selma Aparecida Cesarin Nesta unidade, trabalharemos os seguintes tópicos: • Introdução ao Tema • Orientações para Leitura Obrigatória • Material Complementar Fonte: iStock/Getty Im ages Objetivos • Nos dedicarmos à análise de dados por meio de visualização e sumarizações, incluindo as práticas em linguagem R. Caro Aluno(a)! Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o último momento o acesso ao estudo, o que implicará o não aprofundamento no material trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas. Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns dias e determinar como o seu “momento do estudo”. No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões de materiais complementares, elementos didáticos que ampliarão sua interpretação e auxiliarão o pleno entendimento dos temas abordados. Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem. Bons Estudos! Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Introdução ao Tema Nesta unidade, um conjunto de perguntas importa para que pressupostos analíticos possam ser constituídos; sem eles, não há possibilidade de iniciar a análise concreta que gere valor. 1 – Qual é o problema?; 2 – Sua pergunta tem relação com o futuro?; 3 – Os dados do passado podem ajudar na resposta da pergunta 1? E na 2?; 4 – O que você quer entender e prever?; 5 – O que você quer entender e ver?; 6 – O que você quer entender e dizer?; 7 – O que você entende sobre predição, previsão e prospecção?; 8 – O que seriam os insights?; 9 – Que medidas serão tomadas? O que se deve usar para responder às perguntas anteriores? 1 – Quais dados serão necessários?; 2 – Onde esses dados estão? Em um só lugar ou em vários?; 3 – Os seus sistemas de coleta são bases de Banco de Dados, de informações de terceiros, de notas de call centers, de registros na web etc.?; 4 – Houve a higienização dos dados, estão pré-processados para a análise?; 5 – Na modelagem analítica, existe alguém que tanto entenda de dados, quanto do problema? Estas perguntas serão respondidas conforme as práticas vão sendo executadas e os resultados discutidos. Uma arquitetura analítica requer um conjunto de profissionais com saberes multi- disciplinares para estruturar, segmentar, avaliar, analisar e modificar as resultantes de modelagens matemáticas. A significância de melhorar o desempenho ou diminuir o prejuízo, em que pese apenas 2%, pode ser muito significativa, conforme a associação à qual esse percentual se refere. 6 7 Melhorar as vendas em 2% a cada trimestre pode ser significativo tanto quanto dimi- nuir os riscos de pré-vendas que não são convertidas em patamares abaixo de 2% ao ano. Tudo vai depender da definição, do contexto e dos dados coletados para a análise, do que está ou não relacionado. Esse relativismo pode ser distribuído em processos analíticos que fazem parte do contexto da análise de dados. Primeiro processo Fazer um experimento corporativo é o primeiro design experimental. É um teste inicial entre duas variáveis ou conjuntos de mesmas variáveis. Criar uma hipótese, tentar algo, experimentar em partes, depois fazer comparações com o estado anterior e o presente, podendo direcionar o futuro. Mas nesse contexto, já há algo para decidir ou para escolher. Segundo processo Trata-se de ver os dados; é uma primeira análise visual. A maneira mais rápida e simples se dá pela representação gráfica, de modo a devolver algum padrão, por semelhança, por repetição, por proximidade, entre outras interpretações. A representação visual é uma abordagem integrada, combina análise de dados visual e a interação humana. Nesse momento, muito útil para dar significado a um enorme volume de dados. Terceiro processo Avaliar a pertinência na análise das relações e o quanto uma afeta a outra, de que modo e qual intensidade. Utilizada quando se quer testar uma suspeita ou suposição, afirmando se há uma correlação ou refutando essa possibilidade. Quarto processo Uma vez estabelecida uma correlação, a análise de regressão pode ser modelada para determinar se a hipótese levantada é verdadeira. Seu efeito é causal, qual modelo sustenta que uma variável afeta a outra. Quinto processo A modelagem pode não representar na linha do tempo qual a tendência dos dados em cenários futuros. Na análise de séries temporais, os dados são coletados em intervalos uniformemente espaçados. A análise de séries temporais explora esses dados para extrair estatísticas ou características de dados. Em geral, essa técnica avalia mudanças ao longo do tempo, revelando comportamentos que ocorrerão no passado para serem projetados no futuro. Descrevendo os dados por representação gráfica, os modelos utilizados nesse material encontram-se na base de dados do projeto R CRAN, de livre acesso: 7 UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. 1. Histograma Frequências dos números sorteados Valores Fr eq uê nc ia Figura 1 Um histograma divide uma série de dados em diferentes classes igualmente espaçadas e mostra a frequência de valores em cada classe. Esse tipo de gráfico representa diferentes barras, com bases iguais e amplitudes relativas às frequências dos dados em cada classe. O eixo das ordenadas, portanto, mostra a frequência relativa de cada classe e o eixo das abscissas os valores e intervalos das classes. 2. Gráfico em Barras mostrando crescimento ou desempenho Figura 2 O Gráfico em Barras mostra a amplitude ou a contagem intervalar, podendo ser re- organizada do menor para o maior, e vice versa. 3. Boxplot O Boxplot é um Gráfico que possibilita representar a distribuição de um conjunto de dados com base em alguns de seus parâmetros descritivos (mediana e quartis). 8 9 Ele permite avaliar a simetria dos dados, a dispersão e os outliers. É especialmente recomendado para a comparação de dois ou mais conjuntos de dados correspondentes às categorias de uma variável qualitativa. Figura 3 4. Curva de distribuição normal Figura 4 5. Gráfico pizza Gráficos Pizza exibem dados como proporção de um todo, o que permite fazer comparações entre grupos. Esse tipo de gráfico não apresenta nenhum eixo. Quando um dado é solto em um Gráfico Pizza, o gráfico calcula a porcentagem de cada valor em relação ao conjunto das partes 9 UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Figura 5 6. Gráfico em Linha Figura 6 O Gráfico em Linha tem por objetivo representar um comportamento contínuo. 7. Gráfico de Dispersão Figura 7 10 11 Mostra como os dados estão dispostos e o quanto estão dispersos ou densos em determinadas aglomerações. Sumarizações São resumos que visam a representar numericamente os conjuntos de dados. Alguns exemplos de sumarizações são: • Resultado do comando summary do Programa R (valores mínimo, máximo, 1º quartil, mediana, média, e 3 quartil): Min. : 33.00 1st Qu.: 71.00 Median : 80.00 Mean : 78.27 3rd Qu.: 87.00 Max. : 118.00 Tabelas Resumo Tabela 1 2011 2012 2013 2014 2015 Total Média Gols Vasco 43 45 50 28 166 13,83 Palmeiras 55 39 34 58 186 15,50 Botafogo 57 60 55 31 203 16,92 Grêmio 59 56 42 36 52 245 20,42Flamengo 43 39 43 46 45 216 18,00 Goiás 51 48 38 39 176 14,67 Corinthians 60 51 27 49 71 258 21,50 Atletico PR 57 65 43 43 208 17,33 Internacional 46 44 51 53 39 233 19,42 Fluminense 53 61 43 61 40 258 21,50 Santos 57 50 51 42 59 259 21,58 Atletico MG 50 64 49 51 65 279 23,25 São Paulo 52 59 39 59 53 262 21,83 Cruzeiro 57 47 77 67 44 292 24,33 Análise dos últimos 5 anos dos times com o número de gols feitos de 150 gols 11 UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Tabela Resumo e Gráfico incorporado de série temporal. Figura 8 Representação discretizada em duas variáveis (deficiência e faixa etária) Figura 9 Séries Temporais Consumo de energia elétrica residencial no Brasil (1980-2017). 12 13 Figura 10 Fonte: bcb.gov.br Gráfico Linear sobre o consumo de energia elétrica residencial no Brasil de 1980 a 2017. Nesse tipo de representação, tem-se a sequência de observações ocorridas ao longo do tempo de uma determina variável. No caso exemplo, está o consumo de energia elétrica residencial por ano. Pode-se dizer, também, que série temporal é uma sequência de dados numéricos, marcados por pontos, em ordem sucessiva de acontecimentos, em geral, ocorrendo em intervalos regulares ou uniformes. 13 UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Orientações para Leitura Obrigatória A análise exploratória pode ser dividida em três técnicas: a representação gráfica ou visualização do comportamento dos dados; as sumarizações por meio de resumos de resultados estatíticos, dados consolidados ou tabelas resumo; e as análises estatíticas numéricas ou categóricas e sua modelagem. Uma pode não representar de maneira significativa o que se deseja encontar; são complentares entre si e auxiliam na confirmação ou na rejeição de hipóteses. Em geral, a análise exploratária não se esgota na aplicação pura e simples das três técnicas, mas na aplicação delas várias vezes por diferentes arranjos e quantidades desses dados, buscando a compreensão significativa do que podem representar. Um conjunto de dados sempre refletirá alguma resposta, comportamento ou padrão, do qual pode representar diferentes interpretações, e é nesse contexto que se torna imperativa a tentativa e o teste repetitivo em diversas configurações desses elementos que compõem o conjunto de dados objeto da análise exploratória. Como o próprio nome diz, análise exploratória. Os conjuntos de dados devem ser explorados por todas essas técnicas apresentadas nesta Disciplina, para se che- gar a conclusões. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis, Curitiba, InterSaberes, cap. 2. Apresentação dos Dados, p. 24-44, 2012. 14 15 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Leitura Porque seu Cérebro precisa de Visualização de Dados Leia atentamente o assunto sobre a visualização de dados no formato gráfico como apoio à tomada de decisão, obtenção de conhecimento mais profundo e possibilidade de identificação de novos padrões. Acesse o link a seguir e descubra porque o seu cérebro precisa de visualização de dados. Esse artigo foi postado pela SAS, que é uma das ferramentas mais utilizadas por empresas para tratamento estatístico. https://goo.gl/M3x59Z Introdução à Análise de Séries Temporais: Como esses Modelos são Usados para Responder Questões Ambientais? Avalie o contexto apresentado e analise a compatibilidade com os gráficos. https://goo.gl/De6f6X Só a Google sabe realmente tudo, diz estudioso de big data Este foi um dos temas de entrevista da revista EXAME. Leia o texto reproduzido do original e concorde ou discorde da afirmação inicial. https://goo.gl/EFD9VH 15 UNIDADE Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R. Referências LEVIN, J.; FOX, J. A.; FORDE, D. R. Estatística para Ciências Humanas. São Paulo: Pearson Education do Brasil, 2012. MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson Prentice Hall, 2010. TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e soluções. Curitiba: InterSaberes, 2015. The Comprehensive R Archive Network. Disponível em: <cran.r-project.org>. Acesso em: 19 out. 2017. THE R PROJECT for Statistical Computing. Disponível em: <www.r-project.org>. Acesso em: 19 out. 2017. 16