Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Inserir Título Aqui 
Inserir Título Aqui
Estatística Aplicada 
a Análise de Dados
Análise de Dados por Meio da Visualização e Sumarização, 
Aplicações com R.
Responsável pelo Conteúdo:
Profa. Dra. Marise de Barros Miranda Gomes
Revisão Textual:
Profa. Dra. Selma Aparecida Cesarin
Nesta unidade, trabalharemos os seguintes tópicos:
• Introdução ao Tema
• Orientações para Leitura Obrigatória
• Material Complementar Fonte: iStock/Getty Im
ages
Objetivos
• Nos dedicarmos à análise de dados por meio de visualização e sumarizações, incluindo 
as práticas em linguagem R. 
Caro Aluno(a)!
Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o 
último momento o acesso ao estudo, o que implicará o não aprofundamento no material 
trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas.
Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você 
poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns 
dias e determinar como o seu “momento do estudo”.
No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões 
de materiais complementares, elementos didáticos que ampliarão sua interpretação e 
auxiliarão o pleno entendimento dos temas abordados.
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de 
discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de 
propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de 
troca de ideias e aprendizagem.
Bons Estudos!
Análise de Dados por Meio da Visualização 
e Sumarização, Aplicações com R.
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
Introdução ao Tema
Nesta unidade, um conjunto de perguntas importa para que pressupostos analíticos 
possam ser constituídos; sem eles, não há possibilidade de iniciar a análise concreta que 
gere valor.
1 – Qual é o problema?;
2 – Sua pergunta tem relação com o futuro?;
3 – Os dados do passado podem ajudar na resposta da pergunta 1? E na 2?;
4 – O que você quer entender e prever?;
5 – O que você quer entender e ver?;
6 – O que você quer entender e dizer?;
7 – O que você entende sobre predição, previsão e prospecção?;
8 – O que seriam os insights?;
9 – Que medidas serão tomadas?
O que se deve usar para responder às perguntas anteriores?
1 – Quais dados serão necessários?;
2 – Onde esses dados estão? Em um só lugar ou em vários?;
3 – Os seus sistemas de coleta são bases de Banco de Dados, de informações de 
terceiros, de notas de call centers, de registros na web etc.?;
4 – Houve a higienização dos dados, estão pré-processados para a análise?;
5 – Na modelagem analítica, existe alguém que tanto entenda de dados, quanto do problema?
Estas perguntas serão respondidas conforme as práticas vão sendo executadas e os 
resultados discutidos.
Uma arquitetura analítica requer um conjunto de profissionais com saberes multi-
disciplinares para estruturar, segmentar, avaliar, analisar e modificar as resultantes de 
modelagens matemáticas.
A significância de melhorar o desempenho ou diminuir o prejuízo, em que pese apenas 
2%, pode ser muito significativa, conforme a associação à qual esse percentual se refere.
6
7
Melhorar as vendas em 2% a cada trimestre pode ser significativo tanto quanto dimi-
nuir os riscos de pré-vendas que não são convertidas em patamares abaixo de 2% ao ano.
Tudo vai depender da definição, do contexto e dos dados coletados para a análise, 
do que está ou não relacionado. Esse relativismo pode ser distribuído em processos 
analíticos que fazem parte do contexto da análise de dados.
Primeiro processo
Fazer um experimento corporativo é o primeiro design experimental. É um teste 
inicial entre duas variáveis ou conjuntos de mesmas variáveis. Criar uma hipótese, tentar 
algo, experimentar em partes, depois fazer comparações com o estado anterior e o 
presente, podendo direcionar o futuro. Mas nesse contexto, já há algo para decidir ou 
para escolher.
Segundo processo
Trata-se de ver os dados; é uma primeira análise visual. A maneira mais rápida e simples 
se dá pela representação gráfica, de modo a devolver algum padrão, por semelhança, 
por repetição, por proximidade, entre outras interpretações. A representação visual é 
uma abordagem integrada, combina análise de dados visual e a interação humana. Nesse 
momento, muito útil para dar significado a um enorme volume de dados.
Terceiro processo
Avaliar a pertinência na análise das relações e o quanto uma afeta a outra, de que 
modo e qual intensidade. Utilizada quando se quer testar uma suspeita ou suposição, 
afirmando se há uma correlação ou refutando essa possibilidade.
Quarto processo
Uma vez estabelecida uma correlação, a análise de regressão pode ser modelada 
para determinar se a hipótese levantada é verdadeira. Seu efeito é causal, qual modelo 
sustenta que uma variável afeta a outra.
Quinto processo
A modelagem pode não representar na linha do tempo qual a tendência dos dados em 
cenários futuros. Na análise de séries temporais, os dados são coletados em intervalos 
uniformemente espaçados. A análise de séries temporais explora esses dados para 
extrair estatísticas ou características de dados. Em geral, essa técnica avalia mudanças 
ao longo do tempo, revelando comportamentos que ocorrerão no passado para serem 
projetados no futuro.
Descrevendo os dados por representação gráfica, os modelos utilizados nesse material 
encontram-se na base de dados do projeto R CRAN, de livre acesso:
7
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
1. Histograma
Frequências dos números sorteados
Valores
Fr
eq
uê
nc
ia
Figura 1
Um histograma divide uma série de dados em diferentes classes igualmente espaçadas 
e mostra a frequência de valores em cada classe. Esse tipo de gráfico representa diferentes 
barras, com bases iguais e amplitudes relativas às frequências dos dados em cada classe. 
O eixo das ordenadas, portanto, mostra a frequência relativa de cada classe e o eixo das 
abscissas os valores e intervalos das classes.
2. Gráfico em Barras mostrando crescimento ou desempenho
Figura 2
O Gráfico em Barras mostra a amplitude ou a contagem intervalar, podendo ser re-
organizada do menor para o maior, e vice versa.
3. Boxplot
O Boxplot é um Gráfico que possibilita representar a distribuição de um conjunto de 
dados com base em alguns de seus parâmetros descritivos (mediana e quartis).
8
9
Ele permite avaliar a simetria dos dados, a dispersão e os outliers. É especialmente 
recomendado para a comparação de dois ou mais conjuntos de dados correspondentes 
às categorias de uma variável qualitativa.
Figura 3
4. Curva de distribuição normal
Figura 4
5. Gráfico pizza
Gráficos Pizza exibem dados como proporção de um todo, o que permite fazer 
comparações entre grupos. Esse tipo de gráfico não apresenta nenhum eixo. Quando 
um dado é solto em um Gráfico Pizza, o gráfico calcula a porcentagem de cada valor em 
relação ao conjunto das partes
9
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
Figura 5
6. Gráfico em Linha
Figura 6
O Gráfico em Linha tem por objetivo representar um comportamento contínuo.
7. Gráfico de Dispersão
Figura 7
10
11
Mostra como os dados estão dispostos e o quanto estão dispersos ou densos em 
determinadas aglomerações.
Sumarizações
São resumos que visam a representar numericamente os conjuntos de dados. Alguns 
exemplos de sumarizações são:
• Resultado do comando summary do Programa R (valores mínimo, máximo, 1º 
quartil, mediana, média, e 3 quartil):
Min. : 33.00
1st Qu.: 71.00
Median : 80.00
Mean : 78.27
3rd Qu.: 87.00
Max. : 118.00
Tabelas Resumo
Tabela 1
2011 2012 2013 2014 2015 Total Média Gols
Vasco 43 45 50 28 166 13,83
Palmeiras 55 39 34 58 186 15,50
Botafogo 57 60 55 31 203 16,92
Grêmio 59 56 42 36 52 245 20,42Flamengo 43 39 43 46 45 216 18,00
Goiás 51 48 38 39 176 14,67
Corinthians 60 51 27 49 71 258 21,50
Atletico PR 57 65 43 43 208 17,33
Internacional 46 44 51 53 39 233 19,42
Fluminense 53 61 43 61 40 258 21,50
Santos 57 50 51 42 59 259 21,58
Atletico MG 50 64 49 51 65 279 23,25
São Paulo 52 59 39 59 53 262 21,83
Cruzeiro 57 47 77 67 44 292 24,33
Análise dos últimos 5 anos dos times com o número de gols feitos de 150 gols
11
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
Tabela Resumo e Gráfico incorporado de série temporal.
Figura 8
Representação discretizada em duas variáveis (deficiência e faixa etária)
Figura 9
Séries Temporais
Consumo de energia elétrica residencial no Brasil (1980-2017).
12
13
Figura 10
Fonte: bcb.gov.br
Gráfico Linear sobre o consumo de energia elétrica residencial no Brasil de 1980 
a 2017. Nesse tipo de representação, tem-se a sequência de observações ocorridas 
ao longo do tempo de uma determina variável. No caso exemplo, está o consumo de 
energia elétrica residencial por ano.
Pode-se dizer, também, que série temporal é uma sequência de dados numéricos, 
marcados por pontos, em ordem sucessiva de acontecimentos, em geral, ocorrendo em 
intervalos regulares ou uniformes.
13
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
Orientações para Leitura Obrigatória
A análise exploratória pode ser dividida em três técnicas: a representação gráfica ou 
visualização do comportamento dos dados; as sumarizações por meio de resumos 
de resultados estatíticos, dados consolidados ou tabelas resumo; e as análises estatíticas 
numéricas ou categóricas e sua modelagem.
Uma pode não representar de maneira significativa o que se deseja encontar; são 
complentares entre si e auxiliam na confirmação ou na rejeição de hipóteses.
Em geral, a análise exploratária não se esgota na aplicação pura e simples das três 
técnicas, mas na aplicação delas várias vezes por diferentes arranjos e quantidades desses 
dados, buscando a compreensão significativa do que podem representar.
Um conjunto de dados sempre refletirá alguma resposta, comportamento ou padrão, 
do qual pode representar diferentes interpretações, e é nesse contexto que se torna 
imperativa a tentativa e o teste repetitivo em diversas configurações desses elementos 
que compõem o conjunto de dados objeto da análise exploratória.
Como o próprio nome diz, análise exploratória. Os conjuntos de dados devem 
ser explorados por todas essas técnicas apresentadas nesta Disciplina, para se che-
gar a conclusões.
CASTANHEIRA, N. P. Estatística aplicada a todos os níveis, Curitiba, InterSaberes, cap. 2. 
Apresentação dos Dados, p. 24-44, 2012.
14
15
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Leitura
Porque seu Cérebro precisa de Visualização de Dados
Leia atentamente o assunto sobre a visualização de dados no formato gráfico como 
apoio à tomada de decisão, obtenção de conhecimento mais profundo e possibilidade de 
identificação de novos padrões. Acesse o link a seguir e descubra porque o seu cérebro 
precisa de visualização de dados. Esse artigo foi postado pela SAS, que é uma das 
ferramentas mais utilizadas por empresas para tratamento estatístico.
https://goo.gl/M3x59Z
Introdução à Análise de Séries Temporais: Como esses Modelos são Usados para Responder 
Questões Ambientais?
Avalie o contexto apresentado e analise a compatibilidade com os gráficos.
https://goo.gl/De6f6X
Só a Google sabe realmente tudo, diz estudioso de big data
Este foi um dos temas de entrevista da revista EXAME. Leia o texto reproduzido do 
original e concorde ou discorde da afirmação inicial.
https://goo.gl/EFD9VH
15
UNIDADE 
Análise de Dados por Meio da Visualização e Sumarização, Aplicações com R.
Referências
LEVIN, J.; FOX, J. A.; FORDE, D. R. Estatística para Ciências Humanas. São Paulo: 
Pearson Education do Brasil, 2012.
MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson 
Prentice Hall, 2010.
TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e 
soluções. Curitiba: InterSaberes, 2015.
The Comprehensive R Archive Network. Disponível em: <cran.r-project.org>. Acesso 
em: 19 out. 2017.
THE R PROJECT for Statistical Computing. Disponível em: <www.r-project.org>. 
Acesso em: 19 out. 2017.
16