Entrodução ciclo de vida

•

ESTÁCIO

simone anjos

16/02/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Metodologia Científica

172.168 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CIÊNCIA DE DADOS BIG DATA ANALYTICS .......................................... 4
Aula 1 .......................................................................................................... 4
Big Data: Uma Visão Geral ............................................................................ 4
Aula 2 ........................................................................................................ 13
Aula 3 .................................................................................................. 28
1. Introdução ............................................................................................. 28
2. O método Estatístico ....................................................................... 30
2.1 O Método Científico .............................................................................. 30
2.1.1 Método Experimental ......................................................................... 30
2.1.2 Método Estatístico .............................................................................. 30
3. Estatística .............................................................................................. 31
4. Fases do Método Estatístico .................................................................... 31
4.1 Coleta de Dados ................................................................................... 32
4.2 Crítica dos Dados .................................................................................. 33
4.3 Apuração dos Dados ............................................................................. 33
4.4 Exposição ou Apresentação dos Dados ................................................... 33
4.5 Análise dos Resultados .......................................................................... 33
5.0 Variáveis .............................................................................................. 33
6.0 População e Amostra: ........................................................................... 34
7.0 Amostragem ......................................................................................... 35
7.1 Amostragem Casual ou Aleatória Simples ............................................... 35
7.2 Amostragem Proporcional Estratificada .................................................. 35
7.3 Amostragem Sistemática ....................................................................... 35
Aula 4 .................................................................................................. 36
1.0 Introdução ........................................................................................... 36
2.0 Download ............................................................................................. 38
3.0 Instalação ............................................................................................ 41
4.0 Interface .............................................................................................. 44
5.0 Tipos de Dados..................................................................................... 45
6.0 Comandos Básicos ................................................................................ 46
6.1 Atribuição de Valores ............................................................................ 47
6.2 Comandos Auxiliares ............................................................................. 47
6.3 Operadores Matemáticos ....................................................................... 48
7. Vetores .................................................................................................. 49
Aula 5 .................................................................................................. 50
1.0 Introdução ........................................................................................... 50
2.0 Gráfico de Barras .................................................................................. 51
3.0 Gráfico de Pizza .................................................................................... 54
4.0 Histograma .......................................................................................... 56
Aula 6 .................................................................................................. 58
1.0 Introdução ........................................................................................... 58
2.0 Medidas de Posição............................................................................... 58
2.1 Média Aritmética .............................................................................. 58
2.2 Mediana ............................................................................................... 59
2.3 Moda ................................................................................................... 61
2.4. Quartis ................................................................................................ 62
Aula 7 .................................................................................................. 63

1.0 Introdução ........................................................................................... 63
2.0 Experimento Aleatório ........................................................................... 64
3.0 Espaço Amostral ................................................................................... 64
4.0 Eventos ................................................................................................ 65
5.0 Probabilidade ....................................................................................... 65
6.0 Eventos Complementares ...................................................................... 66
7.0 Eventos Independentes ......................................................................... 66
8.0 Eventos Mutuamente Exclusivos ............................................................ 67
9.0 Variável Aleatória .................................................................................. 68
10.0 Distribuição de Probabilidade ............................................................... 68
Aula 8 .................................................................................................. 69
1.0 Introdução ........................................................................................... 69
2.0 Definindo Funções ................................................................................ 69
3.0 Estrutura Seleção ................................................................................. 71
4.0 Estrutura de Repetição .......................................................................... 72
Bibliografia Básica: ..................................................................................... 75
Bibliografia Complementar: ......................................................................... 75

CIÊNCIA DE DADOS BIG DATA ANALYTICS
Aula 1
BIG DATA: UMA VISAO GERAL
Edgar Gurgel
edgargurgel@gmail.com
Na década de 60 e 70 era usual guardar informações em diários, livros
ecadernetas, por períodos de tempos curtos e médios. Pequenos pedações de
papéis eram utilizados no comércio para registrar as vendas realizadas
diariamente. Porém, nos dias atuais, já não é possível gerenciar uma
Organização que não esteja informatizada ou uma indústria automatizada,
devido a grande quantidade de dados e da velocidade com que as informações
são geradas. Atualmente lidamos com informações que são geradas
ininterruptamente pelas mais diversas formas e em imensa quantidade, como
em aplicações científicas e de engenharias, redes sociais, redes de sensores,
dados médicos e biológicos, transações de comércio eletrônico e financeiro,
entre inúmeras outras. Em muitas áreas da ciência, os avanços na tecnologia
estão resultando na geração de grandes massas de dados, de uma forma cadavez mais rápida.

É nesse contexto que houve a necessidade de tratar a grande quantidade de
informações geradas. O termo Big Data não é um termo novo, ele é mais
antigo do que realmente imaginamos, pois as áreas de física e de ciências
biológicas já tratam há anos com a questão da manipulação, armazenamento e
uso de grandes massas de dados. O projeto genoma, por exemplo, levou
quase uma década para o sequenciamento de três bilhões de pares-base. Com
o uso de novas tecnologias, hoje levamos um dia para sequenciar a mesma
quantidade de pares-base.
Outro bom exemplo são os projetos da NASA para o estudo do Universo. O
termo Big Data foi introduzido em 1990 pela NASA para descrever grandes
conjuntos de dados que desafiam o processamento computacional, sendo difícil
de colocar esse termo em prática devido a restrições técnicas. Nessa época,
ainda não existiam os dados de dinâmica social, não se falava em rastros
digitais nem em internet das coisas. Os cientistas lidavam com os dados
gerados nas pesquisas específicas do seu domínio e que eram livremente
compartilhadas, o que gerava conhecimentos e novos dados de forma
exponencial. Nos dias atuais com a evolução do processamento e
armazenamento, e com a redução de custos, o conceito de Big Data
popularizou-se para ser aplicado nas mais diversas áreas do conhecimento.
O termo Big Data é bem amplo e ainda não existe um consenso em sua
definição, desta forma encontramos várias definições na literatura. Por
exemplo, podemos definir como sendo um termo usado para descrever o
conjunto de dados cuja captura, armazenamento, distribuição e análise
requerem métodos e tecnologias avançadas. Pode ainda ser definido como o
processamento (eficiente e escalável) analítico de grande volumes de dados
complexos produzidos por várias aplicações.
Segue abaixo uma tabela com algumas definições do termo Big Data:

DEMIRKAN, et.
al. Decision
Support Systems
Há o desafio de gerenciar grandes quantidades de dados (Big
Data), que está ficando cada vez maior por causa do
armazenamento mais barato e evolução dos dados digitais e
dispositivos de coleta de informações, como telefones
celulares, laptops e sensores.
MANYKA, J.; et.
al. Mckinsey
Global Institute
Big Data refere-se a conjuntos de dados cujo tamanho é além
da capacidade de ferramentas de software de banco de dados
típicos para capturar, armazenar, gerenciar e analisar.
Gartner Group
(consultoria de
pesquisa de
mercado na área
de TI) 2012
Big Data, em geral, é definido como ativos de alto volume,
velocidade e variedade de informação que exigem custo-
benefício, de formas inovadoras de processamento de
informações para maior visibilidade e tomada de decisão.
Internacional
Data Corporation
As tecnologias de Big Data descrevem uma nova geração de
tecnologias e arquiteturas projetadas para extrair
economicamente o valor de volumes muito grandes e de uma
grande variedade de dados, permitindo alta velocidade de
captura, descoberta e/ou análise.
INTEL, 2013
A princípio, pode-se definir o conceito de Big Data como sendo
um conjunto de dados extremamente amplos e que, por este
motivo, necessitam de ferramentas especialmente preparadas

para lidar com grandes volumes, de forma que toda e
qualquer informação processada por esses meios possa ser
encontrada, analisada e aproveitada em tempo hábil: “O valor
real do Big Data está no insight que ele produz quando
analisado – buscando padrões, derivando significado,
tomando decisões e, por fim, respondendo ao mundo com
inteligência.
De acordo com o relatório fornecido pelo IDC (International Data Corporation),
em 2003 todo o volume de dados gerado e armazenado no mundo inteiro foi
inferior a 1.8 Zettabytes. Em apenas dois dias no ano de 2011 o volume de
dados gerado foi superior a 1.8 Zettabytes. A tendência é de aumentar o
volume de bancos de dados corporativos em 40% a cada ano.

Segundo os resultados do 7o. Estudo EMC Digital Universe, realizado pela EMC
Corporation, devido, em parte, a Internet das Coisas, o tamanho do Universo
Digital está dobrando a cada dois anos e se multiplicará entre 2013 e 2020 –
de 4.4 zettabytes para 44 zettabytes ou 44 trilhoes de gigabytes.

Veja, abaixo, a quantidade de dados que são gerados diariamente na internet.

A nova abordagem para o tratamento de grandes quantidades de dados foi
primeiramente definida por Doug Laney, em 2001, no seu artigo intitulado 3D
Data Management Controlling Data Volume, Velocity and Variety, quando ele
definiu o termo Big Data para 3V’s:
 Volume - Organizações coletam dados de uma grande variedade de
fontes, incluindo transações comerciais, redes sociais e informações de
sensores ou dados transmitidos de máquina a máquina. Anteriormente,
armazenar tamanha quantidade de informações era um grande problema
– mas novas tecnologias têm possibilitado tal atividade;
 Velocidade - Os dados fluem em uma velocidade sem precedentes e
devem ser tratados em tempo hábil. Tags de Radio frequency
identification (RFID), sensores, celulares e contadores inteligentes estão
impulsionando a necessidade de lidar com imensas quantidades de
dados em tempo real;
 Variedade - Os dados são gerados em todos os tipos de formatos - de
dados estruturados, dados numéricos em bancos de dados tradicionais,
até documentos de texto não estruturados, e-mails, vídeos, áudios,
dados de cotações da bolsa e transações financeiras.

Além dessas dimensões, os Professores Hans Buhl e Maximillian Roglinger, da
Universidade de Augsburg, na Alemanha, e Julia Heidemann, da empresa
McKinsey da Alemanha, acrescentaram mais uma dimensão (veracidade) e
posteriormente mais uma foi adicionada:
 Veracidade – considera a inconsistência no fluxo de dados. O
carregamento de dados torna-se um desafio a ser mantido,
especialmente em redes sociais com o incremento no uso que geram
picos de carregamento de dados com a ocorrência de certos eventos.
Esta dimensão inclui principalmente dois aspectos: consistência dos
dados que pode ser definida por sua confiabilidade estatística e a
confiabilidade dos dados definida pelo número de fatores incluindo a
origem dos dados, métodos de coleta, processamento e infraestrutura
confiável. Além disso, garante que o dado usado é confiável, autêntico e
protegido de acessos e modificações não autorizadas;
 Valor - é uma importante característica de um dado que é definida pelo
valor agregado que o dado coletado pode trazer para um processo,
atividade ou hipótese. Por exemplo, no intuito de obter informações
baseadas no histórico de dados armazenados, aplicações de software
podem executar certas consultas numa determinada base de dados e
assim podem deduzir importantes resultados. Esses resultados podem
auxiliar os usuários a encontrarem tendências de negócio, permitindo a
possibilidade de alteração nas suas estratégias. Assim, pode-se perceber
que existe um grande valor contido nos dados armazenados e que pode
levar a muitas vantagens para a indústria e comércio, dentre outros
ramos.

Big Data provê grande potencial no processo decisório baseado em dados,
podendo trazer benefícios como nova visão de negócio, habilidade de medir e
monitorar fatores influentes no negócio, descoberta de novas oportunidades de
vendas dentre outros benefícios. Big Data é utilizada nas diferentes áreas de
conhecimento, como por exemplo, Ciência, Telecomunicação, Indústria,
Negócios, Planejamento Urbano, Mídia social, Saúde, entreoutras. Dessa
forma, podemos utilizá-la para conhecer o comportamento do consumidor a,
por exemplo, melhorar o desempenho de um atleta, analisando padrões
encontrados em cada partida para que no decorrer da carreira o nível de
excelência aumente cada vez mais. Na saúde, tornou-se muito mais rápido o
acesso a dados comparativos entre as doenças: uma questão essencial, nos
dias de hoje, é poder analisar e comparar resultados de exames de pessoas
com sintomas semelhantes, como aquelas diagnosticadas com câncer, com
exames de outros pacientes com a mesma doença, para chegar a um
diagnóstico mais preciso e rápido, tendo como consequência melhor precisão
no tratamento. São questões como essas que há alguns anos poderiam ficar
sem resposta, ou, cujas informações levariam muito tempo para poder ser
reunidas, tempo que um paciente não tem. Hoje o cenário foi modificado
graças ao Big Data, podendo, assim, não só obter respostas rápidas e precisas,
mas mostrar fatos e resultados.
Pode-se citar, por exemplo, os seguintes setores na utilização do Big Data:

 Bancos - com uma vasta quantidades de informações fluindo a partir de
inúmeras fontes, os bancos são desafiados a encontrar maneiras
inovadoras de gerenciar essa grande massa de dados. Ao mesmo tempo
em que a ferramenta é importante para compreender os clientes e
aumentar sua satisfação, é igualmente importante para minimizar os
riscos e fraudes enquanto mantém uma conformidade regulatória;
 Ensino - instituições com uma visão orientada a dados podem ter um
impacto significativo sobre os sistemas escolares, estudantes e
currículos. Analisando grandes massas de dados, elas podem identificar
alunos em risco, assegurar que os estudantes estão progredindo de
forma adequada, e podem implementar um sistema melhor de avaliação
e apoio aos docentes e diretores;
 Governo – a partir do momento que as organizações do governo são
capazes de aproveitar e aplicar análises massiva de dados, elas avançam
significativamente quando se trata de gerenciar serviços públicos, lidar
com o congestionamento ou prevenir a criminalidade. Porém, os
governos também devem discutir as questões de transparência e
privacidade das informações;
 Saúde – nesta área tudo necessita ser feito rapidamente, com precisão
e, em alguns casos, com suficiente transparência para satisfazer as
regulamentações rigorosas desta área rigorosa. Quando grandes massas
de dados são geridas de forma eficaz, os responsáveis pela saúde podem
descobrir insights escondidos que melhoram o atendimento aos
pacientes;

 Manufatura-os fabricantes podem utilizar o poder da análise de
grandes massas de dados para aumentar a qualidade e a produção,
minimizando o desperdício, fundamentais no mercado altamente
competitivo de hoje. Mais e mais fabricantes estão trabalhando em uma
cultura baseada em análise de dados, o que significa que eles podem
resolver problemas mais rapidamente e tomar decisões de negócios mais
ágeis;
 Varejo – criar e manter um bom relacionamento com o cliente é
fundamental para o setor de varejo, e a melhor forma de fazer isso é
analisando grandes massas de dados. Os varejistas precisam saber a
melhor maneira de vender aos clientes, a maneira mais eficaz de lidar
com transações, e a maneira mais estratégica de aumentar o número de
negócios
Aula 2
Com o crescente volume e a demanda para extrair informações sobre esses
dados, surge a necessidade de utilizarmos as tecnologias predecessoras do Big
Data e as que dão suporte ao uso desse novo conceito. Serão abordadas e
discutidas as tecnologias de apoio, como Data Warehouse, Data Mart, Data
Mining e BI.
De acordo com o Gartner, um Data Warehouse é uma arquitetura de
armazenamento que tem como objetivo guardar dados extraídos a partir de
sistemas transacionais, de sistemas operacionais e de fontes externas. Ele
combina estes dados em uma forma agregada, resumida e adequada para
análise de dados e geração de relatórios Organizacionais, com objetivo de
atender as necessidades do negócio.

Os Data Marts são Data Warehouse orientados a departamentos, como
departamentos de uma organização (comercial, administrativo, financeiro,
entre outros), em que cada departamento poderá ser considerado um Data
Mart individual. Depois de um período estipulado um Data Mart, poderá
constituir ou formar um Data Warehouse, neste caso, pode-se dizer que um
Data Mart é um subconjunto de um Data Warehouse.

Um Data Warehouse após ser implantado por vários Data Marts passa a realizar
o caminho inverso de um Data Mart, alimentado, assim, os Data Marts
separadamente. Com isso, pode-se dizer que os Data Marts surgem de duas
formas: Top-down e Bottom-up.
Um Data Mart surge de forma Top-down quando uma organização cria um Data
Warehouse e depois o segmenta para os departamentos, ou seja, divide o Data
Warehouse em áreas menores, formando, assim, pequenos bancos de dados
orientados por departamento e/ou assunto. O Data Mart surge de forma
Bottom-up quando a situação é inversa à Top-down, quando por estratégia de
negócio se criam pequenos bancos de dados e depois os unem para formar
uma área inteira, um Data Warehouse. Assim que os resultados são
alcançados, esses pequenos Data Marts são integrados e formam um Data
Warehouse.

Data mining refere-se a extrair ou minerar conhecimento de grandes
quantidades de dados. A mineração de ouro das rochas ou da areia é
referenciada como a mineração de ouro, em vez de mineração de rocha ou de
areia. Desta forma, data mining deveria ter sido nomeado de uma forma mais
apropriada como knowledge mining from data, que infelizmente é um
termo longo. Knowledge mining, um termo mais curto, pode não refletir a
ênfase na mineração de grandes quantidades de dados. Contudo, mining é
um termo nítido que caracteriza o processo de encontrar um pequeno conjunto
de preciosas pepitas a partir de uma grande quantidade de dados brutos
(dados recolhidos e estocados da mesma forma que foram adquiridos, sem
terem sofrido o menor tratamento).
A proposta de uso de um Data Mining é que, uma vez definido o problema, os
dados e a ferramenta de análise, o Data Mining pesquisa, automaticamente,
em uma massa de dados, anomalias e prováveis relacionamentos, encontrando
possíveis problemas que não foram identificados anteriormente pelos usuários.

Muitas pessoas tratam data mining como um sinônimo para outro termo
popular utilizado, Knowledge Discovery in Databases (KDD).
Alternativamente, outros veem data mining como simplesmente um passo
essencial no processo de descoberta de conhecimento em banco de dados.

Entretanto, vamos entender que a descoberta de conhecimento em Bancos de
Dados ou KDD consiste em muito mais do que apenas a mineração de dados. A
Descoberta de Conhecimento em Banco de Dados é um procedimento não
trivial, automatizado e que visa buscar em grande bases de dados, novos
conhecimentos e novos padrões de relacionamento de dados, que possuem
algum tipo de produtividade e informação, caso os resultados sejam
apresentados para um especialista da área.
O KDD é composto por seis etapas: seleção de dados, limpeza de dados,
enriquecimento, transformação ou codificação dos dados, mineração de dados
e apresentação dos resultados. Podem existir algumas variações destes
conceitos, apontadas por cada autor, por exemplo Fayyad (1996) determina
que a divisão seja entre 5, onde as etapas de limpeza e enriquecimento dos
dados sejam efetuados na mesma fase de pré-processamento, unificaçãodevida a semelhança entre estas duas etapas.

Vamos apresentar cada uma das etapas da descoberta de conhecimento.

A Seleção de Dados é uma das principais etapas dos principais processos da
Descoberta de Conhecimento em Banco de Dados, pois esta etapa é a
responsável em efetuar a seleção o e filtragem dos dados que deverão ser
avaliados pelas etapas seguintes do KDD. Os dados coletados nesta etapa
refletem diretamente na qualidade do resultado final da análise da mineração
de dados, de forma que estes dados são a principal fonte de informações da
análise. Nesta etapa são efetuadas as análises de levantamentos das variáveis
e grupo de variáveis necessárias para efetuar a seleção e extração dos dados
da base selecionada. Para a execução desta etapa normalmente são escritas
aplicações que ficam responsabilizadas por efetuar a extração das bases de
dados, das quais estas podem ser originadas de diferentes fontes de dados.
Esta aplicação também fica responsabilizada por efetuar as filtragens
necessárias, para não trazer para a análise dados que não devem ser
analisados e por conta disso, é muito importante também definir quais são os
tipos de informações e quais são os filtros que a aplicação deve ter
implementada para que a qualidade dos dados seja mantida.
No Pré-processamento, os dados levantados pela etapa anterior podem
possuir alguns caracteres indesejados, alguns ruídos ou possuir informações
incompletas. Este tipo de situação normalmente ocorre quando os dados são
selecionados de bases heterogêneas, quando são originárias de bancos de
dados que não possuem um devido tratamento no gerenciamento de dados ou
quando provém da internet. Para conseguir resolver estes problemas com os
dados, é necessário efetuar a limpeza dos dados para que não existam
interferências durante a execução do algoritmo de mineração de dados, onde
são removidos qualquer tipo de caractere indesejado e descartadas as
mensagens que possuem informações incompletas ou algum outro tipo de
ruído que não possa ser tratado. O uso de Data Warehouse pode facilitar a
tarefa de limpeza dos dados. Normalmente eles possuem uma organização e
gerenciamento mais bem definido, que acabam mantendo os dados do banco
de dados em um estado limpo. O uso dele contribui e facilita o processo de
limpeza dos dados, para o qual será necessário menos tempo e esforço.

A Transformação de Dados tem como objetivo adequar os dados em uma
estrutura e formatação necessários conforme é exigido pelo procedimento do
algoritmo de mineração de dados. Além de adequar estes dados, cada
algoritmo exige uma determinada estruturação para que o algoritmo consiga
executar as análises corretamente, sem interferências ou erros durante a
execução. Nesta etapa ocorre a conversão dos tipos de dados, para que o
algoritmo de mineração de dados consiga efetuar a análise, assim como a
filtragem de treinamento para o algoritmo de mineração de dados.
A Mineração de Dados, envolve métodos e aplicações iterativas e interações
de mineração de dados em particular. Ou seja, a mineração de dados é um
processo automático ou semi-automático que visa explorar e analisar grandes
bases de dados. Baseando-se nestas análises, poderão ser encontradas novos
padrões e regras úteis e compreensíveis para o analista. Este tipo de análise
que é efetuado de forma automática pela mineração de dados não seria
possível de ser efetuadas por humanos em procedimentos convencionais
devido ao grande volume de dados que teria que ser processado, de mesma
forma que a imensidão de relações que a análise exige também não seria
humanamente possível. Para resolver este tipo de problema, foram
desenvolvidos algoritmos que trabalham de forma automática e semi-
autônomos, que conseguem retornar o mesmo resultado que o efetuado por
um ser humano. A interação e intervenção do analista ainda é exigida em
alguns momentos para conseguir interpretar os resultados que a execução do
algoritmo retornou, que é através da interpretação do analista que os padrões
serão determinados como úteis ou não. Os algoritmos por si só efetuam o
trabalho de encontrar as principais relações. Como o processo de mineração de
dados não possui um procedimento padronizado para resolver qualquer
problema, existem diversos algoritmos que podem ser usados para cada tipo
de problema proposto. Estes algoritmos são classificados em dois grandes
grupos que variam de acordo com o tipo de conhecimento que se deseja
extrair. Estes grupos são Predição ou Atividades Preditivas e Descrição ou
Atividades Descritivas.

Após a mineração de dados, é efetuada a Exibição dos Resultados, que por
alguns autores é enquadrada no grupo de etapas de pós-processamento. Nesta
etapa são efetuadas as seleções e ordenações das descobertas interessantes,
efetuado o mapeamento de apresentação dos resultados obtidos e gerando
relatório dos resultados. Existem muitas formas de apresentar estes dados,
sendo através de gráficos, relatórios, tabelas ou qualquer outra forma de
apresentação dos resultados.
No momento de planejar sua atuação no mercado, uma organização precisa de
informações disponíveis e relevantes para responder questionamentos a
respeito de seu negócio. O termo Inteligência de Negócios, ou Business
Intelligence (BI) é um termo cunhado pelo Gartner Group na década de 80 e
descreve as habilidades das corporações para acessar dados e explorar as
informações (normalmente contidas em uma Data Warehouse / Data Mart),
analisando-as e desenvolvendo percepções e entendimentos a seu respeito.
Isto permite incrementar e tornar mais pautada em informações as tomadas de
decisão. Uma solução de BI permite monitorar o desempenho dos processos
operacionais, táticos ou estratégicos por meio de indicadores de desempenho e
apresentá-los em painéis de controle ou dashboard, com recursos analíticos e
interativos que permitem cruzar e analisar informações, no tempo em que se
precisa, transformando o processo de decisão em algo simples, rápido e
eficiente.
Uma arquitetura padrão de soluções de BI possui três componentes: o processo
de extração de dados Extraction, Transformation and Loading (ETL), o
repositório dedados não volátil (Data Warehouse) e a área de apresentação.

A importância do big data não gira em torno da quantidade de dados que você
tem, mas em torno do que você faz com eles. É possível analisar dados de
qualquer fonte para encontrar respostas que permitam:
 Redução de custos;
 Redução de tempo;
 Desenvolvimento de novos produtos;
 Decisões mais inteligentes.
Ao combinar a ferramenta de Big Data com a alta potência da análise de dados,
será possível realizar tarefas relacionadas a negócios, como:
 Determinar a causa raiz de falhas, problemas e defeitos em tempo quase
real;
 Otimizar ações no ponto de venda com base em hábitos de compra dos
clientes;
 Recalcular carteiras de risco inteiras, em questão de minutos;

 Detectar comportamentos fraudulentos antes que eles afetem sua
organização.
Muitas empresas atualmente iniciam atividades relacionadas a Big Data.
Contudo, existe uma necessidade iminente de incorporar capacidades analíticas
na organização. Caso contrário, não é possível fazer progressos substanciais e
assim, produzir insights significativos.
Os primeiros líderes a implementarem essa cultura nas empresas têm sido os
responsáveis por criar uma vantagem competitiva em relação aos seus
concorrentes. Segundo levantamento realizado em mais de 400 grandes
empresas, aquelas que possuem capacidades analíticas mais avançadasestão
superando seus concorrentes em ampla vantagem, como:
 Duas vezes mais propensas a ter desempenho financeiro elevado dentro
de seu mercado de atuação;
 Cinco vezes mais propensas a tomar decisões mais rápidas que seus
concorrentes;
 Três vezes mais propensas a executar decisões conforme o planejado;
 Duas vezes mais propensas a se basear nos dados no momento da
tomada de decisão.

Muitas vezes ouvimos falar de big data como uma metodologia, tecnologia ou
ferramenta capaz de extrair valor de uma grande quantidade de dados digitais.
A melhor maneira para falar de metodologias e tecnologias em big data é
utilizar a expressão Data Analytics ou Analítica de Dados que pode ser definida
como o uso da tecnologia para a compreensão, comunicação e utilização
inteligente dos dados digitais.
Existem basicamente quatro tipos de Analítica:
 Analítica Descritiva: se encarrega de analisar o que aconteceu;
 Analítica Diagnóstica: analisa porque determinado evento aconteceu;
 Analítica Preditiva: aponta o que irá (ou poderá) acontecer (predição);
 Analítica Prescritiva: identifica o que se deseja que aconteça e o que
pode ser feito para alcançar esse objetivo (reforçar, modificar ou evitar
uma predição).

Pode-se aplicar os quatro tipos de analíticas em big data, embora os maiores
valores agregados aos dados estejam nas duas últimas (preditiva e prescritiva)
já que as duas primeiras (descritiva e diagnóstica) já são amplamente
utilizadas e com sucesso antes do fenômeno big data.
Nesse ponto, aparece a primeira das importantes diferenças básicas entre os
dados em big data e bancos de dados estruturados de grande porte.
Quando falamos em analítica preditiva, estamos falando de uma metodologia
completamente diferente das previsões que estamos acostumados a ver a
partir de data warehouses ou de pesquisas de opinião. O que determina a
mudança na metodologia é a natureza dos dados utilizados. Ela é feita a partir
de uma grande quantidade de dados de domínios diferentes (big data). A
metodologia é um julgamento baseado na experiência e no aprendizado que se
dá quando dados de um domínio do conhecimento viaja para outros domínios.
A previsão (ou forecast) é feita a partir da utilização de grandes quantidades de
dados de mesma natureza. A metodologia consiste em uma projeção, em que
os dados viajam para dimensões maiores de tempo ou espaço.

O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo
domínio, que têm uma relação direta de causa e efeito com o fenômeno, são
transferidos para o futuro (viagem no tempo) gerando um resultado com grau
de incerteza conhecido.
Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza,
coletados em uma amostra, são transferidos para o total da população (viagem
no espaço) gerando também um resultado confiável.
Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças
nas tendências porque considera fatores que não têm uma relação causa-efeito
imediata com o fenômeno.
Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a
dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de
utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo
das buscas, a empresa conseguiu identificar correlações inusitadas entre as
pesquisas e a contração da doença em um determinado grupo social. É
importante entender que o modelo antecipava não apenas a quantidade de
casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido
que fundamentou as ações preventivas do governo americano para impedir
uma pandemia da doença.
O resultado de uma previsão é uma estimativa e a ciência que fundamenta a
metodologia é a Estatística.

O cenário de crescimento do Big Data aponta estão surgindo novas
oportunidades de emprego para profissionais de TI e de outros setores. Um
novo cargo, chamado de Data Scientist ou Cientista de Dados é um bom
exemplo. Essa atividade deve ser desenvolvida por alguém que é curioso, que
analisa os dados para detectar tendências.
Além do cientista de dados, existe espaço para outras atividades profissionais.
Por exemplo, haverá forte demanda também por desenvolvedores e
administradores de sistemas que se especializam em ferramentas voltadas para
Big Data, como o Hadoop, tecnologia projetada para aplicações distribuídas
com uso intensivo de dados e utilizados por sítios bastante conhecidos como o
Yahoo, Facebook, LinkedIn e eBay.

Podemos identificar três perfis básicos de profissionais engajados em Big Data:
 Cientista de Dados, são profissionais capacitados em estatística,
ciência da computação e/ou matemática capazes de analisar grandes
volumes de dados e extrair insights que criem novas oportunidades de
negócios;

 Analistas de Negócios, que conhecendo bem o negócio em que
atuam, consigam formular as perguntas corretas. Analisar as respostas e
tomar decisões estratégicas e táticas que alavanquem novos negócios ou
aumentem a lucratividade da empresa. Esta função tende a ser acoplada
a função de Cientista de Dados;
 Profissionais de TI, que cuidarão da infraestrutura e seu suporte
técnico para sustentar Big Data. O aparato tecnológico de Big Data não é
muito comum em empresas tipicamente comerciais, pois demanda
expertise em gerenciar hardware em clusters de alta performance
(Hadoop é massivamente paralelo) e pensar em volumes de dados
significativamente maiores em muito mais variados que comumente se
usam em sistemas tradicionais.

Aula 3
1. Introdução
O processo de registro numérico surge da necessidade básica de controle, de
gerar estatísticas, como diríamos hoje, dando ao ser humano informações
relevantes para seu dia a dia. A etimologia da palavra estatística é a mesma da
de estado. O dicionário etimológico online Harper menciona que a palavra
entra no vocabulário inglês em 1770, com o significado de ciência que trata de
dados sobre as condições de um estado ou comunidade, originando-se do
alemão statistik, palavra popularizada e talvez cunhada em 1748 pelo cientista
político alemão Gottfried Aschenwall, do latim moderno statisticum (assuntos
do estado), do italiano statista (estadista) e do latim status (estado).

Gottfried Aschenwall (1719-1772)

O significado mais amplo, de ramo da ciência que trata da coleção e
classificação de dados numéricos, é de 1829. O dicionário Michaelis registra
que a palavra entra no vocabulário português através do francês, statistique,
que, segundo o Centre National de Ressources Textuelles et Lexicales, provém
do alemão, statistik, forjado pelo economista alemão Gottfried Aschenwall, que
a derivou do italiano, statista. Para Aschenwall, a estatística representa o
conjunto de conhecimentos que um homem de estado deve possuir. Agora,
pense em algumas situações de utilização da estatística. É quase impossível
hoje em dia, para qualquer ramo do conhecimento, desconsiderar as
ferramentas estatísticas. De fato, desde que o ser humano inventou os
números, cada vez mais somos deles dependentes, especialmente com o
avanço da ciência. Algumas aplicações são: prévias eleitorais, pesquisa de
mercado, auditoria, previsões econômicas, previsões de vendas, controle de
qualidade, avaliação de desempenho, pesquisa científica, entre outras.
Precisamos das ferramentas da estatística para a tomada de decisão
empresarial, para acessarmos qualquer literatura técnica e profissional e para
embasarmos a pesquisa científica.2. O método Estatístico
2.1 O método científico
Muitos dos conhecimentos que possuímos foram obtidos na Antiguidade por
acaso e, outros, por necessidades práticas, sem aplicação de um método.
Atualmente, quase todo acréscimo de conhecimento resulta da observação e do
estudo. Porém muito desse conhecimento pode ter sido observado incialmente
por acaso, a verdade é que desenvolvemos processos científicos para o estudo
e para a aquisição de tais conhecimentos.
Desta forma, pode-se dizer que método é um conjunto de meios dispostos
convenientemente para se chegar a um fim que se deseja.
Dentre os métodos científicos, vamos discutir o experimental e o estatístico.
2.1.1 Método Experimental
Consiste em manter constantes todas as causas (fatores), menos uma, e variar
esta causa de modo que o pesquisador possa descobrir seus efeitos, caso
existam. É um método bastante utilizado na Física e Química, por exemplo.
2.1.2 Método Estatístico
Em alguns estudos há a necessidade de descobrir fatos em um campo em que
o método experimental não se aplica, como por exemplo nas ciências sociais,
já que os vários fatores que afetam o fenômeno em estudo não podem
permanecer constantes enquanto fazemos variar a causa que, naquele
momento, nos interessa.

Pode-se citar, por exemplo, a determinação das causas que definem o preço de
uma mercadoria. Para aplicar o método experimental, seria necessário fazer
variar a quantidade da mercadoria e verificar se tal fato influenciaria o seu
preço. Porém, seria necessário que não houvesse alteração nos outros fatores.
Desta forma, deveria existir, no momento da pesquisa, uma uniformidade dos
salários, o gosto dos consumidores deveria permanecer constante, seria
necessária a fixação do nível geral dos preços das outras necessidades, entre
outros. Porém isso tudo seria praticamente impossível de ocorrer. Nesses
casos, vamos aplicar o método estatístico que é mais adequado.
3. Estatística
É uma parte da Matemática Aplicada que fornece métodos para a coleta,
organização, descrição, análise e interpretação de dados e para utilização dos
mesmos na tomada de decisões.
Os dados expressam por meio de números as observações que se fazem de
elementos com, pelo menos, uma característica comum. De uma forma geral,
as pessoas quando se referem ao termo estatística, o fazem no sentido da
organização e descrição dos dados (estatísticas de acidentes, estatísticas de
jogos ganhos, entre outros), lembrando que existe também a estatística
indutiva que proporciona métodos inferenciais que permitem conclusões que
transcendem os dados obtidos inicialmente. Assim sendo, a análise e
interpretação dos dados estatísticos tornam possível o diagnóstico de uma
empresa, o conhecimento de seus problemas, a formulação de soluções
apropriadas e um planejamento objetivo de ação.
4. Fases do Método Estatístico
O método estatístico é composto das seguintes fases:

4.1 Coleta de dados
A coleta de dados vem após cuidadoso planejamento e a devida determinação
das características mensuráveis do fenômeno que ser quer pesquisar. Ela pode
ser direta ou indireta.
A coleta é direta quando feita sobre elementos informativos de registro
obrigatório (nascimentos, casamentos, importação e exportação de
mercadorias) ou quando os dados são coletados pelo próprio pesquisador
através de inquéritos e questionários, como é o caso de notas de exames, do
censo demográfico, entre outros. Ela pode ser classificada relativamente ao
fator tempo em:
 Continua (registro) – quando feita continuamente, tal como a de
nascimentos e a de frequência dos alunos às aulas;
 Periódica – quando feita em intervalos constantes de tempo, como os
censos de 10 em 10 anos e as avaliações mensais dos alunos;
 Ocasional – quando feita extemporaneamente, a fim de atender a uma
conjuntura ou a uma emergência, como no caso de epidemias que
assolam uma sociedade.
A coleta se diz indireta quando é inferida de elementos conhecidos e/ou do
conhecimento de outros fenômenos relacionados com o fenômeno estudado.
Como exemplo, pode-se citar a pesquisa sobre a frequência dos alunos as
aulas, que é feita através de dados colhidos por uma coleta direta.

4.2 Crítica dos dados
Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de
possíveis falhas e imperfeições, a fim de não incorrer em erros que possam
influir sensivelmente nos resultados. Ela pode ser externa ou interna.
É externa quando visa às causas dos erros por parte do informante, por
distração ou má interpretação das perguntas que lhe foram feitas. E é interna
quando visa observar os elementos originais dos dados de coleta.
4.3 Apuração dos dados
Representa a soma e o processamento dos dados obtidos e a disposição
mediante critérios de classificação.
4.4 Exposição ou apresentação dos dados
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem
ser apresentados sob a forma adequada de tabelas ou gráficos, tornando mais
fácil o exame daquilo que está sendo objeto de tratamento estatístico.
4.5 Análise dos resultados
O objetivo final da Estatística é tirar conclusões sobre o todo a partir de
informações fornecidas por parte representativa do todo. Desta forma, nesta
etapa, é realizada uma análise dos resultados, obtendo conclusões e previsões
dessa análise.
5.0 Variáveis
Cada fenômeno corresponde a um número de possíveis resultados. Por
exemplo, para o fenômeno sexo são dois os possíveis resultados: masculino e
feminino. Para o fenômeno número de filhos há um número de resultados
possíveis expresso através dos números naturais: 0,1,2,3,...,n. Para os
fenômeno estatura há uma situação diferente, pois os resultados podem tomar
um número infinito de valores numéricos dentro de um determinado intervalo.

Assim sendo, pode-se definir variável como sendo o conjunto de possíveis
resultados de um fenômeno.
As variáveis podem ser:
 Qualitativa – quando seus valores são expressos por atributos, como:
sexo, cor dos olhos, entre outros;
 Quantitativa – quando seus valores são expressos em números, como:
salário, idade, nota, entre outros.
A variável quantitativa pode ser: contínua ou discreta. Ela é contínua quando
pode assumir, teoricamente, qualquer valor entre dois limites. E é discreta
quando só pode assumir valores pertencentes a um conjunto enumerável.
Assim, o número de alunos de uma escola pode assumir qualquer um dos
valores do conjunto N = {1,2,3,...50}, mas nunca valores como 3,5 ou 7,58.
Logo é uma variável discreta. Já o peso desses alunos e uma variável continua,
pois um dos alunos pode pesar 55 kg, como 70 kg, ou ainda 88,5 kg.
Designamos as variáveis por letras, em geral, as últimas:
X, y, z.
Por exemplo, sejam 2,4,6,8 e 10, todos os possíveis resultados de um dado
fenômeno. Fazendo uso da letra x para indicar a variável relativa ao fenômeno
considerado, temos:
X {2,4,6,8,10}
6.0 População e Amostra:
Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou
temporal, as observações referentes a uma determinada pesquisa são limitadas
a apenas uma parte da população. A essa parte proveniente da população em
estudo denominamos de amostra. Ou seja, amostra é um subconjunto finito da
população.

7.0 Amostragem
É uma técnica para recolher amostras, que garante, tanto quanto possível, o
acaso na escolha. Onde cada elemento da população passa a ter a mesma
chance de ser escolhido, garantindo à amostra o caráter de representatividade.
Em seguida discutiremos três das principais técnicas de amostragem:7.1 Amostragem casual ou aleatória simples
Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a
seguir, por meio de um dispositivo aleatório qualquer, x números dessa
sequência, os quais corresponderão aos elementos pertencentes a amostra.
7.2 Amostragem proporcional estratificada
Muitas vezes a população se divide em subpopulações, que são os estratos. É
provável que os comportamentos dos estratos sejam heterogêneos e dentro de
cada estrato, um comportamento homogêneo. Esta técnica leva em
consideração e existência de estratos e obtém os elementos da amostra
proporcional ao número de elementos dos mesmos.
7.3 Amostragem Sistemática
Quando os elementos da população já se acham ordenados, não há a
necessidade de construir o sistema de referência. A seleção dos elementos que
constituirão a amostra pode ser feita por um sistema imposto pelo
pesquisador, caracterizando a amostragem sistemática.

Aula 4
1.0 Introdução
O R foi criado originalmente por Ross Ihaka e por Robert Gentleman na
universidade de Auckland, Nova Zelândia, e foi desenvolvido por um esforço
colaborativo de pessoas em vários locais do mundo. O nome R provém em
parte das iniciais dos criadores e também de um jogo figurado com a
linguagem S (da Bell Laboratories, antiga AT&T).

O R é ao mesmo tempo uma linguagem de programação e um ambiente para
computação estatística e gráfica. Trata-se de uma linguagem de programação
especializada em computação com dados. Algumas das suas principais
características são o seu caráter gratuito e a sua disponibilidade para uma
gama bastante variada de sistemas operacionais, tais como UNIX, Linux,
Windows e OS X. Faz parte da filosofia do Projeto GNU e está disponível em
https://www.r-project.org/ , como Software Livre.

Possui as seguintes características, dentre outras:
 Uma manipulação de dados eficaz e facilidade de armazenamento;
 Uma série de operadores para cálculos com arranjos, especialmente
matrizes;
 Uma extensa, coerente e integrada coleção de ferramentas
intermediárias para análise de dados;
 Instalações gráficas para análises de dados;
 Uma bem desenvolvida, simples e eficaz linguagem de programação, a
qual inclui condições, loops, funções recursivas definidas pelo usuário e
instalações de entradas e saídas.

O R também é altamente expansível com o uso dos pacotes, que são
bibliotecas para funções específicas ou áreas de estudo específicas. Um
conjunto de pacotes é incluído com a instalação do software, mas muitos
outros estão disponíveis na rede de distribuição do R.
2.0 Download
Primeiramente, deve-se acessar o sitio www.r-project.org . Em seguida,
clicar no link CRAN localizado à esquerda da página em Download.

Após a atualização da página você será direcionado para a página CRAN
Mirros, escolha o servidor de seu país e da cidade mais próxima que está
acessando.

Em seguida você será direcionado para a página The Comprehensive R
Archive Network. Posteriormente escolha a versão do R de acordo com o
Sistema Operacional de sua preferência. Vamos considerar que a maioria dos
usuários utilizam o Sistema Operacional Windows. Desta forma clique em
Download R for Windows.

Você será direcionado para a página R for Windows, clique em base.

Em seguida clicar em Download R 3.3.1 for Windows.

A seguir selecionar o botão Salvar.

Em seguida localize onde você salvou o arquivo R-3.3.1-win.exe e execute-o.
3.0 Instalação
Para instalar, siga as indicações de instalação ilustradas nas figuras abaixo:

Repare a esta altura que após ter sido selecionado o link para download do R as
páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o

É importante perceber que após ter sido selecionado o link para download do R
as páginas aparecem todas em língua portuguesa. Isto ocorre porque foi
optado por baixar o programa a partir de um CRAN brasileiro. Em seguida
deve-se escolher a pasta onde se quer salvar o programa:
6
programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos
R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão
espetacular que o projeto dispõe na atualidade, ofertando versões do programa em
diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa:

6
programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos
R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão
espetacular que o projeto dispõe na atualidade, ofertando versões do programa em
diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa:

Após o termino da instalação, aparecerá uma janela de finalização do instalador. Nela, clicar
em “Concluir”. A partir daí, o R já pode ser usado.

Observação: As janelas exibidas nesta apostila foram as do Windows XP.

• Pacotes do R

No R existe uma grande diversidade de pacotes. Estes pacotes contêm um conjunto de
funções que permitem ou facilitam a realização das análises estatísticas, além de possuírem ajuda
para suas funções, alguns dos quais com demonstrações de execução.

Ao instalar, apenas alguns pacotes vêm juntos com a instalação do R, os quais são
fundamentais para o funcionamento do programa e que denominamos de módulo ou pacote
básico. Muitos destes pacotes podem servir de base e pré-requisito para o funcionamento de
outros pacotes.

Após o termino da instalação, aparecerá uma janela de finalização do
instalador. Clique em Concluir. A partir deste momento o R já pode ser usado
4.0 Interface
Ao iniciar o R abrirá automaticamente o Console que é a janela onde os
comandos são digitados. Internamente ao Console, se encontra o prompt,
conforme figura abaixo, que é um sinal indicador de que o programa está
pronto para receber comandos.

5.0 Tipos de Dados
Basicamente temos quatro tipos de dados no R: numéricos, caracteres, lógicos
e números complexos. Cada objeto possui dois atributos: tipo (mode) e o
tamanho (length). Essas informações são bastante importantes durante a
manipulação de dados. Veja abaixo alguns exemplos de tipos de dados no R:

6.0 Comandos Básicos
Durante a utilização do software é possível consultar a sintaxe de algum
comando ou obter mais informações sobre determinada função. Para isso o R
conta com o comando help. A sintaxe do comando é a seguinte:

Ao executar o exemplo acima, uma interface do menu de ajuda será executada
mostrando o tópico da função sqrt, que é função matemática para a raiz
quadrada.

6.1 Atribuição de valores
Como todo tipo de programação, é comum que tenhamos que atribuir valores
para algumas variáveis antes de utilizá-las. No Rpodemos fazer uma atribuição
de valores de várias formas, conforme os exemplos abaixo:

Para mostrar o valor armazenado em uma variável, basta digitar a variável na
Console e depois dar Enter. Qualquer valor digitado sem atribuição pode ser
mostrado na tela. O último valor inserido (em uma atribuição ou não) é sempre
armazenado em uma variável especial, denominada .Last.value. Esta variável
pode ser utilizada para realizar operações, mas é preciso tomar cuidado, pois
seu valor está sendo constantemente modificado.
6.2 Comandos Auxiliares
Segue abaixo, uma tabela com os principais comandos que ajudam a manipular
os objetos e a área de trabalho (workspace) que estão sendo utilizados
durante a execução do programa.
Func ̧ão Descric ̧ão
ls() ou
objects()
lista curta de variáveis definidas
ls.str() lista detalhada de variáveis definidas

str(x) ver informações detalhadas de x
rm(x) deletar variável x
rm(x, y) deletar as variáveis x e y
rm(list = ls()) deletar todas as variáveis (limpar a workspace)
class(x) ver que tipo de objeto é x
q() sair do R com a opção de salvar a workspace em
um arquivo (“Name.RData”) e o histórico de
comandos em outro arquivo (“Name.RHistory”)
ctrl + L pressione ctrl+L para limpar a tela da console
(Windows) e option + command + L (OS X)

6.3 Operadores matemáticos
Segue, abaixo, os operadores matemáticos:
x + y , x - y Soma, Subtração
x*y , x/y Multiplicação , Divisão
x**y ou x^y Potência
X%%y Resto da Divisão (Módulo)

Segue, abaixo, os operadores relacionais:
Símbolo Descrição
< Menor
<= Menor ou igual
> Maior
>= Maior ou igual
== Igual
!= Diferente
& AND
| OR
! NOT
TRUE ou 1 Valor booleano verdadeiro (1)
FALSE ou 0 Valor booleano falso (0)

7. Vetores
Vetores são conjuntos de dados unidimensionais. Sua principal utilidade é poder
armazenar diversos dados em forma de lista e aplicar funções e operações
sobre todos os dados pertencentes a determinado vetor com apenas poucos
comandos.
A sintaxe para declarar um vetor é:
vetor = c(a1,a2,a3,...,an)
Exemplos:

Aula 5
1.0 Introdução
As capacidades gráficas são uma componente muito importante e
extremamente versátil do ambiente R. O R consegue plotar desde gráficos
bidimensionais simples até gráficos tridimensionais mais complexos por meio
de comandos simples. Dá-se muita ênfase no R aos gráficos estatísticos, tais
como gráfico de barras, histogramas, gráficos de setores ou de pizza, gráfico
de linhas, dentre outros.
O gráfico de linha constitui uma aplicação do processo de representação das
funções num sistema de coordenadas cartesianas

2.0 Gráfico de Barras
O gráfico de barras é composto por duas linhas ou eixos, um vertical e outro
horizontal. No eixo vertical são construídas as barras que representam a
variação de um fenômeno ou de um processo de acordo com sua intensidade
ou frequência. Essa intensidade é indicada pela altura da barra. No eixo
horizontal especifica-se as categorias da variável. As barras devem sempre
possuir a mesma largura e a distância entre elas deve ser constante.
Vamos construir um gráfico de barras utilizando a tabela abaixo que representa
os tipos de Ensino Fundamental, e a quantidade de professores e de alunos:

Fundamental Professores Alunos
Privada 2250 28790
Estadual 1248 22578
Municipal 875 19345
Federal 37 347

O primeiro passo na construção do gráfico é ter os dados armazenados em
objeto apropriado. No caso de gráfico de barras é necessário que os dados
estejam armazenados em um vetor ou matriz.

Agora vamos colocar um título no gráfico:

Agora vamos colocar nomes nos eixos x e y:

Agora vamos colocar um subtítulo no gráfico, colocando o
argumento sub.

3.0 Gráfico de Pizza
Os gráficos de pizza (ou de setor) são representados por círculos divididos
proporcionalmente de acordo com os dados do fenômeno ou do processo a ser
representado. Os valores são expressos em números ou em percentuais (%). É
empregado sempre que desejamos ressaltar a participação do dado no total
Vamos utilizar os dados da tabela abaixo referentes a quantidade de veículos
em determinada cidade:

Tipo de veículo Frota
Automóveis 13377
Motocicletas 18754
Caminhonetes 8058
Motonetas 3201
Ônibus 2154
Caminhões 1895

O primeiro passo na construção do gráfico é ter os dados armazenados em
objeto apropriado nomeando cada posição do vetor.

Agora vamos colocar um título no gráfico:

4.0 Histograma
Um histograma divide uma série de dados em diferentes classes igualmente
espaçadas e mostra a frequência de valores em cada classe. Em um gráfico, o
histograma mostra diferentes barras, com bases iguais e amplitudes relativas
às frequências dos dados em cada classe. O eixo das ordenadas, portanto,
mostra a frequência relativa de cada classe e o eixo das abcissas os valores e
intervalos das classes. Abaixo é apresentada a sintaxe do comando e em
seguida será apresentado um exemplo.

Observe que a coluna de 2 a 3 do histograma indica que há oito elementos
nessa classe. Isso ocorre porque o padrão do comando hist() inclui os
elementos que estão à direita. Além disso, devido ao argumento
include.lowest, que por padrão também é True, inclui o último valor do vetor.
Outro argumento importante é o breaks, que define os intervalos a serem
usados no eixo das abscissas do histograma.

Vamos construir um histograma com os tempos coletados das voltas dos carros
em um determinado circuito, onde o argumento right significa que ele é
fechado à direita e col representa a cor do gráfico.

Aula 6
1.0 Introdução
A estatística descritiva ocupa-se da organização, apresentação e sintetização
dos dados. Discutiremos os componentes da estatística descritiva, bem como
os comandos utilizados no ambiente R. Apresentaremos exemplos,
demonstrando alguns dos conceitos e comandos discutidos.
2.0 Medidas de Posição
São as estatísticas que representam uma série de dados orientando-nos quanto
à posição da distribuição em relação ao eixo horizontal (eixo x) do gráfico da
curva de frequência. As medidas de posição mais importantes são as medidas
de tendência central, no qual se verifica uma tendência dos dados observados
a se agruparem em torno dos valores centrais. Discutiremos então, as medidas
de tendência central mais utilizadas.
2.1 Média Aritmética
A média aritmética é igual ao quociente entre a soma dos valores do conjunto e
o número total dos valores.

Onde Xi são os dados amostrais e n o número de valores amostrais. O
comando para calcularmos a média aritmética segue abaixo, juntamente com
um exemplo:

2.2 Mediana
A mediana de um conjunto de valores, dispostos segundo uma ordem
(crescente ou decrescente) é o valor situado de tal forma no conjunto que o
separa em dois subconjuntos de mesmo número de elementos. Existe um
método prático para o cálculo da mediana. Descritos abaixo:
1. Se a série dada tiver número ímpar de termos - o valor mediano será o
termo de ordem dado pela fórmula:

Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5}
1. Ordenar a série: {0, 0, 1, 1, 2, 2, 3, 4, 5};
2. n = 9 elementos.
3. Pela fórmula: (n+1)/2 é dado por: (9+1)/2 = 5;4. Logo, o quinto elemento da série ordenada será a mediana.
Este elemento é o número 2.
2. Se a série dada tiver número par de termos - o valor
mediano será o termo de ordem dado pela fórmula:

onde (n/2) e (n/2 + 1) são termos de ordem e devem ser
substituídos pelo seu valor correspondente.
Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }
1. Ordenar a série {0,0,1,1,2,3,3,4,5,6};
2. n = 10 elementos;
3. Pela fórmula [(10/2) + (10/2 + 1)]/2 resultará na realidade
(5o termo + 6o termo)/2. Estes termos são 2 e 3,
respectivamente;
4. Logo a mediana será (2+3)/ 2, ou seja, Md = 2,5.
Observações:
 Quando o número de elementos da série estatística for ímpar, haverá
coincidência da mediana com um dos elementos da série.
 Quando o número de elementos da série estatística for par, nunca
haverá coincidência da mediana com um dos elementos da série. A
mediana será sempre a média aritmética dos dois elementos centrais da
série.

2.3 Moda
É o valor que ocorre com maior frequência em uma série de valores. A moda é
facilmente reconhecida, basta, de acordo com definição, procurar o valor que
mais se repete.
Observação: há séries em que não existe valor modal, isto é, série nas quais
nenhum valor apareça mais vezes que os outros. Nestes casos dizemos que a
série é amodal. Porém, em outros casos, pode haver dois ou mais valores de
concentração. Dizemos, então, que a série tem dois valores (bimodal) ou mais.
Existem duas formas que podem ser utilizadas para encontrar a moda de uma
série de dados. São elas:
 table(): este comando ordena em ordem crescente os dados e indica o
número de vezes em que o elemento se repete na série de dados
apresentada. É utilizado para encontrar a moda em pequenas amostras.
 subset(): em oposição ao item anterior esta função é utilizada quando o
tamanho da amostra é grande.
 O comando para a obtenção da moda é dado abaixo:

Observe que ambos os comandos indicam qual é o valor da série de dados que
mais se repete. No exemplo, este valor é o dado 10, com três ocorrências.
2.4. Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes
iguais. Precisamos, portanto, de três quartis (Q1, Q2 e Q3) para dividir a série
em quatro partes iguais. O quartil Q2 sempre será igual à mediana da série.

Exemplo: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15}
 Inicialmente se deve ordenar em ordem crescente os valores. Isto
resulta em: {2, 5, 6, 9, 10, 13, 15}.
 O valor que divide a série acima em duas partes iguais é o elemento 9,
logo a mediana e o quartil 2 (Q2) é 9.
 Temos agora {2, 5, 6, 9} e {9, 10, 13, 15}, como sendo os dois grupos
contendo 50% das informações sobre os dados da série. Para o cálculo
do primeiro e do terceiro quartis, basta calcular as medianas dos dois
grupos resultantes.
 Logo em {2,5,6,9} a mediana é 5.5, ou seja, o quartil Q1 é 5.5 e em
{9,10, 13, 15} a mediana é 11.5, ou seja, o quartil Q3 é 11.5.
Podemos encontrar os quartis através do comando summary(dados). Este
comando calcula e apresenta o resultado de outros comandos. Desta forma, a
função summary é capaz de resumir vários tipos de objetos em uma única
função. Dentre esses objetos encontram-se o primeiro e o terceiro quartil,
sendo que o segundo quartil é dado indiretamente através da mediana.

Calculando o exemplo acima apresentado através do R:

Uma distribuição de frequência simétrica apresenta como característica principal
o fato de as três medidas de tendência central mais usadas (moda, media
aritmética e mediana), serem iguais.
Aula 7
1.0 Introdução
Apesar do cálculo das probabilidades pertencer ao campo da Matemática, o
seu estudo se justifica pelo fato da maioria dos fenômenos de que trata a
Estatística ser de natureza aleatória ou probabilística. Desta forma, o
conhecimento dos aspectos fundamentais do calculo de probabilidades é uma
necessidade essencial para o estudo da Estatística.
A probabilidade é um número atribuído a cada membro de uma coleção de
eventos a partir de um experimento aleatório. Ela é normalmente quantificada
de maneira a representar o grau de crença que determinado evento possa
ocorrer. Por exemplo, pode- se afirmar que a probabilidade de chover no fim
de semana é de 40%. Quando se quantifica determinado acontecimento,
atribui-se um valor entre 0 e 1 ou em porcentagem. Quando a probabilidade é
igual a zero, o evento não ocorrerá. Já quando a probabilidade é igual a um,
ele certamente ocorrerá.

2.0 Experimento Aleatório
Em quase tudo, em maior ou menor grau, lidamos com o acaso. Assim, da
seguinte afirmação: é provável que o meu time ganhe a partida de hoje,
pode resultar nos seguintes resultados:
 Que, apesar do favoritismo, ele perca;
 Que, comprove o favoritismo e ganhe;
 Que empate.
Desta forma, o resultado final depende do acaso. Fenômenos como esse são
chamados de fenômenos aleatórios ou experimentos aleatórios, que são
aqueles que, mesmo repetidos várias vezes sob condições semelhantes,
apresentam resultados imprevisíveis.
3.0 Espaço Amostral
A cada experimento correspondem, em geral, vários resultados possíveis.
Assim, ao lançarmos um moeda, há dois resultados possíveis: ocorrer cara ou
coroa. Já ao lançarmos um dado há seis resultados possíveis: 1,2,3,4,5 ou 6.
Ao conjunto desses resultados possíveis de um experimento aleatório,
definimos com o nome de espaço amostral ou conjunto universo, representado
por S.
Os dois experimentos citados anteriormente têm os seguintes espaços
amostrais:
 Lançamento de uma moeda: S = {Ca,Co};
 Lançamento de um dado: S = {1,2,3,4,5,6}.
Do mesmo modo, como em dois lançamentos sucessivos de uma moeda
podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa no
segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois
lançamentos. Assim sendo, o espaço amostral é:
 S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) }.

Cada um dos elementos de S que corresponde a um resultado recebe o
nome de ponto amostral. Assim sendo:
 2 € S => 2 é um ponto amostral de S.
4.0 Eventos
Evento é qualquer subconjunto do espaço amostral S de um experimento
aleatório.
Assim, qualquer que seja E, se E S, então E é um evento de S.
Se E = S, E um evento certo.
Se E S e E um conjunto unitário, E é chamado evento elementar.
Se E = (conjunto vazio), E é chamado evento impossível.
5.0 Probabilidade
Dado um experimento aleatório, sendo S o seu espaço amostral, vamos admitir
que todos os elementos de S tenham a mesma chance de acontecer, ou seja,
que S é um conjunto equiprovável.
Chama-se de probabilidade de um evento A (A S), o número real P(A),
tal que:

onde:
n(A) é o número de elementos de A;
n(S) é o número de elementos de S.
Vamos ver um exemplo:
1. Considerando o lançamento de uma moeda e o evento A
obter cara, temos:
S = {Ca,Co} => n(S) = 2;
A = {Ca} = > n(A) = 1.
Logo:

O resultado acima nos permite afirmar que, ao lançarmos uma moeda não
viciada, temos 50% de chance de que apareça cara na face superior.
6.0 Eventos Complementares
Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que
ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso),
para um mesmo evento existe sempre a relação:
p + q = 1 => q = 1 – p.Assim, se a probabilidade de se realizar um evento é , a probabilidade de
que ele não ocorra é:
q = 1 – p => q = 1 - =
Sabemos que a probabilidade de tirar o 4 no lançamento de um dado é .
Logo a probabilidade de não tirar o 4 no lançamento de uma dado é:
q = 1 - =
7.0 Eventos Independentes
Dois eventos são independentes quando a realização ou a não realização de
um dos eventos não afeta a probabilidade da realização do outro evento e
vice-versa.
Por exemplo, quando lançamos dois dados, o resultado obtido em um deles
independe do resultado obtido no outro.
Se dois eventos são independentes, a probabilidade de que se realizem
simultaneamente é igual ao produto das probabilidades de realização dos dois
eventos.
Assim, sendo a probabilidade de realização do primeiro evento e a
probabilidade de realização do segundo evento, a probabilidade de que tais
eventos se realizem simultaneamente é dada por:

p = x

Exemplo:
Quando lançamos dois dados, a probabilidade de obtermos 1 no primeiro dado
é:

A probabilidade de obtermos 5 no segundo dado é:

Logo, a probabilidade de obtermos, simultaneamente, 1 no
primeiro e 5 no segundo é:
p = x =
8.0 Eventos Mutuamente Exclusivos
Dois ou mais eventos são mutuamente exclusivos quando a realização de um
exclui a realização do(s) outro(s).
Assim, no lançamento de uma moeda, o evento tirar cara e o evento tirar
coroa são mutuamente exclusivos, já que, ao realizar um deles, o outro não se
realiza.
Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou
outro se realize é igual a soma das probabilidades de que cada um deles se
realize:
p = +
Exemplo:
Quando lançamos um dado, a probabilidade de se tirar o 1 ou 3 é:
p = + = =

9.0 Variável aleatória
Considere um espaço amostral S e que a cada ponto amostral seja atribuído
um número. Fica, então, definida uma função chamada variável aleatória,
indicada por uma maiúscula, sendo seus valores indicados por letras
minúsculas.
Assim, se o espaço amostral relativo ao lançamento simultâneo de duas
moedas é S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) } e se X representa o
número de caras que aparecem, a cada ponto amostral pode-se associar um
número X, de acordo com a tabela abaixo:
Ponto Amostral X
(Ca,Ca) 2
(Ca,Co) 1
(Co,Ca) 1
(Co,Co) 0

10.0 Distribuição de Probabilidade
Considere a distribuição de frequências relativa ao número de acidentes de
carros diários em um estacionamento:
Número de Acidentes Frequências
0 22
1 5
2 2
3 1
= 30

Em um dia, a probabilidade de:
 não ocorrer acidente é:
= 0,73

 ocorrer um acidente é:
= 0,17
 ocorrem dois acidentes é:
= 0,07
 ocorrem três acidentes é:
= 0,03
Desta forma, pode-se escrever a tabela de distribuição de probabilidades:

Número de
Acidentes
Probabilidades
0 0,73
1 0,17
2 0,07
3 0,03
= 1,00
Aula 8
1.0 Introdução
O R possui uma ferramenta de programação que permite a codificação de
pequenos programas. Um programa é a codificação de um algoritmo em uma
linguagem de programação, neste caso a linguagem R. A linguagem R é
composta por um conjunto de instruções que são escritas através de um
conjunto de códigos. Este conjunto de códigos possui regras de estruturação
lógica e sintática própria.
2.0 Definindo Funções
O R permite que o programador possa definir novas funções que poderão ser
utilizadas da mesma forma que as pré-definidas no R. Esta possibilidade torna
o sistema R num sistema bem mais flexível e poderoso.

O tipo function é um dos tipos de objetos do R podendo ser definido da
mesma forma que os outros objetos, usando a atribuição. Para a definição de
uma nova função usa-se a palavra chave function.
Veja um exemplo, abaixo, que define uma função para calcular o quadrado de
um número:

No código da função volesfera, abaixo, a linha iniciada com o símbolo #
representa comentários do programador, i.e. linhas que não são interpretadas
pelo R e que apenas servem para melhorar a legibilidade da definição de
funções. Note que o resultado de uma função é definido pela expressão dada
na última linha da sua definição (vol). Segue exemplo de uma função para o
cálculo de uma esfera.

3.0 Estrutura Seleção
A estrutura if permite realizar um (ou vários) comandos de forma condicional.
Assim, se uma dada condição for verdadeira realiza-se um conjunto de
operações; se esta for falsa os comandos serão outros (ou nenhuns). A sua
sintaxe é:

if (condição)
instrução ou bloco de instruções
else
instrução ou bloco de instruções

Se tivermos mais do que um comando, quer no caso verdadeiro, quer no falso
podemos colocar um bloco de instruções. Estes são conjuntos de instruções
separados por ; ou mudança de linha e delimitados por { }.
Como exemplo da utilização da função veja-se a definição de uma função que
retorna o menor de dois valores numéricos dados como argumentos:

4.0 Estrutura de Repetição
A linguagem de programação do R permite que sejam utilizadas estruturas de
repetição, quer seja como linha de comando ou como a definição de novas
funções. Estas permitem definir uma operação (ou um bloco de operações)
que são repetidas mais do que uma vez.
A estrutura for permite realizar uma operação (ou bloco de operações) um
determinado número (fixo) de vezes. A sua sintaxe é:

for (variável in expressão)
instrução
ou

for (variável in expressão)
{
bloco de instruções
}

Segue, abaixo, um exemplo da utilização da instrução for na linha de
comandos:

Por outro lado, a instrução for é especialmente utilizada ao nível da
definição de novas funções. A função seguinte efetua a soma dos elementos
de um vetor:

Uma forma mais simples de escrever o código é:

Outra estrutura de repetição que pode ser usada é o comando while, que
permite realizar as instruções um número variável de iterações.

Essa possibilidade depende de uma condição que pode tomar o valor
verdadeiro ou falso, à semelhança do que acontece com as instruções
condicionais. A instrução ou o bloco de instruções é realizado enquanto a
condição se mantiver verdadeira. É importante que o bloco de instruções
deverá, em algum momento, tornar a condição falsa de forma a que o ciclo
termine. A sua sintaxe é:

while (condição)
instrução

while (condição)
{
bloco de instruções
}
Veja um exemplo de utilização da estrutura while. Neste caso, um vetor é
percorrido no sentido de se descobrir se um determinado valor existe ou não
no vetor. Quando o valor é descoberto o ciclo while é interrompido. Para evitar
que o ciclo se torne infinito, o ciclo termina quando se chega ao final do vetor.

É importante perceber que o R trabalha muito com vetores, isso leva a que
muitas operações se realizem naturalmente sobre estas estruturas sem
necessidade de estruturas de repetição. Porém é essencial conhecermos as
estruturas do ambiente R.
Bibliografia basica:
 DAVENPORT, Thomas H. Big Data No Trabalho - Derrubando Mitos e
Descobrindo Oportunidades. Editora Campus.
 MAYER-SCHONBERGER, Viktor; KENNETH, Cukier. Big Data - Como
Extrair Volume, Variedade, Velocidade e Valor da Avalanche de

Entrodução ciclo de vida

ESTÁCIO

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Metodologia Científica

Continue navegando

Outros materiais