Buscar

Entrodução ciclo de vida

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

CIÊNCIA DE DADOS BIG DATA ANALYTICS .......................................... 4 
Aula 1 .......................................................................................................... 4 
Big Data: Uma Visão Geral ............................................................................ 4 
Aula 2 ........................................................................................................ 13 
Aula 3 .................................................................................................. 28 
1. Introdução ............................................................................................. 28 
2. O método Estatístico ....................................................................... 30 
2.1 O Método Científico .............................................................................. 30 
2.1.1 Método Experimental ......................................................................... 30 
2.1.2 Método Estatístico .............................................................................. 30 
3. Estatística .............................................................................................. 31 
4. Fases do Método Estatístico .................................................................... 31 
4.1 Coleta de Dados ................................................................................... 32 
4.2 Crítica dos Dados .................................................................................. 33 
4.3 Apuração dos Dados ............................................................................. 33 
4.4 Exposição ou Apresentação dos Dados ................................................... 33 
4.5 Análise dos Resultados .......................................................................... 33 
5.0 Variáveis .............................................................................................. 33 
6.0 População e Amostra: ........................................................................... 34 
7.0 Amostragem ......................................................................................... 35 
7.1 Amostragem Casual ou Aleatória Simples ............................................... 35 
7.2 Amostragem Proporcional Estratificada .................................................. 35 
7.3 Amostragem Sistemática ....................................................................... 35 
Aula 4 .................................................................................................. 36 
1.0 Introdução ........................................................................................... 36 
2.0 Download ............................................................................................. 38 
3.0 Instalação ............................................................................................ 41 
4.0 Interface .............................................................................................. 44 
5.0 Tipos de Dados..................................................................................... 45 
6.0 Comandos Básicos ................................................................................ 46 
6.1 Atribuição de Valores ............................................................................ 47 
6.2 Comandos Auxiliares ............................................................................. 47 
6.3 Operadores Matemáticos ....................................................................... 48 
7. Vetores .................................................................................................. 49 
Aula 5 .................................................................................................. 50 
1.0 Introdução ........................................................................................... 50 
2.0 Gráfico de Barras .................................................................................. 51 
3.0 Gráfico de Pizza .................................................................................... 54 
4.0 Histograma .......................................................................................... 56 
Aula 6 .................................................................................................. 58 
1.0 Introdução ........................................................................................... 58 
2.0 Medidas de Posição............................................................................... 58 
2.1 Média Aritmética 

 .............................................................................. 58 
2.2 Mediana ............................................................................................... 59 
2.3 Moda ................................................................................................... 61 
2.4. Quartis ................................................................................................ 62 
Aula 7 .................................................................................................. 63 
 
 
 
1.0 Introdução ........................................................................................... 63 
2.0 Experimento Aleatório ........................................................................... 64 
3.0 Espaço Amostral ................................................................................... 64 
4.0 Eventos ................................................................................................ 65 
5.0 Probabilidade ....................................................................................... 65 
6.0 Eventos Complementares ...................................................................... 66 
7.0 Eventos Independentes ......................................................................... 66 
8.0 Eventos Mutuamente Exclusivos ............................................................ 67 
9.0 Variável Aleatória .................................................................................. 68 
10.0 Distribuição de Probabilidade ............................................................... 68 
Aula 8 .................................................................................................. 69 
1.0 Introdução ........................................................................................... 69 
2.0 Definindo Funções ................................................................................ 69 
3.0 Estrutura Seleção ................................................................................. 71 
4.0 Estrutura de Repetição .......................................................................... 72 
Bibliografia Básica: ..................................................................................... 75 
Bibliografia Complementar: ......................................................................... 75 
 
 
 
CIÊNCIA DE DADOS BIG DATA ANALYTICS 
Aula 1 
BIG DATA: UMA VISAO GERAL 
Edgar Gurgel 
edgargurgel@gmail.com 
Na década de 60 e 70 era usual guardar informações em diários, livros 
ecadernetas, por períodos de tempos curtos e médios. Pequenos pedações de 
papéis eram utilizados no comércio para registrar as vendas realizadas 
diariamente. Porém, nos dias atuais, já não é possível gerenciar uma 
Organização que não esteja informatizada ou uma indústria automatizada, 
devido a grande quantidade de dados e da velocidade com que as informações 
são geradas. Atualmente lidamos com informações que são geradas 
ininterruptamente pelas mais diversas formas e em imensa quantidade, como 
em aplicações científicas e de engenharias, redes sociais, redes de sensores, 
dados médicos e biológicos, transações de comércio eletrônico e financeiro, 
entre inúmeras outras. Em muitas áreas da ciência, os avanços na tecnologia 
estão resultando na geração de grandes massas de dados, de uma forma cadavez mais rápida. 
 
 
 
 É nesse contexto que houve a necessidade de tratar a grande quantidade de 
informações geradas. O termo Big Data não é um termo novo, ele é mais 
antigo do que realmente imaginamos, pois as áreas de física e de ciências 
biológicas já tratam há anos com a questão da manipulação, armazenamento e 
uso de grandes massas de dados. O projeto genoma, por exemplo, levou 
quase uma década para o sequenciamento de três bilhões de pares-base. Com 
o uso de novas tecnologias, hoje levamos um dia para sequenciar a mesma 
quantidade de pares-base. 
 Outro bom exemplo são os projetos da NASA para o estudo do Universo. O 
termo Big Data foi introduzido em 1990 pela NASA para descrever grandes 
conjuntos de dados que desafiam o processamento computacional, sendo difícil 
de colocar esse termo em prática devido a restrições técnicas. Nessa época, 
ainda não existiam os dados de dinâmica social, não se falava em rastros 
digitais nem em internet das coisas. Os cientistas lidavam com os dados 
gerados nas pesquisas específicas do seu domínio e que eram livremente 
compartilhadas, o que gerava conhecimentos e novos dados de forma 
exponencial. Nos dias atuais com a evolução do processamento e 
armazenamento, e com a redução de custos, o conceito de Big Data 
popularizou-se para ser aplicado nas mais diversas áreas do conhecimento. 
 O termo Big Data é bem amplo e ainda não existe um consenso em sua 
definição, desta forma encontramos várias definições na literatura. Por 
exemplo, podemos definir como sendo um termo usado para descrever o 
conjunto de dados cuja captura, armazenamento, distribuição e análise 
requerem métodos e tecnologias avançadas. Pode ainda ser definido como o 
processamento (eficiente e escalável) analítico de grande volumes de dados 
complexos produzidos por várias aplicações. 
Segue abaixo uma tabela com algumas definições do termo Big Data: 
 
 
 
DEMIRKAN, et. 
al. Decision 
Support Systems 
Há o desafio de gerenciar grandes quantidades de dados (Big 
Data), que está ficando cada vez maior por causa do 
armazenamento mais barato e evolução dos dados digitais e 
dispositivos de coleta de informações, como telefones 
celulares, laptops e sensores. 
MANYKA, J.; et. 
al. Mckinsey 
Global Institute 
Big Data refere-se a conjuntos de dados cujo tamanho é além 
da capacidade de ferramentas de software de banco de dados 
típicos para capturar, armazenar, gerenciar e analisar. 
Gartner Group 
(consultoria de 
pesquisa de 
mercado na área 
de TI) 2012 
Big Data, em geral, é definido como ativos de alto volume, 
velocidade e variedade de informação que exigem custo-
benefício, de formas inovadoras de processamento de 
informações para maior visibilidade e tomada de decisão. 
Internacional 
Data Corporation 
As tecnologias de Big Data descrevem uma nova geração de 
tecnologias e arquiteturas projetadas para extrair 
economicamente o valor de volumes muito grandes e de uma 
grande variedade de dados, permitindo alta velocidade de 
captura, descoberta e/ou análise. 
INTEL, 2013 
A princípio, pode-se definir o conceito de Big Data como sendo 
um conjunto de dados extremamente amplos e que, por este 
motivo, necessitam de ferramentas especialmente preparadas 
 
 
 
para lidar com grandes volumes, de forma que toda e 
qualquer informação processada por esses meios possa ser 
encontrada, analisada e aproveitada em tempo hábil: “O valor 
real do Big Data está no insight que ele produz quando 
analisado – buscando padrões, derivando significado, 
tomando decisões e, por fim, respondendo ao mundo com 
inteligência. 
De acordo com o relatório fornecido pelo IDC (International Data Corporation), 
em 2003 todo o volume de dados gerado e armazenado no mundo inteiro foi 
inferior a 1.8 Zettabytes. Em apenas dois dias no ano de 2011 o volume de 
dados gerado foi superior a 1.8 Zettabytes. A tendência é de aumentar o 
volume de bancos de dados corporativos em 40% a cada ano. 
 
 
 
 
 
Segundo os resultados do 7o. Estudo EMC Digital Universe, realizado pela EMC 
Corporation, devido, em parte, a Internet das Coisas, o tamanho do Universo 
Digital está dobrando a cada dois anos e se multiplicará entre 2013 e 2020 – 
de 4.4 zettabytes para 44 zettabytes ou 44 trilhoes de gigabytes. 
 
Veja, abaixo, a quantidade de dados que são gerados diariamente na internet. 
 
 
 
 
A nova abordagem para o tratamento de grandes quantidades de dados foi 
primeiramente definida por Doug Laney, em 2001, no seu artigo intitulado 3D 
Data Management Controlling Data Volume, Velocity and Variety, quando ele 
definiu o termo Big Data para 3V’s: 
 Volume - Organizações coletam dados de uma grande variedade de 
fontes, incluindo transações comerciais, redes sociais e informações de 
sensores ou dados transmitidos de máquina a máquina. Anteriormente, 
armazenar tamanha quantidade de informações era um grande problema 
– mas novas tecnologias têm possibilitado tal atividade; 
 Velocidade - Os dados fluem em uma velocidade sem precedentes e 
devem ser tratados em tempo hábil. Tags de Radio frequency 
identification (RFID), sensores, celulares e contadores inteligentes estão 
impulsionando a necessidade de lidar com imensas quantidades de 
dados em tempo real; 
 Variedade - Os dados são gerados em todos os tipos de formatos - de 
dados estruturados, dados numéricos em bancos de dados tradicionais, 
até documentos de texto não estruturados, e-mails, vídeos, áudios, 
dados de cotações da bolsa e transações financeiras. 
 
 
 
Além dessas dimensões, os Professores Hans Buhl e Maximillian Roglinger, da 
Universidade de Augsburg, na Alemanha, e Julia Heidemann, da empresa 
McKinsey da Alemanha, acrescentaram mais uma dimensão (veracidade) e 
posteriormente mais uma foi adicionada: 
 Veracidade – considera a inconsistência no fluxo de dados. O 
carregamento de dados torna-se um desafio a ser mantido, 
especialmente em redes sociais com o incremento no uso que geram 
picos de carregamento de dados com a ocorrência de certos eventos. 
Esta dimensão inclui principalmente dois aspectos: consistência dos 
dados que pode ser definida por sua confiabilidade estatística e a 
confiabilidade dos dados definida pelo número de fatores incluindo a 
origem dos dados, métodos de coleta, processamento e infraestrutura 
confiável. Além disso, garante que o dado usado é confiável, autêntico e 
protegido de acessos e modificações não autorizadas; 
 Valor - é uma importante característica de um dado que é definida pelo 
valor agregado que o dado coletado pode trazer para um processo, 
atividade ou hipótese. Por exemplo, no intuito de obter informações 
baseadas no histórico de dados armazenados, aplicações de software 
podem executar certas consultas numa determinada base de dados e 
assim podem deduzir importantes resultados. Esses resultados podem 
auxiliar os usuários a encontrarem tendências de negócio, permitindo a 
possibilidade de alteração nas suas estratégias. Assim, pode-se perceber 
que existe um grande valor contido nos dados armazenados e que pode 
levar a muitas vantagens para a indústria e comércio, dentre outros 
ramos. 
 
 
 
 
Big Data provê grande potencial no processo decisório baseado em dados, 
podendo trazer benefícios como nova visão de negócio, habilidade de medir e 
monitorar fatores influentes no negócio, descoberta de novas oportunidades de 
vendas dentre outros benefícios. Big Data é utilizada nas diferentes áreas de 
conhecimento, como por exemplo, Ciência, Telecomunicação, Indústria, 
Negócios, Planejamento Urbano, Mídia social, Saúde, entreoutras. Dessa 
forma, podemos utilizá-la para conhecer o comportamento do consumidor a, 
por exemplo, melhorar o desempenho de um atleta, analisando padrões 
encontrados em cada partida para que no decorrer da carreira o nível de 
excelência aumente cada vez mais. Na saúde, tornou-se muito mais rápido o 
acesso a dados comparativos entre as doenças: uma questão essencial, nos 
dias de hoje, é poder analisar e comparar resultados de exames de pessoas 
com sintomas semelhantes, como aquelas diagnosticadas com câncer, com 
exames de outros pacientes com a mesma doença, para chegar a um 
diagnóstico mais preciso e rápido, tendo como consequência melhor precisão 
no tratamento. São questões como essas que há alguns anos poderiam ficar 
sem resposta, ou, cujas informações levariam muito tempo para poder ser 
reunidas, tempo que um paciente não tem. Hoje o cenário foi modificado 
graças ao Big Data, podendo, assim, não só obter respostas rápidas e precisas, 
mas mostrar fatos e resultados. 
Pode-se citar, por exemplo, os seguintes setores na utilização do Big Data: 
 
 
 
 
 Bancos - com uma vasta quantidades de informações fluindo a partir de 
inúmeras fontes, os bancos são desafiados a encontrar maneiras 
inovadoras de gerenciar essa grande massa de dados. Ao mesmo tempo 
em que a ferramenta é importante para compreender os clientes e 
aumentar sua satisfação, é igualmente importante para minimizar os 
riscos e fraudes enquanto mantém uma conformidade regulatória; 
 Ensino - instituições com uma visão orientada a dados podem ter um 
impacto significativo sobre os sistemas escolares, estudantes e 
currículos. Analisando grandes massas de dados, elas podem identificar 
alunos em risco, assegurar que os estudantes estão progredindo de 
forma adequada, e podem implementar um sistema melhor de avaliação 
e apoio aos docentes e diretores; 
 Governo – a partir do momento que as organizações do governo são 
capazes de aproveitar e aplicar análises massiva de dados, elas avançam 
significativamente quando se trata de gerenciar serviços públicos, lidar 
com o congestionamento ou prevenir a criminalidade. Porém, os 
governos também devem discutir as questões de transparência e 
privacidade das informações; 
 Saúde – nesta área tudo necessita ser feito rapidamente, com precisão 
e, em alguns casos, com suficiente transparência para satisfazer as 
regulamentações rigorosas desta área rigorosa. Quando grandes massas 
de dados são geridas de forma eficaz, os responsáveis pela saúde podem 
descobrir insights escondidos que melhoram o atendimento aos 
pacientes; 
 
 
 
 Manufatura-os fabricantes podem utilizar o poder da análise de 
grandes massas de dados para aumentar a qualidade e a produção, 
minimizando o desperdício, fundamentais no mercado altamente 
competitivo de hoje. Mais e mais fabricantes estão trabalhando em uma 
cultura baseada em análise de dados, o que significa que eles podem 
resolver problemas mais rapidamente e tomar decisões de negócios mais 
ágeis; 
 Varejo – criar e manter um bom relacionamento com o cliente é 
fundamental para o setor de varejo, e a melhor forma de fazer isso é 
analisando grandes massas de dados. Os varejistas precisam saber a 
melhor maneira de vender aos clientes, a maneira mais eficaz de lidar 
com transações, e a maneira mais estratégica de aumentar o número de 
negócios 
Aula 2 
Com o crescente volume e a demanda para extrair informações sobre esses 
dados, surge a necessidade de utilizarmos as tecnologias predecessoras do Big 
Data e as que dão suporte ao uso desse novo conceito. Serão abordadas e 
discutidas as tecnologias de apoio, como Data Warehouse, Data Mart, Data 
Mining e BI. 
De acordo com o Gartner, um Data Warehouse é uma arquitetura de 
armazenamento que tem como objetivo guardar dados extraídos a partir de 
sistemas transacionais, de sistemas operacionais e de fontes externas. Ele 
combina estes dados em uma forma agregada, resumida e adequada para 
análise de dados e geração de relatórios Organizacionais, com objetivo de 
atender as necessidades do negócio. 
 
 
 
 
Os Data Marts são Data Warehouse orientados a departamentos, como 
departamentos de uma organização (comercial, administrativo, financeiro, 
entre outros), em que cada departamento poderá ser considerado um Data 
Mart individual. Depois de um período estipulado um Data Mart, poderá 
constituir ou formar um Data Warehouse, neste caso, pode-se dizer que um 
Data Mart é um subconjunto de um Data Warehouse. 
 
 
 
 
Um Data Warehouse após ser implantado por vários Data Marts passa a realizar 
o caminho inverso de um Data Mart, alimentado, assim, os Data Marts 
separadamente. Com isso, pode-se dizer que os Data Marts surgem de duas 
formas: Top-down e Bottom-up. 
Um Data Mart surge de forma Top-down quando uma organização cria um Data 
Warehouse e depois o segmenta para os departamentos, ou seja, divide o Data 
Warehouse em áreas menores, formando, assim, pequenos bancos de dados 
orientados por departamento e/ou assunto. O Data Mart surge de forma 
Bottom-up quando a situação é inversa à Top-down, quando por estratégia de 
negócio se criam pequenos bancos de dados e depois os unem para formar 
uma área inteira, um Data Warehouse. Assim que os resultados são 
alcançados, esses pequenos Data Marts são integrados e formam um Data 
Warehouse. 
 
 
 
 
 
Data mining refere-se a extrair ou minerar conhecimento de grandes 
quantidades de dados. A mineração de ouro das rochas ou da areia é 
referenciada como a mineração de ouro, em vez de mineração de rocha ou de 
areia. Desta forma, data mining deveria ter sido nomeado de uma forma mais 
apropriada como knowledge mining from data, que infelizmente é um 
termo longo. Knowledge mining, um termo mais curto, pode não refletir a 
ênfase na mineração de grandes quantidades de dados. Contudo, mining é 
um termo nítido que caracteriza o processo de encontrar um pequeno conjunto 
de preciosas pepitas a partir de uma grande quantidade de dados brutos 
(dados recolhidos e estocados da mesma forma que foram adquiridos, sem 
terem sofrido o menor tratamento). 
A proposta de uso de um Data Mining é que, uma vez definido o problema, os 
dados e a ferramenta de análise, o Data Mining pesquisa, automaticamente, 
em uma massa de dados, anomalias e prováveis relacionamentos, encontrando 
possíveis problemas que não foram identificados anteriormente pelos usuários. 
 
 
Muitas pessoas tratam data mining como um sinônimo para outro termo 
popular utilizado, Knowledge Discovery in Databases (KDD). 
Alternativamente, outros veem data mining como simplesmente um passo 
essencial no processo de descoberta de conhecimento em banco de dados. 
 
 
 
Entretanto, vamos entender que a descoberta de conhecimento em Bancos de 
Dados ou KDD consiste em muito mais do que apenas a mineração de dados. A 
Descoberta de Conhecimento em Banco de Dados é um procedimento não 
trivial, automatizado e que visa buscar em grande bases de dados, novos 
conhecimentos e novos padrões de relacionamento de dados, que possuem 
algum tipo de produtividade e informação, caso os resultados sejam 
apresentados para um especialista da área. 
O KDD é composto por seis etapas: seleção de dados, limpeza de dados, 
enriquecimento, transformação ou codificação dos dados, mineração de dados 
e apresentação dos resultados. Podem existir algumas variações destes 
conceitos, apontadas por cada autor, por exemplo Fayyad (1996) determina 
que a divisão seja entre 5, onde as etapas de limpeza e enriquecimento dos 
dados sejam efetuados na mesma fase de pré-processamento, unificaçãodevida a semelhança entre estas duas etapas. 
 
 
Vamos apresentar cada uma das etapas da descoberta de conhecimento. 
 
 
 
A Seleção de Dados é uma das principais etapas dos principais processos da 
Descoberta de Conhecimento em Banco de Dados, pois esta etapa é a 
responsável em efetuar a seleção o e filtragem dos dados que deverão ser 
avaliados pelas etapas seguintes do KDD. Os dados coletados nesta etapa 
refletem diretamente na qualidade do resultado final da análise da mineração 
de dados, de forma que estes dados são a principal fonte de informações da 
análise. Nesta etapa são efetuadas as análises de levantamentos das variáveis 
e grupo de variáveis necessárias para efetuar a seleção e extração dos dados 
da base selecionada. Para a execução desta etapa normalmente são escritas 
aplicações que ficam responsabilizadas por efetuar a extração das bases de 
dados, das quais estas podem ser originadas de diferentes fontes de dados. 
Esta aplicação também fica responsabilizada por efetuar as filtragens 
necessárias, para não trazer para a análise dados que não devem ser 
analisados e por conta disso, é muito importante também definir quais são os 
tipos de informações e quais são os filtros que a aplicação deve ter 
implementada para que a qualidade dos dados seja mantida. 
No Pré-processamento, os dados levantados pela etapa anterior podem 
possuir alguns caracteres indesejados, alguns ruídos ou possuir informações 
incompletas. Este tipo de situação normalmente ocorre quando os dados são 
selecionados de bases heterogêneas, quando são originárias de bancos de 
dados que não possuem um devido tratamento no gerenciamento de dados ou 
quando provém da internet. Para conseguir resolver estes problemas com os 
dados, é necessário efetuar a limpeza dos dados para que não existam 
interferências durante a execução do algoritmo de mineração de dados, onde 
são removidos qualquer tipo de caractere indesejado e descartadas as 
mensagens que possuem informações incompletas ou algum outro tipo de 
ruído que não possa ser tratado. O uso de Data Warehouse pode facilitar a 
tarefa de limpeza dos dados. Normalmente eles possuem uma organização e 
gerenciamento mais bem definido, que acabam mantendo os dados do banco 
de dados em um estado limpo. O uso dele contribui e facilita o processo de 
limpeza dos dados, para o qual será necessário menos tempo e esforço. 
 
 
 
A Transformação de Dados tem como objetivo adequar os dados em uma 
estrutura e formatação necessários conforme é exigido pelo procedimento do 
algoritmo de mineração de dados. Além de adequar estes dados, cada 
algoritmo exige uma determinada estruturação para que o algoritmo consiga 
executar as análises corretamente, sem interferências ou erros durante a 
execução. Nesta etapa ocorre a conversão dos tipos de dados, para que o 
algoritmo de mineração de dados consiga efetuar a análise, assim como a 
filtragem de treinamento para o algoritmo de mineração de dados. 
A Mineração de Dados, envolve métodos e aplicações iterativas e interações 
de mineração de dados em particular. Ou seja, a mineração de dados é um 
processo automático ou semi-automático que visa explorar e analisar grandes 
bases de dados. Baseando-se nestas análises, poderão ser encontradas novos 
padrões e regras úteis e compreensíveis para o analista. Este tipo de análise 
que é efetuado de forma automática pela mineração de dados não seria 
possível de ser efetuadas por humanos em procedimentos convencionais 
devido ao grande volume de dados que teria que ser processado, de mesma 
forma que a imensidão de relações que a análise exige também não seria 
humanamente possível. Para resolver este tipo de problema, foram 
desenvolvidos algoritmos que trabalham de forma automática e semi-
autônomos, que conseguem retornar o mesmo resultado que o efetuado por 
um ser humano. A interação e intervenção do analista ainda é exigida em 
alguns momentos para conseguir interpretar os resultados que a execução do 
algoritmo retornou, que é através da interpretação do analista que os padrões 
serão determinados como úteis ou não. Os algoritmos por si só efetuam o 
trabalho de encontrar as principais relações. Como o processo de mineração de 
dados não possui um procedimento padronizado para resolver qualquer 
problema, existem diversos algoritmos que podem ser usados para cada tipo 
de problema proposto. Estes algoritmos são classificados em dois grandes 
grupos que variam de acordo com o tipo de conhecimento que se deseja 
extrair. Estes grupos são Predição ou Atividades Preditivas e Descrição ou 
Atividades Descritivas. 
 
 
 
Após a mineração de dados, é efetuada a Exibição dos Resultados, que por 
alguns autores é enquadrada no grupo de etapas de pós-processamento. Nesta 
etapa são efetuadas as seleções e ordenações das descobertas interessantes, 
efetuado o mapeamento de apresentação dos resultados obtidos e gerando 
relatório dos resultados. Existem muitas formas de apresentar estes dados, 
sendo através de gráficos, relatórios, tabelas ou qualquer outra forma de 
apresentação dos resultados. 
No momento de planejar sua atuação no mercado, uma organização precisa de 
informações disponíveis e relevantes para responder questionamentos a 
respeito de seu negócio. O termo Inteligência de Negócios, ou Business 
Intelligence (BI) é um termo cunhado pelo Gartner Group na década de 80 e 
descreve as habilidades das corporações para acessar dados e explorar as 
informações (normalmente contidas em uma Data Warehouse / Data Mart), 
analisando-as e desenvolvendo percepções e entendimentos a seu respeito. 
Isto permite incrementar e tornar mais pautada em informações as tomadas de 
decisão. Uma solução de BI permite monitorar o desempenho dos processos 
operacionais, táticos ou estratégicos por meio de indicadores de desempenho e 
apresentá-los em painéis de controle ou dashboard, com recursos analíticos e 
interativos que permitem cruzar e analisar informações, no tempo em que se 
precisa, transformando o processo de decisão em algo simples, rápido e 
eficiente. 
Uma arquitetura padrão de soluções de BI possui três componentes: o processo 
de extração de dados Extraction, Transformation and Loading (ETL), o 
repositório dedados não volátil (Data Warehouse) e a área de apresentação. 
 
 
 
 
A importância do big data não gira em torno da quantidade de dados que você 
tem, mas em torno do que você faz com eles. É possível analisar dados de 
qualquer fonte para encontrar respostas que permitam: 
 Redução de custos; 
 Redução de tempo;
 
 Desenvolvimento de novos produtos; 
 Decisões mais inteligentes. 
Ao combinar a ferramenta de Big Data com a alta potência da análise de dados, 
será possível realizar tarefas relacionadas a negócios, como: 
 Determinar a causa raiz de falhas, problemas e defeitos em tempo quase 
real; 
 
 Otimizar ações no ponto de venda com base em hábitos de compra dos 
clientes; 
 
 Recalcular carteiras de risco inteiras, em questão de minutos; 
 
 
 
 
 Detectar comportamentos fraudulentos antes que eles afetem sua 
organização. 
 
Muitas empresas atualmente iniciam atividades relacionadas a Big Data. 
Contudo, existe uma necessidade iminente de incorporar capacidades analíticas 
na organização. Caso contrário, não é possível fazer progressos substanciais e 
assim, produzir insights significativos. 
 
Os primeiros líderes a implementarem essa cultura nas empresas têm sido os 
responsáveis por criar uma vantagem competitiva em relação aos seus 
concorrentes. Segundo levantamento realizado em mais de 400 grandes 
empresas, aquelas que possuem capacidades analíticas mais avançadasestão 
superando seus concorrentes em ampla vantagem, como: 
 Duas vezes mais propensas a ter desempenho financeiro elevado dentro 
de seu mercado de atuação; 
 Cinco vezes mais propensas a tomar decisões mais rápidas que seus 
concorrentes; 
 Três vezes mais propensas a executar decisões conforme o planejado; 
 Duas vezes mais propensas a se basear nos dados no momento da 
tomada de decisão. 
 
 
 
 
Muitas vezes ouvimos falar de big data como uma metodologia, tecnologia ou 
ferramenta capaz de extrair valor de uma grande quantidade de dados digitais. 
A melhor maneira para falar de metodologias e tecnologias em big data é 
utilizar a expressão Data Analytics ou Analítica de Dados que pode ser definida 
como o uso da tecnologia para a compreensão, comunicação e utilização 
inteligente dos dados digitais. 
Existem basicamente quatro tipos de Analítica: 
 Analítica Descritiva: se encarrega de analisar o que aconteceu; 
 Analítica Diagnóstica: analisa porque determinado evento aconteceu; 
 Analítica Preditiva: aponta o que irá (ou poderá) acontecer (predição); 
 Analítica Prescritiva: identifica o que se deseja que aconteça e o que 
pode ser feito para alcançar esse objetivo (reforçar, modificar ou evitar 
uma predição). 
 
 
 
 
Pode-se aplicar os quatro tipos de analíticas em big data, embora os maiores 
valores agregados aos dados estejam nas duas últimas (preditiva e prescritiva) 
já que as duas primeiras (descritiva e diagnóstica) já são amplamente 
utilizadas e com sucesso antes do fenômeno big data. 
Nesse ponto, aparece a primeira das importantes diferenças básicas entre os 
dados em big data e bancos de dados estruturados de grande porte. 
Quando falamos em analítica preditiva, estamos falando de uma metodologia 
completamente diferente das previsões que estamos acostumados a ver a 
partir de data warehouses ou de pesquisas de opinião. O que determina a 
mudança na metodologia é a natureza dos dados utilizados. Ela é feita a partir 
de uma grande quantidade de dados de domínios diferentes (big data). A 
metodologia é um julgamento baseado na experiência e no aprendizado que se 
dá quando dados de um domínio do conhecimento viaja para outros domínios. 
A previsão (ou forecast) é feita a partir da utilização de grandes quantidades de 
dados de mesma natureza. A metodologia consiste em uma projeção, em que 
os dados viajam para dimensões maiores de tempo ou espaço. 
 
 
 
 O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo 
domínio, que têm uma relação direta de causa e efeito com o fenômeno, são 
transferidos para o futuro (viagem no tempo) gerando um resultado com grau 
de incerteza conhecido. 
 Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza, 
coletados em uma amostra, são transferidos para o total da população (viagem 
no espaço) gerando também um resultado confiável. 
 Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças 
nas tendências porque considera fatores que não têm uma relação causa-efeito 
imediata com o fenômeno. 
 Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a 
dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de 
utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo 
das buscas, a empresa conseguiu identificar correlações inusitadas entre as 
pesquisas e a contração da doença em um determinado grupo social. É 
importante entender que o modelo antecipava não apenas a quantidade de 
casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido 
que fundamentou as ações preventivas do governo americano para impedir 
uma pandemia da doença. 
O resultado de uma previsão é uma estimativa e a ciência que fundamenta a 
metodologia é a Estatística. 
 
 
 
 
 O cenário de crescimento do Big Data aponta estão surgindo novas 
oportunidades de emprego para profissionais de TI e de outros setores. Um 
novo cargo, chamado de Data Scientist ou Cientista de Dados é um bom 
exemplo. Essa atividade deve ser desenvolvida por alguém que é curioso, que 
analisa os dados para detectar tendências. 
Além do cientista de dados, existe espaço para outras atividades profissionais. 
Por exemplo, haverá forte demanda também por desenvolvedores e 
administradores de sistemas que se especializam em ferramentas voltadas para 
Big Data, como o Hadoop, tecnologia projetada para aplicações distribuídas 
com uso intensivo de dados e utilizados por sítios bastante conhecidos como o 
Yahoo, Facebook, LinkedIn e eBay. 
 
Podemos identificar três perfis básicos de profissionais engajados em Big Data: 
 Cientista de Dados, são profissionais capacitados em estatística, 
ciência da computação e/ou matemática capazes de analisar grandes 
volumes de dados e extrair insights que criem novas oportunidades de 
negócios; 
 
 
 
 Analistas de Negócios, que conhecendo bem o negócio em que 
atuam, consigam formular as perguntas corretas. Analisar as respostas e 
tomar decisões estratégicas e táticas que alavanquem novos negócios ou 
aumentem a lucratividade da empresa. Esta função tende a ser acoplada 
a função de Cientista de Dados; 
 Profissionais de TI, que cuidarão da infraestrutura e seu suporte 
técnico para sustentar Big Data. O aparato tecnológico de Big Data não é 
muito comum em empresas tipicamente comerciais, pois demanda 
expertise em gerenciar hardware em clusters de alta performance 
(Hadoop é massivamente paralelo) e pensar em volumes de dados 
significativamente maiores em muito mais variados que comumente se 
usam em sistemas tradicionais. 
 
 
 
 
 
Aula 3 
1. Introdução 
O processo de registro numérico surge da necessidade básica de controle, de 
gerar estatísticas, como diríamos hoje, dando ao ser humano informações 
relevantes para seu dia a dia. A etimologia da palavra estatística é a mesma da 
de estado. O dicionário etimológico online Harper menciona que a palavra 
entra no vocabulário inglês em 1770, com o significado de ciência que trata de 
dados sobre as condições de um estado ou comunidade, originando-se do 
alemão statistik, palavra popularizada e talvez cunhada em 1748 pelo cientista 
político alemão Gottfried Aschenwall, do latim moderno statisticum (assuntos 
do estado), do italiano statista (estadista) e do latim status (estado). 
 
Gottfried Aschenwall (1719-1772) 
 
 
 
O significado mais amplo, de ramo da ciência que trata da coleção e 
classificação de dados numéricos, é de 1829. O dicionário Michaelis registra 
que a palavra entra no vocabulário português através do francês, statistique, 
que, segundo o Centre National de Ressources Textuelles et Lexicales, provém 
do alemão, statistik, forjado pelo economista alemão Gottfried Aschenwall, que 
a derivou do italiano, statista. Para Aschenwall, a estatística representa o 
conjunto de conhecimentos que um homem de estado deve possuir. Agora, 
pense em algumas situações de utilização da estatística. É quase impossível 
hoje em dia, para qualquer ramo do conhecimento, desconsiderar as 
ferramentas estatísticas. De fato, desde que o ser humano inventou os 
números, cada vez mais somos deles dependentes, especialmente com o 
avanço da ciência. Algumas aplicações são: prévias eleitorais, pesquisa de 
mercado, auditoria, previsões econômicas, previsões de vendas, controle de 
qualidade, avaliação de desempenho, pesquisa científica, entre outras. 
Precisamos das ferramentas da estatística para a tomada de decisão 
empresarial, para acessarmos qualquer literatura técnica e profissional e para 
embasarmos a pesquisa científica.2. O método Estatístico 
2.1 O método científico 
Muitos dos conhecimentos que possuímos foram obtidos na Antiguidade por 
acaso e, outros, por necessidades práticas, sem aplicação de um método. 
Atualmente, quase todo acréscimo de conhecimento resulta da observação e do 
estudo. Porém muito desse conhecimento pode ter sido observado incialmente 
por acaso, a verdade é que desenvolvemos processos científicos para o estudo 
e para a aquisição de tais conhecimentos. 
Desta forma, pode-se dizer que método é um conjunto de meios dispostos 
convenientemente para se chegar a um fim que se deseja. 
Dentre os métodos científicos, vamos discutir o experimental e o estatístico. 
2.1.1 Método Experimental 
Consiste em manter constantes todas as causas (fatores), menos uma, e variar 
esta causa de modo que o pesquisador possa descobrir seus efeitos, caso 
existam. É um método bastante utilizado na Física e Química, por exemplo. 
2.1.2 Método Estatístico 
Em alguns estudos há a necessidade de descobrir fatos em um campo em que 
o método experimental não se aplica, como por exemplo nas ciências sociais, 
já que os vários fatores que afetam o fenômeno em estudo não podem 
permanecer constantes enquanto fazemos variar a causa que, naquele 
momento, nos interessa. 
 
 
 
Pode-se citar, por exemplo, a determinação das causas que definem o preço de 
uma mercadoria. Para aplicar o método experimental, seria necessário fazer 
variar a quantidade da mercadoria e verificar se tal fato influenciaria o seu 
preço. Porém, seria necessário que não houvesse alteração nos outros fatores. 
Desta forma, deveria existir, no momento da pesquisa, uma uniformidade dos 
salários, o gosto dos consumidores deveria permanecer constante, seria 
necessária a fixação do nível geral dos preços das outras necessidades, entre 
outros. Porém isso tudo seria praticamente impossível de ocorrer. Nesses 
casos, vamos aplicar o método estatístico que é mais adequado. 
3. Estatística 
É uma parte da Matemática Aplicada que fornece métodos para a coleta, 
organização, descrição, análise e interpretação de dados e para utilização dos 
mesmos na tomada de decisões. 
Os dados expressam por meio de números as observações que se fazem de 
elementos com, pelo menos, uma característica comum. De uma forma geral, 
as pessoas quando se referem ao termo estatística, o fazem no sentido da 
organização e descrição dos dados (estatísticas de acidentes, estatísticas de 
jogos ganhos, entre outros), lembrando que existe também a estatística 
indutiva que proporciona métodos inferenciais que permitem conclusões que 
transcendem os dados obtidos inicialmente. Assim sendo, a análise e 
interpretação dos dados estatísticos tornam possível o diagnóstico de uma 
empresa, o conhecimento de seus problemas, a formulação de soluções 
apropriadas e um planejamento objetivo de ação. 
4. Fases do Método Estatístico 
O método estatístico é composto das seguintes fases: 
 
 
 
 
4.1 Coleta de dados 
A coleta de dados vem após cuidadoso planejamento e a devida determinação 
das características mensuráveis do fenômeno que ser quer pesquisar. Ela pode 
ser direta ou indireta. 
A coleta é direta quando feita sobre elementos informativos de registro 
obrigatório (nascimentos, casamentos, importação e exportação de 
mercadorias) ou quando os dados são coletados pelo próprio pesquisador 
através de inquéritos e questionários, como é o caso de notas de exames, do 
censo demográfico, entre outros. Ela pode ser classificada relativamente ao 
fator tempo em: 
 Continua (registro) – quando feita continuamente, tal como a de 
nascimentos e a de frequência dos alunos às aulas; 
 Periódica – quando feita em intervalos constantes de tempo, como os 
censos de 10 em 10 anos e as avaliações mensais dos alunos; 
 Ocasional – quando feita extemporaneamente, a fim de atender a uma 
conjuntura ou a uma emergência, como no caso de epidemias que 
assolam uma sociedade. 
A coleta se diz indireta quando é inferida de elementos conhecidos e/ou do 
conhecimento de outros fenômenos relacionados com o fenômeno estudado. 
Como exemplo, pode-se citar a pesquisa sobre a frequência dos alunos as 
aulas, que é feita através de dados colhidos por uma coleta direta. 
 
 
 
4.2 Crítica dos dados 
Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de 
possíveis falhas e imperfeições, a fim de não incorrer em erros que possam 
influir sensivelmente nos resultados. Ela pode ser externa ou interna. 
É externa quando visa às causas dos erros por parte do informante, por 
distração ou má interpretação das perguntas que lhe foram feitas. E é interna 
quando visa observar os elementos originais dos dados de coleta. 
4.3 Apuração dos dados 
Representa a soma e o processamento dos dados obtidos e a disposição 
mediante critérios de classificação. 
4.4 Exposição ou apresentação dos dados 
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem 
ser apresentados sob a forma adequada de tabelas ou gráficos, tornando mais 
fácil o exame daquilo que está sendo objeto de tratamento estatístico. 
4.5 Análise dos resultados 
O objetivo final da Estatística é tirar conclusões sobre o todo a partir de 
informações fornecidas por parte representativa do todo. Desta forma, nesta 
etapa, é realizada uma análise dos resultados, obtendo conclusões e previsões 
dessa análise. 
5.0 Variáveis 
Cada fenômeno corresponde a um número de possíveis resultados. Por 
exemplo, para o fenômeno sexo são dois os possíveis resultados: masculino e 
feminino. Para o fenômeno número de filhos há um número de resultados 
possíveis expresso através dos números naturais: 0,1,2,3,...,n. Para os 
fenômeno estatura há uma situação diferente, pois os resultados podem tomar 
um número infinito de valores numéricos dentro de um determinado intervalo. 
 
 
 
Assim sendo, pode-se definir variável como sendo o conjunto de possíveis 
resultados de um fenômeno. 
As variáveis podem ser: 
 Qualitativa – quando seus valores são expressos por atributos, como: 
sexo, cor dos olhos, entre outros; 
 Quantitativa – quando seus valores são expressos em números, como: 
salário, idade, nota, entre outros. 
A variável quantitativa pode ser: contínua ou discreta. Ela é contínua quando 
pode assumir, teoricamente, qualquer valor entre dois limites. E é discreta 
quando só pode assumir valores pertencentes a um conjunto enumerável. 
Assim, o número de alunos de uma escola pode assumir qualquer um dos 
valores do conjunto N = {1,2,3,...50}, mas nunca valores como 3,5 ou 7,58. 
Logo é uma variável discreta. Já o peso desses alunos e uma variável continua, 
pois um dos alunos pode pesar 55 kg, como 70 kg, ou ainda 88,5 kg. 
Designamos as variáveis por letras, em geral, as últimas: 
 X, y, z. 
Por exemplo, sejam 2,4,6,8 e 10, todos os possíveis resultados de um dado 
fenômeno. Fazendo uso da letra x para indicar a variável relativa ao fenômeno 
considerado, temos: 
 X {2,4,6,8,10} 
6.0 População e Amostra: 
 Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou 
temporal, as observações referentes a uma determinada pesquisa são limitadas 
a apenas uma parte da população. A essa parte proveniente da população em 
estudo denominamos de amostra. Ou seja, amostra é um subconjunto finito da 
população. 
 
 
 
7.0 Amostragem 
É uma técnica para recolher amostras, que garante, tanto quanto possível, o 
acaso na escolha. Onde cada elemento da população passa a ter a mesma 
chance de ser escolhido, garantindo à amostra o caráter de representatividade. 
Em seguida discutiremos três das principais técnicas de amostragem:7.1 Amostragem casual ou aleatória simples 
Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a 
seguir, por meio de um dispositivo aleatório qualquer, x números dessa 
sequência, os quais corresponderão aos elementos pertencentes a amostra. 
7.2 Amostragem proporcional estratificada 
Muitas vezes a população se divide em subpopulações, que são os estratos. É 
provável que os comportamentos dos estratos sejam heterogêneos e dentro de 
cada estrato, um comportamento homogêneo. Esta técnica leva em 
consideração e existência de estratos e obtém os elementos da amostra 
proporcional ao número de elementos dos mesmos. 
7.3 Amostragem Sistemática 
Quando os elementos da população já se acham ordenados, não há a 
necessidade de construir o sistema de referência. A seleção dos elementos que 
constituirão a amostra pode ser feita por um sistema imposto pelo 
pesquisador, caracterizando a amostragem sistemática. 
 
 
 
Aula 4 
1.0 Introdução 
O R foi criado originalmente por Ross Ihaka e por Robert Gentleman na 
universidade de Auckland, Nova Zelândia, e foi desenvolvido por um esforço 
colaborativo de pessoas em vários locais do mundo. O nome R provém em 
parte das iniciais dos criadores e também de um jogo figurado com a 
linguagem S (da Bell Laboratories, antiga AT&T). 
 
 
 
 
O R é ao mesmo tempo uma linguagem de programação e um ambiente para 
computação estatística e gráfica. Trata-se de uma linguagem de programação 
especializada em computação com dados. Algumas das suas principais 
características são o seu caráter gratuito e a sua disponibilidade para uma 
gama bastante variada de sistemas operacionais, tais como UNIX, Linux, 
Windows e OS X. Faz parte da filosofia do Projeto GNU e está disponível em 
https://www.r-project.org/ , como Software Livre. 
 
Possui as seguintes características, dentre outras: 
 Uma manipulação de dados eficaz e facilidade de armazenamento; 
 
 Uma série de operadores para cálculos com arranjos, especialmente 
matrizes; 
 
 Uma extensa, coerente e integrada coleção de ferramentas 
intermediárias para análise de dados; 
 
 Instalações gráficas para análises de dados; 
 Uma bem desenvolvida, simples e eficaz linguagem de programação, a 
qual inclui condições, loops, funções recursivas definidas pelo usuário e 
instalações de entradas e saídas. 
 
 
 
O R também é altamente expansível com o uso dos pacotes, que são 
bibliotecas para funções específicas ou áreas de estudo específicas. Um 
conjunto de pacotes é incluído com a instalação do software, mas muitos 
outros estão disponíveis na rede de distribuição do R. 
2.0 Download 
Primeiramente, deve-se acessar o sitio www.r-project.org . Em seguida, 
clicar no link CRAN localizado à esquerda da página em Download. 
 
 
Após a atualização da página você será direcionado para a página CRAN 
Mirros, escolha o servidor de seu país e da cidade mais próxima que está 
acessando. 
 
 
 
 
Em seguida você será direcionado para a página The Comprehensive R 
Archive Network. Posteriormente escolha a versão do R de acordo com o 
Sistema Operacional de sua preferência. Vamos considerar que a maioria dos 
usuários utilizam o Sistema Operacional Windows. Desta forma clique em 
Download R for Windows. 
 
 
Você será direcionado para a página R for Windows, clique em base. 
 
 
 
 
 
Em seguida clicar em Download R 3.3.1 for Windows. 
 
A seguir selecionar o botão Salvar. 
 
 
 
 
Em seguida localize onde você salvou o arquivo R-3.3.1-win.exe e execute-o. 
3.0 Instalação 
Para instalar, siga as indicações de instalação ilustradas nas figuras abaixo: 
 
 
 
 5
 
 
 
 
 
 
 
Repare a esta altura que após ter sido selecionado o link para download do R as 
páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o 
 
 
 
 5
 
 
 
 
 
 
 
Repare a esta altura que após ter sido selecionado o link para download do R as 
páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o 
 
 
 
 
 
 
 5
 
 
 
 
 
 
 
Repare a esta altura que após ter sido selecionado o link para download do R as 
páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o 
 
É importante perceber que após ter sido selecionado o link para download do R 
as páginas aparecem todas em língua portuguesa. Isto ocorre porque foi 
optado por baixar o programa a partir de um CRAN brasileiro. Em seguida 
deve-se escolher a pasta onde se quer salvar o programa: 
 6
programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos 
R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão 
espetacular que o projeto dispõe na atualidade, ofertando versões do programa em 
diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa: 
 
 
 
 
 
 
 
 
 
 
 
 
 6
programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos 
R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão 
espetacular que o projeto dispõe na atualidade, ofertando versões do programa em 
diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa: 
 
 
 
 
 
 
 
 
 
 
 7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 7
 
 
 
 
 
 
 
 
 
 
 
 
 8
 
 
 
 
 Após o termino da instalação, aparecerá uma janela de finalização do instalador. Nela, clicar 
em “Concluir”. A partir daí, o R já pode ser usado. 
 
 
Observação: As janelas exibidas nesta apostila foram as do Windows XP. 
 
 
 
 
• Pacotes do R 
 
 
No R existe uma grande diversidade de pacotes. Estes pacotes contêm um conjunto de 
funções que permitem ou facilitam a realização das análises estatísticas, além de possuírem ajuda 
para suas funções, alguns dos quais com demonstrações de execução. 
 
Ao instalar, apenas alguns pacotes vêm juntos com a instalação do R, os quais são 
fundamentais para o funcionamento do programa e que denominamos de módulo ou pacote 
básico. Muitos destes pacotes podem servir de base e pré-requisito para o funcionamento de 
outros pacotes. 
 
 
Após o termino da instalação, aparecerá uma janela de finalização do 
instalador. Clique em Concluir. A partir deste momento o R já pode ser usado 
4.0 Interface 
Ao iniciar o R abrirá automaticamente o Console que é a janela onde os 
comandos são digitados. Internamente ao Console, se encontra o prompt, 
conforme figura abaixo, que é um sinal indicador de que o programa está 
pronto para receber comandos. 
 
 
 
 
5.0 Tipos de Dados 
Basicamente temos quatro tipos de dados no R: numéricos, caracteres, lógicos 
e números complexos. Cada objeto possui dois atributos: tipo (mode) e o 
tamanho (length). Essas informações são bastante importantes durante a 
manipulação de dados. Veja abaixo alguns exemplos de tipos de dados no R: 
 
 
 
 
 
6.0 Comandos Básicos 
Durante a utilização do software é possível consultar a sintaxe de algum 
comando ou obter mais informações sobre determinada função. Para isso o R 
conta com o comando help. A sintaxe do comando é a seguinte: 
 
 
Ao executar o exemplo acima, uma interface do menu de ajuda será executada 
mostrando o tópico da função sqrt, que é função matemática para a raiz 
quadrada. 
 
 
 
6.1 Atribuição de valores 
Como todo tipo de programação, é comum que tenhamos que atribuir valores 
para algumas variáveis antes de utilizá-las. No Rpodemos fazer uma atribuição 
de valores de várias formas, conforme os exemplos abaixo: 
 
Para mostrar o valor armazenado em uma variável, basta digitar a variável na 
Console e depois dar Enter. Qualquer valor digitado sem atribuição pode ser 
mostrado na tela. O último valor inserido (em uma atribuição ou não) é sempre 
armazenado em uma variável especial, denominada .Last.value. Esta variável 
pode ser utilizada para realizar operações, mas é preciso tomar cuidado, pois 
seu valor está sendo constantemente modificado. 
6.2 Comandos Auxiliares 
Segue abaixo, uma tabela com os principais comandos que ajudam a manipular 
os objetos e a área de trabalho (workspace) que estão sendo utilizados 
durante a execução do programa. 
Func ̧ão Descric ̧ão 
ls() ou 
objects() 
lista curta de variáveis definidas 
ls.str() lista detalhada de variáveis definidas 
 
 
 
str(x) ver informações detalhadas de x 
rm(x) deletar variável x 
rm(x, y) deletar as variáveis x e y 
rm(list = ls()) deletar todas as variáveis (limpar a workspace) 
class(x) ver que tipo de objeto é x 
q() sair do R com a opção de salvar a workspace em 
um arquivo (“Name.RData”) e o histórico de 
comandos em outro arquivo (“Name.RHistory”) 
ctrl + L pressione ctrl+L para limpar a tela da console 
(Windows) e option + command + L (OS X) 
 
6.3 Operadores matemáticos 
Segue, abaixo, os operadores matemáticos: 
x + y , x - y Soma, Subtração 
x*y , x/y Multiplicação , Divisão 
x**y ou x^y Potência 
X%%y Resto da Divisão (Módulo) 
 
 
 
 
 
 
Segue, abaixo, os operadores relacionais: 
Símbolo Descrição 
< Menor 
<= Menor ou igual 
> Maior 
>= Maior ou igual 
== Igual 
!= Diferente 
& AND 
| OR 
! NOT 
TRUE ou 1 Valor booleano verdadeiro (1) 
FALSE ou 0 Valor booleano falso (0) 
 
7. Vetores 
Vetores são conjuntos de dados unidimensionais. Sua principal utilidade é poder 
armazenar diversos dados em forma de lista e aplicar funções e operações 
sobre todos os dados pertencentes a determinado vetor com apenas poucos 
comandos. 
A sintaxe para declarar um vetor é: 
 vetor = c(a1,a2,a3,...,an) 
Exemplos: 
 
 
 
 
Aula 5 
1.0 Introdução 
 As capacidades gráficas são uma componente muito importante e 
extremamente versátil do ambiente R. O R consegue plotar desde gráficos 
bidimensionais simples até gráficos tridimensionais mais complexos por meio 
de comandos simples. Dá-se muita ênfase no R aos gráficos estatísticos, tais 
como gráfico de barras, histogramas, gráficos de setores ou de pizza, gráfico 
de linhas, dentre outros. 
 O gráfico de linha constitui uma aplicação do processo de representação das 
funções num sistema de coordenadas cartesianas 
 
 
 
2.0 Gráfico de Barras 
 O gráfico de barras é composto por duas linhas ou eixos, um vertical e outro 
horizontal. No eixo vertical são construídas as barras que representam a 
variação de um fenômeno ou de um processo de acordo com sua intensidade 
ou frequência. Essa intensidade é indicada pela altura da barra. No eixo 
horizontal especifica-se as categorias da variável. As barras devem sempre 
possuir a mesma largura e a distância entre elas deve ser constante. 
 Vamos construir um gráfico de barras utilizando a tabela abaixo que representa 
os tipos de Ensino Fundamental, e a quantidade de professores e de alunos: 
 
Fundamental Professores Alunos 
Privada 2250 28790 
Estadual 1248 22578 
Municipal 875 19345 
Federal 37 347 
 
O primeiro passo na construção do gráfico é ter os dados armazenados em 
objeto apropriado. No caso de gráfico de barras é necessário que os dados 
estejam armazenados em um vetor ou matriz. 
 
 
 
 
 
 
Agora vamos colocar um título no gráfico: 
 
 
Agora vamos colocar nomes nos eixos x e y: 
 
 
 
 
 
Agora vamos colocar um subtítulo no gráfico, colocando o 
argumento sub. 
 
 
 
 
 
 
3.0 Gráfico de Pizza 
Os gráficos de pizza (ou de setor) são representados por círculos divididos 
proporcionalmente de acordo com os dados do fenômeno ou do processo a ser 
representado. Os valores são expressos em números ou em percentuais (%). É 
empregado sempre que desejamos ressaltar a participação do dado no total 
Vamos utilizar os dados da tabela abaixo referentes a quantidade de veículos 
em determinada cidade: 
 
Tipo de veículo Frota 
Automóveis 13377 
Motocicletas 18754 
Caminhonetes 8058 
Motonetas 3201 
Ônibus 2154 
Caminhões 1895 
 
O primeiro passo na construção do gráfico é ter os dados armazenados em 
objeto apropriado nomeando cada posição do vetor. 
 
 
 
 
 
 
Agora vamos colocar um título no gráfico: 
 
 
 
 
 
4.0 Histograma 
Um histograma divide uma série de dados em diferentes classes igualmente 
espaçadas e mostra a frequência de valores em cada classe. Em um gráfico, o 
histograma mostra diferentes barras, com bases iguais e amplitudes relativas 
às frequências dos dados em cada classe. O eixo das ordenadas, portanto, 
mostra a frequência relativa de cada classe e o eixo das abcissas os valores e 
intervalos das classes. Abaixo é apresentada a sintaxe do comando e em 
seguida será apresentado um exemplo. 
 
 
Observe que a coluna de 2 a 3 do histograma indica que há oito elementos 
nessa classe. Isso ocorre porque o padrão do comando hist() inclui os 
elementos que estão à direita. Além disso, devido ao argumento 
include.lowest, que por padrão também é True, inclui o último valor do vetor. 
Outro argumento importante é o breaks, que define os intervalos a serem 
usados no eixo das abscissas do histograma. 
 
 
 
 
 
 
 
Vamos construir um histograma com os tempos coletados das voltas dos carros 
em um determinado circuito, onde o argumento right significa que ele é 
fechado à direita e col representa a cor do gráfico. 
 
 
 
 
 
 
 
Aula 6 
1.0 Introdução 
A estatística descritiva ocupa-se da organização, apresentação e sintetização 
dos dados. Discutiremos os componentes da estatística descritiva, bem como 
os comandos utilizados no ambiente R. Apresentaremos exemplos, 
demonstrando alguns dos conceitos e comandos discutidos. 
2.0 Medidas de Posição 
São as estatísticas que representam uma série de dados orientando-nos quanto 
à posição da distribuição em relação ao eixo horizontal (eixo x) do gráfico da 
curva de frequência. As medidas de posição mais importantes são as medidas 
de tendência central, no qual se verifica uma tendência dos dados observados 
a se agruparem em torno dos valores centrais. Discutiremos então, as medidas 
de tendência central mais utilizadas. 
2.1 Média Aritmética 
A média aritmética é igual ao quociente entre a soma dos valores do conjunto e 
o número total dos valores. 
 
 
 
 
Onde Xi são os dados amostrais e n o número de valores amostrais. O 
comando para calcularmos a média aritmética segue abaixo, juntamente com 
um exemplo: 
 
2.2 Mediana 
A mediana de um conjunto de valores, dispostos segundo uma ordem 
(crescente ou decrescente) é o valor situado de tal forma no conjunto que o 
separa em dois subconjuntos de mesmo número de elementos. Existe um 
método prático para o cálculo da mediana. Descritos abaixo: 
1. Se a série dada tiver número ímpar de termos - o valor mediano será o 
termo de ordem dado pela fórmula: 
 
 Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 
1. Ordenar a série: {0, 0, 1, 1, 2, 2, 3, 4, 5}; 
 
2. n = 9 elementos. 
 
3. Pela fórmula: (n+1)/2 é dado por: (9+1)/2 = 5;4. Logo, o quinto elemento da série ordenada será a mediana. 
Este elemento é o número 2. 
2. Se a série dada tiver número par de termos - o valor 
mediano será o termo de ordem dado pela fórmula: 
 
 
 
 
 
 
onde (n/2) e (n/2 + 1) são termos de ordem e devem ser 
substituídos pelo seu valor correspondente.
 
 Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 
1. Ordenar a série {0,0,1,1,2,3,3,4,5,6}; 
 
2. n = 10 elementos; 
3. Pela fórmula [(10/2) + (10/2 + 1)]/2 resultará na realidade 
(5o termo + 6o termo)/2. Estes termos são 2 e 3, 
respectivamente; 
4. Logo a mediana será (2+3)/ 2, ou seja, Md = 2,5. 
 
Observações: 
 Quando o número de elementos da série estatística for ímpar, haverá 
coincidência da mediana com um dos elementos da série. 
 
 Quando o número de elementos da série estatística for par, nunca 
haverá coincidência da mediana com um dos elementos da série. A 
mediana será sempre a média aritmética dos dois elementos centrais da 
série. 
 
 
 
 
 
 
 
 
 
2.3 Moda 
É o valor que ocorre com maior frequência em uma série de valores. A moda é 
facilmente reconhecida, basta, de acordo com definição, procurar o valor que 
mais se repete. 
Observação: há séries em que não existe valor modal, isto é, série nas quais 
nenhum valor apareça mais vezes que os outros. Nestes casos dizemos que a 
série é amodal. Porém, em outros casos, pode haver dois ou mais valores de 
concentração. Dizemos, então, que a série tem dois valores (bimodal) ou mais. 
Existem duas formas que podem ser utilizadas para encontrar a moda de uma 
série de dados. São elas: 
 table(): este comando ordena em ordem crescente os dados e indica o 
número de vezes em que o elemento se repete na série de dados 
apresentada. É utilizado para encontrar a moda em pequenas amostras. 
 subset(): em oposição ao item anterior esta função é utilizada quando o 
tamanho da amostra é grande. 
 O comando para a obtenção da moda é dado abaixo: 
 
 
 
 
 
 
 
 
 
 
Observe que ambos os comandos indicam qual é o valor da série de dados que 
mais se repete. No exemplo, este valor é o dado 10, com três ocorrências. 
2.4. Quartis 
Denominamos quartis os valores de uma série que a dividem em quatro partes 
iguais. Precisamos, portanto, de três quartis (Q1, Q2 e Q3) para dividir a série 
em quatro partes iguais. O quartil Q2 sempre será igual à mediana da série. 
 
 
 
 
Exemplo: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} 
 Inicialmente se deve ordenar em ordem crescente os valores. Isto 
resulta em: {2, 5, 6, 9, 10, 13, 15}. 
 
 O valor que divide a série acima em duas partes iguais é o elemento 9, 
logo a mediana e o quartil 2 (Q2) é 9. 
 
 Temos agora {2, 5, 6, 9} e {9, 10, 13, 15}, como sendo os dois grupos 
contendo 50% das informações sobre os dados da série. Para o cálculo 
do primeiro e do terceiro quartis, basta calcular as medianas dos dois 
grupos resultantes. 
 
 Logo em {2,5,6,9} a mediana é 5.5, ou seja, o quartil Q1 é 5.5 e em 
{9,10, 13, 15} a mediana é 11.5, ou seja, o quartil Q3 é 11.5. 
 
Podemos encontrar os quartis através do comando summary(dados). Este 
comando calcula e apresenta o resultado de outros comandos. Desta forma, a 
função summary é capaz de resumir vários tipos de objetos em uma única 
função. Dentre esses objetos encontram-se o primeiro e o terceiro quartil, 
sendo que o segundo quartil é dado indiretamente através da mediana. 
 
 
 
Calculando o exemplo acima apresentado através do R: 
 
Uma distribuição de frequência simétrica apresenta como característica principal 
o fato de as três medidas de tendência central mais usadas (moda, media 
aritmética e mediana), serem iguais. 
Aula 7 
1.0 Introdução 
 Apesar do cálculo das probabilidades pertencer ao campo da Matemática, o 
seu estudo se justifica pelo fato da maioria dos fenômenos de que trata a 
Estatística ser de natureza aleatória ou probabilística. Desta forma, o 
conhecimento dos aspectos fundamentais do calculo de probabilidades é uma 
necessidade essencial para o estudo da Estatística. 
 A probabilidade é um número atribuído a cada membro de uma coleção de 
eventos a partir de um experimento aleatório. Ela é normalmente quantificada 
de maneira a representar o grau de crença que determinado evento possa 
ocorrer. Por exemplo, pode- se afirmar que a probabilidade de chover no fim 
de semana é de 40%. Quando se quantifica determinado acontecimento, 
atribui-se um valor entre 0 e 1 ou em porcentagem. Quando a probabilidade é 
igual a zero, o evento não ocorrerá. Já quando a probabilidade é igual a um, 
ele certamente ocorrerá. 
 
 
 
2.0 Experimento Aleatório 
Em quase tudo, em maior ou menor grau, lidamos com o acaso. Assim, da 
seguinte afirmação: é provável que o meu time ganhe a partida de hoje, 
pode resultar nos seguintes resultados: 
 Que, apesar do favoritismo, ele perca; 
 Que, comprove o favoritismo e ganhe; 
 Que empate. 
 Desta forma, o resultado final depende do acaso. Fenômenos como esse são 
chamados de fenômenos aleatórios ou experimentos aleatórios, que são 
aqueles que, mesmo repetidos várias vezes sob condições semelhantes, 
apresentam resultados imprevisíveis. 
3.0 Espaço Amostral 
A cada experimento correspondem, em geral, vários resultados possíveis. 
Assim, ao lançarmos um moeda, há dois resultados possíveis: ocorrer cara ou 
coroa. Já ao lançarmos um dado há seis resultados possíveis: 1,2,3,4,5 ou 6. 
Ao conjunto desses resultados possíveis de um experimento aleatório, 
definimos com o nome de espaço amostral ou conjunto universo, representado 
por S. 
Os dois experimentos citados anteriormente têm os seguintes espaços 
amostrais: 
 Lançamento de uma moeda: S = {Ca,Co}; 
 Lançamento de um dado: S = {1,2,3,4,5,6}. 
Do mesmo modo, como em dois lançamentos sucessivos de uma moeda 
podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa no 
segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois 
lançamentos. Assim sendo, o espaço amostral é: 
 S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) }. 
 
 
 
 Cada um dos elementos de S que corresponde a um resultado recebe o 
nome de ponto amostral. Assim sendo: 
 2 € S => 2 é um ponto amostral de S. 
4.0 Eventos 
Evento é qualquer subconjunto do espaço amostral S de um experimento 
aleatório. 
 Assim, qualquer que seja E, se E S, então E é um evento de S. 
 Se E = S, E um evento certo. 
 Se E S e E um conjunto unitário, E é chamado evento elementar. 
 Se E = (conjunto vazio), E é chamado evento impossível. 
5.0 Probabilidade 
 Dado um experimento aleatório, sendo S o seu espaço amostral, vamos admitir 
que todos os elementos de S tenham a mesma chance de acontecer, ou seja, 
que S é um conjunto equiprovável. 
 Chama-se de probabilidade de um evento A (A S), o número real P(A), 
tal que: 
 
 onde: 
 n(A) é o número de elementos de A; 
 n(S) é o número de elementos de S. 
Vamos ver um exemplo: 
1. Considerando o lançamento de uma moeda e o evento A 
obter cara, temos: 
 S = {Ca,Co} => n(S) = 2; 
 A = {Ca} = > n(A) = 1. 
 Logo: 
 
 
 
 
O resultado acima nos permite afirmar que, ao lançarmos uma moeda não 
viciada, temos 50% de chance de que apareça cara na face superior. 
6.0 Eventos Complementares 
Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que 
ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), 
para um mesmo evento existe sempre a relação: 
 p + q = 1 => q = 1 – p.Assim, se a probabilidade de se realizar um evento é , a probabilidade de 
que ele não ocorra é: 
q = 1 – p => q = 1 - = 
 Sabemos que a probabilidade de tirar o 4 no lançamento de um dado é . 
Logo a probabilidade de não tirar o 4 no lançamento de uma dado é: 
 q = 1 - = 
7.0 Eventos Independentes 
 Dois eventos são independentes quando a realização ou a não realização de 
um dos eventos não afeta a probabilidade da realização do outro evento e 
vice-versa. 
 Por exemplo, quando lançamos dois dados, o resultado obtido em um deles 
independe do resultado obtido no outro. 
 Se dois eventos são independentes, a probabilidade de que se realizem 
simultaneamente é igual ao produto das probabilidades de realização dos dois 
eventos. 
 Assim, sendo a probabilidade de realização do primeiro evento e a 
probabilidade de realização do segundo evento, a probabilidade de que tais 
eventos se realizem simultaneamente é dada por: 
 
 
 
 p = x 
 
Exemplo: 
Quando lançamos dois dados, a probabilidade de obtermos 1 no primeiro dado 
é: 
 
 A probabilidade de obtermos 5 no segundo dado é: 
 
 Logo, a probabilidade de obtermos, simultaneamente, 1 no 
primeiro e 5 no segundo é: 
 p = x = 
8.0 Eventos Mutuamente Exclusivos 
 Dois ou mais eventos são mutuamente exclusivos quando a realização de um 
exclui a realização do(s) outro(s). 
 Assim, no lançamento de uma moeda, o evento tirar cara e o evento tirar 
coroa são mutuamente exclusivos, já que, ao realizar um deles, o outro não se 
realiza. 
 Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou 
outro se realize é igual a soma das probabilidades de que cada um deles se 
realize: 
 p = + 
 Exemplo: 
 Quando lançamos um dado, a probabilidade de se tirar o 1 ou 3 é: 
 p = + = = 
 
 
 
9.0 Variável aleatória 
 Considere um espaço amostral S e que a cada ponto amostral seja atribuído 
um número. Fica, então, definida uma função chamada variável aleatória, 
indicada por uma maiúscula, sendo seus valores indicados por letras 
minúsculas. 
 Assim, se o espaço amostral relativo ao lançamento simultâneo de duas 
moedas é S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) } e se X representa o 
número de caras que aparecem, a cada ponto amostral pode-se associar um 
número X, de acordo com a tabela abaixo: 
Ponto Amostral X 
(Ca,Ca) 2 
(Ca,Co) 1 
(Co,Ca) 1 
(Co,Co) 0 
 
10.0 Distribuição de Probabilidade 
 Considere a distribuição de frequências relativa ao número de acidentes de 
carros diários em um estacionamento: 
Número de Acidentes Frequências 
0 22 
1 5 
2 2 
3 1 
 = 30 
 
 Em um dia, a probabilidade de: 
 não ocorrer acidente é: 
 = 0,73 
 
 
 
 ocorrer um acidente é: 
 = 0,17 
 ocorrem dois acidentes é: 
 = 0,07 
 ocorrem três acidentes é: 
 = 0,03 
Desta forma, pode-se escrever a tabela de distribuição de probabilidades: 
 
Número de 
Acidentes 
Probabilidades 
0 0,73 
1 0,17 
2 0,07 
3 0,03 
 = 1,00 
Aula 8 
1.0 Introdução 
 O R possui uma ferramenta de programação que permite a codificação de 
pequenos programas. Um programa é a codificação de um algoritmo em uma 
linguagem de programação, neste caso a linguagem R. A linguagem R é 
composta por um conjunto de instruções que são escritas através de um 
conjunto de códigos. Este conjunto de códigos possui regras de estruturação 
lógica e sintática própria. 
2.0 Definindo Funções 
 O R permite que o programador possa definir novas funções que poderão ser 
utilizadas da mesma forma que as pré-definidas no R. Esta possibilidade torna 
o sistema R num sistema bem mais flexível e poderoso. 
 
 
 
 O tipo function é um dos tipos de objetos do R podendo ser definido da 
mesma forma que os outros objetos, usando a atribuição. Para a definição de 
uma nova função usa-se a palavra chave function. 
 Veja um exemplo, abaixo, que define uma função para calcular o quadrado de 
um número: 
 
 
 
 No código da função volesfera, abaixo, a linha iniciada com o símbolo # 
representa comentários do programador, i.e. linhas que não são interpretadas 
pelo R e que apenas servem para melhorar a legibilidade da definição de 
funções. Note que o resultado de uma função é definido pela expressão dada 
na última linha da sua definição (vol). Segue exemplo de uma função para o 
cálculo de uma esfera. 
 
 
 
 
 
3.0 Estrutura Seleção 
 A estrutura if permite realizar um (ou vários) comandos de forma condicional. 
Assim, se uma dada condição for verdadeira realiza-se um conjunto de 
operações; se esta for falsa os comandos serão outros (ou nenhuns). A sua 
sintaxe é:
 
 
 if (condição) 
 instrução ou bloco de instruções 
 else 
 instrução ou bloco de instruções 
 
 Se tivermos mais do que um comando, quer no caso verdadeiro, quer no falso 
podemos colocar um bloco de instruções. Estes são conjuntos de instruções 
separados por ; ou mudança de linha e delimitados por { }. 
 Como exemplo da utilização da função veja-se a definição de uma função que 
retorna o menor de dois valores numéricos dados como argumentos: 
 
 
 
 
 
4.0 Estrutura de Repetição 
A linguagem de programação do R permite que sejam utilizadas estruturas de 
repetição, quer seja como linha de comando ou como a definição de novas 
funções. Estas permitem definir uma operação (ou um bloco de operações) 
que são repetidas mais do que uma vez. 
A estrutura for permite realizar uma operação (ou bloco de operações) um 
determinado número (fixo) de vezes. A sua sintaxe é: 
 
for (variável in expressão) 
 instrução 
 ou 
 
for (variável in expressão) 
{ 
 bloco de instruções 
} 
 
 Segue, abaixo, um exemplo da utilização da instrução for na linha de 
comandos: 
 
 
 
 
 
 Por outro lado, a instrução for é especialmente utilizada ao nível da 
definição de novas funções. A função seguinte efetua a soma dos elementos 
de um vetor: 
 
 
 
 Uma forma mais simples de escrever o código é: 
 
Outra estrutura de repetição que pode ser usada é o comando while, que 
permite realizar as instruções um número variável de iterações. 
 
 
 
Essa possibilidade depende de uma condição que pode tomar o valor 
verdadeiro ou falso, à semelhança do que acontece com as instruções 
condicionais. A instrução ou o bloco de instruções é realizado enquanto a 
condição se mantiver verdadeira. É importante que o bloco de instruções 
deverá, em algum momento, tornar a condição falsa de forma a que o ciclo 
termine. A sua sintaxe é: 
 
 while (condição) 
 instrução 
 
 ou 
 
 while (condição) 
 { 
 bloco de instruções 
 } 
Veja um exemplo de utilização da estrutura while. Neste caso, um vetor é 
percorrido no sentido de se descobrir se um determinado valor existe ou não 
no vetor. Quando o valor é descoberto o ciclo while é interrompido. Para evitar 
que o ciclo se torne infinito, o ciclo termina quando se chega ao final do vetor. 
 
 
 
 
 
É importante perceber que o R trabalha muito com vetores, isso leva a que 
muitas operações se realizem naturalmente sobre estas estruturas sem 
necessidade de estruturas de repetição. Porém é essencial conhecermos as 
estruturas do ambiente R. 
Bibliografia basica: 
 DAVENPORT, Thomas H. Big Data No Trabalho - Derrubando Mitos e 
Descobrindo Oportunidades. Editora Campus. 
 MAYER-SCHONBERGER, Viktor; KENNETH, Cukier. Big Data - Como 
Extrair Volume, Variedade, Velocidade e Valor da Avalanche de

Continue navegando