Buscar

instalando_customizando_e_compreendendo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

INTRODUÇÃO 
O objetivo desta disciplina é ensinar análise de dados usando o 
aplicativo R. Nesse sentido, pretendemos capacitar o estudante para 
realizar operações com o R com total destreza, de forma a executar 
tarefas de complexidade média utilizando o aplicativo R, bem como 
entender e adaptar códigos de outros usuários que utilizam o 
aplicativo R. 
Dos vários softwares disponíveis para análise de dados, o R tem, 
ao menos, três vantagens evidentes. Em primeiro lugar, é um software 
livre, ou seja, pode ser instalado em qualquer computador. Além disso, 
é um software de código aberto: se você quiser olhar o que está 
acontecendo por “debaixo do capô”, você pode. Por fim, tem a maior 
rede de colaboradores ativa na internet, ou seja, alguém certamente já 
fez algo parecido ao que você quer fazer, e você pode aproveitar. 
No entanto, existem alguns inconvenientes em se aprender um 
software livre. O primeiro é que o R é uma linguagem por script, ou 
seja, ele não segue a lógica point-and-click da maior parte dos 
programas. O segundo é que não existe uma empresa que pode ser 
responsabilizada por erros no software. Por fim, por ser um software 
livre, as atualizações são muito frequentes. 
Apesar dos inconvenientes, como você verá em breve, os 
benefícios superam, consideravelmente, os custos de usar o R. O 
primeiro inconveniente pode ser superado com cursos, como este que 
você está fazendo. Quanto ao segundo inconveniente, você não vai nem 
ficar sabendo que existiu: toda vez que alguém encontra um erro, a 
pessoa reporta ao time desenvolvedor, que corrige rapidamente. O 
terceiro inconveniente nem devia ser chamado assim: softwares de 
licença não atualizam constantemente por motivos alheios à qualidade 
ofertada ao usuário – os custos de melhorar são altos, e algumas 
empresas preferem vender a melhoria, travestida de uma nova versão. 
Isso não ocorre com softwares livres. 
 
 
 
Roteiro para aprendizado 
Aprender 𝑅𝑅 é igual aprender outra língua: você precisa treinar dezenas de vezes uma rotina até 
que ela se torne natural. Nesse sentido, o melhor modo de usar este texto é listar dados que você 
tem interesse em analisar e repetir tudo o que fazemos no texto nesses dados que interessam estudar. 
Vejamos um roteiro para aprendizado: 
 leia o texto, repetindo os códigos no seu computador; 
 faça os exercícios recomendados; 
 refaça os exercícios usando um banco de dados do seu gosto; 
 salve tudo em arquivo separado, indexado por unidade de aprendizado; 
 replique os códigos da sessão e 
 leia a sessão saiba mais e veja algo de legal que você vai aprender depois deste curso. 
 
Nota sobre os exercícios 
Tente fazê-los sozinho. A melhor maneira de aprender é descobrindo onde e por que você 
errou algo. Estipule um tempo de tentativas para cada questão, por exemplo, 10 minutos. Se o 
resultado estiver estranho, provavelmente, está errado mesmo. Refaça. Tente algumas vezes até 
procurar ajuda: é importante errar e aprender com os erros. 
Se você tentou várias vezes, mas o tempo se esgotou, é o caso de pedir ajuda. O Google é uma 
ótima ferramenta para isso, no entanto, talvez, a melhor de todas seja o Stack Overflow 
(https://stackoverflow.com/). O Stack Overflow é uma comunidade de programadores que postam 
perguntas e respostas sobre uma grande variedade de linguagens de programação. No nível inicial, 
quase todas as suas perguntas estarão respondidas no Stack Overflow. Eu sugiro que você faça a sua 
inscrição e se familiarize com o site. 
 
 
 
 
SUMÁRIO 
INTRODUÇÃO ......................................................................................................................................... 7 
O QUE É O R ........................................................................................................................................ 7 
Pacote estatístico R .................................................................................................................... 7 
História do R ............................................................................................................................... 8 
INSTALAÇÃO DO R E SOFTWARES AUXILIARES ................................................................................ 8 
Instalação de programas necessários: R ................................................................................ 9 
Instalação dos programas necessários: RStudio ................................................................. 10 
Instalação do Git: um acordo entre você e você mesmo ................................................... 12 
Instalação do GitHub ............................................................................................................... 15 
Configuração do R Studio ....................................................................................................... 15 
Configuração do Git e Github para funcionar com o seu R Studio ................................... 16 
CUSTOMIZAÇÃO E ENTENDIMENTO DO R.................................................................................... 18 
Pacotes: turbinando o R .......................................................................................................... 18 
Instalação dos pacotes necessário no curso ........................................................................ 20 
Livros e materiais de estudo .................................................................................................. 20 
Para imprimir agora ................................................................................................................ 22 
Projetos, R Markdown e Scripts ............................................................................................. 23 
Scripts ......................................................................................................................................... 23 
R Markdown .............................................................................................................................. 24 
Projetos no R Studio ................................................................................................................ 26 
R Notebook, Sweave e outros ................................................................................................ 26 
Ajuda no R ................................................................................................................................. 26 
Saiba mais: software livre ........................................................................................................ 30 
BIBLIOGRAFIA ...................................................................................................................................... 31 
PROFESSOR-AUTOR ............................................................................................................................. 32 
 
 
 
 
 
 
 
 
Neste módulo, vamos aprender o que é e para que serve o R. Para começar, aprenderemos a 
instalar o R e os softwares complementares em seu computador pessoal. Vamos falar um pouco da 
estrutura do R, da sintaxe, dos softwares de apoio e de como o software difere daquilo que você já 
está acostumado ou acostumada a usar. 
 
O que é o R 
Pacote estatístico R 
O objetivo deste curso é ensinar análise de dados usando o aplicativo R. Dos vários softwares 
disponíveis para análise de dados, o R tem ao menos três vantagens evidentes: 
 é um software livre, ou seja, pode ser instalado em qualquer computador; 
 é software de código aberto, de modo que você pode olhar o que está acontecendo por 
“debaixo do capô”, e 
 tem a maior rede de colaboradores ativa na internet, ou seja, alguém já deve ter feito 
algo parecido ao que você quer fazer, e você pode aproveitar. 
 
No entanto, existem alguns inconvenientes em se aprender um software livre. O primeiro é 
que o R é uma linguagem por script, ou seja, ele não segue a lógica point-and-click da maior parte 
dos programas. O segundo é que não existeuma empresa que pode ser responsabilizada por erros 
no software. Por fim, por ser um software livre, as atualizações são muito frequentes. 
 
INTRODUÇÃO 
 
8 
 
Apesar dos inconvenientes, como você verá em breve, os benefícios superam, 
consideravelmente, os custos de usar o R. O primeiro inconveniente pode ser superado com 
cursos, como este que você está fazendo. Quanto ao segundo inconveniente, você não vai nem 
ficar sabendo que existiu: toda vez que alguém encontra um erro, a pessoa reporta ao time 
desenvolvedor, que corrige rapidamente. O terceiro inconveniente nem devia ser chamado assim: 
softwares de licença não atualizam constantemente por motivos alheios à qualidade ofertada ao 
usuário – os custos de melhorar são altos, e algumas empresas preferem vender a melhoria, 
travestida de uma nova versão. Isso não ocorre com softwares livres. 
 
História do R 
O pacote estatístico 𝑅𝑅 nasceu como uma versão livre do pacote estatístico S. O software 𝑆𝑆 foi 
criado nos laboratórios da Bell, em 1976, por John Chambers. Com a evolução do software 𝑆𝑆 e a 
criação do S+, um grupo de professores neozelandeses da Universidade de Auckland resolveu criar 
uma versão aberta do S+, que veio a ser o 𝑅𝑅. A primeira versão estável do 𝑅𝑅 foi lançada em 2000. 
Atualmente, o 𝑅𝑅 é organizado em repositórios chamados 𝐶𝐶𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 (Comprehensive R Archive 
Networks), que são instituições nacionais e internacionais que hospedam o programa e as suas 
atualizações, bem como os mais de 12 mil pacotes estatísticos que acompanham o 𝑅𝑅. No Brasil, 
temos as seguintes instituições hospedeiras (𝐶𝐶𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅): 
 Centro para Biologia Computacional UESC: (http://nbcgib.uesc.br/mirrors/cran/); 
 UFPR: (https://cran-r.c3sl.ufpr.br/); 
 FIOCRUZ, Rio de Janeiro: (https://cran.fiocruz.br/); 
 USP, São Paulo: (https://vps.fmvz.usp.br/CRAN/) e 
 USP, Piracicaba: (https://brieger.esalq.usp.br/CRAN/). 
 
Além de um pacote de estatística e uma linguagem de programação, o R é conhecido por 
possibilitar visualização de dados em alto-nível, extração de dados automatizada da internet, 
criação de gráficos e vídeos que podem ser customizados em tempo real, entre outros. 
 
Instalação do R e softwares auxiliares 
Para iniciarmos os estudos, você vai aprender a configurar o seu computador, a instalar o R, 
além de conhecer alguns softwares de apoio importantes para análise de dados. 
 
 
http://nbcgib.uesc.br/mirrors/cran/
http://nbcgib.uesc.br/mirrors/cran/
https://cran-r.c3sl.ufpr.br/
https://cran-r.c3sl.ufpr.br/
https://cran.fiocruz.br/
https://cran.fiocruz.br/
https://vps.fmvz.usp.br/CRAN/
https://vps.fmvz.usp.br/CRAN/
https://brieger.esalq.usp.br/CRAN/
https://brieger.esalq.usp.br/CRAN/
 
 9 
 
Instalação de programas necessários: R 
Para instalar o R, entre no site R Project (https://www.r-project.org/). Você deverá acessar a 
seguinte página: 
 
Figura 1 – página de abertura do R 
 
Do lado esquerdo, existe um menu, contendo a aba CRAN, que são os repositórios nos 
quais o R é armazenado pelo mundo à fora. Clique no item e aparecerá a seguinte tela: 
 
Figura 2 – qual CRAN usar? 
 
 
 
 
 
10 
 
Clique no link da Fiocruz (ou qualquer outro da sua preferência) e escolha o seu sistema 
operacional. Nesse caso, vamos escolher Windows e baixar os pacotes. 
 
Figura 3 – Instalando o R (1) 
 
 
Figura 4 – Instalando o R (2) 
 
 
Após baixar, você vai precisar abrir o instalador. Siga a sequência de telas até o final, e o 
programa será instalado. Minha sugestão, ao menos para essa versão, é aceitar as configurações “de 
fábrica”. Após finalizar, o seu computador já possui o R instalado. 
 
Instalação dos programas necessários: RStudio 
Se você tentar abrir o R, vai ver algo interessante e assustador: ao abrir o software, aparece o 
console, local onde você coloca os comandos, e só. Esse é, basicamente, o 𝑅𝑅: como linguagem 
interpretada, o console é o interpretador da linguagem. Nele, você digita os comandos e, então, o 
software executa esses comandos. Isso acaba sendo um pouco desorganizado e ineficiente, de 
forma que, para facilitar, usamos um chamado front-end. 
 
 11 
 
A finalidade do front-end é organizar os resultados e o processamento do 𝑅𝑅 em espaços 
diferentes. Dos diversos tipos de front-ends para R, o mais usado na área é o RStudio. O RStudio 
é um software livre criado por Joseph Alarie (o mesmo criador do App LoseIt), em 2009. Existem 
duas versões do RStudio, uma é feita para rodar pela internet, com o auxílio de um servidor. A 
outra, a que vamos baixar, é a versão Desktop, que não tem custos para usarmos. 
No seu navegador, abra a seguinte URL: https://www.rstudio.com/products/rstudio/ 
download/. Você terá de encontrar o seguinte conteúdo: 
 
Figura 5 – R Studio Download 
 
 
 
Clique em Download na coluna R Studio Desktop. Em seguida, você deve selecionar, na 
lista, o instalador que mais se adequa ao seu caso. No caso do computador que estou usando 
agora, um Mac, vou selecionar o instalador para o Mac de 64 bits. Quando você clicar no 
instalador, aparecerá o seguinte resultado: 
 
Figura 6 – R Studio Download Installer Clicado 
 
 
12 
 
Quando abrir, você verá uma tela assim: 
 
Figura 7 – R Studio 
 
 
A sua será um pouco diferente, pois a minha está com o esquema de cores que uso. No 
entanto, se apareceu essa tela com a versão do R que você instalou (que é, certamente, mais nova 
do que a que estou usando), sucesso! 
 
Instalação do Git: um acordo entre você e você mesmo 
Com o que instalou, você já consegue usar o R. No entanto, existem ferramentas que 
ajudam a otimizar o processo de análise de dados. Uma delas é o Git. 
Git é uma ferramenta de controle de versão cujo objetivo é fazer com que as várias edições 
dos códigos fiquem salvas. Nesse sentido, é como se fosse um processo de cristalizar a sua 
memória de edição do texto: um compromisso entre você hoje e você no futuro. 
Você pode perguntar: porque isso é importante, se a versão final do meu código é a que vou 
usar? Três motivos fazem com que o Git seja uma ferramenta útil para seu trabalho: 
1. Quando você está escrevendo códigos de computador, é comum que você imagine 
uma melhoria, que acaba sendo uma piora… Você pode melhorar o código e, 
então, na hora de rodar os resultados, aparecem coisas que não fazem sentido ou 
não estão batendo com o básico do que você esperava. Nesse tipo de situação, é 
conveniente usar uma ferramenta que ajude a comparar as alterações e que faça com 
que você tenha versões do código que possam ser restauradas caso a alteração seja, 
definitivamente, uma piora. 
 
 
 13 
 
2. Se você precisa explicar por que fez uma coisa, é fácil quando o projeto tem poucos 
passos. No entanto, é complexo para projetos grandes. Usar o Git faz com que você 
seja capaz de explicar tudo o que foi feito em cada etapa e qual a evolução de um 
passo a outro. 
3. Se você precisa enviar o código para alguém replicar, basta deixar a pessoa fork o 
conteúdo: uma forma de transferir, via git, o que você fez. 
 
Desse modo, o Git é ótimo para economizar trabalho, uma vez que você pega a prática de 
salvar coisas nele. 
Para usar o Git precisamos instalar o aplicativo. Abra a seguinte página: https://git-
scm.com/downloads. Nela, você encontra os arquivos de instalação. No caso, instalamos o git 
versão Desktop para Mac. 
 
Figura 8 – página de download do GIT 
 
 
 
 
14 
 
Figura 9 – instalador do Git 
 
 
Siga todos os passos de instalação e, ao final, para verificar se está funcionando, vá no 
Terminal (ou Prompt de Comando no Windows) e digite git --version. Você deve observar o 
seguinte resultado: 
 
Figura 10 – versão do GIT 
 
 
Se ele retornar a versão (que, provavelmente, será mais atual do que a minha), é sinal que o Git 
foi instalado corretamente. Para configurar o seu nome e o seu e-mail no Git, use os seguintes códigos: 
 
$ git config --global user.name "Seu Nome Aqui" 
$ git config--global user.email "seu.email.aqui@seuemail.com" 
 
Substitua o nome entre aspas e o e-mail no código acima. Isso deve ser usado no Terminal 
(Prompt de Comando). Se você não sabe como abrir o Terminal, basta no R Studio ir em 
Tools -> Shell… E o software abrirá o terminal. 
 
 
 
 15 
 
Instalação do GitHub 
A versão do Git on-line é o que chamamos de Github. É um repositório on-line em que 
você pode guardar códigos e exercícios que resolver nesse curso. Além disso, é uma forma de você 
compartilhar com outras pessoas os códigos que escrever. Para criar uma conta no Github, abra o 
seguinte link https://github.com. Faça a conta gratuita mesmo, pois ela é suficiente para o que 
você precisa. 
A conta paga tem algumas vantagens, como a possibilidade de criar repositórios privados 
para os seus dados, de forma que ninguém tenha acesso. Um modo de fazer uma conta on-line é 
pedindo ao Github uma conta acadêmica e explicando por que você precisa da conta. Dessa 
forma, eu tenho uma conta privada sem pagar nada. 
 
Configuração do R Studio 
Abra o R Studio. Você tem de ver algo como a seguinte tela: 
 
Figura 11 – tela inicial do R Studio 
 
 
Você verá algo equivalente à tela apresentada, no esquema de cores que o seu computador 
tiver configurado (como trabalho muitas horas seguidas, prefiro esse esquema de cores). Se essa 
tela apareceu, significa que está tudo ok. 
 
16 
 
Vamos entender um pouco da organização que o R Studio faz no compilador do R: 
primeiro, note no lado esquerdo. 
 
Configuração do Git e Github para funcionar com o seu R Studio 
O primeiro passo é criar uma chave SSH RSA, que tem o objetivo de facilitar a 
comunicação segura para os seus dados entre quem tem a chave pública (e pode usa-la codificar 
informações) e você, que tem a chave privada (e pode decodificar a informação enviada). 
Para criar uma chave, primeiro vamos ver se existe alguma chave já configurada. Vá no 
console do R e digite file.exists("~/.ssh/id_rsa.pub"). Em meu caso, esse foi o resultado: 
 
> file.exists("~/.ssh/id_rsa.pub") 
[1] FALSE 
 
Se o resultado foi FALSE ou TRUE, vai determinar o que você vai fazer em seguida. Abra a 
tela de propriedades: Tools -> Global Options… Uma tela de opções irá abrir e no lado 
esquerdo escolha Git/SVN. 
 
Figura 12 – opções do R Studio para Git 
 
 
Se na tela anterior apareceu FALSE, você terá de criar uma. Basta clicar no botão Create 
RSA Key.... Clique em gerar chave. Em seguida, vai aparecer a chave e um desenho interessante. 
Você pode salvar isso no seu computador. Quando você fechar, você precisa recuperar a chave. 
 
 
 17 
 
Agora, se apareceu TRUE ou você seguiu as instruções do parágrafo acima, basta clicar em 
View public key. Copie usando CMD + C (ou CTRL + C em PCs). Em seguida, você tem de 
colocar a chave no Github, para fazer a ligação dos sistemas. Para tanto, abra o seguinte link 
https://github.com/settings/ssh. 
 
Figura 13 – Github SSH Key Configuration 
 
 
Clique em New SSH key. Vai aparecer a tela: 
 
Figura 14 – Github SSH Key Configuration 
 
 
 
18 
 
No título, coloquei R Studio e, na key, você cola (CMD + V ou CTRL + V) o conteúdo da 
chave. A chave deve começar com ssh-rsa e caracteres aparentemente aleatórios, que são a chave 
gerada. Ao terminar, clique em Add SSH key. 
Agora, você precisa criar um repositório no Github. No Github, clique em +, no lado 
superior direito, próximo à sua foto. Vai abrir um menu, e você deve escolher New repository. 
 
Figura 15 – Github SSH Key Configuration 
 
 
Coloque um nome no seu repositório, de preferência, um nome tipo r-estudo. Salve-o e 
reinicie o RStudio. 
 
Customização e entendimento do R 
Pacotes: turbinando o R 
Para turbinar o seu R, você pode instalar pacotes, que são nada mais do que códigos criados 
por outros usuários, com objetivo de resolver um problema prático. Em geral, as pessoas escrevem 
pacotes para resolver problemas práticos que elas têm ou para fazer propaganda delas mesmas. É 
muito comum, na área de Ciência Política, que os professores criem pacotes para fazerem 
propaganda dos seus trabalhos. 
 
 19 
 
Vamos olhar um pouco os repositórios, abrindo a seguinte URL 
https://cran.fiocruz.br/web/packages/index.html. 
 
Figura 16 – R CRAN Fiocruz packages 
 
 
Na esquerda, temos o nome do pacote e, na direita, a descrição do pacote. Vou dar uma 
busca para algum pacote relacionado ao Brasil. Basta usar CMD + F (CTRL + F) e digitar Brazil. 
Vou baixar esse pacote chamado brazilmaps, que parece ser interessante: contém todos os mapas 
do Brasil disponíveis no site do IBGE. Para baixar um pacote: 
 
> install.packages('brazilmaps', dependencies = T) 
 
Faça isso e software vai instalar esse pacote. O outro comando, dependencies=T, é para 
que o R instale outros pacotes que também são necessários para rodar o R. Para descobrir o que 
tem no pacote, digite help(package='brazilmaps'). No lado direito inferior, onde temos a 
tela de help, vão aparecer todos os atributos do pacote. 
 
20 
 
Para usar o pacote, basta digitar library(brazilmaps). Por exemplo, para a função 
plot_brmap, podemos pedir um exemplo de uso: 
 
example(plot_brmap) 
 
Dessa forma, você vai passando de mapa em mapa. 
 
Instalação dos pacotes necessário no curso 
Vamos instalar alguns pacotes necessários ao nosso trabalho: os pacotes são o Zelig, o pscl, 
que são mais de ciência política. O AER e o car, que são mais para análise de regressão. O 
tidyverse, o haven e o data.table, que são mais para processamento de dados, entre outros. 
Como exercício, olhe a descrição dos pacotes que estamos instalando no CRAN. A seguir, veja o 
código para fazer a instalação: 
 
install.packages(c('Zelig', 'pscl', 'AER', 'car', 
 'tidyverse', 'nycflights13', 
 'gapminder', 'Lahman', 'haven', 
 'RColorBrewer', 'xlsx', 'devtools', 
 'data.table', 'httr', 'wordcloud', 
 'lubridate', 'xtable', 'stargazer', 
 'countrycode', 'tm'), dependencies = T) 
 
Esse código vai demorar um pouco para rodar, a depender da velocidade da sua internet. 
 
Livros e materiais de estudo 
Existem variados livros-textos e materiais on-line que podem ser consultados para aprender R. 
Aqui, listo alguns que, inclusive, adapto os exemplos para esta apostila. Livros físicos melhores de R 
são: 
a) Wickham, Hadley & Grolemund, Garret. R for Data Science. O’Reilly, 2017. Disponível 
em: https://www.livrariacultura.com.br/p/ebooks/informatica-e-tecnologia/r-for-data-
science-107270619. Acesso em: nov. 2018. 
b) Magallanes-Reyes, Jose. Introduction to Data Science for social and policy research. Cambridge 
University Press, 2017. Disponível em: 
https://www.livrariacultura.com.br/p/ebooks/ciencias-sociais/introduction-to-data-science-
for-social-and-111461619. Acesso em: nov. 2018. 
c) Maindonald, John & Braun, John. Data analysis and graphics using R: an example-based 
approach. V. 10. Cambridge University Press, 2006. Disponível em: 
https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/matematica/data-analysis-and-
graphics-using-r-81488956. Acesso em: nov. 2018. 
 
 21 
 
Nesta apostila, estamos seguindo o livro do Wickham e Grolemund (2017) de perto, de 
forma que recomendamos que você adquira este livro. O livro de Magallanes-Reyes (2017) é 
ótimo para aqueles que querem aprender processamento de dados com foco em R e Python ao 
mesmo tempo. Eu recomendo, fortemente, o livro se você está-se especializando em análise de 
dados ou quer trabalhar em uma firma especializada em dados. Por fim, o livro do Maindonald e 
Braun (2006) é mais antigo, mas cobre praticamente todas as análises estatísticas elementares que 
podem ser feitas usando o R. Esse livro cobre ainda um bom conteúdo de análise de dados e 
machine learning, todos aplicados em problemas de biologia. 
Ainda, temos vários livros mais técnicos, que podem adequar-se às suas demandas 
específicas. Os meus três livrospreferidos são os seguintes: 
a) Crawley, Michael. The R book. John Wiley & Sons, 2012. Disponível em: 
https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/estatistica/the-r-book-
17650130. Acesso em: nov. 2018. 
O livro de Crawley (2012) é um dos mais completos já produzidos na área. Ele possui 
uma gama de assuntos e discute grande parte dos pacotes que usamos no dia a dia da 
análise de dados. 
 
b) Matloff, Norman. The art of R programming: a tour of statistical software design. No 
Starch Press, 2011. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ 
informatica-e-tecnologia/software/the-art-of-r-programming-111384489. Acesso em: 
nov. 2018. 
Matloff (2011) é um livro voltado para programação em R. Ele é indispensável para 
aqueles que buscam se aprofundar no uso do software, pois uma evolução futura no 
trabalho do analista de dados é montar modelos de programação que ajudem o analista 
a automatizar as rotinas de trabalho. 
 
c) James, Gareth; Witten, Daniela; Hastie, Trevor & Tibshirani, Robert. An introduction 
to statistical learning. New York: Springer, 2013. Disponível em: 
https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/estatistica/an-introduction-
to-statistical-learning-111334554. Acesso em: nov. 2018. 
 
 
Por fim, Gareth et al. (2013) é o melhor texto introdutório em machine learning, com a 
vantagem de que todos os exemplos e discussões são aplicados em R. Apesar de não ser 
um livro de R diretamente, é essencial para entendermos como R pode ajudar em 
análises de dados mais avançadas. 
 
 
22 
 
Temos materiais on-line significativos. Primeiro, temos todo uma gama de materiais de 
apoio produzidos pelas cientistas que escrevem os pacotes. Segundo, temos repositórios de 
perguntas e respostas, blogs, materiais de replicação, entre outros. Um material on-line em 
português interessante para consulta e referência é o texto do IBPAD de Ciência de Dados em R: 
(https://cdr.ibpad.com.br). Sugiro que você faça o download e use à vontade. 
 
Para imprimir agora 
Existem alguns materiais, chamados de Cards ou cheat-sheets pela comunidade, que são 
extremamente úteis. Os cheat-sheets são folhas que contêm comandos e códigos de exemplos, que 
ilustram o uso dos diversos softwares e pacotes dentro do R. As cheat-sheets que sugiro que você 
imprima e deixe ao seu lado na análise são: 
1. Funções básicas do R: 
http://github.com/rstudio/cheatsheets/raw/master/base-r.pdf 
 
2. Visualização de dados: 
https://github.com/rstudio/cheatsheets/raw/master/data-visualization-2.1.pdf 
 
3. Transformação nos dados: 
https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf 
 
4. data.table (pacote para grandes bases de dados): 
https://github.com/rstudio/cheatsheets/raw/master/datatable.pdf 
 
5. Datas e horas no R: 
https://github.com/rstudio/cheatsheets/raw/master/lubridate.pdf 
 
6. Carregando dados no R: 
https://github.com/rstudio/cheatsheets/raw/master/data-import.pdf 
 
7. R Markdown: 
https://github.com/rstudio/cheatsheets/raw/master/rmarkdown-2.0.pdf 
 
8. Comandos do RStudio: 
https://github.com/rstudio/cheatsheets/raw/master/rstudio-ide.pdf 
9. Trabalhando com textos: 
https://github.com/rstudio/cheatsheets/raw/master/strings.pdf 
 
https://github.com/rstudio/cheatsheets/raw/master/data-visualization-2.1.pdf
https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf
https://s3.amazonaws.com/assets.datacamp.com/img/blog/data+table+cheat+sheet.pdf
 
 23 
 
E mais uma dezena de outras cheat sheets, que vão servir para cada uma das ocasiões de 
análise que você precisar. Todas estão disponíveis de graça no site do R Studio. 
 
Projetos, R Markdown e Scripts 
Como o R é uma linguagem chamada de script language, ele tem um interpretador, que é o 
Console que você baixou os pacotes há pouco. Os comandos passados ao interpretador não são 
salvos em lugar algum, exceto no histórico do R (ver a barra history no canto superior direito de 
seu RStudio). Quando trabalhamos com R, por questão de compartimentalização, organizamos os 
resultados em arquivos que contêm os comandos. Existem, ao menos, três tipos de arquivos, que 
discutimos a seguir: 
 
Scripts 
Scripts são as formas mais elementares de armazenar os códigos de R. São arquivos com a 
extensão .R, que contêm códigos interpretáveis pelo R, intercalados com comentários. Por exemplo, 
o script da figura abaixo contém uma série de comandos usados em um artigo de minha autoria: 
 
Figura 17 – Exemplo de script de R 
 
 
 
 
24 
 
O caractere # significa comentário e não é interpretado pelo software (o R-Studio marca em 
cinza). O restante do código é branco. Note que textos como no caso da linha 14 brazilmaps, são 
marcados em verde. Em laranja, é uma variável chamada booleana, que carrega o valor TRUE (T) 
ou FALSE (F). Para enviar partes do código para o console, você tem três alternativas: 
1. colocar o console na linha que quer compilar e pressionar CTRL+Enter (esse o modo 
mais eficiente); 
2. selecionar e pressionar o botão Run na barra superior do script ou 
3. selecionar o código, copiá-lo (CTRL+C), colar no console (CTRL+V) e apertar Enter 
(esse o modo menos eficiente). 
 
R Markdown 
Os scripts são bons para fazermos código, mas o ideal para usarmos o R de maneira 
sofisticada é podermos fazer no mesmo lugar código e texto. O R Studio facilita muito esse tipo 
de operação, pois tem embutido nele o que chamamos de R Markdown. 
R Markdown nada mais é do que um tipo simplificado de linguagem de escrita, em que 
colocamos textos junto com códigos. Por exemplo, esse livro foi inteiramente feito em R 
Markdown e, na figura a seguir, você pode ver o código desse livro no original. 
 
Figura 18 – Exemplo de uso do R Markdown para escrever essa apostila 
 
 
 
 
 25 
 
Usar o R Markdown é bem simples e, na cheat-sheet que passamos, seguem as informações 
principais. No geral, você pode compilar um HTML, e isso será suficiente para o escopo desse 
curso. No entanto, vale a pena aprender a usar R Markdown mais a fundo, até para saber 
customizar mais o seu resultado.1 
No arquivo acima, note que escrevemos como se estivéssemos escrevendo um texto normal. 
A ideia do R Markdown é combinar código de R e texto no mesmo arquivo. Isso facilita a vida e 
torna a pesquisa reproduzível, já que qualquer pessoa que quiser refazer os seus passos poderá 
compilar o arquivo e ler o relatório que vem em anexo. Para inserir código de R no meio do 
relatório, você deve usar os seguintes comandos: 
 
```{r} 
hist(rnorm(100)) 
``` 
 
O código irá plotar um histograma com 100 variáveis aleatórias geradas em R. Chamamos 
essas partes de chunck codes (pedaços de códigos). Nessas chunks, podemos colocar uma gama 
variada de códigos. Os mais comuns são de dois tipos: códigos que rodam, mas não devem ser 
apresentados ao leitor – por exemplo, um código que carrega uma base de dados on-line –, ou 
códigos que rodam visando apresentar algo ao leitor – por exemplo, uma tabela ou uma figura. 
O texto de R Markdown tem níveis, como todo texto de relatório que escrevemos. Usamos 
o caractere # para indicar o nível do código. Quanto mais #’s, mais de baixo nível é o texto. Por 
exemplo, # significa capítulo, ## significa seção, ### significa subseção, e assim por diante. Para 
usarmos negrito, colocamos as palavras entre **duas estrelas** e, para usar itálico, colocamos o 
texto entre um *asterisco*. 
Na cheat-sheet de R Markdown, há todo o restante que vocês devem saber sobre a 
ferramenta. Não vamos aprofundá-la aqui, mas pediremos que todas as listas de exercícios do 
curso sejam entregues em R Markdown. 
 
 
 
1 Note só um pequeno detalhe: não é aconselhável fazer grandes alterações no layout. Isso porque esse tipo de 
linguagem foi pensado para que o usuário se concentre na análise e no processamento dos dados, e não em ajustar 
margens ou coisa similar. A ideia da comunidade, quando criouesse tipo de linguagem, é que você não perca nada de 
tempo customizando e dedique o seu tempo para as coisas substantivas que te interessam. 
 
26 
 
Projetos no R Studio 
O R Studio tem uma interface chamada Projects, que facilita a criação de projetos que tem 
múltiplos arquivos e muitos colaboradores. Para criar um projeto no R Studio, basta ir para o 
menu File e selecionar New Project. O programa dará três opções: 
(i) New Directory: significa que o projeto todo ficará guardado em uma série de scripts e 
bancos de dados em um diretório particular. 
(ii) Existing Directory: significa que o projeto novo será vinculado a um diretório já existente. 
(iii) Version Control: é um projeto com o objetivo de salvar em uma plataforma de controle 
de versão, por exemplo, o GitHub. 
 
A opção escolhida dependerá da sua necessidade. No entanto, Projetos são muito bons para 
organizar empreitadas complexas, como relatórios que envolvem grandes volumes de dados ou 
artigos acadêmicos. 
 
R Notebook, Sweave e outros 
O R tem ainda outros tipos de arquivos, como R Notebooks, Sweave, Shiny e outras 
ferramentas. O R Notebook é uma espécie de markdown, mas que compila em pedaços ao vivo. 
Enquanto é preciso compilar o R Markdown ao todo, no Notebook, você pode fazer uma parte, 
compilar o código para ver se está funcionando e continuar o trabalho, tanto em texto, quanto em 
mais código. A vantagem de usar o R Notebook é que ele permite que você documente o código 
enquanto escreve ele. Isso ajuda muito você e os seus leitores(as) a compreenderem o que e por 
que você fez o que fez. 
O Sweave é uma ferramenta para usar o compilador de textos científicos chamado LaTeX. 
Isso está fora do escopo desse trabalho, mas pode ser útil se você trabalhar na área acadêmica. 
 
Ajuda no R 
O R tem um sistema de ajuda limitado, mas que, para a maior parte do propósito simples, 
pode economizar uma busca na internet. Primeiro, se você sabe o comando para o qual quer pedir 
ajuda, basta digitar no console help e o nome do comando entre parênteses: 
 
help(nome_do_comando) 
 
 
 
 27 
 
A primeira coisa que você deve saber é: a sintaxe do R é sempre comando(arg1, arg2, 
arg3), e assim por diante. Ou seja, help é uma função que recebe como argumento o nome do 
comando sobre o qual você quer saber mais. Por exemplo, se eu quiser pedir ajuda sobre o 
comando help, devo fazer o seguinte: 
 
help(help) 
 
E vai aparecer na aba lateral inferior a descrição: 
 
Figura 19 – Ajuda do comando ajuda no R 
 
 
Basta rolar para baixo e verá a ajuda sobre o comando ajuda. O help do R sempre tem a 
mesma estrutura: 
 descrição do comando; 
 sintaxe do comando; 
 argumentos que você pode adicionar ao comando; 
 detalhes sobre o funcionamento, referências e sugestões de comandos similares, e 
 exemplos de uso. 
 
 
 
28 
 
O help do R não é o mais amigável dos softwares de estatística (o do SPSS é provavelmente 
o melhor nesse ponto), mas uma boa busca na internet é suficiente para o uso efetivo dos 
comandos disponíveis no R. Ainda sobre a sintaxe, lembre-se de que deve usar vírgula para separar 
os argumentos e fechar parênteses quando terminar o comando. Exemplos de instruções 
incompletas são: 
 
help(help 
help help 
help help) 
 
Nenhuma dessas instruções, passadas individualmente, devem funcionar no console do R. 
O problema é que, frequentemente, não sabemos qual função queremos usar. No caso, sabemos 
que help é uma função, mas e se você quiser fazer um gráfico de barras e não souber qual 
comando precisa usar? Nesse caso, você deve usar o comando: 
 
help.search('bar plot') 
 
E o R vai sugerir todos os pacotes em que ele tenha algo relacionado com Bar Plot. No caso, 
clique no graphics::barplot. Você deverá observar o seguinte resultado: 
 
Figura 20 – Ajuda do gráfico de barras 
 
 
 29 
 
Você pode ler o artigo e entenderá o que ele faz. Um modo de aprender algo sobre o 
funcionamento é usando o comando example, que vai rodar os exemplos do comando, para que 
você veja o comando funcionando na prática. Nesse caso: 
 
example(barplot) 
## 
## barplt> require(grDevices) # for colours 
## 
## barplt> tN <- table(Ni <- stats::rpois(100, lambda = 5)) 
## 
## barplt> r <- barplot(tN, col = rainbow(20)) 
 
 
 
E assim por diante (o comando apresentará mais quatro gráficos). A ideia de pedir um example 
é que você poderá ver exemplos de uso que podem ser adaptados para os casos que você precisa. 
 
 
 
30 
 
Saiba mais: software livre 
Softwares de código aberto ou open source são softwares que podem ser livremente 
distribuídos na internet. Os softwares de código livre, como o R, têm inúmeras vantagens, por 
exemplo, o fato de que qualquer um pode conferir o código original e propor, ou implementar, 
mudanças que melhore o software. Outro ponto positivo do software livre é que não é necessário 
pagar por uma licença, o que torna os programas mais acessíveis e baratos aos usuários. 
Existem centenas de softwares livres, desde programas que fazem pequenas tarefas até 
sistemas operacionais, como é o caso do Linux. A vantagem de usar esse tipo de software é que os 
seus códigos podem ser reproduzidos em outros computadores sem que haja necessidade de que o 
usuário que queira reproduzir o código pague pelo sistema. 
Como ponto negativo, talvez o pior fato é que os códigos passam por pouco controle de 
qualidade ex-ante, o que pode permitir que códigos pouco eficientes ou errados sejam utilizados. 
Isso não costuma ser um problema, uma vez que, devido ao grande número de usuários, os 
problemas acabam sendo reportados e corrigidos rapidamente. 
 
 
 31 
 
BIBLIOGRAFIA 
JAMES, Gareth, et al. An introduction to statistical learning. V. 112. New York: springer, 2013. 
 
MAINDONALD, John & BRAUN, John. Data analysis and graphics using R: an example-based 
approach. V. 10. Cambridge University Press, 2006. 
 
REYES, Jose Manuel Magallanes. Introduction to Data Science for social and policy research. 
Cambridge University Press, 2017. 
 
TEAM, R. Core. R language definition. Vienna, Austria: R foundation for statistical 
computing (2000). 
 
WICKHAM, Hadley & GROLEMUND, Garrett. R for data science: import, tidy, transform, 
visualize, and model data. O'Reilly Media, Inc., 2016. 
 
WICKHAM, Hadley & FRANCOIS, Romain. dplyr: a grammar of data manipulation, 2013. 
Disponível em: https://github.com/hadley/dplyr.version 0.1.[p 1]. Acesso em: 2017. 
 
WICKHAM, Hadley. Tidy data. Journal of Statistical Software. v59i10, 2014, p, 1-23. 
 
WICKHAM, Hadley. Advanced R. Chapman and Hall/CRC, 2014. 
 
WICKHAM, Hadley. ggplot2: elegant graphics for data analysis. Springer, 2016. 
 
 
 
32 
 
PROFESSOR-AUTOR 
Umberto Mignozzetti é professor adjunto da Escola de 
Relações Internacionais da FGV. Tem doutorado em Ciência 
Política pela Universidade de São Paulo e cursa um segundo 
doutorado na New York University. A sua pesquisa está 
concentrada nas áreas de Economia Política Comparada e 
Economia Política Internacional, investigando o efeito de 
institucionais sobre incentivos e bem-estar. Os trabalhos 
recentes do autor abordam o papel de instituições 
internacionais no controle de estados falidos e o papel das 
instituições na melhoria da provisão de serviços. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
	Introdução
	Sumário
	O que é o R
	Pacote estatístico R
	História do R
	Instalação do R e softwares auxiliares
	Instalação de programas necessários: R
	Instalação dos programas necessários: RStudio
	Instalação do Git: um acordo entre você e você mesmo
	Instalação do GitHub
	Configuração do R Studio
	Configuração do Git e Github para funcionar com o seu R Studio
	Customização e entendimento do R
	Pacotes: turbinando o R
	Instalação dos pacotes necessário no curso
	Livros e materiais de estudo
	Para imprimir agora
	Projetos, R Markdown e Scripts
	Scripts
	R Markdown
	Projetos no R Studio
	R Notebook, Sweave e outros
	Ajuda noR
	Saiba mais: software livre
	INTRODUÇÃO
	Bibliografia
	Professor-autor

Outros materiais