Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO O objetivo desta disciplina é ensinar análise de dados usando o aplicativo R. Nesse sentido, pretendemos capacitar o estudante para realizar operações com o R com total destreza, de forma a executar tarefas de complexidade média utilizando o aplicativo R, bem como entender e adaptar códigos de outros usuários que utilizam o aplicativo R. Dos vários softwares disponíveis para análise de dados, o R tem, ao menos, três vantagens evidentes. Em primeiro lugar, é um software livre, ou seja, pode ser instalado em qualquer computador. Além disso, é um software de código aberto: se você quiser olhar o que está acontecendo por “debaixo do capô”, você pode. Por fim, tem a maior rede de colaboradores ativa na internet, ou seja, alguém certamente já fez algo parecido ao que você quer fazer, e você pode aproveitar. No entanto, existem alguns inconvenientes em se aprender um software livre. O primeiro é que o R é uma linguagem por script, ou seja, ele não segue a lógica point-and-click da maior parte dos programas. O segundo é que não existe uma empresa que pode ser responsabilizada por erros no software. Por fim, por ser um software livre, as atualizações são muito frequentes. Apesar dos inconvenientes, como você verá em breve, os benefícios superam, consideravelmente, os custos de usar o R. O primeiro inconveniente pode ser superado com cursos, como este que você está fazendo. Quanto ao segundo inconveniente, você não vai nem ficar sabendo que existiu: toda vez que alguém encontra um erro, a pessoa reporta ao time desenvolvedor, que corrige rapidamente. O terceiro inconveniente nem devia ser chamado assim: softwares de licença não atualizam constantemente por motivos alheios à qualidade ofertada ao usuário – os custos de melhorar são altos, e algumas empresas preferem vender a melhoria, travestida de uma nova versão. Isso não ocorre com softwares livres. Roteiro para aprendizado Aprender 𝑅𝑅 é igual aprender outra língua: você precisa treinar dezenas de vezes uma rotina até que ela se torne natural. Nesse sentido, o melhor modo de usar este texto é listar dados que você tem interesse em analisar e repetir tudo o que fazemos no texto nesses dados que interessam estudar. Vejamos um roteiro para aprendizado: leia o texto, repetindo os códigos no seu computador; faça os exercícios recomendados; refaça os exercícios usando um banco de dados do seu gosto; salve tudo em arquivo separado, indexado por unidade de aprendizado; replique os códigos da sessão e leia a sessão saiba mais e veja algo de legal que você vai aprender depois deste curso. Nota sobre os exercícios Tente fazê-los sozinho. A melhor maneira de aprender é descobrindo onde e por que você errou algo. Estipule um tempo de tentativas para cada questão, por exemplo, 10 minutos. Se o resultado estiver estranho, provavelmente, está errado mesmo. Refaça. Tente algumas vezes até procurar ajuda: é importante errar e aprender com os erros. Se você tentou várias vezes, mas o tempo se esgotou, é o caso de pedir ajuda. O Google é uma ótima ferramenta para isso, no entanto, talvez, a melhor de todas seja o Stack Overflow (https://stackoverflow.com/). O Stack Overflow é uma comunidade de programadores que postam perguntas e respostas sobre uma grande variedade de linguagens de programação. No nível inicial, quase todas as suas perguntas estarão respondidas no Stack Overflow. Eu sugiro que você faça a sua inscrição e se familiarize com o site. SUMÁRIO INTRODUÇÃO ......................................................................................................................................... 7 O QUE É O R ........................................................................................................................................ 7 Pacote estatístico R .................................................................................................................... 7 História do R ............................................................................................................................... 8 INSTALAÇÃO DO R E SOFTWARES AUXILIARES ................................................................................ 8 Instalação de programas necessários: R ................................................................................ 9 Instalação dos programas necessários: RStudio ................................................................. 10 Instalação do Git: um acordo entre você e você mesmo ................................................... 12 Instalação do GitHub ............................................................................................................... 15 Configuração do R Studio ....................................................................................................... 15 Configuração do Git e Github para funcionar com o seu R Studio ................................... 16 CUSTOMIZAÇÃO E ENTENDIMENTO DO R.................................................................................... 18 Pacotes: turbinando o R .......................................................................................................... 18 Instalação dos pacotes necessário no curso ........................................................................ 20 Livros e materiais de estudo .................................................................................................. 20 Para imprimir agora ................................................................................................................ 22 Projetos, R Markdown e Scripts ............................................................................................. 23 Scripts ......................................................................................................................................... 23 R Markdown .............................................................................................................................. 24 Projetos no R Studio ................................................................................................................ 26 R Notebook, Sweave e outros ................................................................................................ 26 Ajuda no R ................................................................................................................................. 26 Saiba mais: software livre ........................................................................................................ 30 BIBLIOGRAFIA ...................................................................................................................................... 31 PROFESSOR-AUTOR ............................................................................................................................. 32 Neste módulo, vamos aprender o que é e para que serve o R. Para começar, aprenderemos a instalar o R e os softwares complementares em seu computador pessoal. Vamos falar um pouco da estrutura do R, da sintaxe, dos softwares de apoio e de como o software difere daquilo que você já está acostumado ou acostumada a usar. O que é o R Pacote estatístico R O objetivo deste curso é ensinar análise de dados usando o aplicativo R. Dos vários softwares disponíveis para análise de dados, o R tem ao menos três vantagens evidentes: é um software livre, ou seja, pode ser instalado em qualquer computador; é software de código aberto, de modo que você pode olhar o que está acontecendo por “debaixo do capô”, e tem a maior rede de colaboradores ativa na internet, ou seja, alguém já deve ter feito algo parecido ao que você quer fazer, e você pode aproveitar. No entanto, existem alguns inconvenientes em se aprender um software livre. O primeiro é que o R é uma linguagem por script, ou seja, ele não segue a lógica point-and-click da maior parte dos programas. O segundo é que não existeuma empresa que pode ser responsabilizada por erros no software. Por fim, por ser um software livre, as atualizações são muito frequentes. INTRODUÇÃO 8 Apesar dos inconvenientes, como você verá em breve, os benefícios superam, consideravelmente, os custos de usar o R. O primeiro inconveniente pode ser superado com cursos, como este que você está fazendo. Quanto ao segundo inconveniente, você não vai nem ficar sabendo que existiu: toda vez que alguém encontra um erro, a pessoa reporta ao time desenvolvedor, que corrige rapidamente. O terceiro inconveniente nem devia ser chamado assim: softwares de licença não atualizam constantemente por motivos alheios à qualidade ofertada ao usuário – os custos de melhorar são altos, e algumas empresas preferem vender a melhoria, travestida de uma nova versão. Isso não ocorre com softwares livres. História do R O pacote estatístico 𝑅𝑅 nasceu como uma versão livre do pacote estatístico S. O software 𝑆𝑆 foi criado nos laboratórios da Bell, em 1976, por John Chambers. Com a evolução do software 𝑆𝑆 e a criação do S+, um grupo de professores neozelandeses da Universidade de Auckland resolveu criar uma versão aberta do S+, que veio a ser o 𝑅𝑅. A primeira versão estável do 𝑅𝑅 foi lançada em 2000. Atualmente, o 𝑅𝑅 é organizado em repositórios chamados 𝐶𝐶𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 (Comprehensive R Archive Networks), que são instituições nacionais e internacionais que hospedam o programa e as suas atualizações, bem como os mais de 12 mil pacotes estatísticos que acompanham o 𝑅𝑅. No Brasil, temos as seguintes instituições hospedeiras (𝐶𝐶𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅): Centro para Biologia Computacional UESC: (http://nbcgib.uesc.br/mirrors/cran/); UFPR: (https://cran-r.c3sl.ufpr.br/); FIOCRUZ, Rio de Janeiro: (https://cran.fiocruz.br/); USP, São Paulo: (https://vps.fmvz.usp.br/CRAN/) e USP, Piracicaba: (https://brieger.esalq.usp.br/CRAN/). Além de um pacote de estatística e uma linguagem de programação, o R é conhecido por possibilitar visualização de dados em alto-nível, extração de dados automatizada da internet, criação de gráficos e vídeos que podem ser customizados em tempo real, entre outros. Instalação do R e softwares auxiliares Para iniciarmos os estudos, você vai aprender a configurar o seu computador, a instalar o R, além de conhecer alguns softwares de apoio importantes para análise de dados. http://nbcgib.uesc.br/mirrors/cran/ http://nbcgib.uesc.br/mirrors/cran/ https://cran-r.c3sl.ufpr.br/ https://cran-r.c3sl.ufpr.br/ https://cran.fiocruz.br/ https://cran.fiocruz.br/ https://vps.fmvz.usp.br/CRAN/ https://vps.fmvz.usp.br/CRAN/ https://brieger.esalq.usp.br/CRAN/ https://brieger.esalq.usp.br/CRAN/ 9 Instalação de programas necessários: R Para instalar o R, entre no site R Project (https://www.r-project.org/). Você deverá acessar a seguinte página: Figura 1 – página de abertura do R Do lado esquerdo, existe um menu, contendo a aba CRAN, que são os repositórios nos quais o R é armazenado pelo mundo à fora. Clique no item e aparecerá a seguinte tela: Figura 2 – qual CRAN usar? 10 Clique no link da Fiocruz (ou qualquer outro da sua preferência) e escolha o seu sistema operacional. Nesse caso, vamos escolher Windows e baixar os pacotes. Figura 3 – Instalando o R (1) Figura 4 – Instalando o R (2) Após baixar, você vai precisar abrir o instalador. Siga a sequência de telas até o final, e o programa será instalado. Minha sugestão, ao menos para essa versão, é aceitar as configurações “de fábrica”. Após finalizar, o seu computador já possui o R instalado. Instalação dos programas necessários: RStudio Se você tentar abrir o R, vai ver algo interessante e assustador: ao abrir o software, aparece o console, local onde você coloca os comandos, e só. Esse é, basicamente, o 𝑅𝑅: como linguagem interpretada, o console é o interpretador da linguagem. Nele, você digita os comandos e, então, o software executa esses comandos. Isso acaba sendo um pouco desorganizado e ineficiente, de forma que, para facilitar, usamos um chamado front-end. 11 A finalidade do front-end é organizar os resultados e o processamento do 𝑅𝑅 em espaços diferentes. Dos diversos tipos de front-ends para R, o mais usado na área é o RStudio. O RStudio é um software livre criado por Joseph Alarie (o mesmo criador do App LoseIt), em 2009. Existem duas versões do RStudio, uma é feita para rodar pela internet, com o auxílio de um servidor. A outra, a que vamos baixar, é a versão Desktop, que não tem custos para usarmos. No seu navegador, abra a seguinte URL: https://www.rstudio.com/products/rstudio/ download/. Você terá de encontrar o seguinte conteúdo: Figura 5 – R Studio Download Clique em Download na coluna R Studio Desktop. Em seguida, você deve selecionar, na lista, o instalador que mais se adequa ao seu caso. No caso do computador que estou usando agora, um Mac, vou selecionar o instalador para o Mac de 64 bits. Quando você clicar no instalador, aparecerá o seguinte resultado: Figura 6 – R Studio Download Installer Clicado 12 Quando abrir, você verá uma tela assim: Figura 7 – R Studio A sua será um pouco diferente, pois a minha está com o esquema de cores que uso. No entanto, se apareceu essa tela com a versão do R que você instalou (que é, certamente, mais nova do que a que estou usando), sucesso! Instalação do Git: um acordo entre você e você mesmo Com o que instalou, você já consegue usar o R. No entanto, existem ferramentas que ajudam a otimizar o processo de análise de dados. Uma delas é o Git. Git é uma ferramenta de controle de versão cujo objetivo é fazer com que as várias edições dos códigos fiquem salvas. Nesse sentido, é como se fosse um processo de cristalizar a sua memória de edição do texto: um compromisso entre você hoje e você no futuro. Você pode perguntar: porque isso é importante, se a versão final do meu código é a que vou usar? Três motivos fazem com que o Git seja uma ferramenta útil para seu trabalho: 1. Quando você está escrevendo códigos de computador, é comum que você imagine uma melhoria, que acaba sendo uma piora… Você pode melhorar o código e, então, na hora de rodar os resultados, aparecem coisas que não fazem sentido ou não estão batendo com o básico do que você esperava. Nesse tipo de situação, é conveniente usar uma ferramenta que ajude a comparar as alterações e que faça com que você tenha versões do código que possam ser restauradas caso a alteração seja, definitivamente, uma piora. 13 2. Se você precisa explicar por que fez uma coisa, é fácil quando o projeto tem poucos passos. No entanto, é complexo para projetos grandes. Usar o Git faz com que você seja capaz de explicar tudo o que foi feito em cada etapa e qual a evolução de um passo a outro. 3. Se você precisa enviar o código para alguém replicar, basta deixar a pessoa fork o conteúdo: uma forma de transferir, via git, o que você fez. Desse modo, o Git é ótimo para economizar trabalho, uma vez que você pega a prática de salvar coisas nele. Para usar o Git precisamos instalar o aplicativo. Abra a seguinte página: https://git- scm.com/downloads. Nela, você encontra os arquivos de instalação. No caso, instalamos o git versão Desktop para Mac. Figura 8 – página de download do GIT 14 Figura 9 – instalador do Git Siga todos os passos de instalação e, ao final, para verificar se está funcionando, vá no Terminal (ou Prompt de Comando no Windows) e digite git --version. Você deve observar o seguinte resultado: Figura 10 – versão do GIT Se ele retornar a versão (que, provavelmente, será mais atual do que a minha), é sinal que o Git foi instalado corretamente. Para configurar o seu nome e o seu e-mail no Git, use os seguintes códigos: $ git config --global user.name "Seu Nome Aqui" $ git config--global user.email "seu.email.aqui@seuemail.com" Substitua o nome entre aspas e o e-mail no código acima. Isso deve ser usado no Terminal (Prompt de Comando). Se você não sabe como abrir o Terminal, basta no R Studio ir em Tools -> Shell… E o software abrirá o terminal. 15 Instalação do GitHub A versão do Git on-line é o que chamamos de Github. É um repositório on-line em que você pode guardar códigos e exercícios que resolver nesse curso. Além disso, é uma forma de você compartilhar com outras pessoas os códigos que escrever. Para criar uma conta no Github, abra o seguinte link https://github.com. Faça a conta gratuita mesmo, pois ela é suficiente para o que você precisa. A conta paga tem algumas vantagens, como a possibilidade de criar repositórios privados para os seus dados, de forma que ninguém tenha acesso. Um modo de fazer uma conta on-line é pedindo ao Github uma conta acadêmica e explicando por que você precisa da conta. Dessa forma, eu tenho uma conta privada sem pagar nada. Configuração do R Studio Abra o R Studio. Você tem de ver algo como a seguinte tela: Figura 11 – tela inicial do R Studio Você verá algo equivalente à tela apresentada, no esquema de cores que o seu computador tiver configurado (como trabalho muitas horas seguidas, prefiro esse esquema de cores). Se essa tela apareceu, significa que está tudo ok. 16 Vamos entender um pouco da organização que o R Studio faz no compilador do R: primeiro, note no lado esquerdo. Configuração do Git e Github para funcionar com o seu R Studio O primeiro passo é criar uma chave SSH RSA, que tem o objetivo de facilitar a comunicação segura para os seus dados entre quem tem a chave pública (e pode usa-la codificar informações) e você, que tem a chave privada (e pode decodificar a informação enviada). Para criar uma chave, primeiro vamos ver se existe alguma chave já configurada. Vá no console do R e digite file.exists("~/.ssh/id_rsa.pub"). Em meu caso, esse foi o resultado: > file.exists("~/.ssh/id_rsa.pub") [1] FALSE Se o resultado foi FALSE ou TRUE, vai determinar o que você vai fazer em seguida. Abra a tela de propriedades: Tools -> Global Options… Uma tela de opções irá abrir e no lado esquerdo escolha Git/SVN. Figura 12 – opções do R Studio para Git Se na tela anterior apareceu FALSE, você terá de criar uma. Basta clicar no botão Create RSA Key.... Clique em gerar chave. Em seguida, vai aparecer a chave e um desenho interessante. Você pode salvar isso no seu computador. Quando você fechar, você precisa recuperar a chave. 17 Agora, se apareceu TRUE ou você seguiu as instruções do parágrafo acima, basta clicar em View public key. Copie usando CMD + C (ou CTRL + C em PCs). Em seguida, você tem de colocar a chave no Github, para fazer a ligação dos sistemas. Para tanto, abra o seguinte link https://github.com/settings/ssh. Figura 13 – Github SSH Key Configuration Clique em New SSH key. Vai aparecer a tela: Figura 14 – Github SSH Key Configuration 18 No título, coloquei R Studio e, na key, você cola (CMD + V ou CTRL + V) o conteúdo da chave. A chave deve começar com ssh-rsa e caracteres aparentemente aleatórios, que são a chave gerada. Ao terminar, clique em Add SSH key. Agora, você precisa criar um repositório no Github. No Github, clique em +, no lado superior direito, próximo à sua foto. Vai abrir um menu, e você deve escolher New repository. Figura 15 – Github SSH Key Configuration Coloque um nome no seu repositório, de preferência, um nome tipo r-estudo. Salve-o e reinicie o RStudio. Customização e entendimento do R Pacotes: turbinando o R Para turbinar o seu R, você pode instalar pacotes, que são nada mais do que códigos criados por outros usuários, com objetivo de resolver um problema prático. Em geral, as pessoas escrevem pacotes para resolver problemas práticos que elas têm ou para fazer propaganda delas mesmas. É muito comum, na área de Ciência Política, que os professores criem pacotes para fazerem propaganda dos seus trabalhos. 19 Vamos olhar um pouco os repositórios, abrindo a seguinte URL https://cran.fiocruz.br/web/packages/index.html. Figura 16 – R CRAN Fiocruz packages Na esquerda, temos o nome do pacote e, na direita, a descrição do pacote. Vou dar uma busca para algum pacote relacionado ao Brasil. Basta usar CMD + F (CTRL + F) e digitar Brazil. Vou baixar esse pacote chamado brazilmaps, que parece ser interessante: contém todos os mapas do Brasil disponíveis no site do IBGE. Para baixar um pacote: > install.packages('brazilmaps', dependencies = T) Faça isso e software vai instalar esse pacote. O outro comando, dependencies=T, é para que o R instale outros pacotes que também são necessários para rodar o R. Para descobrir o que tem no pacote, digite help(package='brazilmaps'). No lado direito inferior, onde temos a tela de help, vão aparecer todos os atributos do pacote. 20 Para usar o pacote, basta digitar library(brazilmaps). Por exemplo, para a função plot_brmap, podemos pedir um exemplo de uso: example(plot_brmap) Dessa forma, você vai passando de mapa em mapa. Instalação dos pacotes necessário no curso Vamos instalar alguns pacotes necessários ao nosso trabalho: os pacotes são o Zelig, o pscl, que são mais de ciência política. O AER e o car, que são mais para análise de regressão. O tidyverse, o haven e o data.table, que são mais para processamento de dados, entre outros. Como exercício, olhe a descrição dos pacotes que estamos instalando no CRAN. A seguir, veja o código para fazer a instalação: install.packages(c('Zelig', 'pscl', 'AER', 'car', 'tidyverse', 'nycflights13', 'gapminder', 'Lahman', 'haven', 'RColorBrewer', 'xlsx', 'devtools', 'data.table', 'httr', 'wordcloud', 'lubridate', 'xtable', 'stargazer', 'countrycode', 'tm'), dependencies = T) Esse código vai demorar um pouco para rodar, a depender da velocidade da sua internet. Livros e materiais de estudo Existem variados livros-textos e materiais on-line que podem ser consultados para aprender R. Aqui, listo alguns que, inclusive, adapto os exemplos para esta apostila. Livros físicos melhores de R são: a) Wickham, Hadley & Grolemund, Garret. R for Data Science. O’Reilly, 2017. Disponível em: https://www.livrariacultura.com.br/p/ebooks/informatica-e-tecnologia/r-for-data- science-107270619. Acesso em: nov. 2018. b) Magallanes-Reyes, Jose. Introduction to Data Science for social and policy research. Cambridge University Press, 2017. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ciencias-sociais/introduction-to-data-science- for-social-and-111461619. Acesso em: nov. 2018. c) Maindonald, John & Braun, John. Data analysis and graphics using R: an example-based approach. V. 10. Cambridge University Press, 2006. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/matematica/data-analysis-and- graphics-using-r-81488956. Acesso em: nov. 2018. 21 Nesta apostila, estamos seguindo o livro do Wickham e Grolemund (2017) de perto, de forma que recomendamos que você adquira este livro. O livro de Magallanes-Reyes (2017) é ótimo para aqueles que querem aprender processamento de dados com foco em R e Python ao mesmo tempo. Eu recomendo, fortemente, o livro se você está-se especializando em análise de dados ou quer trabalhar em uma firma especializada em dados. Por fim, o livro do Maindonald e Braun (2006) é mais antigo, mas cobre praticamente todas as análises estatísticas elementares que podem ser feitas usando o R. Esse livro cobre ainda um bom conteúdo de análise de dados e machine learning, todos aplicados em problemas de biologia. Ainda, temos vários livros mais técnicos, que podem adequar-se às suas demandas específicas. Os meus três livrospreferidos são os seguintes: a) Crawley, Michael. The R book. John Wiley & Sons, 2012. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/estatistica/the-r-book- 17650130. Acesso em: nov. 2018. O livro de Crawley (2012) é um dos mais completos já produzidos na área. Ele possui uma gama de assuntos e discute grande parte dos pacotes que usamos no dia a dia da análise de dados. b) Matloff, Norman. The art of R programming: a tour of statistical software design. No Starch Press, 2011. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ informatica-e-tecnologia/software/the-art-of-r-programming-111384489. Acesso em: nov. 2018. Matloff (2011) é um livro voltado para programação em R. Ele é indispensável para aqueles que buscam se aprofundar no uso do software, pois uma evolução futura no trabalho do analista de dados é montar modelos de programação que ajudem o analista a automatizar as rotinas de trabalho. c) James, Gareth; Witten, Daniela; Hastie, Trevor & Tibshirani, Robert. An introduction to statistical learning. New York: Springer, 2013. Disponível em: https://www.livrariacultura.com.br/p/ebooks/ciencias-exatas/estatistica/an-introduction- to-statistical-learning-111334554. Acesso em: nov. 2018. Por fim, Gareth et al. (2013) é o melhor texto introdutório em machine learning, com a vantagem de que todos os exemplos e discussões são aplicados em R. Apesar de não ser um livro de R diretamente, é essencial para entendermos como R pode ajudar em análises de dados mais avançadas. 22 Temos materiais on-line significativos. Primeiro, temos todo uma gama de materiais de apoio produzidos pelas cientistas que escrevem os pacotes. Segundo, temos repositórios de perguntas e respostas, blogs, materiais de replicação, entre outros. Um material on-line em português interessante para consulta e referência é o texto do IBPAD de Ciência de Dados em R: (https://cdr.ibpad.com.br). Sugiro que você faça o download e use à vontade. Para imprimir agora Existem alguns materiais, chamados de Cards ou cheat-sheets pela comunidade, que são extremamente úteis. Os cheat-sheets são folhas que contêm comandos e códigos de exemplos, que ilustram o uso dos diversos softwares e pacotes dentro do R. As cheat-sheets que sugiro que você imprima e deixe ao seu lado na análise são: 1. Funções básicas do R: http://github.com/rstudio/cheatsheets/raw/master/base-r.pdf 2. Visualização de dados: https://github.com/rstudio/cheatsheets/raw/master/data-visualization-2.1.pdf 3. Transformação nos dados: https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf 4. data.table (pacote para grandes bases de dados): https://github.com/rstudio/cheatsheets/raw/master/datatable.pdf 5. Datas e horas no R: https://github.com/rstudio/cheatsheets/raw/master/lubridate.pdf 6. Carregando dados no R: https://github.com/rstudio/cheatsheets/raw/master/data-import.pdf 7. R Markdown: https://github.com/rstudio/cheatsheets/raw/master/rmarkdown-2.0.pdf 8. Comandos do RStudio: https://github.com/rstudio/cheatsheets/raw/master/rstudio-ide.pdf 9. Trabalhando com textos: https://github.com/rstudio/cheatsheets/raw/master/strings.pdf https://github.com/rstudio/cheatsheets/raw/master/data-visualization-2.1.pdf https://github.com/rstudio/cheatsheets/raw/master/data-transformation.pdf https://s3.amazonaws.com/assets.datacamp.com/img/blog/data+table+cheat+sheet.pdf 23 E mais uma dezena de outras cheat sheets, que vão servir para cada uma das ocasiões de análise que você precisar. Todas estão disponíveis de graça no site do R Studio. Projetos, R Markdown e Scripts Como o R é uma linguagem chamada de script language, ele tem um interpretador, que é o Console que você baixou os pacotes há pouco. Os comandos passados ao interpretador não são salvos em lugar algum, exceto no histórico do R (ver a barra history no canto superior direito de seu RStudio). Quando trabalhamos com R, por questão de compartimentalização, organizamos os resultados em arquivos que contêm os comandos. Existem, ao menos, três tipos de arquivos, que discutimos a seguir: Scripts Scripts são as formas mais elementares de armazenar os códigos de R. São arquivos com a extensão .R, que contêm códigos interpretáveis pelo R, intercalados com comentários. Por exemplo, o script da figura abaixo contém uma série de comandos usados em um artigo de minha autoria: Figura 17 – Exemplo de script de R 24 O caractere # significa comentário e não é interpretado pelo software (o R-Studio marca em cinza). O restante do código é branco. Note que textos como no caso da linha 14 brazilmaps, são marcados em verde. Em laranja, é uma variável chamada booleana, que carrega o valor TRUE (T) ou FALSE (F). Para enviar partes do código para o console, você tem três alternativas: 1. colocar o console na linha que quer compilar e pressionar CTRL+Enter (esse o modo mais eficiente); 2. selecionar e pressionar o botão Run na barra superior do script ou 3. selecionar o código, copiá-lo (CTRL+C), colar no console (CTRL+V) e apertar Enter (esse o modo menos eficiente). R Markdown Os scripts são bons para fazermos código, mas o ideal para usarmos o R de maneira sofisticada é podermos fazer no mesmo lugar código e texto. O R Studio facilita muito esse tipo de operação, pois tem embutido nele o que chamamos de R Markdown. R Markdown nada mais é do que um tipo simplificado de linguagem de escrita, em que colocamos textos junto com códigos. Por exemplo, esse livro foi inteiramente feito em R Markdown e, na figura a seguir, você pode ver o código desse livro no original. Figura 18 – Exemplo de uso do R Markdown para escrever essa apostila 25 Usar o R Markdown é bem simples e, na cheat-sheet que passamos, seguem as informações principais. No geral, você pode compilar um HTML, e isso será suficiente para o escopo desse curso. No entanto, vale a pena aprender a usar R Markdown mais a fundo, até para saber customizar mais o seu resultado.1 No arquivo acima, note que escrevemos como se estivéssemos escrevendo um texto normal. A ideia do R Markdown é combinar código de R e texto no mesmo arquivo. Isso facilita a vida e torna a pesquisa reproduzível, já que qualquer pessoa que quiser refazer os seus passos poderá compilar o arquivo e ler o relatório que vem em anexo. Para inserir código de R no meio do relatório, você deve usar os seguintes comandos: ```{r} hist(rnorm(100)) ``` O código irá plotar um histograma com 100 variáveis aleatórias geradas em R. Chamamos essas partes de chunck codes (pedaços de códigos). Nessas chunks, podemos colocar uma gama variada de códigos. Os mais comuns são de dois tipos: códigos que rodam, mas não devem ser apresentados ao leitor – por exemplo, um código que carrega uma base de dados on-line –, ou códigos que rodam visando apresentar algo ao leitor – por exemplo, uma tabela ou uma figura. O texto de R Markdown tem níveis, como todo texto de relatório que escrevemos. Usamos o caractere # para indicar o nível do código. Quanto mais #’s, mais de baixo nível é o texto. Por exemplo, # significa capítulo, ## significa seção, ### significa subseção, e assim por diante. Para usarmos negrito, colocamos as palavras entre **duas estrelas** e, para usar itálico, colocamos o texto entre um *asterisco*. Na cheat-sheet de R Markdown, há todo o restante que vocês devem saber sobre a ferramenta. Não vamos aprofundá-la aqui, mas pediremos que todas as listas de exercícios do curso sejam entregues em R Markdown. 1 Note só um pequeno detalhe: não é aconselhável fazer grandes alterações no layout. Isso porque esse tipo de linguagem foi pensado para que o usuário se concentre na análise e no processamento dos dados, e não em ajustar margens ou coisa similar. A ideia da comunidade, quando criouesse tipo de linguagem, é que você não perca nada de tempo customizando e dedique o seu tempo para as coisas substantivas que te interessam. 26 Projetos no R Studio O R Studio tem uma interface chamada Projects, que facilita a criação de projetos que tem múltiplos arquivos e muitos colaboradores. Para criar um projeto no R Studio, basta ir para o menu File e selecionar New Project. O programa dará três opções: (i) New Directory: significa que o projeto todo ficará guardado em uma série de scripts e bancos de dados em um diretório particular. (ii) Existing Directory: significa que o projeto novo será vinculado a um diretório já existente. (iii) Version Control: é um projeto com o objetivo de salvar em uma plataforma de controle de versão, por exemplo, o GitHub. A opção escolhida dependerá da sua necessidade. No entanto, Projetos são muito bons para organizar empreitadas complexas, como relatórios que envolvem grandes volumes de dados ou artigos acadêmicos. R Notebook, Sweave e outros O R tem ainda outros tipos de arquivos, como R Notebooks, Sweave, Shiny e outras ferramentas. O R Notebook é uma espécie de markdown, mas que compila em pedaços ao vivo. Enquanto é preciso compilar o R Markdown ao todo, no Notebook, você pode fazer uma parte, compilar o código para ver se está funcionando e continuar o trabalho, tanto em texto, quanto em mais código. A vantagem de usar o R Notebook é que ele permite que você documente o código enquanto escreve ele. Isso ajuda muito você e os seus leitores(as) a compreenderem o que e por que você fez o que fez. O Sweave é uma ferramenta para usar o compilador de textos científicos chamado LaTeX. Isso está fora do escopo desse trabalho, mas pode ser útil se você trabalhar na área acadêmica. Ajuda no R O R tem um sistema de ajuda limitado, mas que, para a maior parte do propósito simples, pode economizar uma busca na internet. Primeiro, se você sabe o comando para o qual quer pedir ajuda, basta digitar no console help e o nome do comando entre parênteses: help(nome_do_comando) 27 A primeira coisa que você deve saber é: a sintaxe do R é sempre comando(arg1, arg2, arg3), e assim por diante. Ou seja, help é uma função que recebe como argumento o nome do comando sobre o qual você quer saber mais. Por exemplo, se eu quiser pedir ajuda sobre o comando help, devo fazer o seguinte: help(help) E vai aparecer na aba lateral inferior a descrição: Figura 19 – Ajuda do comando ajuda no R Basta rolar para baixo e verá a ajuda sobre o comando ajuda. O help do R sempre tem a mesma estrutura: descrição do comando; sintaxe do comando; argumentos que você pode adicionar ao comando; detalhes sobre o funcionamento, referências e sugestões de comandos similares, e exemplos de uso. 28 O help do R não é o mais amigável dos softwares de estatística (o do SPSS é provavelmente o melhor nesse ponto), mas uma boa busca na internet é suficiente para o uso efetivo dos comandos disponíveis no R. Ainda sobre a sintaxe, lembre-se de que deve usar vírgula para separar os argumentos e fechar parênteses quando terminar o comando. Exemplos de instruções incompletas são: help(help help help help help) Nenhuma dessas instruções, passadas individualmente, devem funcionar no console do R. O problema é que, frequentemente, não sabemos qual função queremos usar. No caso, sabemos que help é uma função, mas e se você quiser fazer um gráfico de barras e não souber qual comando precisa usar? Nesse caso, você deve usar o comando: help.search('bar plot') E o R vai sugerir todos os pacotes em que ele tenha algo relacionado com Bar Plot. No caso, clique no graphics::barplot. Você deverá observar o seguinte resultado: Figura 20 – Ajuda do gráfico de barras 29 Você pode ler o artigo e entenderá o que ele faz. Um modo de aprender algo sobre o funcionamento é usando o comando example, que vai rodar os exemplos do comando, para que você veja o comando funcionando na prática. Nesse caso: example(barplot) ## ## barplt> require(grDevices) # for colours ## ## barplt> tN <- table(Ni <- stats::rpois(100, lambda = 5)) ## ## barplt> r <- barplot(tN, col = rainbow(20)) E assim por diante (o comando apresentará mais quatro gráficos). A ideia de pedir um example é que você poderá ver exemplos de uso que podem ser adaptados para os casos que você precisa. 30 Saiba mais: software livre Softwares de código aberto ou open source são softwares que podem ser livremente distribuídos na internet. Os softwares de código livre, como o R, têm inúmeras vantagens, por exemplo, o fato de que qualquer um pode conferir o código original e propor, ou implementar, mudanças que melhore o software. Outro ponto positivo do software livre é que não é necessário pagar por uma licença, o que torna os programas mais acessíveis e baratos aos usuários. Existem centenas de softwares livres, desde programas que fazem pequenas tarefas até sistemas operacionais, como é o caso do Linux. A vantagem de usar esse tipo de software é que os seus códigos podem ser reproduzidos em outros computadores sem que haja necessidade de que o usuário que queira reproduzir o código pague pelo sistema. Como ponto negativo, talvez o pior fato é que os códigos passam por pouco controle de qualidade ex-ante, o que pode permitir que códigos pouco eficientes ou errados sejam utilizados. Isso não costuma ser um problema, uma vez que, devido ao grande número de usuários, os problemas acabam sendo reportados e corrigidos rapidamente. 31 BIBLIOGRAFIA JAMES, Gareth, et al. An introduction to statistical learning. V. 112. New York: springer, 2013. MAINDONALD, John & BRAUN, John. Data analysis and graphics using R: an example-based approach. V. 10. Cambridge University Press, 2006. REYES, Jose Manuel Magallanes. Introduction to Data Science for social and policy research. Cambridge University Press, 2017. TEAM, R. Core. R language definition. Vienna, Austria: R foundation for statistical computing (2000). WICKHAM, Hadley & GROLEMUND, Garrett. R for data science: import, tidy, transform, visualize, and model data. O'Reilly Media, Inc., 2016. WICKHAM, Hadley & FRANCOIS, Romain. dplyr: a grammar of data manipulation, 2013. Disponível em: https://github.com/hadley/dplyr.version 0.1.[p 1]. Acesso em: 2017. WICKHAM, Hadley. Tidy data. Journal of Statistical Software. v59i10, 2014, p, 1-23. WICKHAM, Hadley. Advanced R. Chapman and Hall/CRC, 2014. WICKHAM, Hadley. ggplot2: elegant graphics for data analysis. Springer, 2016. 32 PROFESSOR-AUTOR Umberto Mignozzetti é professor adjunto da Escola de Relações Internacionais da FGV. Tem doutorado em Ciência Política pela Universidade de São Paulo e cursa um segundo doutorado na New York University. A sua pesquisa está concentrada nas áreas de Economia Política Comparada e Economia Política Internacional, investigando o efeito de institucionais sobre incentivos e bem-estar. Os trabalhos recentes do autor abordam o papel de instituições internacionais no controle de estados falidos e o papel das instituições na melhoria da provisão de serviços. Introdução Sumário O que é o R Pacote estatístico R História do R Instalação do R e softwares auxiliares Instalação de programas necessários: R Instalação dos programas necessários: RStudio Instalação do Git: um acordo entre você e você mesmo Instalação do GitHub Configuração do R Studio Configuração do Git e Github para funcionar com o seu R Studio Customização e entendimento do R Pacotes: turbinando o R Instalação dos pacotes necessário no curso Livros e materiais de estudo Para imprimir agora Projetos, R Markdown e Scripts Scripts R Markdown Projetos no R Studio R Notebook, Sweave e outros Ajuda noR Saiba mais: software livre INTRODUÇÃO Bibliografia Professor-autor
Compartilhar