A maior rede de estudos do Brasil

Grátis
224 pág.
Estatistica usado o R

Pré-visualização | Página 1 de 50

Escola Nacional de Saúde Pública – Fiocruz
Departamento de Epidemiologia e Métodos Quantitativos em Saúde
Aprendendo
R 
Antonio Guilherme Fonseca Pacheco
Geraldo Marcelo da Cunha
Valeska Lima Andreozzi
O objetivo desse material é introduzir o ambiente R para alunos de pós-
graduação em Saúde Pública e mostrar suas vantagens e desvantagens. Estamos
considerando que os alunos que estão fazendo uso deste material já tiveram algum
contato mesmo que básico com o computador e que já tenham algum conhecimento de
noções básicas de operação do Windows.
Gostaríamos de iniciar a apresentação do R a partir de algumas perguntas que
são comuns (e que na maioria das vezes foram feitas por nós mesmos antes de termos
nos tornados “amantes do R”)
;-)
O que é o R?
O R é um sistema desenvolvido a partir da linguagem S (que também é usada
numa versão comercial – o S-Plus), que tem suas origens nos laboratórios da AT&T no
final dos anos 80. Em 1995 dois professores de estatística da Universidade de Auckland,
na Nova Zelândia, iniciaram o “Projeto R”, com o intuito de desenvolver um programa
estatístico poderoso baseado em S, e de domínio público.
Com o R posso utilizar menus para fazer análises estatísticas, como no
SPSS, SAS e S-Plus?
Não. O R em versão para Windows é até provido de menus, mas todos são
usados para realizar tarefas não estatísticas (como atualizar a versão ou salvar um
gráfico). Todas as funções estatísticas que acompanham o R devem ser chamadas a
partir do cursor do programa (seja digitando um comando ou copiando e colando um
comando previamente digitado).
O fato do R não possuir menus não seria uma desvantagem em relação a
outros pacotes estatísticos?
Depende. Muitos irão certamente interpretar esse fato como uma desvantagem,
mas a gente entende que na verdade esta é uma vantagem forte do R. A utilização do R
para realizar análises estatísticas exige muito mais do que simplesmente apertar alguns
botões em série e dar alguns cliques no mouse: para trabalhar dados com o R é preciso
PENSAR e ENTENDER o que se está fazendo. Ao contrário de muitos pacotes
estatísticos clássicos, o R permite uma grande flexibilidade em relação às funções
estatísticas pré-existentes, i.e. as funções são “editáveis”, além da possibilidade de você
mesmo poder criar as suas próprias funções personalizadas (como será mostrado mais
tarde).
Quanto custa para ter uma cópia oficial do R?
Não custa nada: ele é de graça MESMO, ou seja, ninguém precisa gastar US$
1.349, o que seria necessário para comprar o módulo básico do SPSS, por exemplo; nem
ser obrigado a cometer um pequeno delito para usar o R. 
Se ninguém está ganhando dinheiro para manter o R atualizado, como
posso ter certeza que se trata de um produto confiável?
Esta é uma outra vantagem do R: o Projeto R é de uma colaboração internacional de
vários pesquisadores que se comunicam através de uma eficiente lista de discussão pela
Internet. Com isso, não só “bugs” (defeitos de programação) são detectados e
corrigidos, como também novos módulos contendo métodos estatísticos recentemente
implementados são regularmente disponibilizados e atualizados na rede.
2
O que são esses módulos adicionais?
Os módulos adicionais funcionam da seguinte forma: um pesquisador em algum
lugar do mundo precisou desenvolver uma aplicação numa área que não é coberta nem
pelo módulo básico nem pelos módulos de colaboradores existentes. O que esse
pesquisador faz é desenvolver o que é chamada de uma biblioteca para o R com as
funções que ele criou e utilizou, disponibilizando-a na rede. A vantagem é que a
biblioteca pode ser usada por diferentes pessoas, que irão eventualmente reportar erros
nas funções, que podem então ser atualizadas pelo seu criador.
Que plataformas (sistemas operacionais) suportam o R?
Atualmente o R está disponível para a família UNIX (incluindo LINUX), a
maior parte dos Mac OS e ainda Windows 95, 98, NT, 2000, Me, XP.
Onde posso conseguir o R?
O R está disponível na internet no website do CRAN – que é o Comprehensive
R Archive Network ou “Rede Completa de Arquivos do R”, no seguinte endereço:
http://www.r-project.org/
Já sei, não gostou da tradução do website, né? Bem, se alguém tiver uma
tradução melhor para comprehensive, por favor me avise...
;-)
Muito bem. Agora que já ganhamos uma certa noção do que vem a ser o R,
vamos ver como esse material está dividido.
A idéia desse documento é separar em módulos diferentes assuntos estatísticos
que são tratados pelo R; desse modo, pessoas que tenham interesses em tipos de análises
diferentes poderão consultar partes específicas do material, sem ter o trabalho de
paginá-lo exaustivamente para encontrar o que se quer.
O primeiro módulo, “Baixando e Instalando o R”, é bastante curto e trata da
página da internet que abriga todo o material necessário para baixar e instalar o R –
chamada CRAN. O segundo módulo, chamado “Básico” serve para dar uma noção geral
do funcionamento do R, desde uma simples calculadora até uma poderosa ferramenta de
programação em estatísticas, sempre usando exemplos intuitivos e em um nível bastante
inicial. Esses dois módulos não exigem o uso de qualquer dado externo ou pacotes que
já não estejam incluídos na versão mais básica do R – aquela que você irá instalar
inicialmente na sua máquina.
O terceiro módulo trata da entrada e saída de dados no R. Nesse caso não só será
mostrado como o R lê dados externos, mas também como se exportam dados, saídas em
texto e saídas gráficas. O uso de um pacote próprio para esse fim também é mostrada e
dados externos serão necessários para a parte de importação de dados.
Esses três módulos são os únicos que podem ser encarados como seqüenciais e
também fundamentais para uma compreensão inicial do ambiente. A partir daí, uma
série de módulos já estão e serão mais tarde desenvolvidos para aulas ou assuntos
específicos e ficarão guardados em arquivos separados, permitindo um acesso rápido e
interativo aos assuntos de interesse.
Portanto, divirta-se...
3
Módulo Baixando e Instalando o R
Autor: Antonio Guilherme Fonseca Pacheco
Pré-requisitos: Conhecimentos básicos de informática e acesso à internet (preferencialmente.)
Pacotes e arquivos necessários: Nenhum.
Esse módulo inicial tem o objetivo de capacitar pessoas a navegar mais facilmente no
webwsite do R, chamado CRAN (Comprehensive R Archive Network) e ainda orientar a instalação
do R para Windows e fazer uma configuração inicial básica do programa, incluindo a instalação de
pacotes adicionais. Como esse material poderá estar acompanhado de um CD-ROM já com o
programa de instalação do R e os seus pacotes, abordaremos também esse tópico. No CRAN é
possível baixar não só o pacote principal do R, mas também os pacotes opcionais (chamados de
contribuídos) e também uma série de manuais. Vale lembrar que não só a versão para Windows está
disponível no CRAN, mas também versões para a família UNIX (incluindo Linux) e ainda para
Mac.
Dispensável dizer que a correta utilização desse módulo pressupõe que a máquina do
usuário esteja conectada à internet.
Conhecendo o CRAN
O primeiro macete é encontrar o website do CRAN, que não é muito fácil de achar se você
não souber o endereço (que por sinal não é lá muito intuitivo). A dica é ir no website de uma dessas
ferramentas de busca na internet (como por exemplo o Google) e procurar por “CRAN”.
Certamente uma das primeiras respostas será o endereço do CRAN. É claro que não somos tão
maus assim para fazermos você voltar à primeira parte desse documento para procurar o endereço
sem usar o Google... Vá em:
http://cran.r-project.org/
Uma vez lá, você verá algo como a figura abaixo.
Nessa página você vai encontrar praticamente tudo que você precisa saber sobre o R e tudo
que você precisará baixar para a sua máquina para instalar o R e seus pacotes adicionais, além de
informação sobre a excelente lista de discussão que é mantida na internet e da qual participam as
pessoas do núcleo de desenvolvimento do R.
Na parte central da página você vai observar uma