ebook Chave R 2016

•

UFOPA

Graciely Silva

30.11.2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciências Biológicas

8.968 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

A superferramenta estatística para
realizar trabalhos acadêmicos de
forma livre, rápida e gratuita
Wilson Martins “Cohen” da Silva
Chave
Por que fiz este E-book?
Esse e-book foi concebido para ser distribuído como um manual resumido de uso
prático e fácil. Ele faz parte de um esforço pessoal de divulgar o ambiente R no meio
acadêmico brasileiro. Tem como propósito ajudar a comunidade universitária na
realização de testes estatísticos com um software livre, gratuito, respaldado, que possui
confiabilidade e acurácia que se exige de um programa estatístico.
Um dos fatores principais que me estimularam a produzir esse e-book foi o
seguinte: é possível realizar análises estatísticas de qualidade com o R sem saber
absolutamente nada de programação. Essa convicção surgiu da própria experiência com o
R, durante a minha dissertação. Consegui realizar todas as análises estatísticas durante o
mestrado com o uso do ambiente R e sem ter nenhum conhecimento de programação.
Eu venho estudando o R desde o curso de especialização em Biodiversidade, antes do
mestrado. Porém, foi durante o curso stricto sensu que consegui, com muito esforço,
compreender o funcionamento e alcançar todos os objetivos. Após isso, comecei uma
cruzada pessoal para ensinar como fazer isso corretamente, ao máximo possível de
pessoas. Ministrei vários mini-cursos e oficinas sobre o R, começando no mestrado, na
UFPA e na UEPA onde trabalho.
O R tem algumas vantagens e desvantagens em relação aos softwares
proprietários que podem ser discutidas, mas essa não é a minha preocupação neste
trabalho. Contudo, o esforço em aprender a sintaxe traz benefícios robustos à formação
de qualquer acadêmico. Para mim foi muito difícil aprender sozinho, mas meu esforço é
contribuir para que sua experiência seja mais tranquila. Espero que aproveite ao máximo
esse material. Qualquer dúvida, critica ou correções a qualquer aspecto das análises será
muito bem-vinda. O foco do e-book não está no ensino de estatística, mas no uso da
ferramenta para fazer as análises estatísticas e gráficas. Você poderá entrar em contato
comigo, pelas informações deixadas na página sobre o autor.
Wilson Martins da Silva
Altamira – Pará
Maio de 2015
Sobre o Autor
Wilson Martins da Silva
Dados acadêmicos e profissionais:
Biólogo formado pela Universidade Federal do Pará.
Mestre em Ecologia Aquática e Pesca – UFPA/PPGEAP.
Especialista em Biodiversidade Amazônica – UFPA/Altamira.
Professor Assistente da Universidade do Estado do Pará – UEPA.
Copyright (c) 2016 Wilson Martins da Silva
É garantida a permissão para copiar, distribuir e/ou modificar este documento sob os termos da Licença de
Documentação Livre GNU (GNU Free Documentation License), Versão 1.2 ou qualquer versão posterior
publicada pela Free Software Foundation; sem Seções Invariantes, sem textos de Capa Frontal, e sem
textos de Quarta-Capa. Uma cópia da licença pode ser acessada no endereço http://www.fsf.org/licence/.
Uma tradução não-oficial para o português do Brasil pode ser consultada no endereço abaixo:
http://www.ead.unicamp.br/minicurso/bw/texto/fdl.pt.html.
Contatos:
wilsoncelula@gmail.com
https://www.facebook.com/wilsonbiodiversity
Whatsapp: (93) 99199-4005
Agradecimentos
À Hashem Yeshua por tudo.
À minha esposa Débora de Paula Martins pelo seu amor incondicional e parceria.
Ao meu filho Asafe Martins pela alegria ímpar e agora, aos 9 anos, estudante do R.
À minha filha Maria Luíza pela paciência, amor e, aos 12 anos, estudante do R.
Aos meus filhos João Victor e Wilson Jr. pela compreensão e carinho.
À minha família Cohen: Olavo, Cláudia, Noah e Yishai, pelo apoio em todas as horas.
Ao prof. Dr. Nadson Ressye pela revisão desse e-book e pelas dicas preciosas.
Aos meus professores do mestrado em Ecologia Aquática e Pesca – PPGEAP/UFPA.
À minha turma do Mestrado em Ecologia Aquática/2012.
SUMÁRIO
1. Introdução
1.1 O que é o R? 1
1.2 O ambiente de programação 2
2. Por que usar usar o R? 3
3. Analisando a interface do R Studio 5
4. Como organizar os dados na planilha e inseri-los no R 7
5. Como realizar estatística descritiva no R 10
5.1. Medidas de localização 10
5.2. Medidas de dispersão 10
6. Realizando testes de normalidade no R 12
7. Realizando testes de homocedasticidade no R 13
8. Teste-t para 2 amostras 14
8.1 Teste t para 2 amostras independentes com variâncias iguais 14
8.2 Teste t pareado 15
9. Teste do X2 (Qui-quadrado) 16
9.1. Inserindo os dados 16
9.2. Realizando o teste no R 17
10. Análise de Variância (ANOVA) 18
11. Teste de Tukey 19
12. Testes de Kruskal-Wallis 20
12.1 Teste de Kruskal-Wallis de comparações múltiplas 22
13. Correlação de Pearson e Spearman 23
14. Como fazer Regressão Linear Simples 26
14.1. Copiando os dados da planilha para o R 26
14.2. Transferindo os dados para o R 27
14.3. Fazendo a regressão 30
15. Como plotar gráficos com R 33
15.1. Boxplot (Gráfico em caixa) 33
15.2. Barplot (Gráfico em barras) 34
15.3. Piechart (Gráfico de setores ou “pizza”) 35
15.3.1. Gráfico de Setores com Percentagens 35
15.3.2. Gráfico de Setores com Percentagens 3D 36
16. Como obter assistência e consultoria no R 37
Bibliografia 38
1
1. INTRODUÇÃO
1.1. O que é o R?
R é um poderoso programa de cálculos estatísticos e gráficos, mas é antes
de tudo uma linguagem de programação. Foi criado originalmente por Ross Ihaka
e por Robert Gentleman (por isso R), no departamento de Estatística da
Universidade de Auckland, Nova Zelândia a partir da linguagem S. O projeto se
desenvolveu e cresceu através de esforço colaborativo de pesquisadores de vários
locais do mundo.
R fornece uma ampla variedade de estatísticas (modelagem linear e não-
linear, testes estatísticos clássicos, análise de séries temporais, classificação,
clustering, etc), técnicas gráficas diversas e é altamente extensível.
Um dos pontos fortes do R é a facilidade com que pode produzir
publicações de qualidade bem desenhadas, incluindo símbolos e fórmulas
matemáticas. As opções dos padrões gráficos em design menores são bem
estruturadas, mas o usuário mantém o controle total do processo.
Uma das vantagens do R é sua disponibilidade como Software Livre sob os
termos da licença GNU-General Public License (GPL), em forma de código-fonte da
Free Software Foundation. Ele compila e roda em uma ampla variedade de
plataformas UNIX e sistemas similares (incluindo FreeBSD e Linux), Windows e
MacOS.
Mas, Atenção!
O R não é um bicho de 7 cabeças, nem coisa de nerds!
Meu desejo é que, logo, o R se torne sua ferramenta predileta!
2
1.2. O ambiente de Programação
R é uma linguagem de programação simples e eficaz bem desenvolvida,
orientada a objetos que inclui condicionais, “loops”, funções recursivas definidas
pelo usuário e recursos de entrada e saída. R é semelhante a outras linguagens de
programação, como C, Java e Perl, na medida em que trabalha na execução de
amplas tarefas de computação, acessando-lhes através de vários comandos.
Para os estatísticos, no entanto, R é muito útil por apresentar vários
mecanismos embutidos para organização de dados, execução de cálculos sobre os
objetos criados e a criação de gráficos de conjuntos de dados (VANCE, 2009).
Desde 1997,o R Core Team é responsável pelas atualizações ocorridas
desde então. R é um projeto colaborativo e já conta com milhares de aplicações
sob o seu código. Nesse e-book todas as análises foram atualizadas pela versão
3.2.0 de 16/04/2015, mais atual até a presente data, também chamada, “Full of
Ingredients” (R CORE TEAM 2015).
A Conferência Internacional UseR é a principal reunião da comunidade de
usuários e desenvolvedores em R. Seu programa consiste em:
Palestras de convidados e usuários que cobrem um amplo espectro de
temas, que vão desde questões técnicas e relacionadas com computação R a
tópicos estatísticos gerais de interesse atual. Há também submissão de
resumos com temas relacionados ao R, além de discussões livres e apresentação
de painéis.
Em 2015, no período de 30 de junho a 3 de julho, a conferência foi realizada
em Aalborg, na Dinamarca. A conferência UseR/2016 será realizada de 27 a 30 de
junho na Universidade de Stanford, EUA.
RESPALDO ACADÊMICO NO MUNDO TODO!
3
2. Por que usar o R?
Você já esteve naquela situação onde o seu orientador pede para você fazer
as análise estatísticas dos dados, mas você não tem o software? Ou aqueles que
você usa não são aceitos por ele? Ou sabe que aquela revista científica para onde
você vai enviar seu artigo exige o número da licença do software original e você
só tem um pirata instalado? Ou você quer comprar o software, mas sua bolsa só
dá pra pagar o aluguel, alimentação e transporte para a universidade?
Pois é, creio que uma grande parte dos acadêmicos brasileiros passaram,
passam ou passarão por uma dessas situações um dia. Mas, existem respostas a
essas perguntas e aponto aqui o ambiente R como a melhor solução para resolver
as análises estatísticas e gráficas que precisamos na academia.
Existem vários softwares no mercado que fazem as análises realizadas pela
comunidade acadêmica, mas geralmente exigem licenças (caríssimas) de uso, são
limitados e alguns são de difícil compreensão, como exemplo temos Statistica,
Primer, SPSS, Systat, SAS e outros.
Só pra se ter idéia, eu fiz aqui uma lista dos preços das licenças anuais de alguns
dos softwares mais conhecidos (atualizados em 07/02/2016):
SPSS* – € 2.950,77 = R$ 12.865,35
Statistica* – € 1.111,92 = R$ 4.847,97
Minitab*** – $ 1.495,00 = R$ 6.199,61
Systat/Sigmaplot 12* - € 809.34 = R$ 3.488,25
Prism 6* – € 739.23 = R$ 3.186,08
Primer 6/Permanova** – R$ 2.972,90
SAS** - R$1.500,00
* http://www.servisoft.pt/produtos.asp?v=tp&tp=SL
** Via orçamento por e-mail (em 2015)
*** http://www.minitab.com/pt-br/products/minitab/pricing/

ELES SÃO MUITO CAROS!
4
É verdade que existem também as opções gratuitas como Past, PSPP,
Openstat, Biostat, Assistat e versões gratuitas de softwares pagos. Contudo, a
maioria tem limitações no uso, na abrangência dos testes e muitos orientadores
não aceitam alguns desses softwares.
O uso de planilhas eletrônicas, para testes estatísticos, tem problemas de
confiabilidade dos resultados, sendo, inclusive, não aconselhado sua utilização em
sala de aula para o ensino de estatística (NASH 2008). Além disso, análises de
desempenho tem demonstrado a superioridade do Gnumeric (software livre), em
todos os quesitos de confiabilidade e acurácia, em relação ao Excel (McCLLOUGH
2004; ALMIRON et al. 2010; KEELING e PAVUR 2011). Portanto, a conclusão é que:
o Excel não é confiável para cálculos estatísticos!
Posso dizer também que, de fato, é possível realizar trabalhos acadêmicos
de qualidade com softwares livres, livre de licenças, livres de custos elevados,
livres de ilegalidades e problemas com a justiça, além de se obter resultados
altamente consistentes e confiáveis. Então, passo aqui a listar somente 7 razões
para usar o R:
1 – O R é capaz de realizar TODOS os testes que se utiliza na academia;
2 – O R é totalmente livre, gratuito ou licenças caríssimas;
3 – O R é aceito nas mais conceituadas revista científicas internacionais;
4 – O R é utilizado nas melhores universidades do mundo;
5 – O R é o mais robusto, amplo e versátil software disponível no mercado;
6 – O R é multiplataforma, ou seja, roda em Linux, Mac e Windows;
7 – O R introduz uma marca diferencial de qualidade no seu trabalho;
Este e-book tem como objetivo apresentar de uma forma prática o
ambiente R para ajudar a comunidade acadêmica em geral a realizar suas análises
estatísticas com qualidade e sem custos elevados. E mais...
SEM SABER NADA DE PROGRAMAÇÃO !
5
3. Analisando a interface do RStudio
O RStudio é uma das interfaces (IDE - Integrated Development Environment
= Ambiente de Desenvolvimento Integrado), utilizadas para executar as tarefas no
R. Embora existam várias interfaces disponíveis, recomendo a utilização dela
porque é totalmente gratuita e coloca todas as ferramentas disponíveis na área
de trabalho, o que facilita muito o seu uso.
O processo de instalação do R deve seguir os seguintes passos:
1- Primeiro instalação do R pelo site do R Project: http://www.R-project.org/
2- Depois o RStudio do site: https://www.rstudio.com/ide/download/desktop
Obs1: É importante saber que o RStudio sozinho não realiza análise nenhuma. Ele
é apenas uma interface de trabalho para o rodar toda a estrutura do R. Portanto,
é necessário que o R esteja previamente instalado para que se possa utilizar o
RStudio.
Obs2:
- Para quem usa rwindows pode baixar os arquivos e instalar direto.
- Quem usa Linux Ubuntu e variantes pode baixar direto do repositório.
ESSA DUPLA É SENSACIONAL!
6
Interface do RStudio
A interface de trabalho do RStudio é composta por quatro áreas de trabalho,
sendo assim identificadas:
A – Área de scripts onde também se pode visualizar a tabela de dados.
B – Tela de console, lugar onde os comandos são executados.
C – Tela do histórico e visualização dos arquivos da memória.
D – Tela dos pacotes (programas), arquivos, área de visualização dos gráficos
(plots) e ajuda.
As áreas mais utilizadas durante o trabalho com o R são as telas A e B e
depois a D. A menos utilizada é a tela C. Resumidamente seria, A para rodar os
scripts, B para executar comandos e C para visualização de gráficos e carregar
pacotes.
EXCELENTE INTERFACE DE TRABALHO!
7
4. Como organizar os dados na planilha e inseri-los no R
O R só faz análises das informações que estão armazenadas na sua
memória. Portanto, uma das primeiras ações no início do trabalho com R é a de
inserir os dados corretamente na memória do ambiente.
Existem várias formas de inserir os dados no R, mas aqui como é um estudo
bem resumido e prático, a forma que eu penso ser a mais simples e rápida de
fazer isso é “copiando e colando”.
Como se faz isso?
Bom, você vai abrir sua planilha de dados e deixar também o R aberto.
1º Passo: Na planilha simplesmente você vai copiar os dados, tendo o cuidado de
deixar a primeira célula da 1ª coluna (A), totalmente vazia como na figura abaixo.
2º Passo: No R vai ser necessário digitar um comando básico que vai importar os
dados da planilha para a memória do R.
8
No RStudio, deve-se digitar o comando a seguir:
res <- read.table("clipboard", sep="\t", header=T, dec=",", row.names=1)
Significados dos argumentos da linha de comando (figura abaixo):
1 - (res) – É o objeto com os dados da planilha que ficará salvo na memória do R.
2 - ( <- ) – res recebe o resultado operado pela função read.table.
3 - (read.table) – Função que lê os dados da planilha e identifica as diferentes variáveis.
4 - (“clipboard”) – Indica que os dados estão na memória virtual (área de transferência).
5 – (sep="\t") – Indica que as colunas estão separadas por tabulação.
6 - (header=T) – Dizao R que o cabeçalho (nomes) das colunas deve ser preservado.
7 - (dec=",") – Os decimais estão separados por vírgula (ponto que é o padrão no R).
8 - (row.names=1) – Informa que a 1ª coluna é o identificador da amostra e não dados.
Depois disso, faça como está descrito a seguir que o objeto criado
(res), que estará salvo na memória do R pronto para ser analisado.
Calma, não se assuste com os comandos!
Logo você vai achar tudo muito simples, Creia Nisso!
9
Copie a linha de comando da tela de scripts, que foi explicada
anteriormente, depois cole na tela de console. Tecle enter. O resultado fica como
na figura abaixo:
Pronto, agora já podemos testar os dados.
PESSOAL, CHEGOU AQUI?.... JÁ ERA!
ESTAMOS DENTRO DO R!
10
5. Como realizar estatística descritiva no R
Aqui vamos observar algumas funções descritivas:
5.1. Medidas de localização
mean() # Calcula a média aritmética simples, para variáveis quantitativas
(discretas e contínuas).
median() # Calcula a mediana de uma lista de valores; é também conhecida por
percentil 50 ou segundo quartil.
quantile() # Quantis: calcula os quartis de uma lista de valores.
5.2. Medidas de Dispersão
var() # Calcula a variância para uma variável quantitativa.
sd() # Calcula o desvio padrão de uma variável quantitativa.
Exemplo:
>dados <- c(65,72,70,72,60,67,69,68) # Cria o objeto numérico “dados”.
>dados
[1] 65 72 70 72 60 67 69 68 #[1] primeira linha
> mean(dados) # Calcula a média
[1] 67.875
> median (dados) # Calcula a mediana
[1] 68.5
> quantile (dados) #Quantis: calcula os quartis de uma lista de valores.
0% 25% 50% 75% 100%
60.0 66.5 68.5 70.5 72.0
> var (dados) #Variância: calcula a variância para uma variável quantitativa.
[1] 15.83929
> sd (dados) #Desvio padrão: calcula o desvio padrão de uma variável quantitativa.
[1] 3.97986
> summary(dados) #Resumo (mínimo, 1ºquartil, média, mediana, 3ºquartil, máximo)
Min. 1st Qu. Median Mean 3rd Qu. Max.
60.00 66.50 68.50 67.88 70.50 72.00
11
Ao fazermos a análise descritiva do arquivo (res), teremos:
Resumo das funções entre outras
Função Descrição
table() Cruzamento de variáveis
mean() Média aritmética
median() Mediana
sum() Soma
summary() Resumo dos dados
var() Variância
sd() Desvio padrão
quantile() Quartis com descrição
cor() Coeficiente de correlação
Tudo tranquilo até aqui?
12
Normalidade e homocedasticidade dos dados são dois pressupostos a
serem verificados, antes da realização de qualquer teste. A seguir veremos como
se obtém a normalidade. Veja como é fácil!
6. Realizando testes de normalidade no R
Para calcular a normalidade, vamos usar os arquivo (res) e (dados) dos
exemplos anteriores. Então, para verificar se as variáveis numéricas dados e
Resistencia seguem uma distribuição normal, faremos como está na figura abaixo:
Observe os comandos abaixo:
>attach (res) # Possibilita acessar qualquer coluna da
tabela (data.frame) isoladamente, aqui a variável
Resistencia
> shapiro.test (Resistencia)
# Realiza o teste Shapiro-Wilk da variável Resistencia.
Resultado: P = 0,247 (alfa = 0,05)
> lillie.test (Resistencia)
# Realiza o teste Kolmogorov-Smirnov da variável
Resistencia.ende
Resultado: P = 0,1144 (alfa = 0,05)
>dados # mostra o arquivo
> shapiro.test (dados)
#Realiza o teste Shapiro-Wilk do arquivo dados.
Resultado: P=0,3696 (alfa = 0,05).
Obs: No R já vem configurado por padrão o nível de
significância do teste (alfa) que é 5%.
Não é fácil?
13
7. Realizando testes de homocedasticidade no R
Para calcular a homocedasticidade (homogeneidade das variâncias), vamos
usar o arquivo (res) do exemplo anterior.
Para observar se as variâncias são homogêneas ou não, faremos como está
na figura abaixo:
>bartlett.test (Resistencia ~ Fator)
# Teste de Bartlett, calcula a homocedasticidade da
variável Resistencia descrita de acordo com a variável
categórica Fator.
Resultado: P = 0,9198 – Não se descarta a hipótese
nula de homocedasticidade (alfa = 0,05).
>fligner.test (Resistencia ~ Fator)
# Teste de Fligner-Killen, calcula a homocedasticidade
da variável Resistencia descrita de acordo com a
variável categórica Fator.
Resultado: P = 0,7859 – Há homocedasticidade (alfa =
0,05).
>modlevene.test (Resistencia ~ Fator)
# Teste de Levene.
Resultado: P = 0,8626 – (alfa = 0,05).
Obs: O teste de Fligner-Killen é um teste não-
paramétrico que é muito robusto contra desvios da
normalidade, mas o coloquei aqui só para efeito de
comparações.
Então, é fácil assim mesmo? É!
14
8. Realizando o Teste-t
O teste-t é usado em várias situações de pesquisa. Pode-se testar uma
afirmação a respeito da média populacional ou na comparação das médias de
duas amostras de dados (MELLO e PETERNELLI 2013)
8.1. Teste t para 2 amostras independentes com variâncias iguais.
Exemplo: Supomos aqui que cada grupo, Amostra 1 (antes) e Amostra 2
(depois), foi submetido a um determinado tratamento, com uma certa substância
e se deseja observar se houve alguma diferença na resposta ao tratamento entre
os grupos.
Resultado: O Teste-t para duas
amostras independentes mostra um valor
de P < 0,05 muito significativo, rejeitando-
se a hipótese nula de igualdade das
médias.
15
8.2 Teste t pareado
No teste-t pareado, supõem-se agora que um mesmo grupo foi submetido a
dois tratamentos diferentes. No novo tratamento (depois), foi usada uma outra
dose da substância, portanto, o teste foi realizado para observar se houve
diferença na resposta em relação ao tratamento padrão (antes).
Resultado: O test-t pareado mostra um valor de P < 0,05, muito significativo,
portanto rejeita-se a hipótese nula de que as médias são iguais.
Teste t, na maior tranquilidade!
16
9. Teste do X² (Qui-quadrado)
Essa técnica é utilizado para testar hipóteses, tendo como objetivo verificar
quantitativamente a relação entre o resultado observado de um experimento e a
frequência esperada para o evento.
Exemplo hipotético:
Uma indústria produz 3 tipos de refrigerantes: Normal, Light e Diet. O grupo de
marketing sugeriu que a preferência por cada variedade depende do sexo dos
consumidores e realizou uma pesquisa para observar se existe mesmo essa relação.
Foram selecionadas aleatoriamente 300 pessoas que informaram suas preferências de
acordo com a tabela abaixo:
Sexo Light Normal Diet Total
Masculino 40 80 40 160
Feminino 60 60 20 140
Total 100 140 60 300
Hipótese nula (H0): A preferência pelo refrigerante é independente do sexo do
consumidor.
Hipótese Alternativa (H1): A preferência do refrigerante é dependente do sexo do
consumidor.
No R, o cálculo do Qui-quadrado deve ser feito como na figura abaixo:
9.1. Inserindo os dados
Repetindo inserção de dados
17
9.2. Realizando o teste no R
Argumento: chisq.test (refri) # Realiza o teste do qui-quadrado (figura abaixo)
Resultado: O valor de X² calculado 12,24 > 5,99 X² tabelado, portanto, rejeita-se
H0 de que a preferência é independente do sexo.
O valor de P é estatisticamente significativo.
Obs: Checar na Tabela de X² o valor tabelado com 2 graus de liberdade a 5% de significância.
X² na maior tranquilidade!
18
10. Análise de Variância (ANOVA)
Em geral, a ANOVA se refere a uma classe de desenho experimental, na qual
a variável explicativa é categórica e a variável resposta é contínua. Tem como
pressupostos que os dados sejam independentes, normais e com
homocedasticidade. Pode incluir delineamentos de um fator, os blocos
aleatorizados e os parcelados individuais (GOTELLI2011). ANOVA é usada quando
se deseja verificar se as diferenças amostrais observadas são diferenças
populacionais reais significativas ou produto de variabilidade amostral casual
(MILONE, 2009).
Portanto, pressupõe que o acaso produza a ocorrência de pequenas
variações, sendo que causas reais devam ser responsáveis por variações grandes.
Exemplo de ANOVA One Way (de 1
fator) com os dados do arquivo (res).
# ano – Contém a análise feita pela
função aov.
# anova – Faz a tabela da ANOVA.
# O valor de P obtido, mostrou-se muito
significativo a um alfa de 5%.
# (***) Este sinal indica que o valor de P
está entre 0 e 0,001, portanto muito
menor do que 0,05 que é o alfa padrão do
teste no R. Todos os asterisos indicam
valores significantes.
ANOVA é simples assim!
19
11. Teste de Tukey
Teste a posteriori utilizado para investigar quais os pares de médias que
diferem entre si, se houver diferenças significativas na ANOVA.
# ano – Arquivo que contém o
teste de Anova.
# TukeyHSD – Função que
realiza o teste de Tukey sobre
ANOVA calculada no arquivo
ano, explicado pela variável
categórica Fator.
# No quadro de comparações
entre as médias dos
tratamentos, observa-se todos
os pareamentos marcados onde
há diferenças significativas a
um alfa de 5%.
Observe que você pode usar
tanto summary como anova
para rodar o arquivo ano e
exibir o resultado da Anova
Teste de TUKEY, com um simples comandinho!
20
12. Testes de Kruskal-Wallis
O teste de Kruskal-Wallis é também denominado de ANOVA não-
paramétrica. É normalmente usado para dados que não atendem aos
pressupostos exigidos pela ANOVA.
Exemplo: Foi selecionada uma amostra aleatória de três diferentes tipos de
lâmpadas e testadas para verificar quanto tempo as lâmpadas funcionavam, com
os seguintes resultados. Deve ser realizado como ilustrado abaixo:

É diferente, mas é Simples!
21
Realizaremos o teste de Kruskal-Wallis, como ilustrado abaixo:
Resultado: O teste de Kruskal-Wallis
mostra um valor de P menor do que
o alfa de 5%, portanto, significativo.
Então, concluímos que deve haver
diferença entre as amostras A, B e C.
Com esse resultado, vamos agora realizar o teste post-hoc de Kruskal-Wallis
de múltiplas comparações para saber quais as amostras são diferentes entre si.
KRUSKAL não tem mistério no R, é tranquilo assim!
22
12.1. Teste de Kruskal-Wallis de comparações múltiplas presente no pacote
agricolae.
Resultado: Observa-se que a durabilidade é significativamente diferente, a um
alfa de 5%, entre dois pareamentos de amostras das lâmpadas.
KRUSKAL post-hoc, é simples assim!
23
13. Correlação de Pearson e Spearman
Na correlação, busca-se medir o grau e a direção dessa correlação (se
positiva ou negativa), entre duas variáveis contínuas. Se a análise dos resíduos do
modelo linear for normal, usa-se o método de Pearson, porém, caso contrário,
será usado o método de Spearman. No R, essa técnica é feita com os mesmos
argumentos mudando somente este: method = “pearson” ou “spearman”.
Exemplo: Uma empresa pretende estudar a relação entre o volume de
vendas (Volume) efetuadas durante um dado período de tempo por seus
vendedores, considerando seus anos de experiência (Anos). Os dados obtidos
são apresentados a seguir no arquivo (vendas):
Aqui os parâmetros no R para a realização da análise.
# Resumo das variáveis do arquivo (vendas)
summary(vendas)
# Calcula o modelo linear
vol.lm <- lm(Volume~Anos)
# Histograma para visualizar os resíduos do modelo
hist(resid(vol.lm))
24
# Testa a normalidade dos resíduos
shapiro.test(resid(lm(Volume~Anos)))
# Calcula a correlação
cor.test(Volume, Anos, method="pearson")
#plota o gráfico da correlação
plot(Volume~Anos, data=qisz, xlab="Anos", ylab="Volume de Vendas", pch=19,
col="blue")
# Faz a reta da regressão
abline(vol.lm, col="red",lty=2)
# Legenda
legend(locator(1),c("", "p < 0,05", "r = 0,84", "r² = 0,70"), cex=1.0, bty="n")
Abaixo o histograma:
Vamos fazer agora a correlação de Pearson.
CORRELAÇÃO, é mais simples ainda!
25
Na figura abaixo a análise da correlação de Pearson.
Resultado:
O valor de P menor do que o alfa de 5%, confirmando que existe a correlação.
O valor de r (cor) arredondado em torno de 0,84 mostra uma correlação forte.
O r² mostra que 70% dos dados são explicados pelo modelo.
Correlação com simples comandos!
26
Aqui os comandos para a realização do gráfico de dispersão:
Resultado: Observe no gráfico que as informações estatísticas calculadas,
apontam para uma correlação positiva das variáveis. A nuvem de pontos indica
que na medida que os anos passam, (quanto mais experiente o vendedor), o
volume de vendas aumentam.
Gráficos de dispersão com simples comandos!
27
14. Como fazer Regressão Linear Simples
Resumidamente, o objetivo da regressão linear é fazer a predição dos
valores de uma variável dependente (Y) em função de uma variável independente
(X), e a partir disso, conhecer o quanto variações de X podem afetar Y (GOTELLI
2011).
Exemplo:
Peso do corpo e rendimento de carcaça, aos 90 dias de idade, de 10
cordeiros da raça Texel.
O cálculo da Regressão Linear Simples no R deve seguir o modelo abaixo:
14.1. Copiando os dados da planilha para o R.
28
14.2. Transferindo os dados para o R
Segue o mesmo padrão já visto no início.
texel <- read.table(“clipboard”, sep=“\t”, header=T, dec=“,”, row.names=1)
O arquivo deve ficar com está na figura abaixo:
Obs: Na linha de comando, os argumentos que estão entre aspas (“ ”),
possuem uma cor diferente. Se, ao copiar o comando de um editor de texto pra
tela de scripts, isso não acontecer, troque as aspas no RStudio, senão
possivelmente dará erro.
Agora vamos ver a seguir, um passo a passo bem prático, de como realizar a
regressão linear simples no R.
Regressão Linear Simples com comandos simples !
29
Aqui temos o script todo que vai ser rodado:
Calma, não se assuste, ninguém precisa decorar isso tudo!
Você pode salvar no script e substituir no futuro pelos seus dados. Na
minha opinião, essa é a parte boa e prática do R. Tendo um script pronto e
sabendo como colocar seus dados, você pode fazer qualquer análise.
O script é uma ferramenta facilitadora poderosa!
30
14.3. Fazendo a regressão
Summary faz um resumo dos dados que nos dá várias informações importantes.
Resultado: Temos o valor de P que é significativo (P < 0,05). O R² relata uma
explicação de 86% do modelo linear entre outras informações.
31
Abaixo temos os valores estimados, os resíduos e o teste de normalidade dos
resíduos.
Resultado: O teste de Shapiro-Wilk gerou um valor de P = 0,5, que não foi
significativo a um alfa de 5%, portanto, não rejeitando hipótese nula de
normalidade.
Regressão Linear fica fácil com simples comandos!
32
Agora, podemos plotar os gráficos com o script abaixo;

Vamos ver a seguir os gráficos: histograma, dos quantis dos resíduos, dos
resíduos com os valores ajustados e resíduos com a ordem.
No R, a Regressão Linear é fácil demais!
33
15. Como plotar gráficos com R
Neste capítulo, vamos abordar apenas os gráficos que ainda não foram
utilizados nas análises anteriores. Já vimos, anteriormente, como se faz o
histograma e gráfico de dispersão. Um aspecto muito importante é que vários dos
argumentos utilizados para um tipo de gráfico pode ser utilizado em outro.
15.1. Boxplot (Gráfico em caixa)
Vamos usar o arquivo(lamp) para realizar o boxplot.
Argumentos:
lamp = objeto contendo os dados
tempo = tempo de durabilidade
lampada = amostras de lâmpadas
col = cores (cada cor tem um número)
ylab = Etiqueta do eixo Y (sempre entre aspas)
xlab = Etiqueta do eixo X (sempre entre aspas)
Há mais argumentos, mas esses são só para mostrar que é possível você
ampliar e melhorar muito seu gráfico.
34
15.2. Barplot (Gráfico em barras)
Preparando arquivos para fazer o Barplot
lamp # Dados de das amostras de lâmpadas
## Mediana de cada período
a<-median(lamp[1:5,1]) # Mediana da amostra A
b<-median(lamp[6:9,1]) # Mediana da amostra B
c<-median(lamp[10:13,1]) # Mediana da amostra C
bar <- c (a,b,c) # Arquivo contendo as medianas
## Fazendo o gráfico
> barplot (bar, ylab="Tempo de durabilidade", xlab="Amostras das Lâmpadas", ylim=c(0,100),
col=c("gray32","gray64", "gray90"))
> legend(locator(1), c("Amostra A","Amostra B","Amostra C"), col=c("gray32","gray64","gray90"),
pch=15, cex=1.1, bty="n")
Argumentos:
barplot = Argumento que cria o barplot
legend = Faz a legenda
locator (1) = Coloca a legenda no local onde você
clicar
bar = arquivo com as medianas
ylab = Etiqueta do eixo Y (sempre entre aspas)
xlab = Etiqueta do eixo X
ylim = Limite do eixo Y
col = cores (Variação de cinza)
pch = Tipo de símbolo (quadrado)
cex = Tamanho da letra
bty = Tipo de cercadura (neste caso o “n” é sem linha)
35
5.3. Piechart (Gráfico de setores ou “pizza”)
15.3.1 Gráfico de Setores com Percentagens (Parâmetros)
Aqui o gráfico:
36
15.3.2. Gráfico de Setores com Percentagens 3D (Parâmetros)
Aqui o gráfico:
37
16. Como obter assistência e consultoria no R
Há muito material sobre o R disponível na internet. Você vai encontrar
apostilas, vídeos, livros, scripts, fóruns, em sites e blogs. Portanto, eu acredito que
há condições materiais de se aprender mais sobre o R. Porém, o R é uma
linguagem diferente de se realizar análises estatísticas. Então, quem está
acostumado com softwares gráficos, logo de cara, estranha muito e muitas vêzes
desiste.
Eu incentivo você a continuar desenvolvendo seus conhecimentos no R,
buscando dominar sua sintaxe e resolver problemas estatísticos. Vou listar aqui
alguns sites que acredito que vão lhe acrescentar mais informações ao que você
já recebeu aqui:
http://cran.r-project.org/ – A página do projeto R que tem muitas informações
sobre pacotes, sobre como baixar o programa, apostilas em várias línguas,
inclusive português.
http://www.statmethods.net/ – Quick-R - um site em inglês que tem muita coisa
sobre o R.
http://ecologia.ib.usp.br/bie5782/doku.php?id=start – Site de Ecologia da USP que
tem um curso específico de R.
https://ridiculas.wordpress. com/about – Site mantido pelo prof. Walmes (UFPR)
entre outros colaboradores que dá dicas excelentes sobre o R.
Recomendo também o meu curso em vídeo, Chave R – A superferramenta
de análises estatísticas, em fase final de elaboração, onde explico com mais
detalhes todas essas análises do e-book que não são possíveis com a limitação
que a linguagem escrita possui. Poderá ser acessado pelo site:
www.estatisticacomr.com.br, onde há artigos e vídeos com informações sobre o
R, onde também tiro dúvidas sobre o ambiente e dou consultoria estatística no R.
38
Bibliografia Citada
ALMIRON, M.G.; LOPES, B; OLIVEIRA, A.L.C.; MEDEIROS, A.C.; FRERY, A.C. 2010. On
the Numerical Accuracy of Spreadsheets. Journal of Statistical Software, v. 34, n.
4, p. 1-29.
CALLEGARI-JACQUES, S.M. 2003. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed. 264p.
GOTELLI, N.J.; ELLISON, A.M. 2011. Princípios de estatística em ecologia. Artmed,
Porto Alegre.
KEELING, K.B.; PAVUR, R.J. 2011. Statistical accuracy of spreadsheet software. The
American Statistician, v. 65, n. 4, p. 265-273.
McCLLOUGH, B.D. 2004. Fixing Statistical Errors in Spreadsheet Software: The
Cases of Gnumeric and Excel. Computational Statistics & Data Analysis Statistical
Software Newsletter, p. 1–10.
MELLO, M.P.; PETERNELLI, L.A. 2013. Conhecendo o R: uma visão mais que
estatística. Viçosa-MG: Editora UFV. 222 p.
MILONE, G. 2009 Estatística geral e aplicada. Capítulo 12. São Paulo: Centage
Learning. ISBN 85-221-0339-9.
NASH, J.C. 2008. Teaching Statistics with Excel 2007 and Other Spreadsheets.
Computational Statistics & Data Analysis, v. 52, n. 10, p. 4602–4606.
R CORE TEAM. 2015. R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna. ISBN 3-900051-07-0, URL
http://www.R-project.org/.
VANCE, A. 2009. “Data Analysts Captivated by R's Power”. The New York Times
Online em 06 janeiro de 2009. Acesso em: 06 de junho de 2015.