Baixe o app para aproveitar ainda mais
Prévia do material em texto
A superferramenta estatística para realizar trabalhos acadêmicos de forma livre, rápida e gratuita Wilson Martins “Cohen” da Silva Chave Por que fiz este E-book? Esse e-book foi concebido para ser distribuído como um manual resumido de uso prático e fácil. Ele faz parte de um esforço pessoal de divulgar o ambiente R no meio acadêmico brasileiro. Tem como propósito ajudar a comunidade universitária na realização de testes estatísticos com um software livre, gratuito, respaldado, que possui confiabilidade e acurácia que se exige de um programa estatístico. Um dos fatores principais que me estimularam a produzir esse e-book foi o seguinte: é possível realizar análises estatísticas de qualidade com o R sem saber absolutamente nada de programação. Essa convicção surgiu da própria experiência com o R, durante a minha dissertação. Consegui realizar todas as análises estatísticas durante o mestrado com o uso do ambiente R e sem ter nenhum conhecimento de programação. Eu venho estudando o R desde o curso de especialização em Biodiversidade, antes do mestrado. Porém, foi durante o curso stricto sensu que consegui, com muito esforço, compreender o funcionamento e alcançar todos os objetivos. Após isso, comecei uma cruzada pessoal para ensinar como fazer isso corretamente, ao máximo possível de pessoas. Ministrei vários mini-cursos e oficinas sobre o R, começando no mestrado, na UFPA e na UEPA onde trabalho. O R tem algumas vantagens e desvantagens em relação aos softwares proprietários que podem ser discutidas, mas essa não é a minha preocupação neste trabalho. Contudo, o esforço em aprender a sintaxe traz benefícios robustos à formação de qualquer acadêmico. Para mim foi muito difícil aprender sozinho, mas meu esforço é contribuir para que sua experiência seja mais tranquila. Espero que aproveite ao máximo esse material. Qualquer dúvida, critica ou correções a qualquer aspecto das análises será muito bem-vinda. O foco do e-book não está no ensino de estatística, mas no uso da ferramenta para fazer as análises estatísticas e gráficas. Você poderá entrar em contato comigo, pelas informações deixadas na página sobre o autor. Wilson Martins da Silva Altamira – Pará Maio de 2015 Sobre o Autor Wilson Martins da Silva Dados acadêmicos e profissionais: Biólogo formado pela Universidade Federal do Pará. Mestre em Ecologia Aquática e Pesca – UFPA/PPGEAP. Especialista em Biodiversidade Amazônica – UFPA/Altamira. Professor Assistente da Universidade do Estado do Pará – UEPA. Copyright (c) 2016 Wilson Martins da Silva É garantida a permissão para copiar, distribuir e/ou modificar este documento sob os termos da Licença de Documentação Livre GNU (GNU Free Documentation License), Versão 1.2 ou qualquer versão posterior publicada pela Free Software Foundation; sem Seções Invariantes, sem textos de Capa Frontal, e sem textos de Quarta-Capa. Uma cópia da licença pode ser acessada no endereço http://www.fsf.org/licence/. Uma tradução não-oficial para o português do Brasil pode ser consultada no endereço abaixo: http://www.ead.unicamp.br/minicurso/bw/texto/fdl.pt.html. Contatos: wilsoncelula@gmail.com https://www.facebook.com/wilsonbiodiversity Whatsapp: (93) 99199-4005 Agradecimentos À Hashem Yeshua por tudo. À minha esposa Débora de Paula Martins pelo seu amor incondicional e parceria. Ao meu filho Asafe Martins pela alegria ímpar e agora, aos 9 anos, estudante do R. À minha filha Maria Luíza pela paciência, amor e, aos 12 anos, estudante do R. Aos meus filhos João Victor e Wilson Jr. pela compreensão e carinho. À minha família Cohen: Olavo, Cláudia, Noah e Yishai, pelo apoio em todas as horas. Ao prof. Dr. Nadson Ressye pela revisão desse e-book e pelas dicas preciosas. Aos meus professores do mestrado em Ecologia Aquática e Pesca – PPGEAP/UFPA. À minha turma do Mestrado em Ecologia Aquática/2012. SUMÁRIO 1. Introdução 1.1 O que é o R? 1 1.2 O ambiente de programação 2 2. Por que usar usar o R? 3 3. Analisando a interface do R Studio 5 4. Como organizar os dados na planilha e inseri-los no R 7 5. Como realizar estatística descritiva no R 10 5.1. Medidas de localização 10 5.2. Medidas de dispersão 10 6. Realizando testes de normalidade no R 12 7. Realizando testes de homocedasticidade no R 13 8. Teste-t para 2 amostras 14 8.1 Teste t para 2 amostras independentes com variâncias iguais 14 8.2 Teste t pareado 15 9. Teste do X2 (Qui-quadrado) 16 9.1. Inserindo os dados 16 9.2. Realizando o teste no R 17 10. Análise de Variância (ANOVA) 18 11. Teste de Tukey 19 12. Testes de Kruskal-Wallis 20 12.1 Teste de Kruskal-Wallis de comparações múltiplas 22 13. Correlação de Pearson e Spearman 23 14. Como fazer Regressão Linear Simples 26 14.1. Copiando os dados da planilha para o R 26 14.2. Transferindo os dados para o R 27 14.3. Fazendo a regressão 30 15. Como plotar gráficos com R 33 15.1. Boxplot (Gráfico em caixa) 33 15.2. Barplot (Gráfico em barras) 34 15.3. Piechart (Gráfico de setores ou “pizza”) 35 15.3.1. Gráfico de Setores com Percentagens 35 15.3.2. Gráfico de Setores com Percentagens 3D 36 16. Como obter assistência e consultoria no R 37 Bibliografia 38 1 1. INTRODUÇÃO 1.1. O que é o R? R é um poderoso programa de cálculos estatísticos e gráficos, mas é antes de tudo uma linguagem de programação. Foi criado originalmente por Ross Ihaka e por Robert Gentleman (por isso R), no departamento de Estatística da Universidade de Auckland, Nova Zelândia a partir da linguagem S. O projeto se desenvolveu e cresceu através de esforço colaborativo de pesquisadores de vários locais do mundo. R fornece uma ampla variedade de estatísticas (modelagem linear e não- linear, testes estatísticos clássicos, análise de séries temporais, classificação, clustering, etc), técnicas gráficas diversas e é altamente extensível. Um dos pontos fortes do R é a facilidade com que pode produzir publicações de qualidade bem desenhadas, incluindo símbolos e fórmulas matemáticas. As opções dos padrões gráficos em design menores são bem estruturadas, mas o usuário mantém o controle total do processo. Uma das vantagens do R é sua disponibilidade como Software Livre sob os termos da licença GNU-General Public License (GPL), em forma de código-fonte da Free Software Foundation. Ele compila e roda em uma ampla variedade de plataformas UNIX e sistemas similares (incluindo FreeBSD e Linux), Windows e MacOS. Mas, Atenção! O R não é um bicho de 7 cabeças, nem coisa de nerds! Meu desejo é que, logo, o R se torne sua ferramenta predileta! 2 1.2. O ambiente de Programação R é uma linguagem de programação simples e eficaz bem desenvolvida, orientada a objetos que inclui condicionais, “loops”, funções recursivas definidas pelo usuário e recursos de entrada e saída. R é semelhante a outras linguagens de programação, como C, Java e Perl, na medida em que trabalha na execução de amplas tarefas de computação, acessando-lhes através de vários comandos. Para os estatísticos, no entanto, R é muito útil por apresentar vários mecanismos embutidos para organização de dados, execução de cálculos sobre os objetos criados e a criação de gráficos de conjuntos de dados (VANCE, 2009). Desde 1997,o R Core Team é responsável pelas atualizações ocorridas desde então. R é um projeto colaborativo e já conta com milhares de aplicações sob o seu código. Nesse e-book todas as análises foram atualizadas pela versão 3.2.0 de 16/04/2015, mais atual até a presente data, também chamada, “Full of Ingredients” (R CORE TEAM 2015). A Conferência Internacional UseR é a principal reunião da comunidade de usuários e desenvolvedores em R. Seu programa consiste em: Palestras de convidados e usuários que cobrem um amplo espectro de temas, que vão desde questões técnicas e relacionadas com computação R a tópicos estatísticos gerais de interesse atual. Há também submissão de resumos com temas relacionados ao R, além de discussões livres e apresentação de painéis. Em 2015, no período de 30 de junho a 3 de julho, a conferência foi realizada em Aalborg, na Dinamarca. A conferência UseR/2016 será realizada de 27 a 30 de junho na Universidade de Stanford, EUA. RESPALDO ACADÊMICO NO MUNDO TODO! 3 2. Por que usar o R? Você já esteve naquela situação onde o seu orientador pede para você fazer as análise estatísticas dos dados, mas você não tem o software? Ou aqueles que você usa não são aceitos por ele? Ou sabe que aquela revista científica para onde você vai enviar seu artigo exige o número da licença do software original e você só tem um pirata instalado? Ou você quer comprar o software, mas sua bolsa só dá pra pagar o aluguel, alimentação e transporte para a universidade? Pois é, creio que uma grande parte dos acadêmicos brasileiros passaram, passam ou passarão por uma dessas situações um dia. Mas, existem respostas a essas perguntas e aponto aqui o ambiente R como a melhor solução para resolver as análises estatísticas e gráficas que precisamos na academia. Existem vários softwares no mercado que fazem as análises realizadas pela comunidade acadêmica, mas geralmente exigem licenças (caríssimas) de uso, são limitados e alguns são de difícil compreensão, como exemplo temos Statistica, Primer, SPSS, Systat, SAS e outros. Só pra se ter idéia, eu fiz aqui uma lista dos preços das licenças anuais de alguns dos softwares mais conhecidos (atualizados em 07/02/2016): SPSS* – € 2.950,77 = R$ 12.865,35 Statistica* – € 1.111,92 = R$ 4.847,97 Minitab*** – $ 1.495,00 = R$ 6.199,61 Systat/Sigmaplot 12* - € 809.34 = R$ 3.488,25 Prism 6* – € 739.23 = R$ 3.186,08 Primer 6/Permanova** – R$ 2.972,90 SAS** - R$1.500,00 * http://www.servisoft.pt/produtos.asp?v=tp&tp=SL ** Via orçamento por e-mail (em 2015) *** http://www.minitab.com/pt-br/products/minitab/pricing/ ELES SÃO MUITO CAROS! 4 É verdade que existem também as opções gratuitas como Past, PSPP, Openstat, Biostat, Assistat e versões gratuitas de softwares pagos. Contudo, a maioria tem limitações no uso, na abrangência dos testes e muitos orientadores não aceitam alguns desses softwares. O uso de planilhas eletrônicas, para testes estatísticos, tem problemas de confiabilidade dos resultados, sendo, inclusive, não aconselhado sua utilização em sala de aula para o ensino de estatística (NASH 2008). Além disso, análises de desempenho tem demonstrado a superioridade do Gnumeric (software livre), em todos os quesitos de confiabilidade e acurácia, em relação ao Excel (McCLLOUGH 2004; ALMIRON et al. 2010; KEELING e PAVUR 2011). Portanto, a conclusão é que: o Excel não é confiável para cálculos estatísticos! Posso dizer também que, de fato, é possível realizar trabalhos acadêmicos de qualidade com softwares livres, livre de licenças, livres de custos elevados, livres de ilegalidades e problemas com a justiça, além de se obter resultados altamente consistentes e confiáveis. Então, passo aqui a listar somente 7 razões para usar o R: 1 – O R é capaz de realizar TODOS os testes que se utiliza na academia; 2 – O R é totalmente livre, gratuito ou licenças caríssimas; 3 – O R é aceito nas mais conceituadas revista científicas internacionais; 4 – O R é utilizado nas melhores universidades do mundo; 5 – O R é o mais robusto, amplo e versátil software disponível no mercado; 6 – O R é multiplataforma, ou seja, roda em Linux, Mac e Windows; 7 – O R introduz uma marca diferencial de qualidade no seu trabalho; Este e-book tem como objetivo apresentar de uma forma prática o ambiente R para ajudar a comunidade acadêmica em geral a realizar suas análises estatísticas com qualidade e sem custos elevados. E mais... SEM SABER NADA DE PROGRAMAÇÃO ! 5 3. Analisando a interface do RStudio O RStudio é uma das interfaces (IDE - Integrated Development Environment = Ambiente de Desenvolvimento Integrado), utilizadas para executar as tarefas no R. Embora existam várias interfaces disponíveis, recomendo a utilização dela porque é totalmente gratuita e coloca todas as ferramentas disponíveis na área de trabalho, o que facilita muito o seu uso. O processo de instalação do R deve seguir os seguintes passos: 1- Primeiro instalação do R pelo site do R Project: http://www.R-project.org/ 2- Depois o RStudio do site: https://www.rstudio.com/ide/download/desktop Obs1: É importante saber que o RStudio sozinho não realiza análise nenhuma. Ele é apenas uma interface de trabalho para o rodar toda a estrutura do R. Portanto, é necessário que o R esteja previamente instalado para que se possa utilizar o RStudio. Obs2: - Para quem usa rwindows pode baixar os arquivos e instalar direto. - Quem usa Linux Ubuntu e variantes pode baixar direto do repositório. ESSA DUPLA É SENSACIONAL! 6 Interface do RStudio A interface de trabalho do RStudio é composta por quatro áreas de trabalho, sendo assim identificadas: A – Área de scripts onde também se pode visualizar a tabela de dados. B – Tela de console, lugar onde os comandos são executados. C – Tela do histórico e visualização dos arquivos da memória. D – Tela dos pacotes (programas), arquivos, área de visualização dos gráficos (plots) e ajuda. As áreas mais utilizadas durante o trabalho com o R são as telas A e B e depois a D. A menos utilizada é a tela C. Resumidamente seria, A para rodar os scripts, B para executar comandos e C para visualização de gráficos e carregar pacotes. EXCELENTE INTERFACE DE TRABALHO! 7 4. Como organizar os dados na planilha e inseri-los no R O R só faz análises das informações que estão armazenadas na sua memória. Portanto, uma das primeiras ações no início do trabalho com R é a de inserir os dados corretamente na memória do ambiente. Existem várias formas de inserir os dados no R, mas aqui como é um estudo bem resumido e prático, a forma que eu penso ser a mais simples e rápida de fazer isso é “copiando e colando”. Como se faz isso? Bom, você vai abrir sua planilha de dados e deixar também o R aberto. 1º Passo: Na planilha simplesmente você vai copiar os dados, tendo o cuidado de deixar a primeira célula da 1ª coluna (A), totalmente vazia como na figura abaixo. 2º Passo: No R vai ser necessário digitar um comando básico que vai importar os dados da planilha para a memória do R. 8 No RStudio, deve-se digitar o comando a seguir: res <- read.table("clipboard", sep="\t", header=T, dec=",", row.names=1) Significados dos argumentos da linha de comando (figura abaixo): 1 - (res) – É o objeto com os dados da planilha que ficará salvo na memória do R. 2 - ( <- ) – res recebe o resultado operado pela função read.table. 3 - (read.table) – Função que lê os dados da planilha e identifica as diferentes variáveis. 4 - (“clipboard”) – Indica que os dados estão na memória virtual (área de transferência). 5 – (sep="\t") – Indica que as colunas estão separadas por tabulação. 6 - (header=T) – Dizao R que o cabeçalho (nomes) das colunas deve ser preservado. 7 - (dec=",") – Os decimais estão separados por vírgula (ponto que é o padrão no R). 8 - (row.names=1) – Informa que a 1ª coluna é o identificador da amostra e não dados. Depois disso, faça como está descrito a seguir que o objeto criado (res), que estará salvo na memória do R pronto para ser analisado. Calma, não se assuste com os comandos! Logo você vai achar tudo muito simples, Creia Nisso! 9 Copie a linha de comando da tela de scripts, que foi explicada anteriormente, depois cole na tela de console. Tecle enter. O resultado fica como na figura abaixo: Pronto, agora já podemos testar os dados. PESSOAL, CHEGOU AQUI?.... JÁ ERA! ESTAMOS DENTRO DO R! 10 5. Como realizar estatística descritiva no R Aqui vamos observar algumas funções descritivas: 5.1. Medidas de localização mean() # Calcula a média aritmética simples, para variáveis quantitativas (discretas e contínuas). median() # Calcula a mediana de uma lista de valores; é também conhecida por percentil 50 ou segundo quartil. quantile() # Quantis: calcula os quartis de uma lista de valores. 5.2. Medidas de Dispersão var() # Calcula a variância para uma variável quantitativa. sd() # Calcula o desvio padrão de uma variável quantitativa. Exemplo: >dados <- c(65,72,70,72,60,67,69,68) # Cria o objeto numérico “dados”. >dados [1] 65 72 70 72 60 67 69 68 #[1] primeira linha > mean(dados) # Calcula a média [1] 67.875 > median (dados) # Calcula a mediana [1] 68.5 > quantile (dados) #Quantis: calcula os quartis de uma lista de valores. 0% 25% 50% 75% 100% 60.0 66.5 68.5 70.5 72.0 > var (dados) #Variância: calcula a variância para uma variável quantitativa. [1] 15.83929 > sd (dados) #Desvio padrão: calcula o desvio padrão de uma variável quantitativa. [1] 3.97986 > summary(dados) #Resumo (mínimo, 1ºquartil, média, mediana, 3ºquartil, máximo) Min. 1st Qu. Median Mean 3rd Qu. Max. 60.00 66.50 68.50 67.88 70.50 72.00 11 Ao fazermos a análise descritiva do arquivo (res), teremos: Resumo das funções entre outras Função Descrição table() Cruzamento de variáveis mean() Média aritmética median() Mediana sum() Soma summary() Resumo dos dados var() Variância sd() Desvio padrão quantile() Quartis com descrição cor() Coeficiente de correlação Tudo tranquilo até aqui? 12 Normalidade e homocedasticidade dos dados são dois pressupostos a serem verificados, antes da realização de qualquer teste. A seguir veremos como se obtém a normalidade. Veja como é fácil! 6. Realizando testes de normalidade no R Para calcular a normalidade, vamos usar os arquivo (res) e (dados) dos exemplos anteriores. Então, para verificar se as variáveis numéricas dados e Resistencia seguem uma distribuição normal, faremos como está na figura abaixo: Observe os comandos abaixo: >attach (res) # Possibilita acessar qualquer coluna da tabela (data.frame) isoladamente, aqui a variável Resistencia > shapiro.test (Resistencia) # Realiza o teste Shapiro-Wilk da variável Resistencia. Resultado: P = 0,247 (alfa = 0,05) > lillie.test (Resistencia) # Realiza o teste Kolmogorov-Smirnov da variável Resistencia.ende Resultado: P = 0,1144 (alfa = 0,05) >dados # mostra o arquivo > shapiro.test (dados) #Realiza o teste Shapiro-Wilk do arquivo dados. Resultado: P=0,3696 (alfa = 0,05). Obs: No R já vem configurado por padrão o nível de significância do teste (alfa) que é 5%. Não é fácil? 13 7. Realizando testes de homocedasticidade no R Para calcular a homocedasticidade (homogeneidade das variâncias), vamos usar o arquivo (res) do exemplo anterior. Para observar se as variâncias são homogêneas ou não, faremos como está na figura abaixo: >bartlett.test (Resistencia ~ Fator) # Teste de Bartlett, calcula a homocedasticidade da variável Resistencia descrita de acordo com a variável categórica Fator. Resultado: P = 0,9198 – Não se descarta a hipótese nula de homocedasticidade (alfa = 0,05). >fligner.test (Resistencia ~ Fator) # Teste de Fligner-Killen, calcula a homocedasticidade da variável Resistencia descrita de acordo com a variável categórica Fator. Resultado: P = 0,7859 – Há homocedasticidade (alfa = 0,05). >modlevene.test (Resistencia ~ Fator) # Teste de Levene. Resultado: P = 0,8626 – (alfa = 0,05). Obs: O teste de Fligner-Killen é um teste não- paramétrico que é muito robusto contra desvios da normalidade, mas o coloquei aqui só para efeito de comparações. Então, é fácil assim mesmo? É! 14 8. Realizando o Teste-t O teste-t é usado em várias situações de pesquisa. Pode-se testar uma afirmação a respeito da média populacional ou na comparação das médias de duas amostras de dados (MELLO e PETERNELLI 2013) 8.1. Teste t para 2 amostras independentes com variâncias iguais. Exemplo: Supomos aqui que cada grupo, Amostra 1 (antes) e Amostra 2 (depois), foi submetido a um determinado tratamento, com uma certa substância e se deseja observar se houve alguma diferença na resposta ao tratamento entre os grupos. Resultado: O Teste-t para duas amostras independentes mostra um valor de P < 0,05 muito significativo, rejeitando- se a hipótese nula de igualdade das médias. 15 8.2 Teste t pareado No teste-t pareado, supõem-se agora que um mesmo grupo foi submetido a dois tratamentos diferentes. No novo tratamento (depois), foi usada uma outra dose da substância, portanto, o teste foi realizado para observar se houve diferença na resposta em relação ao tratamento padrão (antes). Resultado: O test-t pareado mostra um valor de P < 0,05, muito significativo, portanto rejeita-se a hipótese nula de que as médias são iguais. Teste t, na maior tranquilidade! 16 9. Teste do X² (Qui-quadrado) Essa técnica é utilizado para testar hipóteses, tendo como objetivo verificar quantitativamente a relação entre o resultado observado de um experimento e a frequência esperada para o evento. Exemplo hipotético: Uma indústria produz 3 tipos de refrigerantes: Normal, Light e Diet. O grupo de marketing sugeriu que a preferência por cada variedade depende do sexo dos consumidores e realizou uma pesquisa para observar se existe mesmo essa relação. Foram selecionadas aleatoriamente 300 pessoas que informaram suas preferências de acordo com a tabela abaixo: Sexo Light Normal Diet Total Masculino 40 80 40 160 Feminino 60 60 20 140 Total 100 140 60 300 Hipótese nula (H0): A preferência pelo refrigerante é independente do sexo do consumidor. Hipótese Alternativa (H1): A preferência do refrigerante é dependente do sexo do consumidor. No R, o cálculo do Qui-quadrado deve ser feito como na figura abaixo: 9.1. Inserindo os dados Repetindo inserção de dados 17 9.2. Realizando o teste no R Argumento: chisq.test (refri) # Realiza o teste do qui-quadrado (figura abaixo) Resultado: O valor de X² calculado 12,24 > 5,99 X² tabelado, portanto, rejeita-se H0 de que a preferência é independente do sexo. O valor de P é estatisticamente significativo. Obs: Checar na Tabela de X² o valor tabelado com 2 graus de liberdade a 5% de significância. X² na maior tranquilidade! 18 10. Análise de Variância (ANOVA) Em geral, a ANOVA se refere a uma classe de desenho experimental, na qual a variável explicativa é categórica e a variável resposta é contínua. Tem como pressupostos que os dados sejam independentes, normais e com homocedasticidade. Pode incluir delineamentos de um fator, os blocos aleatorizados e os parcelados individuais (GOTELLI2011). ANOVA é usada quando se deseja verificar se as diferenças amostrais observadas são diferenças populacionais reais significativas ou produto de variabilidade amostral casual (MILONE, 2009). Portanto, pressupõe que o acaso produza a ocorrência de pequenas variações, sendo que causas reais devam ser responsáveis por variações grandes. Exemplo de ANOVA One Way (de 1 fator) com os dados do arquivo (res). # ano – Contém a análise feita pela função aov. # anova – Faz a tabela da ANOVA. # O valor de P obtido, mostrou-se muito significativo a um alfa de 5%. # (***) Este sinal indica que o valor de P está entre 0 e 0,001, portanto muito menor do que 0,05 que é o alfa padrão do teste no R. Todos os asterisos indicam valores significantes. ANOVA é simples assim! 19 11. Teste de Tukey Teste a posteriori utilizado para investigar quais os pares de médias que diferem entre si, se houver diferenças significativas na ANOVA. # ano – Arquivo que contém o teste de Anova. # TukeyHSD – Função que realiza o teste de Tukey sobre ANOVA calculada no arquivo ano, explicado pela variável categórica Fator. # No quadro de comparações entre as médias dos tratamentos, observa-se todos os pareamentos marcados onde há diferenças significativas a um alfa de 5%. Observe que você pode usar tanto summary como anova para rodar o arquivo ano e exibir o resultado da Anova Teste de TUKEY, com um simples comandinho! 20 12. Testes de Kruskal-Wallis O teste de Kruskal-Wallis é também denominado de ANOVA não- paramétrica. É normalmente usado para dados que não atendem aos pressupostos exigidos pela ANOVA. Exemplo: Foi selecionada uma amostra aleatória de três diferentes tipos de lâmpadas e testadas para verificar quanto tempo as lâmpadas funcionavam, com os seguintes resultados. Deve ser realizado como ilustrado abaixo: É diferente, mas é Simples! 21 Realizaremos o teste de Kruskal-Wallis, como ilustrado abaixo: Resultado: O teste de Kruskal-Wallis mostra um valor de P menor do que o alfa de 5%, portanto, significativo. Então, concluímos que deve haver diferença entre as amostras A, B e C. Com esse resultado, vamos agora realizar o teste post-hoc de Kruskal-Wallis de múltiplas comparações para saber quais as amostras são diferentes entre si. KRUSKAL não tem mistério no R, é tranquilo assim! 22 12.1. Teste de Kruskal-Wallis de comparações múltiplas presente no pacote agricolae. Resultado: Observa-se que a durabilidade é significativamente diferente, a um alfa de 5%, entre dois pareamentos de amostras das lâmpadas. KRUSKAL post-hoc, é simples assim! 23 13. Correlação de Pearson e Spearman Na correlação, busca-se medir o grau e a direção dessa correlação (se positiva ou negativa), entre duas variáveis contínuas. Se a análise dos resíduos do modelo linear for normal, usa-se o método de Pearson, porém, caso contrário, será usado o método de Spearman. No R, essa técnica é feita com os mesmos argumentos mudando somente este: method = “pearson” ou “spearman”. Exemplo: Uma empresa pretende estudar a relação entre o volume de vendas (Volume) efetuadas durante um dado período de tempo por seus vendedores, considerando seus anos de experiência (Anos). Os dados obtidos são apresentados a seguir no arquivo (vendas): Aqui os parâmetros no R para a realização da análise. # Resumo das variáveis do arquivo (vendas) summary(vendas) # Calcula o modelo linear vol.lm <- lm(Volume~Anos) # Histograma para visualizar os resíduos do modelo hist(resid(vol.lm)) 24 # Testa a normalidade dos resíduos shapiro.test(resid(lm(Volume~Anos))) # Calcula a correlação cor.test(Volume, Anos, method="pearson") #plota o gráfico da correlação plot(Volume~Anos, data=qisz, xlab="Anos", ylab="Volume de Vendas", pch=19, col="blue") # Faz a reta da regressão abline(vol.lm, col="red",lty=2) # Legenda legend(locator(1),c("", "p < 0,05", "r = 0,84", "r² = 0,70"), cex=1.0, bty="n") Abaixo o histograma: Vamos fazer agora a correlação de Pearson. CORRELAÇÃO, é mais simples ainda! 25 Na figura abaixo a análise da correlação de Pearson. Resultado: O valor de P menor do que o alfa de 5%, confirmando que existe a correlação. O valor de r (cor) arredondado em torno de 0,84 mostra uma correlação forte. O r² mostra que 70% dos dados são explicados pelo modelo. Correlação com simples comandos! 26 Aqui os comandos para a realização do gráfico de dispersão: Resultado: Observe no gráfico que as informações estatísticas calculadas, apontam para uma correlação positiva das variáveis. A nuvem de pontos indica que na medida que os anos passam, (quanto mais experiente o vendedor), o volume de vendas aumentam. Gráficos de dispersão com simples comandos! 27 14. Como fazer Regressão Linear Simples Resumidamente, o objetivo da regressão linear é fazer a predição dos valores de uma variável dependente (Y) em função de uma variável independente (X), e a partir disso, conhecer o quanto variações de X podem afetar Y (GOTELLI 2011). Exemplo: Peso do corpo e rendimento de carcaça, aos 90 dias de idade, de 10 cordeiros da raça Texel. O cálculo da Regressão Linear Simples no R deve seguir o modelo abaixo: 14.1. Copiando os dados da planilha para o R. 28 14.2. Transferindo os dados para o R Segue o mesmo padrão já visto no início. texel <- read.table(“clipboard”, sep=“\t”, header=T, dec=“,”, row.names=1) O arquivo deve ficar com está na figura abaixo: Obs: Na linha de comando, os argumentos que estão entre aspas (“ ”), possuem uma cor diferente. Se, ao copiar o comando de um editor de texto pra tela de scripts, isso não acontecer, troque as aspas no RStudio, senão possivelmente dará erro. Agora vamos ver a seguir, um passo a passo bem prático, de como realizar a regressão linear simples no R. Regressão Linear Simples com comandos simples ! 29 Aqui temos o script todo que vai ser rodado: Calma, não se assuste, ninguém precisa decorar isso tudo! Você pode salvar no script e substituir no futuro pelos seus dados. Na minha opinião, essa é a parte boa e prática do R. Tendo um script pronto e sabendo como colocar seus dados, você pode fazer qualquer análise. O script é uma ferramenta facilitadora poderosa! 30 14.3. Fazendo a regressão Summary faz um resumo dos dados que nos dá várias informações importantes. Resultado: Temos o valor de P que é significativo (P < 0,05). O R² relata uma explicação de 86% do modelo linear entre outras informações. 31 Abaixo temos os valores estimados, os resíduos e o teste de normalidade dos resíduos. Resultado: O teste de Shapiro-Wilk gerou um valor de P = 0,5, que não foi significativo a um alfa de 5%, portanto, não rejeitando hipótese nula de normalidade. Regressão Linear fica fácil com simples comandos! 32 Agora, podemos plotar os gráficos com o script abaixo; Vamos ver a seguir os gráficos: histograma, dos quantis dos resíduos, dos resíduos com os valores ajustados e resíduos com a ordem. No R, a Regressão Linear é fácil demais! 33 15. Como plotar gráficos com R Neste capítulo, vamos abordar apenas os gráficos que ainda não foram utilizados nas análises anteriores. Já vimos, anteriormente, como se faz o histograma e gráfico de dispersão. Um aspecto muito importante é que vários dos argumentos utilizados para um tipo de gráfico pode ser utilizado em outro. 15.1. Boxplot (Gráfico em caixa) Vamos usar o arquivo(lamp) para realizar o boxplot. Argumentos: lamp = objeto contendo os dados tempo = tempo de durabilidade lampada = amostras de lâmpadas col = cores (cada cor tem um número) ylab = Etiqueta do eixo Y (sempre entre aspas) xlab = Etiqueta do eixo X (sempre entre aspas) Há mais argumentos, mas esses são só para mostrar que é possível você ampliar e melhorar muito seu gráfico. 34 15.2. Barplot (Gráfico em barras) Preparando arquivos para fazer o Barplot lamp # Dados de das amostras de lâmpadas ## Mediana de cada período a<-median(lamp[1:5,1]) # Mediana da amostra A b<-median(lamp[6:9,1]) # Mediana da amostra B c<-median(lamp[10:13,1]) # Mediana da amostra C bar <- c (a,b,c) # Arquivo contendo as medianas ## Fazendo o gráfico > barplot (bar, ylab="Tempo de durabilidade", xlab="Amostras das Lâmpadas", ylim=c(0,100), col=c("gray32","gray64", "gray90")) > legend(locator(1), c("Amostra A","Amostra B","Amostra C"), col=c("gray32","gray64","gray90"), pch=15, cex=1.1, bty="n") Argumentos: barplot = Argumento que cria o barplot legend = Faz a legenda locator (1) = Coloca a legenda no local onde você clicar bar = arquivo com as medianas ylab = Etiqueta do eixo Y (sempre entre aspas) xlab = Etiqueta do eixo X ylim = Limite do eixo Y col = cores (Variação de cinza) pch = Tipo de símbolo (quadrado) cex = Tamanho da letra bty = Tipo de cercadura (neste caso o “n” é sem linha) 35 5.3. Piechart (Gráfico de setores ou “pizza”) 15.3.1 Gráfico de Setores com Percentagens (Parâmetros) Aqui o gráfico: 36 15.3.2. Gráfico de Setores com Percentagens 3D (Parâmetros) Aqui o gráfico: 37 16. Como obter assistência e consultoria no R Há muito material sobre o R disponível na internet. Você vai encontrar apostilas, vídeos, livros, scripts, fóruns, em sites e blogs. Portanto, eu acredito que há condições materiais de se aprender mais sobre o R. Porém, o R é uma linguagem diferente de se realizar análises estatísticas. Então, quem está acostumado com softwares gráficos, logo de cara, estranha muito e muitas vêzes desiste. Eu incentivo você a continuar desenvolvendo seus conhecimentos no R, buscando dominar sua sintaxe e resolver problemas estatísticos. Vou listar aqui alguns sites que acredito que vão lhe acrescentar mais informações ao que você já recebeu aqui: http://cran.r-project.org/ – A página do projeto R que tem muitas informações sobre pacotes, sobre como baixar o programa, apostilas em várias línguas, inclusive português. http://www.statmethods.net/ – Quick-R - um site em inglês que tem muita coisa sobre o R. http://ecologia.ib.usp.br/bie5782/doku.php?id=start – Site de Ecologia da USP que tem um curso específico de R. https://ridiculas.wordpress. com/about – Site mantido pelo prof. Walmes (UFPR) entre outros colaboradores que dá dicas excelentes sobre o R. Recomendo também o meu curso em vídeo, Chave R – A superferramenta de análises estatísticas, em fase final de elaboração, onde explico com mais detalhes todas essas análises do e-book que não são possíveis com a limitação que a linguagem escrita possui. Poderá ser acessado pelo site: www.estatisticacomr.com.br, onde há artigos e vídeos com informações sobre o R, onde também tiro dúvidas sobre o ambiente e dou consultoria estatística no R. 38 Bibliografia Citada ALMIRON, M.G.; LOPES, B; OLIVEIRA, A.L.C.; MEDEIROS, A.C.; FRERY, A.C. 2010. On the Numerical Accuracy of Spreadsheets. Journal of Statistical Software, v. 34, n. 4, p. 1-29. CALLEGARI-JACQUES, S.M. 2003. Bioestatística: princípios e aplicações. Porto Alegre: Artmed. 264p. GOTELLI, N.J.; ELLISON, A.M. 2011. Princípios de estatística em ecologia. Artmed, Porto Alegre. KEELING, K.B.; PAVUR, R.J. 2011. Statistical accuracy of spreadsheet software. The American Statistician, v. 65, n. 4, p. 265-273. McCLLOUGH, B.D. 2004. Fixing Statistical Errors in Spreadsheet Software: The Cases of Gnumeric and Excel. Computational Statistics & Data Analysis Statistical Software Newsletter, p. 1–10. MELLO, M.P.; PETERNELLI, L.A. 2013. Conhecendo o R: uma visão mais que estatística. Viçosa-MG: Editora UFV. 222 p. MILONE, G. 2009 Estatística geral e aplicada. Capítulo 12. São Paulo: Centage Learning. ISBN 85-221-0339-9. NASH, J.C. 2008. Teaching Statistics with Excel 2007 and Other Spreadsheets. Computational Statistics & Data Analysis, v. 52, n. 10, p. 4602–4606. R CORE TEAM. 2015. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna. ISBN 3-900051-07-0, URL http://www.R-project.org/. VANCE, A. 2009. “Data Analysts Captivated by R's Power”. The New York Times Online em 06 janeiro de 2009. Acesso em: 06 de junho de 2015.
Compartilhar