Baixe o app para aproveitar ainda mais
Prévia do material em texto
Linguagem R Fundamentos e Exemplos Visão Geral do R O R é uma linguagem de programação multiparadigma desenvolvida por pesquisadores na Nova Zelândia. Surgiu a partir da necessidade de programas que auxiliassem na manipulação, análise e visualização de dados. Hoje em dia a linguagem tem como principais aplicações áreas como: Machine Learning, Data Science e Estatística computacional. Instalando o R em sua Máquina (Windows) - Acesse o site Oficial do projeto R: https://cran.r-project.org/bin/windows/base/ - Faça o download da versão R-4.1.2 (que irá aparecer assim que você abrir o link) - Após o download abra o executável, e faça a instalação padrão sugerida, apenas desmarcando a opção de 32 bits (caso seu computador seja 64). - Terminado a instalação, o R já está pronto para uso. Instalando o RStudio Com o R instalado em sua máquina, você já consegue programar e executar códigos via terminal. Porém o RStudio é uma IDE open source que facilita e torna o R bem mais simples tanto para escrever códigos quanto executá-los. - Acesse o site oficial: https://www.rstudio.com/products/rstudio/download/ - Escolha a opção “Free” e faça o download. - Após o download concluído faça a Instalação padrão do executável. - Pronto, o RStudio está pronto para ser usado! https://www.rstudio.com/products/rstudio/download/ Explicando cada Janela do RStudio O RStudio possuem quatro janelas em sua configuração original: Script, Environment, Console, Explorer. Destrinchando cada um deles nós temos: - Script: é onde são escritos os comando e os algoritmos em R. No Script você pode escrever tanto comando como algoritmos e posteriormente salvá-los em algum arquivo .R - Environment: no Environment ficam guardados variáveis, scripts e funções que foram executadas ou criadas, sendo possível rodar apenas clicando no elemento. - Console: no console podemos executar comandos em linhas, setar variáveis e fazer pequenos testes, além de ver a saída do script executado. - Explorer: por último, temos a janela do explorer onde podemos ver arquivos, os plot de gráficos, a aba de help para consultas sobre pacotes e funções do R, além da própria aba de packages, onde podemos procurar por bibliotecas das mais diversas. Explicando cada Janela do RStudio Script Environment Console Explorer Começando a programar em R Em R, por ser uma linguagem mais voltada para estatística, o paradigma da linguagem inicialmente pode ser um pouco confuso. R trabalha muito com funções e parâmetros, além de outras particularidades. Vamos começar com variáveis: - Para criar uma variável basta digitar o nome que você quer atribuir. - Para atribuir um valor a variável se usa o operador: <- - Exemplo: Principais funções - scan() : função que permite ler dados do teclado e os atribuir a uma variável. Exemplo: Obs.: A função permite que você leia e atribuía quantos valores quiser. Quando quiser encerrar basta apertar Enter. Vetores Um vetor em R se comporta como uma lista qualquer, podendo ser criada instantaneamente lendo vários valores para ela ou atribuindo os valores. Para criar um vetor basta declarar o nome e atribuir os valores com a seguinte sintaxe: Funções Estatística - mean() : função que calcula a média de uma elemento(vetor). Exemplo: - median(): função que calcula a mediana de um elemento. Exemplo: - Para a moda não existe uma função estabelecida que retorne o número que mais se repete, porém podemos fazer um simples algoritmo que retorne a moda de um elemento da seguinte forma: Plot de Gráficos em R Para se plotar um gráfico em R é muito simples. Basta pegar um elemento (de preferência um vetor ou matriz) e especificar o tipo de gráfico que se deseja. No caso mais trivial temos o método plot() que simplesmente faz um plot básico de dispersão com os valores de um vetor/matriz. Usando o vetor base para a moda no slide passado, conseguimos plotar este grafo. Tipos de Gráficos em R: Histograma Os histogramas são gráficos bastante simples que permitem caracterizar a distribuição de frequências de valores de uma variável. Em R, a construção de histogramas pode ser conseguida através do uso da função hist() .Nesta função, os principais parâmetros são: o vetor de valores da variável a representar e o número de posições de quebra (breaks). Na imagem a seguir pegamos um simples vetor e vamos montar um histograma mostrando a frequência de salários. Tipos de Gráficos em R: Gráfico de Barras No gráfico de barras temos uma forma de representar valores associados a categorias. Podemos usá-los para representar frequências de fatores ou categorizar parâmetros numéricos. Para plotar um gráfico de barras usamos a função barplot(). Exemplo: Tipos de Gráficos em R: Gráfico do Tipo “Pizza” Os gráficos do tipo pie-chart (Pizza) permitem representar frequências de ocorrência de valores distintos de uma variável nominal. É muito usado para representar porcentagens ou dados que precisem destacar bem determinadas seções. Exemplo: Tipos de Gráficos em R: Boxplot Os boxplots servem para visualizar a distribuição de valores de uma variável numérica mostrando algumas medidas de estatística descritiva de forma gráfica. Num boxplot típico, a mediana é dada por um traço horizontal central, uma zona rectangular cujo lado superior é dado pelo terceiro quartil (Q3) e o inferior pelo primeiro quartil (Q1). Outras funções em R - cbind() : Transforma dois vetores (a) e (b) e o transforma em matriz. - matrix() : Cria Matrizes a partir de certos parâmetros (número de linhas, colunas, orientação, etc.) - sd(x) : Retorna o desvio padrão de x - var(x): Retorna a variância de x - exp(x): Retorna o exponencial de x. - sqrt(x): Retorna a raiz quadrada de x. - factorial(x): Retorna o fatorial de x (x!). - round(x): Arredonda o valor de x. - log(x): Retorna o logaritmo de x na base 10 Data Frames em R Os Data Frames nada mais são do que objetos de duas dimensões, no qual cada coluna pode possuir um tipo primário diferente e são utilizados para armazenar bases de dados. Apesar de parecer, é bom ressaltar que um Data-Frame propriamente dito em R é diferente de uma matriz criada seja com o método Cbind, seja com o método Matrix. Iremos ver ao longo dos próximos que os Data-Frame tem métodos e comportamentos próprios que por si só não podem ser usados em uma matriz simples. Contudo, podemos converter uma matriz simples para um Data Frame em R. Criando um Data Frame em R Como mencionado antes, podemos criar um DF através de uma matriz existente ou do zero passando seus argumentos e variáveis. No primeiro caso, se temos uma matriz já criada com algumas informações e queremos transformá-la em um DF, basta atribuirmos a variável que será nosso DF o método as.data.frame(var) sendo var matriz que desejamos carregar no DF. No segundo caso, onde queremos criar um DF do zero basta que façamos a atribuição no nosso DF com o método data.frame(var1= (...), var2= (...)...varn(...)) onde var cada coluna do nosso DF. No slide a seguir será mostrado duas criações de DF seguindo esses passos. Criando um Data Frame em R A partir de um vetor: Criando direto: Funcionalidades de um Data Frame ● Pesquisa em um DF - Para acessar um item de um DF podemos usar o método convencional para matrizes ou acessar o elemento via caractere especial $. A seguir, temos três maneiras diferentes de pesquisar itens num DF: Funcionalidades de um Data Frame ● Modificando um Elemento do DF - Para modificar um ou mais elementos, se usa o mesmo conceito visto no slide passado, com a diferença de que aqui nós vamos modificá-los, podendo fazer isso de três formas: um único elemento, uma sequência de elementos ou apenas um conjunto específicos. Exemplo: Funcionalidades de um Data Frame ● Adicionando e Removendo Variáveis de um DF - Para adicionar uma nova variável ao seu Data Frame basta referenciar o seu DF e em seguida com o $ digitar no novo nome da variável: tri_df$qtd_abr. No nossoDF até então não tínhamos as quantidades referentes a abril, com o comando acima passa a ter. Já para remover basta fazer o mesmo procedimento que matrizes usam: tri_df[,-5]. Como a orientação do nosso DF é baseado em colunas, com este último comando removemos o mês de abril. Funcionalidades de um Data Frame Operações em um Data Frame: ● ncol(df) - Retorna o número de colunas ● nrow(df) - Retorna o número de linhas ● dim(df) - Retorna as dimensões do seu DF ● lenght(df$var) - Retorna o tamanho de um elemento de seu DF ● names(df) - Retorna os nomes referentes ao índices de seu DF ● View(df) - Mostra seu DF como uma tabela interativa do Excel ou SGBD ● summary(df) - Função específica para Data Frame que retorna para cada elemento do DF: valor min, max, mediana, média, primeiro e terceiro quartil. ● Além disso podemos aplicar qualquer função estatística já vista aqui com a sintaxe $var. Exemplo: mean(tri_df$qtd_jan), sd(tri_df$qtd_mar), etc. Obrigado! Monitoria de Estatística 2021.1 Matheus Gomes de Oliveira
Compartilhar