Prévia do material em texto
1 de 11faculdade.grancursosonline.com.br PROFESSOR(A): FERNANDA MICHELOWSKI Análise de Dados Usando o RStudio Apresentação do Software RStudio Objetivo da Aula Apresentar as funcionalidades básicas do RStudio. Apresentação Nesta aula, você vai conhecer um instrumento muito utilizado atualmente pelos cientistas de dados e profissionais de diversas áreas que trabalham com dados: o RStudio. Mas por que você deve conhecer e entender como funciona esse instrumento? Hoje, na era da big data, temos uma grande disponibilidade de dados, e softwares estatísticos são indicados pelo mercado de trabalho como um dos pré-requisitos essenciais. A realização de cálculos complexos, a análise de dados, a compreensão de estatísticas e o desenvolvimento de estratégias oriundas dessas informações sempre foram os objetivos principais da criação dos computadores. Para que tudo saísse conforme o planejado, o papel de grandes profissionais estatísticos acabou se expandindo além do escopo original, avançando para a área de tecnologia. Não se tratava mais apenas de matemática, mas também de programação e análise de sistemas, tudo isso focado no desenvolvimento de softwares robustos e eficientes em cálculos. O RStudio é um ambiente de desenvolvimento para o R, uma interface gráfica amplamente utilizada por diversas áreas de estudo e por profissionais que não são necessariamente da área de tecnologia. Para manusear bem essa ferramenta, além de conceitos de cálculo matemático, o usuário precisa ter uma boa base de estatística e programação. Vamos começar? 1. Introdução ao R e Software RStudio Você sabe o que é a linguagem de programação R e como o RStudio pode ser utilizado? Livro Eletrônico https://faculdade.grancursosonline.com.br/ 2 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski A linguagem de programação R é utilizada para análise estatística e visualização de dados. Essa linguagem foi adotada por pesquisadores e profissionais de diversas áreas, incluindo finanças, marketing, saúde, segurança, entre outros. Suas principais características são: • Multiparadigma: viabiliza o uso de vários paradigmas de desenvolvimento além da programação orientada a objetos, o que a torna mais versátil e adaptável a diferentes necessidades de análise; • Linguagem de alto nível: facilita a criação de aplicações complexas sem a necessidade de se preocupar com detalhes operacionais de baixo nível. Isso significa que você pode ficar diretamente na análise e visualização dos dados; • Dinâmica: permite a conversão de tipos de objetos de maneira flexível. Por exemplo, você pode facilmente converter uma lista de números em uma tabela de dados; • Fracamente tipada: permite operações entre objetivos de tipos diferentes sem a ne- cessidade de especificar explicitamente os tipos. Isso pode agilizar o desenvolvimento de scripts e análises. Figura 1: Painel do R Fonte: Rpubs by Rstudio. Disponível em: https://rpubs.com/cassiorampinelli/488999. Acesso em: 12 jul. 2024. O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 3 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski Para trabalhar com a linguagem R, foi criado o ambiente de desenvolvimento Rstudio. Esse ambiente de desenvolvimento integrado (IDE) organiza as informações, desenvolve gráficos e gera relatórios de maneira didática e acessível. A plataforma é gratuita, possui uma interface gráfica amigável, facilitando sua utilização por profissionais de diversas áreas. Com o RStudio, você pode: 1) Escrever códigos: no local destinado para scripts. Esta área permite que você escreva e edite seu código R de forma organizada. Imagine que você está escrevendo uma redação no Word, mas para códigos; 2) Gerenciar dados: utilizando o workspace para organizar conjuntos de dados e variáveis. O workspace é como uma mesa de trabalho onde você pode ver todos os seus materiais (dados e variáveis) organizados; 3) Executar comandos: por meio do console, onde você pode ver o histórico de execução do código e a saída dos comandos. Pense no console como uma janela de bate-papo onde você conversa diretamente com o R, dando comandos e recebendo respostas; 4) Visualizar gráficos: na seção de plots, onde são exibidos os gráficos e imagens gerados pelo código R. É aqui que você pode ver visualmente os resultados das suas análises, como gráficos de barras, histogramas, gráficos de dispersão, entre outros. Figura 2: Principais painéis do ambiente de trabalho do Rstudio Fonte: Elaboração própria (2024). O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 4 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski O RStudio está disponível em versões para Windows, Mac e Linux. Embora não seja estritamente necessário usar uma IDE para trabalhar com R, o RStudio facilita significativamente o processo, tornando o desenvolvimento e a análise de dados mais eficientes e organizados (Schmuller, 2019, p. 17). Existem milhares de pacotes (ou packages) disponíveis no CRAN que podem ser facilmente integrados ao RStudio. Esses pacotes ampliam as funcionalidades do R, permitindo análises estatísticas avançadas, visualização de dados, manipulação de dados e muito mais, porque são coleções de funções, dados e documentação que expandem as capacidades do R. Os pacotes são desenvolvidos para executar tarefas específicas ou fornecer funcionalidades adicionais que não estão incluídas na instalação base do R. Cada pacote pode incluir: • Funções: conjuntos de comandos que realizam operações específicas; • Dados: conjuntos de dados que podem ser utilizados para análise e testes; • Documentação: manuais e descrições que explicam como utilizar as funções e dados contidos no pacote; • Vignettes: documentos que fornecem tutoriais e exemplos detalhados de como uti- lizar o pacote. O RStudio é uma plataforma em constante evolução, com atualizações regulares que trazem novas funcionalidades e melhorias. Manter-se atualizado com essas novidades pode aumentar significativamente a sua produtividade e eficiência. A comunidade de usuários do RStudio é global e muito ativa. Existem inúmeros fóruns, grupos de discussão e recursos online onde você pode buscar ajuda, compartilhar conhecimentos e aprender novas técnicas. Por exemplo, se você estivesse trabalhando em um projeto de pesquisa para analisar os padrões de venda em uma rede de lojas, poderia usar o RStudio para importar os dados de vendas de diferentes formatos (Excel, CSV etc.), analisar esses dados para identificar tendências e criar gráficos para visualizar estes padrões. Você também poderia escrever um relatório detalhado, incluindo suas análises e gráficos, tudo dentro do próprio RStudio. O RStudio facilita significativamente o trabalho com a linguagem R, tornando a análise de dados e a criação de relatórios mais acessíveis e eficientes. Para quem está começando ou já trabalha na área, entender essas ferramentas é fundamental para o sucesso em projetos de análise de dados. O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 5 de 11faculdade.grancursosonline.com.br Professor(a):Fernanda Michelowski Antes de iniciar projetos de big data e analytics, é preciso escolher as ferramentas de trabalho adequadas. O RStudio é uma solução robusta para manipular conjuntos de dados de tamanho médio, realizar análises estatísticas e produzir documentos e apresentações centradas em dados. Na sua opinião, quais os benefícios dessa ferramenta? 2. Instalando o R Studio A instalação padrão do R é feita a partir do Comprehensive R Archive Network (CRAN), disponível no endereço https://www.r-project.org/. O CRAN é uma rede de servidores espalhada pelo mundo que armazena versões idênticas e atualizadas de códigos e documentações para o R. Figura 3: Página de download do R no CRAN Fonte: The R Project for Statistical Computing. Disponível em: https://www.r-project.org/. Acesso em: 12 jul. 2024. O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 6 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski A primeira etapa é fazer o download do R no Comprehensive R Archive Network (CRAN). Em seguida, no navegador, digite o endereço apropriado para o seu sistema operacional: • Para Windows: cran.r-project.org/bin/windows/base/; • Para Mac: cran.r-project.org/bin/macosx/. Após finalizada a primeira etapa – o download do R, o usuário deve seguir as orientações de instalação descritas na página do CRAN. Com o R instalado, o próximo passo é a instalação do RStudio, ambiente integrado ao R. Finalizado o processo de instalação, o próximo passo é usar o software. Cabe destacar que, se já existir uma versão anterior do RStudio no computador, é recomendável desinstalá-la para evitar conflitos. Caso o usuário opte por não desinstalar, a versão antiga será substituída automaticamente pela nova. Outra opção para usar o software é utilizar o RStudio online, também conhecido como RStudio Cloud. Essa é uma solução prática para utilizar o R e o RStudio diretamente no navegador, eliminando a necessidade de instalação local. Para começar, acesse o site RStudio Cloud, registre-se ou faça login em sua conta. A interface do RStudio Cloud é similar à do RStudio Desktop, com quatro painéis principais: editor de scripts, console, ambiente/histórico e arquivos/plots/pacotes/help, permitindo uma transição suave para usuários habituados ao RStudio tradicional, conforme a Figura 4. No RStudio Cloud, você pode escrever e executar códigos, instalar e carregar pacotes, além de criar documentos. Seus projetos são salvos automaticamente na nuvem, facilitando o acesso de qualquer lugar com conexão à internet e possibilitando o compartilhamento e colaboração com colegas. Essa flexibilidade e acessibilidade fazem do RStudio Cloud uma ferramenta valiosa para acadêmicos e profissionais que buscam uma solução eficiente para desenvolvimento em R sem a necessidade de configuração complexa. Você sabia que o nome “RStudio” tem uma história interessante? O R no RStudio, claro, vem da linguagem R. Mas o “Studio” no nome não é apenas uma referência ao fato de ser um ambiente de desenvolvimento integrado (IDE). A ideia de “Studio” também sugere um espaço criativo, semelhante a um estúdio de artista, onde os usuários podem “criar” suas análises e visualizações de dados. Assim como um estúdio O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 7 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski de arte, o RStudio oferece todas as ferramentas e recursos que você precisa para transformar seus dados brutos em obras de arte analíticas. Além disso, a criação do RStudio foi motivada pela visão de tornar a programação em R mais acessível e eficiente para todos, desde iniciantes até especialistas. A Figura 4 apresenta a tela principal do software. O painel “Console” (1) à esquerda é utilizado para a execução do código R, enquanto os demais painéis fornecem informações úteis. O painel “Environment” e o “History” estão localizados no canto superior direito (2). O “Environment” acompanha os objetos (dados criados pelo usuário) e o “History” registra o código R digitado. Abas importantes como “Files”, “Plots”, “Packages” e “Help” estão localizadas na parte inferior direita (3). A aba “Files” fornece a visualização dos arquivos criados, a “Plots” exibe gráficos gerados pelos dados, a “Packages” lista os pacotes instalados, e a aba “Help” oferece ajuda e suporte aos usuários do sistema. Figura 4: Tela principal do RStudio Fonte: Elaboração própria (2024). Até aqui, você conheceu a etapa de instalação, a tela principal e informações importantes sobre o RStudio. Agora, está preparado para começar a explorar o poder da análise estatística e da visualização de dados com essas ferramentas robustas. Lembre-se de seguir cuidadosamente cada passo e, em caso de dúvidas, utilize os recursos de ajuda disponíveis no próprio RStudio. O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 8 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski 3. Primeiros Passos no RStudio O RStudio é um programa que oferece uma interface de desenvolvimento mais eficiente para rodar a linguagem R. Diferente do ambiente tradicional do R, que funciona como um simples editor de texto onde o código é escrito e posteriormente executado, o RStudio integra diversas funcionalidades que melhoram significativamente a experiência de uso. O RStudio facilita a visualização do código, a instalação de pacotes, o monitoramento de erros, e a visualização de dados e gráficos, proporcionando um ambiente de trabalho mais produtivo e organizado. Conforme a Figura 5, o ambiente do RStudio é dividido em quatro painéis principais: Figura 5: Visão geral dos quatro principais painéis do RStudio Fonte: Elaboração própria (2024). As cinco principais áreas de mudanças são: File, Plots, Packages, Help e Viewer (Oliveira, Guerra e Mcdonnell, 2018): • File: exibe o diretório atual. Para definir um diretório, basta clicar em More > Set as Working Directory; • Plots: exibe os gráficos gerados; • Packages: mostra uma lista de pacotes que podem ser adicionados ao R conforme necessário; • Help: mostra a documentação de auxílio às funções R; • Viewer: um visualizador de conteúdo web. O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 9 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski Para trabalhar com operações matemáticas no R ou usá-lo como calculadora, por exemplo, é importante conhecer os operadores disponíveis. Os operadores matemáticos são símbolos que informam ao R qual operação deve ser realizada entre os valores ou variáveis. Os operadores básicos no R incluem: 1) + Adição; 2) – Subtração; 3) * Multiplicação; 4) / Divisão; 5) ^ Potenciação. A seguir, veja alguns exemplos de como você usaria os operadores matemáticos no programa: O conteúdo deste livro eletrônico é licenciado para Samuel - 06267147100,vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://faculdade.grancursosonline.com.br/ https://faculdade.grancursosonline.com.br/ 10 de 11faculdade.grancursosonline.com.br Professor(a): Fernanda Michelowski Para executar operações matemáticas – manipulações simples – no Rstudio, basta digitar o comando no console e pressionar enter, e o resultado será exibido imediatamente. Se desejar guardar os resultados, o R permite salvar o conteúdo em variáveis. Exemplo: Neste caso, o resultado da operação 4 – 2 foi atribuído a uma variável denominada subtracao. Em R, a atribuição é realizada através do símbolo “