Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO A CIÊNCIA DE DADOS Wheslley Rimar Bezerra Ferramentas utilizadas em ciência de dados e Big data Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Reconhecer as ferramentas utilizadas nos processos de ciência de dados. Explicar o uso de Python em ciência de dados. Descrever o uso de R em ciência de dados. Introdução Desde crianças, aprendemos a analisar situações e fazer escolhas com base em informações que nos são passadas. Essas análises e decisões vão se tornando mais complexas à medida que vamos adquirindo maiores responsabilidades ao longo da vida. Com a tecnologia, não é diferente: bases de dados imensas são inseridas em sistemas computacionais e analisadas minuciosamente com linguagens de programação, norteando a tomada de decisões de gestores de grandes empresas. Neste capítulo, você vai estudar sobre algumas das principais ferra- mentas utilizadas em ciência de dados, bem como observar e conhecer na prática como as linguagens Python e R são facilitadoras no processo de manipulação, extração e entendimento do comportamento dos dados. Como as atividades de manipular e visualizar dados são fun- damentais para os cientistas de dados, você verá exemplos práticos e poderá perceber a velocidade e o desempenho dessas linguagens no processamento de conjuntos de dados. 1 Ciência de dados e a estatística A matemática é essencial para a ciência de dados. A contribuição dessa área para o entendimento do comportamento dos dados é valiosa, especialmente no campo da estatística, uma vez que essa disciplina é responsável por coletar, classifi car e distribuir conjuntos de dados, a fi m de evidenciar ocorrências de determinados eventos a partir de amostras específi cas que são testadas em diversas análises. Os cientistas de dados utilizam a estatística como um importante mecanismo para extrair a história por trás dos dados, entendendo os seus padrões e as possíveis variações, de modo a encontrar soluções plausíveis para a tomada de decisões em diferentes áreas de atuação. Além disso, com a estatística, o cientista ou analista de dados pode identificar as correlações existentes entre os conjuntos de dados. Portanto, as ferramentas tecnológicas — como as linguagens de progra- mação e dashboards interativos — assumem um importante papel de apoio na aplicação das técnicas de estatística aos conjuntos de dados. Na Figura 1, veja um exemplo de dashboard interativo, que é uma ferramenta muito utilizada por cientistas de dados para a sumarização de informações de um ou mais conjuntos de dados. Figura 1. Exemplo de dashboard. Ferramentas Entre algumas ferramentas que podemos citar como exemplo e que são uti- lizadas pelos analistas ou cientistas para a visualização e manipulação de dados, destacam-se as word clouds e os gráfi co. Ferramentas utilizadas em ciência de dados e Big data2 Word clouds é um recurso muito utilizado na visualização de dados e é chamado em português de nuvem de palavras. Diferentemente da forma como são visualizados os recursos baseados em imagens, as word clouds são geradas por conjuntos de palavras cujo formato se assemelha a uma nuvem. Essa ferramenta tem como finalidade evidenciar a frequência de ocorrência de palavras que existem em um conjunto de dados (também chamado de dataset) exclusivamente textual. Na prática, quanto mais vezes determinada palavra for encontrada, maior será o seu tamanho na nuvem de palavras. Esse recurso é útil em sites ou sistemas web, em que é possível observar quais foram as palavras-chave mais buscadas pelos usuários de determinada plataforma. Para Viégas, Wattenberg e Feinberg (2009), em um mundo no qual a visualização de dados existe na web e é facilitada por uma série de ferramentas, as word clouds são potenciais elementos de sucesso. Veja um exemplo desse recurso na Figura 2. Figura 2. Exemplo de word cloud. Gráficos são recursos visuais que certamente ocupam a liderança entre as principais ferramentas utilizadas pelos cientistas de dados em projetos. Com eles, é possível perceber de forma natural a evolução e o comportamento de determinado conjunto de dados, levando em consideração unidades de medida 3Ferramentas utilizadas em ciência de dados e Big data como o tempo, a distância ou outro parâmetro pré-determinado pelo cientista. Segundo Cianci (2018), embora cada gráfico possa demonstrar diferenças entre os dados, você não precisa selecionar todos os modelos disponíveis. Talvez, para o seu projeto específico, apenas alguns modelos já sejam suficientes. Na Figura 3, observe o exemplo de um gráfico de colunas. A figura representa a quantidade de eletrônicos do tipo laptop, smartphone e desktop comprados no período de janeiro a abril. Figura 3. Exemplo de gráfico. Além do gráfico de colunas, há também outros gráficos que podem ser utilizados nos mais variados cenários. Como exemplos, podemos destacar os gráficos de barras, de pizza, de linhas, de dispersão, etc. 2 Introdução à linguagem Python A linguagem de programação Python é amplamente conhecida no mercado de tecnologias ligadas à ciência de dados, visto que com ela é possível mani- pular dados de forma totalmente performática. Python utiliza o paradigma Ferramentas utilizadas em ciência de dados e Big data4 de orientação a objetos, ou seja, é possível abstrair com ela coisas do mundo real, e representá-las computacionalmente como uma coleção de objetos. Esses objetos são organizados em estruturas de dados que podem ser manipulados por operações fornecidas pela linguagem. Além disso, Python é multiplataforma, podendo ser executada em diversos sistemas operacionais, como Windows, Linux, MacOS, entre outros. É possível também, com Python, estabelecer conexões a servidores web e, assim, ler e modificar arquivos. Veja alguns dos recursos disponíveis (PYTHON, 2020): 1. suporte aos tipos básicos de dados, como números inteiros e de ponto flutuante; 2. suporte aos pilares básicos de orientação a objetos, como abstração, encapsulamento, herança e polimorfismo. Vale lembrar que a linguagem possui uma série de bibliotecas que trabalham em várias etapas da ciência de dados, conforme o seu guia para iniciantes (PHYTON , 2019). Seguem alguns exemplos: visualização de dados – Matplotlib e Seaborn; análise exploratória – Numpy e Pandas; modelagem estatística – Scikit-learn e Statsmodels. Segundo Freeman e Ross (2018), para trabalhar com dados e programação, o cientista de dados deverá utilizar diferentes ferramentas de software, a fim de organizar e gerenciar os seus códigos. Como há uma variedade grande de ferramentas, o profissional pode escolher entre as que são mais aceitas pela comunidade. Neste capítulo, utilizaremos o PyCharm, uma IDE (sigla que, em por- tuguês, significa ambiente de desenvolvimento integrado) específica para a programação em Python e que foi desenvolvida pela empresa JetBrains. Para baixar o PyCharm, você deve acessar o site oficial da plataforma e clicar no botão Download, descrito na página, escolhendo a opção Community (versão gratuita). Após baixar e instalar o PyCharm, iniciaremos a manipulação de um conjunto de dados. Com o software aberto, clique em Create New Project, conforme mostra a Figura 4. 5Ferramentas utilizadas em ciência de dados e Big data Figura 4. Interface PyCharm. Na próxima tela, escolha o local onde o projeto será salvo e defina um nome para ele. Na sequência, clique em Create, conforme a Figura 5. Figura 5. Criando um projeto no PyCharm. Ferramentas utilizadas em ciência de dados e Big data6 Com o projeto criado, vamos começar a codificar utilizando uma das bibliotecas citadas acima: Pandas. A ideia nesse exemplo é obter uma planilha e, em seguida, imprimi-la dentro do PyCharm utilizando a biblioteca Pandas. Veja a sequência de etapas: 1. Crie uma planilha chamada “pessoas.xlsx”, conforme detalhado no Quadro 1. Nome Idade Estado Altura Carlos 20 SP 1,78Pedro 18 RJ 1,76 Paulo 25 MA 1,65 Lilian 24 PR 1,82 Alice 22 MS 1,79 Matheus 15 PB 1,73 Lucas 19 SC 1,77 Quadro 1. Planilha pessoas.xlsx 2. Em seguida, crie um arquivo com a extensão.py no PyCharm, digite os códigos abaixo e pressione CTRL + SHIFT + F10 para ver o resultado. Você certamente visualizará os dados da planilha impressos na parte inferior da tela (Figura 6). import pandas x = pandas.read _ excel('C:\DigiteSeuDiretorio\pessoas.xlsx', sheet _ name='pessoas') print(x) 7Ferramentas utilizadas em ciência de dados e Big data Figura 6. Impressão da planilha pessoas.xlsx no PyCharm. A primeira linha importa a biblioteca pandas para dentro do projeto escrito em Python. Caso a biblioteca não esteja instalada, a própria IDE vai mostrar uma mensagem informando sobre a necessidade de instalação do pacote. Você poderá realizar a instalação de forma simples e guiada pela IDE. A segunda linha, por sua vez, atribui a uma variável x o método de leitura do arquivo Excel, contendo o caminho do arquivo e o nome da planilha que será importada. Por fim, na terceira linha, a função print(x) é acionada para a impressão dos dados da planilha que estão armazenados dentro da variável x. Se adicionarmos mais uma linha ao nosso código, poderemos ter uma análise mais precisa sobre a nossa base de dados. Informações como média, quantidade de registros, valores máximos e mínimos podem ser visualizadas com o uso do método describe(). Considerando o exemplo da planilha pes- soas.xlsx, vamos adicionar à nossa variável x o método describe(). O código ficará assim: import pandas x = pandas.read _ excel('C:\Users\whesl\Desktop\pessoas.xlsx', sheet _ name='pessoas') print(x.describe()) Ferramentas utilizadas em ciência de dados e Big data8 Observe que, como resultado, o método describe() trouxe cálculos como a quantidade total de linhas da coluna Idade e da coluna Altura. O método retornou ainda o valor mínimo e máximo de cada coluna, e o cálculo de média, conforme você pode observar na Figura 7. Figura 7. Aplicação do método describe() na planilha pessoas.xlsx no PyCharm. 3 Introdução à Linguagem R A linguagem de programação R é direcionada aos processos de mineração e manipulação de dados por meio da implementação de métodos estatísticos. Na prática, a linguagem facilita a criação de fi ltros, permite a exibição de dados em gráfi cos e esclarece informações que estão implícitas nos conjuntos de dados. É de conhecimento geral entre os cientistas que muitos métodos estatísticos, como regressão, árvore de decisão e classifi cação, destinam-se a descobrir probabilidades e tendências. Nesse sentido, a linguagem R utiliza esses e outros métodos estatísticos para extrair dados e produzir gráfi cos. Além disso, é importante mencionar que a linguagem R é contextualizada e moderna, recebendo atualizações constantes pela comunidade de desenvolvedores. Ela possui inúmeros pacotes que dão suporte às suas principais funcionalidades. Tanto a linguagem Python quanto a R apresentam as seguintes vantagens: 9Ferramentas utilizadas em ciência de dados e Big data São gratuitas e podem ser estudadas e aplicadas por qualquer pessoa, de forma livre; São amigáveis, com curva de aprendizagem simplificada e rápida; São conhecidas, isto é, há muito conteúdo gratuito disponível na internet sobre essas linguagens, facilitando o surgimento de novos desenvolvedores; São completas, pois possuem milhares de pacotes com foco em dife- rentes funcionalidades. Para Naveiro, Oliveira e Maçaira (2016), o uso de R está se ampliando porque a linguagem pode ser associada à execução de tarefas consideradas relativamente simples (como cálculo de média amostral) e de tarefas mais com- plexas (como desenvolvimento de funções voltadas a modelos de predições). Instalação do RStudio As linguagens R e Python, em determinados momentos, podem ser consideradas concorrentes, pois apresentam funções muito semelhantes. Sem dúvida, uma das diferenças mais marcantes entre elas é que a linguagem R tem foco muito específi co no tratamento e na manipulação de dados estatísticos. A linguagem Python, por sua vez, é dedicada à programação, ao processamento de língua natural e até mesmo à engenharia de dados. Entretanto, ambas têm funcionalidades muito similares. O RStudio é uma IDE para a execução de códigos da linguagem R. A seguir, você verá como instalar a ferramenta e testar o seu funcionamento. Para iniciar a instalação, acesse o site oficial do RStudio e busque o link de download. Na sequência, instale a ferramenta e observe os quatro frames numerados na Figura 8, assim como o significado de cada um (a biblioteca Gapminder foi usada apenas como exemplo). Frame 1 - Editor de código: no editor de código, o programador digita o script. O programa RStudio possui a função de autocompletar os códigos digitados pelo desenvolvedor. Frame 2 – Console: no console, o RStudio exibe os retornos das exe- cuções dos comandos, ou seja, nele é possível observar os resultados da execução dos scripts. Frame 3 – Ambiente e histórico: nessa área, é possível observar o histórico das ações executadas pelo programador, bem como quais foram os comandos digitados por ele. Ferramentas utilizadas em ciência de dados e Big data10 Frame 4 - Files, Plots, Packages, Help e Viewer: na aba Files, você pode ver a árvore de arquivos e pastas do computador local do desen- volvedor. Na aba Plots, é possível visualizar os gráficos construídos no RStudio. Na aba Packages, pode-se analisar e atualizar os pacotes instalados pelo programador. Na aba Help, você tem acesso aos manuais da ferramenta, bem como da linguagem. Na aba Viewer, pode ver os códigos em padrão JavaScript, ou seja, observar como ficariam se fossem incluídos em uma estrutura HTML. Figura 8. RStudio com Gapminder executado. Primeiros passos com RStudio e leitura de dados do Excel Na sequência de passos que você verá a seguir, utilizaremos uma planilha do Excel que será lida dentro do RStudio, representando nosso dataset. 1. Descubra o local onde o software RStudio está instalado na sua máquina por meio do comando getwd(). 2. Crie uma planilha no Excel, conforme o Quadro 2, com o nome de “vendas.xlsx”. 11Ferramentas utilizadas em ciência de dados e Big data N om e D at a na sc . Ba ir ro Ci da de Cu rs o Pe rí od o D at a co m pr a A te nd en te Va lo r Ca rl os 20 /0 8/ 19 83 Pe rd ize s Sã o Pa ul o D at a Sc ie nc e N oi te 10 /0 3/ 20 20 G ab rie la 20 00 Pe dr o 15 /0 4/ 20 00 Vi la Y ar a O sa sc o Py th on M an hã 05 /0 2/ 20 19 Al in e 18 00 Jo ão 25 /1 0/ 19 81 Jd . P in he iro s Ta bo ão d a Se rra R Ta rd e 06 /1 2/ 20 18 Lu an a 95 0 Jo sé 23 /0 2/ 19 92 M oe m a Sã o Pa ul o C# Ta rd e 08 /0 7/ 20 17 Ro dr ig o 87 0 A lb er to 10 /1 1/ 19 97 Vi la O lím pi a Sã o Pa ul o Ja va N oi te 15 /0 4/ 20 15 Pa ul o 90 0 W he sl le y 23 /0 6/ 19 90 Jd . D e Lo ur de s Em bu d as A rte s Ja va Sc rip t M an hã 20 /0 1/ 20 20 An a Pa ul a 27 50 G ra ci an e 16 /0 1/ 19 87 Jd . S ad ie Em bu d as A rte s Ex ce l M an hã 18 /0 2/ 20 20 Lu ci an o 75 0 Q ua dr o 2. P la ni lh a ve nd as .x ls x Ferramentas utilizadas em ciência de dados e Big data12 3. Salve o arquivo no mesmo local em que está o RStudio. 4. Instale o pacote “openxls” com o comando install packages(“openxlsx”). 5. Ative o pacote com o comando library(openxlsx). 6. Importe a planilha com o comando relatorio <- read.xlsx (“vendas.xlsx”). Os comandos digitados, incluindo os seus resultados, estão detalhados na Figura 9. É importante lembrar que cada comando deve ser executado isoladamente. Só execute o próximo comando após a finalização do anterior. Figura 9. Importando uma planilha Excel dentro do RStudio. Ao digitar o comando view(relatorio, a planilhaimportada será exibida dentro do RStudio, conforme mostra a Figura 10. 13Ferramentas utilizadas em ciência de dados e Big data Figura 10. Exibindo a planilha vendas dentro do RStudio. Você já sabe o quão poderosa é a linguagem R, mas vale mencionar a importância das suas inúmeras bibliotecas para a ciência de dados. Elas dão suporte a diversos recursos que podem ser utilizados pelos cientistas de dados. No vídeo Recursos para visualização de dados no R e a lógica do ggplot2, do canal Walmes Zeviani, é apresentada a biblioteca ggplot2, bem como conceitos valiosos sobre visualização de dados em R. Você pôde observar neste capítulo uma introdução e a aplicabilidade das linguagens Python e R. Nas duas tecnologias, é possível analisar dados com bibliotecas gratuitas e modernas, que são utilizadas por matemáticos, estatísti- cos, cientistas de dados e programadores. Assim, em virtude da popularidade de ambas as linguagens, podemos afirmar que elas são boas escolhas para quem deseja trabalhar com ciência de dados. Portanto, é importante entender que Python e R são ferramentas essenciais na vida de qualquer cientista de dados. Dominá-las pode ser um desafio, mas como as comunidades são bem ativas, é possível encontrar diversos materiais na internet sobre as duas linguagens, com foco exclusivo na aplicação delas em ciência de dados. Ferramentas utilizadas em ciência de dados e Big data14 CIANCI, E. M. Choosing a chart type. 2018. Disponível em: https://www.erikcianci.com/ blog/2018/07/13/choosing-a-chart-type. Acesso em: 07 abr. 2020. FREEMAN, M.; ROSS, J. Programming skills for data science: start writing code to wrangle, analyze, and visualize data with R. Boston: Addison-Wesley, 2018. NAVEIRO, A. P; OLIVEIRA, F. L. C.; MAÇAIRA, P. M. O uso do software r como ferramenta de apoio à probabilidade, estatística e pesquisa operacional em engenharia de produção. 2016. Disponível em: http://www.puc-rio.br/pibic/relatorio_resumo2016/relatorios_pdf/ ctc/IND/IND-Andr%C3%A9%20Provenzano%20Naveiro.pdf. Acesso em: 07 abr. 2020. PHYTON. Beginners guide overview. 2019. Disponível em: https://wiki.python.org/moin/ BeginnersGuide/Overview. Acesso em: 07 abr. 2020. PHYTON. [Site]. 2020. Disponível em: https://www.python.org/. Acesso em: 07 abr. 2020. VIÉGAS, F. B.; WATTENBERG, M; FEINBERG, J. Participatory visualization with wordle. [2009]. Disponível em: http://hint.fm/papers/wordle_final2.pdf. Acesso em: 07 abr. 2020. Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun- cionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. 15Ferramentas utilizadas em ciência de dados e Big data
Compartilhar