Buscar

Ferramentas em Ciência de Dados e Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ferramentas utilizadas em ciência de 
dados e Big Data
Apresentação
O conhecimento humano tem se difundido rapidamente, fazendo com que a sociedade atual assista 
a mudanças outrora inimagináveis. Para acompanhar esse progresso, a humanidade precisa 
constantemente buscar atualizações, gerando demandas de coleta e armazenamento de 
informações, sejam elas oriundas de dispositivos eletrônicos, sistemas Web, aplicativos móveis ou 
pessoas de uma forma geral.
O ser humano é o principal responsável pela produção e coleta de bilhões de dados que são 
processados em questão de segundos e que, com o advento da inteligência artificial e do machine 
learning, passaram a ser os ativos mais valiosos para as grandes instituições. Na era da informação, 
o poder e o valor agregados aos dados se sobrepõem aos bens materiais de uma instituição.
Nesta Unidade de Aprendizagem, você verá as ferramentas utilizadas pelos analistas ou cientistas 
de dados para a produção de insights que facilitam tomadas de decisão. Entre essas ferramentas, 
você verá as linguagens de programação Python e R, destinadas à análise de dados em data science.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Reconhecer as ferramentas utilizadas nos processos de ciência 
de dados.
•
Explicar o uso de Python em ciência de dados.•
Descrever o uso de R em ciência de dados.•
Desafio
De modo geral, é possível afirmar que dados são conjuntos de informações (ocorrências) e 
valores que, ao serem comparados 
e combinados, podem gerar bases complexas de conhecimentos 
e propiciar grandes benefícios financeiros e intelectuais aos 
seus detentores.
Nesse sentido, considere que você é um cientista de dados em 
uma grande empresa familiar do ramo imobiliário.
 
Responda:
a) Levando em conta que a visualização de dados deve ser projetada para um público não técnico, 
quais ferramentas podem ser adotadas para a projeção dos resultados financeiros da imobiliária? 
Justifique 
sua resposta.
b) Como você projetaria visualmente os dados de inadimplentes e pagantes do último trimestre do 
ano? Identifique e detalhe 
possíveis soluções, justificando-as.
c) Com base no arquivo DadosDesafio.xlsx, apresente um código 
em Python mostrando a carga dos dados no PyCharm e, em seguida, demonstre a média e os 
valores mínimos e máximos de cada coluna numérica da planilha.
Clique aqui
https://statics-marketplace.plataforma.grupoa.education/sagah/67a075da-3fcc-4a6c-9f91-6a1097b4d91d/a6ceb0d8-06e6-4564-b7df-d16f31c7d038.xlsx
Infográfico
Identificar as principais tecnologias no desenvolvimento de projetos 
em data science é essencial para que um cientista de dados consiga 
ser assertivo em seu fazer profissional. Dominar as linguagens de programação mais utilizadas no 
mercado pode ser uma boa saída 
para alcançar a excelência na área.
Neste Infográfico, você verá um comparativo de sintaxe entre alguns comandos utilizados em R e 
Python e quais as principais vantagens 
e desvantagens de ambas as linguagens.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/222d8301-63ee-4625-9796-4b222b686d0f/ab051109-d450-44b6-bdf2-23b2742df472.png
Conteúdo do livro
Projetos em data science exigem grande dedicação dos envolvidos, visto que extrair, processar e 
manipular dados pode ser, por vezes, custoso. Entretanto, é uma área em que a curva de 
aprendizagem é relativamente rápida e cada vez mais ascendente. 
No capítulo Ferramentas utilizadas em ciência de dados e big data, da obra Introdução à ciência de 
dados, você verá quais as principais ferramentas que podem ser utilizadas por cientistas de dados 
em projetos de data science. Além disso, irá identificar como aplicar essas ferramentas em 
conjuntos de dados de exemplo utilizando as linguagens Python e R.
Boa leitura.
INTRODUÇÃO 
A CIÊNCIA DE 
DADOS
Wheslley Rimar Bezerra
Ferramentas utilizadas em 
ciência de dados e Big data
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Reconhecer as ferramentas utilizadas nos processos de ciência de 
dados.
  Explicar o uso de Python em ciência de dados.
  Descrever o uso de R em ciência de dados.
Introdução
Desde crianças, aprendemos a analisar situações e fazer escolhas com 
base em informações que nos são passadas. Essas análises e decisões vão 
se tornando mais complexas à medida que vamos adquirindo maiores 
responsabilidades ao longo da vida. Com a tecnologia, não é diferente: 
bases de dados imensas são inseridas em sistemas computacionais e 
analisadas minuciosamente com linguagens de programação, norteando 
a tomada de decisões de gestores de grandes empresas.
Neste capítulo, você vai estudar sobre algumas das principais ferra-
mentas utilizadas em ciência de dados, bem como observar e conhecer 
na prática como as linguagens Python e R são facilitadoras no processo 
de manipulação, extração e entendimento do comportamento dos 
dados. Como as atividades de manipular e visualizar dados são fun-
damentais para os cientistas de dados, você verá exemplos práticos e 
poderá perceber a velocidade e o desempenho dessas linguagens no 
processamento de conjuntos de dados.
1 Ciência de dados e a estatística
A matemática é essencial para a ciência de dados. A contribuição dessa área 
para o entendimento do comportamento dos dados é valiosa, especialmente 
no campo da estatística, uma vez que essa disciplina é responsável por coletar, 
classifi car e distribuir conjuntos de dados, a fi m de evidenciar ocorrências de 
determinados eventos a partir de amostras específi cas que são testadas em 
diversas análises.
Os cientistas de dados utilizam a estatística como um importante mecanismo 
para extrair a história por trás dos dados, entendendo os seus padrões e as 
possíveis variações, de modo a encontrar soluções plausíveis para a tomada 
de decisões em diferentes áreas de atuação. Além disso, com a estatística, o 
cientista ou analista de dados pode identificar as correlações existentes entre 
os conjuntos de dados.
Portanto, as ferramentas tecnológicas — como as linguagens de progra-
mação e dashboards interativos — assumem um importante papel de apoio 
na aplicação das técnicas de estatística aos conjuntos de dados. Na Figura 
1, veja um exemplo de dashboard interativo, que é uma ferramenta muito 
utilizada por cientistas de dados para a sumarização de informações de um 
ou mais conjuntos de dados.
Figura 1. Exemplo de dashboard. 
Ferramentas
Entre algumas ferramentas que podemos citar como exemplo e que são uti-
lizadas pelos analistas ou cientistas para a visualização e manipulação de 
dados, destacam-se as word clouds e os gráfi co.
Ferramentas utilizadas em ciência de dados e Big data2
Word clouds é um recurso muito utilizado na visualização de dados e 
é chamado em português de nuvem de palavras. Diferentemente da forma 
como são visualizados os recursos baseados em imagens, as word clouds são 
geradas por conjuntos de palavras cujo formato se assemelha a uma nuvem. 
Essa ferramenta tem como finalidade evidenciar a frequência de ocorrência de 
palavras que existem em um conjunto de dados (também chamado de dataset) 
exclusivamente textual. Na prática, quanto mais vezes determinada palavra 
for encontrada, maior será o seu tamanho na nuvem de palavras. Esse recurso 
é útil em sites ou sistemas web, em que é possível observar quais foram as 
palavras-chave mais buscadas pelos usuários de determinada plataforma. Para 
Viégas, Wattenberg e Feinberg (2009), em um mundo no qual a visualização 
de dados existe na web e é facilitada por uma série de ferramentas, as word 
clouds são potenciais elementos de sucesso. Veja um exemplo desse recurso 
na Figura 2.
Figura 2. Exemplo de word cloud.
Gráficos são recursos visuais que certamente ocupam a liderança entre as 
principais ferramentas utilizadas pelos cientistas de dados emprojetos. Com 
eles, é possível perceber de forma natural a evolução e o comportamento de 
determinado conjunto de dados, levando em consideração unidades de medida 
3Ferramentas utilizadas em ciência de dados e Big data
como o tempo, a distância ou outro parâmetro pré-determinado pelo cientista. 
Segundo Cianci (2018), embora cada gráfico possa demonstrar diferenças entre 
os dados, você não precisa selecionar todos os modelos disponíveis. Talvez, 
para o seu projeto específico, apenas alguns modelos já sejam suficientes. Na 
Figura 3, observe o exemplo de um gráfico de colunas. A figura representa a 
quantidade de eletrônicos do tipo laptop, smartphone e desktop comprados 
no período de janeiro a abril.
Figura 3. Exemplo de gráfico.
Além do gráfico de colunas, há também outros gráficos que podem ser utilizados nos 
mais variados cenários. Como exemplos, podemos destacar os gráficos de barras, de 
pizza, de linhas, de dispersão, etc.
2 Introdução à linguagem Python
A linguagem de programação Python é amplamente conhecida no mercado 
de tecnologias ligadas à ciência de dados, visto que com ela é possível mani-
pular dados de forma totalmente performática. Python utiliza o paradigma 
Ferramentas utilizadas em ciência de dados e Big data4
de orientação a objetos, ou seja, é possível abstrair com ela coisas do mundo 
real, e representá-las computacionalmente como uma coleção de objetos. Esses 
objetos são organizados em estruturas de dados que podem ser manipulados 
por operações fornecidas pela linguagem. 
Além disso, Python é multiplataforma, podendo ser executada em diversos 
sistemas operacionais, como Windows, Linux, MacOS, entre outros. É possível 
também, com Python, estabelecer conexões a servidores web e, assim, ler e 
modificar arquivos. Veja alguns dos recursos disponíveis (PYTHON, 2020):
1. suporte aos tipos básicos de dados, como números inteiros e de ponto 
flutuante;
2. suporte aos pilares básicos de orientação a objetos, como abstração, 
encapsulamento, herança e polimorfismo.
Vale lembrar que a linguagem possui uma série de bibliotecas que trabalham 
em várias etapas da ciência de dados, conforme o seu guia para iniciantes 
(PHYTON , 2019). Seguem alguns exemplos:
  visualização de dados – Matplotlib e Seaborn;
  análise exploratória – Numpy e Pandas;
  modelagem estatística – Scikit-learn e Statsmodels.
Segundo Freeman e Ross (2018), para trabalhar com dados e programação, 
o cientista de dados deverá utilizar diferentes ferramentas de software, a fim 
de organizar e gerenciar os seus códigos. Como há uma variedade grande de 
ferramentas, o profissional pode escolher entre as que são mais aceitas pela 
comunidade.
Neste capítulo, utilizaremos o PyCharm, uma IDE (sigla que, em por-
tuguês, significa ambiente de desenvolvimento integrado) específica para 
a programação em Python e que foi desenvolvida pela empresa JetBrains. 
Para baixar o PyCharm, você deve acessar o site oficial da plataforma e clicar 
no botão Download, descrito na página, escolhendo a opção Community 
(versão gratuita).
Após baixar e instalar o PyCharm, iniciaremos a manipulação de um 
conjunto de dados. Com o software aberto, clique em Create New Project, 
conforme mostra a Figura 4.
5Ferramentas utilizadas em ciência de dados e Big data
Figura 4. Interface PyCharm.
Na próxima tela, escolha o local onde o projeto será salvo e defina um nome 
para ele. Na sequência, clique em Create, conforme a Figura 5.
Figura 5. Criando um projeto no PyCharm. 
Ferramentas utilizadas em ciência de dados e Big data6
Com o projeto criado, vamos começar a codificar utilizando uma das 
bibliotecas citadas acima: Pandas. A ideia nesse exemplo é obter uma planilha 
e, em seguida, imprimi-la dentro do PyCharm utilizando a biblioteca Pandas. 
Veja a sequência de etapas:
1. Crie uma planilha chamada “pessoas.xlsx”, conforme detalhado no 
Quadro 1.
Nome Idade Estado Altura
Carlos 20 SP 1,78
Pedro 18 RJ 1,76
Paulo 25 MA 1,65
Lilian 24 PR 1,82
Alice 22 MS 1,79
Matheus 15 PB 1,73
Lucas 19 SC 1,77
Quadro 1. Planilha pessoas.xlsx
2. Em seguida, crie um arquivo com a extensão.py no PyCharm, digite os 
códigos abaixo e pressione CTRL + SHIFT + F10 para ver o resultado. 
Você certamente visualizará os dados da planilha impressos na parte 
inferior da tela (Figura 6).
import pandas
x = pandas.read _ excel('C:\DigiteSeuDiretorio\pessoas.xlsx', 
sheet _ name='pessoas')
print(x)
7Ferramentas utilizadas em ciência de dados e Big data
Figura 6. Impressão da planilha pessoas.xlsx no PyCharm.
A primeira linha importa a biblioteca pandas para dentro do projeto escrito 
em Python. Caso a biblioteca não esteja instalada, a própria IDE vai mostrar 
uma mensagem informando sobre a necessidade de instalação do pacote. Você 
poderá realizar a instalação de forma simples e guiada pela IDE.
A segunda linha, por sua vez, atribui a uma variável x o método de leitura 
do arquivo Excel, contendo o caminho do arquivo e o nome da planilha que 
será importada. Por fim, na terceira linha, a função print(x) é acionada 
para a impressão dos dados da planilha que estão armazenados dentro 
da variável x. 
Se adicionarmos mais uma linha ao nosso código, poderemos ter uma 
análise mais precisa sobre a nossa base de dados. Informações como média, 
quantidade de registros, valores máximos e mínimos podem ser visualizadas 
com o uso do método describe(). Considerando o exemplo da planilha pes-
soas.xlsx, vamos adicionar à nossa variável x o método describe(). O código 
ficará assim:
import pandas
x = pandas.read _ excel('C:\Users\whesl\Desktop\pessoas.xlsx', 
sheet _ name='pessoas')
print(x.describe())
Ferramentas utilizadas em ciência de dados e Big data8
Observe que, como resultado, o método describe() trouxe cálculos como 
a quantidade total de linhas da coluna Idade e da coluna Altura. O método 
retornou ainda o valor mínimo e máximo de cada coluna, e o cálculo de média, 
conforme você pode observar na Figura 7.
Figura 7. Aplicação do método describe() na planilha pessoas.xlsx no PyCharm.
3 Introdução à Linguagem R
A linguagem de programação R é direcionada aos processos de mineração e 
manipulação de dados por meio da implementação de métodos estatísticos. 
Na prática, a linguagem facilita a criação de fi ltros, permite a exibição de 
dados em gráfi cos e esclarece informações que estão implícitas nos conjuntos 
de dados. É de conhecimento geral entre os cientistas que muitos métodos 
estatísticos, como regressão, árvore de decisão e classifi cação, destinam-se a 
descobrir probabilidades e tendências. Nesse sentido, a linguagem R utiliza 
esses e outros métodos estatísticos para extrair dados e produzir gráfi cos.
Além disso, é importante mencionar que a linguagem R é contextualizada e 
moderna, recebendo atualizações constantes pela comunidade de desenvolvedores. 
Ela possui inúmeros pacotes que dão suporte às suas principais funcionalidades. 
Tanto a linguagem Python quanto a R apresentam as seguintes vantagens:
9Ferramentas utilizadas em ciência de dados e Big data
  São gratuitas e podem ser estudadas e aplicadas por qualquer pessoa, 
de forma livre;
  São amigáveis, com curva de aprendizagem simplificada e rápida;
  São conhecidas, isto é, há muito conteúdo gratuito disponível na 
internet sobre essas linguagens, facilitando o surgimento de novos 
desenvolvedores;
  São completas, pois possuem milhares de pacotes com foco em dife-
rentes funcionalidades.
Para Naveiro, Oliveira e Maçaira (2016), o uso de R está se ampliando 
porque a linguagem pode ser associada à execução de tarefas consideradas 
relativamente simples (como cálculo de média amostral) e de tarefas mais com-
plexas (como desenvolvimento de funções voltadas a modelos de predições).
Instalação do RStudio
As linguagens R e Python, em determinados momentos, podem ser consideradas 
concorrentes, pois apresentam funções muito semelhantes. Sem dúvida, uma das 
diferenças mais marcantes entre elas é que a linguagem R tem foco muitoespecífi co 
no tratamento e na manipulação de dados estatísticos. A linguagem Python, por sua 
vez, é dedicada à programação, ao processamento de língua natural e até mesmo 
à engenharia de dados. Entretanto, ambas têm funcionalidades muito similares.
O RStudio é uma IDE para a execução de códigos da linguagem R. A 
seguir, você verá como instalar a ferramenta e testar o seu funcionamento. 
Para iniciar a instalação, acesse o site oficial do RStudio e busque o link de 
download. Na sequência, instale a ferramenta e observe os quatro frames 
numerados na Figura 8, assim como o significado de cada um (a biblioteca 
Gapminder foi usada apenas como exemplo).
  Frame 1 - Editor de código: no editor de código, o programador digita 
o script. O programa RStudio possui a função de autocompletar os 
códigos digitados pelo desenvolvedor.
  Frame 2 – Console: no console, o RStudio exibe os retornos das exe-
cuções dos comandos, ou seja, nele é possível observar os resultados 
da execução dos scripts.
  Frame 3 – Ambiente e histórico: nessa área, é possível observar o 
histórico das ações executadas pelo programador, bem como quais 
foram os comandos digitados por ele.
Ferramentas utilizadas em ciência de dados e Big data10
  Frame 4 - Files, Plots, Packages, Help e Viewer: na aba Files, você 
pode ver a árvore de arquivos e pastas do computador local do desen-
volvedor. Na aba Plots, é possível visualizar os gráficos construídos 
no RStudio. Na aba Packages, pode-se analisar e atualizar os pacotes 
instalados pelo programador. Na aba Help, você tem acesso aos manuais 
da ferramenta, bem como da linguagem. Na aba Viewer, pode ver os 
códigos em padrão JavaScript, ou seja, observar como ficariam se 
fossem incluídos em uma estrutura HTML. 
Figura 8. RStudio com Gapminder executado. 
Primeiros passos com RStudio e leitura 
de dados do Excel
Na sequência de passos que você verá a seguir, utilizaremos uma planilha do 
Excel que será lida dentro do RStudio, representando nosso dataset.
1. Descubra o local onde o software RStudio está instalado na sua máquina 
por meio do comando getwd().
2. Crie uma planilha no Excel, conforme o Quadro 2, com o nome de 
“vendas.xlsx”.
11Ferramentas utilizadas em ciência de dados e Big data
N
om
e
D
at
a 
na
sc
.
Ba
ir
ro
Ci
da
de
Cu
rs
o
Pe
rí
od
o
D
at
a 
co
m
pr
a
A
te
nd
en
te
Va
lo
r
Ca
rl
os
 
20
/0
8/
19
83
Pe
rd
ize
s
Sã
o 
Pa
ul
o
D
at
a 
Sc
ie
nc
e
N
oi
te
10
/0
3/
20
20
G
ab
rie
la
20
00
Pe
dr
o 
15
/0
4/
20
00
Vi
la
 Y
ar
a
O
sa
sc
o
Py
th
on
M
an
hã
05
/0
2/
20
19
Al
in
e
18
00
Jo
ão
 
25
/1
0/
19
81
Jd
. P
in
he
iro
s
Ta
bo
ão
 d
a 
Se
rra
R
Ta
rd
e
06
/1
2/
20
18
Lu
an
a
95
0
Jo
sé
 
23
/0
2/
19
92
M
oe
m
a
Sã
o 
Pa
ul
o
C#
Ta
rd
e
08
/0
7/
20
17
Ro
dr
ig
o
87
0
A
lb
er
to
 
10
/1
1/
19
97
Vi
la
 O
lím
pi
a
Sã
o 
Pa
ul
o
Ja
va
N
oi
te
15
/0
4/
20
15
Pa
ul
o 
90
0
W
he
sl
le
y
23
/0
6/
19
90
Jd
. D
e 
Lo
ur
de
s
Em
bu
 d
as
 A
rte
s
Ja
va
Sc
rip
t
M
an
hã
20
/0
1/
20
20
An
a 
Pa
ul
a
27
50
G
ra
ci
an
e 
16
/0
1/
19
87
Jd
. S
ad
ie
Em
bu
 d
as
 A
rte
s
Ex
ce
l
M
an
hã
18
/0
2/
20
20
Lu
ci
an
o
75
0
Q
ua
dr
o 
2.
 P
la
ni
lh
a 
ve
nd
as
.x
ls
x
Ferramentas utilizadas em ciência de dados e Big data12
3. Salve o arquivo no mesmo local em que está o RStudio.
4. Instale o pacote “openxls” com o comando install 
packages(“openxlsx”).
5. Ative o pacote com o comando library(openxlsx).
6. Importe a planilha com o comando relatorio <- read.xlsx 
(“vendas.xlsx”).
Os comandos digitados, incluindo os seus resultados, estão detalhados 
na Figura 9. É importante lembrar que cada comando deve ser executado 
isoladamente. Só execute o próximo comando após a finalização do anterior.
Figura 9. Importando uma planilha Excel dentro do RStudio.
Ao digitar o comando view(relatorio, a planilha importada será 
exibida dentro do RStudio, conforme mostra a Figura 10.
13Ferramentas utilizadas em ciência de dados e Big data
Figura 10. Exibindo a planilha vendas dentro do RStudio.
Você já sabe o quão poderosa é a linguagem R, mas vale mencionar a importância 
das suas inúmeras bibliotecas para a ciência de dados. Elas dão suporte a diversos 
recursos que podem ser utilizados pelos cientistas de dados.
No vídeo Recursos para visualização de dados no R e a lógica do ggplot2, do canal 
Walmes Zeviani, é apresentada a biblioteca ggplot2, bem como conceitos valiosos 
sobre visualização de dados em R.
Você pôde observar neste capítulo uma introdução e a aplicabilidade das 
linguagens Python e R. Nas duas tecnologias, é possível analisar dados com 
bibliotecas gratuitas e modernas, que são utilizadas por matemáticos, estatísti-
cos, cientistas de dados e programadores. Assim, em virtude da popularidade 
de ambas as linguagens, podemos afirmar que elas são boas escolhas para 
quem deseja trabalhar com ciência de dados.
Portanto, é importante entender que Python e R são ferramentas essenciais 
na vida de qualquer cientista de dados. Dominá-las pode ser um desafio, mas 
como as comunidades são bem ativas, é possível encontrar diversos materiais 
na internet sobre as duas linguagens, com foco exclusivo na aplicação delas 
em ciência de dados.
Ferramentas utilizadas em ciência de dados e Big data14
CIANCI, E. M. Choosing a chart type. 2018. Disponível em: https://www.erikcianci.com/
blog/2018/07/13/choosing-a-chart-type. Acesso em: 07 abr. 2020.
FREEMAN, M.; ROSS, J. Programming skills for data science: start writing code to wrangle, 
analyze, and visualize data with R. Boston: Addison-Wesley, 2018.
NAVEIRO, A. P; OLIVEIRA, F. L. C.; MAÇAIRA, P. M. O uso do software r como ferramenta 
de apoio à probabilidade, estatística e pesquisa operacional em engenharia de produção. 
2016. Disponível em: http://www.puc-rio.br/pibic/relatorio_resumo2016/relatorios_pdf/
ctc/IND/IND-Andr%C3%A9%20Provenzano%20Naveiro.pdf. Acesso em: 07 abr. 2020.
PHYTON. Beginners guide overview. 2019. Disponível em: https://wiki.python.org/moin/
BeginnersGuide/Overview. Acesso em: 07 abr. 2020.
PHYTON. [Site]. 2020. Disponível em: https://www.python.org/. Acesso em: 07 abr. 2020.
VIÉGAS, F. B.; WATTENBERG, M; FEINBERG, J. Participatory visualization with wordle. [2009]. 
Disponível em: http://hint.fm/papers/wordle_final2.pdf. Acesso em: 07 abr. 2020.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a 
rede é extremamente dinâmica; suas páginas estão constantemente mudando de 
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade 
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
15Ferramentas utilizadas em ciência de dados e Big data
Dica do professor
A linguagem R apresenta um ecossistema gigantesco para quem deseja trabalhar com ciência de 
dados. Como ela é projetada por estatísticos, 
o seu foco principal é a análise, mineração e manipulação de dados.
Nesta Dica do Professor, você poderá conferir alguns conceitos importantes sobre a linguagem R. 
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/143d7b1df5088f67cbef7869d0d97652
Exercícios
1) A visualização de dados, também chamada de DataViz, precisa ser muito bem elaborada, 
pois ela é o produto do esforço do cientista de dados. Pensando nisso, entre as bibliotecas a 
seguir, quais têm foco em visualização de dados? 
A) Numpy e Pandas.
B) Scikit-learn e Statsmodels.
C) Pandas e Matplotlib.
D) Matplotlib e Seaborn.
E) Numpy e Statsmodels.
2) O RStudio é um ambiente de desenvolvimento integrado para a linguagem R. Nele há áreas 
para editor de código, console, histórico, files, plots, packages, help, viewer, etc. O que faz a 
aba packages?
A) Verifica erros de código-fonte.B) Organiza os pacotes que serão excluídos no RStudio.
C) Une ferramentas de ajuda para o desenvolvedor iniciante.
D) Exibe os resultados da execução bem-sucedida de códigos.
E) Exibe as bibliotecas e a descrição e a versão de cada uma.
3) Gráficos são recursos fundamentais em projetos de data science, pois ampliam a capacidade 
de entendimento das pessoas sobre um conjunto de informações. Quais características dos 
dados podem ser identificadas por meio de um gráfico? 
A) Padrões entre elementos do dataset.
B) Linhas de código Python.
C) Conteúdo de mensagens de erro.
D) Erros no RStudio.
E) Mudanças no código-fonte R.
4) O desempenho e a vasta gama de bibliotecas faz com que Python seja uma das linguagem 
preferidas por cientistas de dados, sendo amplamente utilizada em todo o mundo. Nesse 
contexto, qual é o propósito da biblioteca Pandas? 
A) A biblioteca Pandas tem recursos de manipulação e edição de imagens para DataViz.
B) A biblioteca Pandas tem recursos de compartilhamento de dados com a linguagem R.
C) A biblioteca Pandas apresenta recursos avançados para atuar com análise de dados.
D) A biblioteca Pandas tem recursos visuais com efeitos de animação e estáticos.
E) A biblioteca Pandas conta com recursos de análise de dados que buscam substituir a 
linguagem R.
5) A linguagem R apresenta uma sintaxe bastante simples de ser compreendida e, portanto, de 
fácil aprendizagem para um cientista de dados iniciante. Considerando esse cenário, qual é o 
significado do comando getwd()? 
A) É responsável por construir uma variável estática na memória.
B) Retorna o caminho no qual a linguagem R está sendo executada.
C) Retorna a lista de bibliotecas e pacotes contidos no programa RStudio.
D) Retorna o consumo de memória que o programa tem em tempo de execução.
E) Retorna as mensagens de alerta que são exibidas no console do R.
Na prática
A data science trouxe uma grande revolução no mundo dos dados. 
Toda área de atuação requer dados e depende deles para funcionar. Hoje, com os avanços 
constantes na tecnologia, é plenamente possível que as empresas analisem dados em larga escala e 
tomem decisões 
a partir deles.
Acompanhe, Na Prática, o caso da empresa Data Start e como ela 
aplica a ciência de dados em seus projetos.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/3d26cfb5-40da-4157-9e61-a17cdcbe7e48/8b5c9827-530f-46a4-9bc9-406eaaa9fdc3.png
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Data science: introdução à ciência de dados
Neste vídeo, você poderá assistir a uma explicação sobre conceitos importantes da ciência de 
dados, bem como à aplicação de exemplos com a linguagem Python.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/F608hzn_ygo

Continue navegando