Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Técnicas utilizadas em ciência de dados e 
Big Data
Apresentação
A coleta e o armazenamento dos dados possibilitaram que as ferramentas de análise os recuperem 
e realizem a extração de conhecimento. Utilizando os contextos das redes neurais, houve grande 
avanço em descoberta de padrões, análise de características, classificações, predições e diversas 
outras atividades.
Em Ciência da Computação, as redes neurais artificiais são modelos computacionais inspirados pelo 
sistema nervoso central humano capazes de realizar o aprendizado de máquina.
O aprendizado de máquina visa a conceber um raciocínio a respeito de um conjunto de dados, 
compreendendo o que eles representam, e realizar inferências a partir deles.
Nesta Unidade de Aprendizagem, você verá as técnicas nos processos de ciência de dados, a 
aplicação do aprendizado de máquina (machine learning) e os conceitos de aprendizagem profunda 
(deep learning).
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Reconhecer as técnicas utilizadas nos processos de ciência de dados.•
Aplicar o aprendizado de máquina (machine learning).•
Explicar o conceito de aprendizagem profunda (deep learning).•
Desafio
Os buracos existentes na camada de ozônio podem ter efeitos nocivos em humanos, animais e 
plantas, pois perde-se a proteção contra os raios ultravioleta irradiados pelo Sol. Assim, a camada é 
o "protetor solar" de toda a Terra.
Suponha que você tenha sido contratado por um pesquisador para ajudá-lo na análise dos dados.
Com base nesse contexto, você deve informar para o andamento das análises:
a) Qual tipo de arquitetura de rede neural deve ser usada?
b) Como você dividiria os dados para treinamento e teste?
c) O treinamento do aprendizado de máquina será supervisionado e/ou não supervisionado?
Infográfico
Ao longo dos anos, as redes neurais foram sendo objeto de estudo de muitos pesquisadores, cada 
um tentando encontrar o que poderia e, de forma efetiva, contribuir para o contexto do 
aprendizado de máquina.
Veja, neste Infográfico, a evolução histórica das descobertas a respeito das redes neurais.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/8066ef0b-3fad-4586-8cbb-e649f166e750/de48d271-d716-439b-9cdf-b96a87fd1f78.png
Conteúdo do livro
O mundo da Inteligência Artificial em suas redes neurais é fascinante e tem diversas aplicações. O 
seu combustível são os dados, e sua saída de aprendizagem depende da destreza do pesquisador e 
do profissional a executarem conforme diversos parâmetros e tratamentos.
No capítulo Técnicas utilizadas em ciência de dados e Big Data, da obra Introdução à ciência de 
dados, você verá as técnicas utilizadas em ciência de dados, as redes neurais e os tipos de 
aprendizado de máquina e, ainda, conceitos de redes neurais profundas: a deep learning.
Boa leitura.
INTRODUÇÃO 
A CIÊNCIA DE 
DADOS 
Luiz Fernando Calaça Silva 
Técnicas utilizadas em 
ciência de dados e big data
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Reconhecer as técnicas utilizadas nos processos de ciência de dados.
  Aplicar o aprendizado de máquina (machine learning).
  Explicar o conceito de aprendizagem profunda (deep learning).
Introdução
A extração de conhecimento é um trabalho necessário diante de um 
conjunto de dados a serem analisados. O que eles significam e o que têm 
a mostrar sobre a realidade é objeto de estudo de vários pesquisadores, 
alunos e profissionais. Assim, há diversas técnicas baseadas em inteligên-
cia artificial que podem ser aplicadas no contexto de ciência de dados, 
permitindo-nos observar melhor e aprender com os dados disponíveis.
Dentro desse contexto estão o aprendizado de máquina (ou machine 
learning) e as redes neurais. Existe ainda o conceito de deep learning, 
um termo específico, dentro do aprendizado de máquina, que oferece 
maior capacidade de processamento dos dados. Essas técnicas simulam 
o aprendizado humano, os dados são o seu fomento para a descoberta 
de informações. 
Neste capítulo, você estudará as técnicas utilizadas em ciências de 
dados. Além disso, verá a aplicação do aprendizado de máquina, e lerá 
sobre os conceitos de aprendizagem profunda.
1 Técnicas utilizadas em ciência de dados
A ciência de dados faz parte de um contexto abrangente, cujo processo é com-
posto pelas fases de coleta, armazenamento, análise, descarte, processamento 
e visualização da informação. Com isso, os dados brutos se tornam conhecidos 
e podem ter esse conhecimento extraído deles. Desse modo, existem técnicas 
específi cas em ciência de dados que permitem o tratamento e a extração de 
informações.
Nesse sentido, o aprendizado de máquina se refere a um contexto inteligente, 
capaz de obter, de forma automática, conhecimento a partir de dados. O intuito 
dessa técnica é simular o processo de aprendizagem humana e ter os mesmos 
insights que um humano teria — porém, trata-se de um conhecimento adquirido 
de forma artificial, por uma máquina. Atualmente, sabe-se que, para tarefas 
específicas, a máquina pode ser até mais eficaz e eficiente que o ser humano.
Segundo Ventura (2010), as nossas funções locomotoras e sensoriais, a 
aprendizagem e a memória são objeto de pesquisa em inteligência artificial. 
Ferramentas tecnológicas são utilizadas para entender os sistemas biológicos 
como fonte de inspiração para o desenvolvimento de soluções. Assim, tem-se 
a aplicação de modelos biologicamente inspirados em áreas como engenharia, 
indústria, transporte, entre outras.
O aprendizado de máquina tem aplicações em vários âmbitos da sociedade 
e pode auxiliar diversos segmentos nas suas tarefas. Além disso, como pontua 
Amaral (2016), a ciência de dados é composta por várias outras ciências, mo-
delos, tecnologias, processos e procedimentos relacionados aos dados. Dentro 
do contexto do aprendizado de máquina, estão as redes neurais, que se baseiam 
em neurônios artificiais, em referência aos biológicos, conforme a Figura 1. 
As redes neurais se inspiram no funcionamento anatômico e fisiológico, a fim 
de se assemelhar à aprendizagem humana.
Figura 1. O neurônio biológico.
Fonte: Redes... (2005, documento on-line).
Técnicas utilizadas em ciência de dados e big data2
Assim, técnicas em ascensão no contexto de ciência de dados e inteligência 
artificial estão ligadas ao uso do aprendizado de máquina e das redes neurais. 
Elas são baseadas na descoberta de conhecimento a partir de um conjunto de 
dados, que pode ser variado, contendo imagens, textos, arquivos em formato 
tabular, entre outros.
2 Aplicação do aprendizado de máquina
Dentro do contexto matemático, temos que a indução é a forma de inferência 
lógica, em que podemos obter conclusões sobre um conjunto específi co de 
exemplos. Ela parte de um princípio inicial e o generaliza para todo o conjunto. 
Como se baseia em hipóteses, ela pode conter inferências errôneas e, portanto, 
pode não representar a verdade.
Da mesma forma, podemos realizar a aprendizagem a partir de um con-
junto de dados usando a indução. Segundo Monard e Baranauskas (2003), 
o aprendizado indutivo ocorre a partir de raciocínios e inferências sobre 
exemplos fornecidos ao sistema de aprendizado. O aprendizado indutivo 
pode ser dividido em supervisionado e não supervisionado. No aprendi-
zado supervisionado, fornece-se ao algoritmo de aprendizado (ou indutor) 
um conjunto de exemplos de treinamento para os quais o rótulo da classe 
associada é conhecido.
Já no aprendizado não supervisionado, o indutor analisa as amostras 
fornecidas e tenta verificar se elas podem ser organizadas de alguma maneira, 
formando agrupamentos ou clusters. Após a indicação dos agrupamentos, em 
geral é necessária uma análise para inferir o que cada agrupamento significa no 
contexto do problema. Além disso, há ainda o aprendizado por reforço, que 
se baseiano estado do conjunto de dados, conforme você verá na sequência.
Segundo Monard e Baranauskas (2003), há diversos paradigmas de apren-
dizado de máquina:
  o simbólico se utiliza da lógica booleana;
  o estatístico usa técnicas matemáticas do contexto;
  o genético utiliza modelos evolucionários; 
  as redes neurais se baseiam nos neurônios artificiais.
3Técnicas utilizadas em ciência de dados e big data
Aprendizado supervisionado
O aprendizado supervisionado tem esse nome porque o indutor tem o objetivo 
de extrair um modelo de generalização a partir de dados de entrada rotulados. 
Assim, dado um conjunto de entrada de dados conhecidos, já se sabe qual é 
a saída esperada.
Nesse sentido, ao enviarmos novos dados para esse indutor, que apren-
deu com os dados iniciais, esperamos que ele possa compreender os novos, 
de acordo com os rótulos aprendidos. Por exemplo, um técnico de futebol 
aprende a partir de dados de times adversários; assim, quando há um novo jogo, 
espera-se que ele saiba manejar a sua equipe, já que conheceu previamente 
as jogadas do oponente.
Usando técnicas do aprendizado de máquina, podemos resolver proble-
mas de regressão ou de classificação. O problema de regressão (Figura 2a) 
ocorre quando precisamos prever o resultado em uma saída contínua. Assim, 
o objetivo é mapear as variáveis de entrada em uma função contínua. Já o de 
classificação (Figura 2b) se coloca quando estamos tentando prever o resultado 
em uma saída discreta. 
Figura 2. Problema de regressão (a) e problema de classificação (b).
Fonte: Kasturi (2019, documento on-line).
Os algoritmos de regressão linear, regressão logística, SVM (Support 
Vector Machine), KNN (K-Nearest Neighbors), árvores de decisão, Naïve 
Bayes, entre outros são bastante utilizados para os problemas de classificação 
Técnicas utilizadas em ciência de dados e big data4
e regressão. A regressão linear é uma análise que tem o intuito de gerar uma 
função linear para descrever a relação entre os dados, de forma que se possa 
estimar uma variável numérica por meio da função gerada. A regressão logística 
é semelhante à linear, mas a variável estimada será categórica. 
O SVM foi proposto por Buser et al. (1992) e utiliza o conceito de planos 
de decisão em um espaço multidimensional utilizando uma função kernel, 
que é ajustada de forma a generalizar o modelo. O KNN foi proposto por Fix 
e Hodges (1951), como um algoritmo simples que gera um modelo baseado 
nos dados e nos seus vizinhos. 
As árvores de decisão são um conjunto de raízes e de nós que se orga-
nizam como um fluxograma de deliberações, a fim de se consolidar um 
modelo. Pode-se ter inúmeras árvores para um dado conjunto, ao ponto de 
haver famílias de árvores de decisão. Por último, o Naïve Bayes, dentro do 
contexto do aprendizado de máquina, tem a aplicação direta do teorema 
com o mesmo nome. Assim, o intuito é encontrar uma probabilidade, dado 
que já ocorreu algo.
Para facilitar o entendimento, veja um exemplo de predição de valores imobiliários. A 
imobiliária Casa Nova tem, na sua base de dados, cinco mil imóveis (casas) de diferentes 
tamanhos. Ao receber novas casas para disponibilizá-las para aluguéis, ela faz uma 
estimativa do valor que poderá ser cobrado pelo tamanho da casa. Assim, na sua base, 
ela tem os tamanhos e os valores já praticados no mercado. Quando aparece uma 
casa nova, há uma estimativa baseada naquela base de dados.
Nesse exemplo, temos os dados rotulados de saída dentro da base de dados. Assim, 
esse mapeamento será para uma saída de valores contínuos: o valor do aluguel da casa. 
Logo, trata-se de um problema de regressão. Para realizar a regressão, poderíamos 
utilizar a regressão logística, por exemplo.
No exemplo anterior, você viu uma aplicação prática do aprendizado de 
máquina em um problema de regressão. A seguir, veja outro exemplo prático, 
dessa vez lidando com um problema de classificação.
5Técnicas utilizadas em ciência de dados e big data
Nesse exemplo, busca-se identificar diagnósticos de tumor no pulmão ou de 
pneumonia. O hospital Newton Houston tem na sua base diversos raios-X de 
pacientes que tiveram como diagnóstico câncer no pulmão ou pneumonia. O 
hospital quer criar um sistema que possa aprender o diagnóstico, ao ser apresentado 
a novas imagens.
Temos os dados rotulados de saída dentro da base de dados, e esse mapeamento 
será para uma saída de valores discretos: câncer (1) ou pneumonia (0). Logo, trata-se 
de um problema de classificação. Para realizar a classificação, poderíamos utilizar o 
Naïve Bayes, por exemplo.
Aprendizado não supervisionado
No aprendizado não supervisionado, temos um conjunto de dados não 
rotulados — e, portanto, o indutor não tem conhecimento inicial das classes 
envolvidas. Assim, dado um conjunto de entrada de dados, nós não sabemos 
qual é a saída esperada. Um tipo de abordagem bastante utilizado nesse 
contexto é o de clusterização (agrupamento), conforme a Figura 3. Nessa 
abordagem, ocorre o agrupamento dos dados conforme características 
em comum.
Figura 3. Clusterização: agrupamento por características comuns 
que representam um grupo.
Fonte: IDD (2015, documento on-line).
Técnicas utilizadas em ciência de dados e big data6
Veja um exemplo em que se busca agrupar pesquisas acadêmicas de diversas univer-
sidades. A equipe de ciência de dados do Governo do Estado precisa considerar os 
assuntos tratados pelos artigos científicos produzidos por 30 universidades residentes 
no seu território. O intuito é mostrar estatísticas da produção intelectual por assunto 
e fomentar políticas públicas para que áreas pouco exploradas possam ascender no 
meio acadêmico.
Não temos os dados rotulados de saída dentro da base de dados. Portanto, esse 
mapeamento será oriundo de um possível agrupamento, por exemplo, utilizando 
a frequência de palavras em um artigo e o classificando para determinado assunto, 
se aquele conjunto for relativo a uma área do conhecimento. Assim, o algoritmo de 
clusterização pode atuar agrupando dados que não estão rotulados.
Aprendizado por reforço e as cadeias de Markov
O aprendizado por reforço é a terceira abordagem, na qual a máquina aprende 
tomando decisões circunstanciais e aprendendo com elas. Se tomar uma deci-
são correta, recebe uma pontuação positiva (recompensa), reforçando aquele 
comportamento. Caso contrário, recebe uma pontuação negativa (punição), 
reforçando que aquela decisão foi errônea naquela circunstância.
Um exemplo disso é o jogo Skiing, do antigo console Atari, como mostra a 
Figura 4. Nesse jogo, é necessário esquiar e evitar os obstáculos, como árvores, 
bandeiras e outras partes que façam o jogador perder o equilíbrio. Usando 
um algoritmo baseado em aprendizado por reforço, se o jogador se mover e 
ultrapassar o obstáculo sem se desequilibrar, então é recompensado; se cair, 
é penalizado. Assim, reforçam-se os comportamentos corretos e punem-se os 
errados, para que a máquina aprenda a ter êxito no jogo.
Vale pontuar a teoria matemática das cadeias de Markov, proposta 
pelo matemático russo Andrey Andreyevich Markov (1856–1922), em 
comparação com o aprendizado por reforço. Essa teoria afirma que um caso 
particular do processo estocástico é caracterizado pelo fato de que o seu 
estado futuro depende apenas do seu estado atual — e não dos fatos passa-
dos. Em resumo, os estados anteriores são irrelevantes para a predição dos 
estados seguintes, desde que o estado atual e as possibilidades de atuação 
sejam conhecidos.
7Técnicas utilizadas em ciência de dados e big data
Figura 4. Jogo Atari Skiing.
Fonte: OpenAi ([202-?], documento on-line).
3 Conceitos de aprendizagem profunda
Os dados de entrada, os pesos e os respectivos ajustes, o bias, a função de 
ativação e a minimização do erro por uma função de custo são processos im-
portantes das redes neurais. Nesse sentido, a teoria da perceptron acompanha 
fortemente o contexto.
Segundo H. D. Block (1962), uma perceptron pode ser definida como um 
modelomatemático que recebe várias entradas que serão ponderadas por pesos. 
A soma desses termos será a entrada da função de ativação, que demonstra 
se o neurônio será ativado ou não.
Ao observarmos a perceptron como o início de uma rede neural, temos 
os dados de entrada, sobre os quais desejamos que a rede aprenda algo. Os 
pesos ponderam esses dados de entrada de determinada forma. Lembrando o 
conceito matemático de “ponderar”, estamos dando “importâncias” para cada 
dado. Dentro da perceptron, temos o parâmetro bias, que é o aprendizado 
inicial, isto é, o ponto de onde partimos.
Como mostrado na Figura 5, os dados de entrada x1 e x2 serão multiplicados 
pelos pesos w1 e w2, e os resultados serão somados. Há uma função de ativação 
f(x), que dita se aquele resultado ativa ou não ativa o neurônio. Assim, a partir 
dela, temos a saída da perceptron.
Técnicas utilizadas em ciência de dados e big data8
Figura 5. Representação da perceptron.
Fonte: Redes... (2005, documento on-line). 
Em 1975, Werbos realizou experimentos conectando alguns neurônios e 
criando camadas de vários deles, como mostra a Figura 6. Assim, o aprendizado 
ia sendo repassado entre eles. Imagine que cada bolinha azul na Figura 6 é 
uma perceptron, tendo pesos de entrada e repassando o seu sinal por meio da 
função de ativação até a saída.
Figura 6. Várias camadas e diversos neurônios: camadas profundas (deep).
Fonte: all_is_magic/Shutterstock.com.
9Técnicas utilizadas em ciência de dados e big data
Nesse contexto, as redes neurais profundas (deep learning) são um sub-
tópico dentro do aprendizado de máquina, e se caracterizam por conter uma 
quantidade de camadas e neurônios superior ao contexto de machine learning. 
O objetivo de se ter mais camadas é, de fato, obter uma aprendizagem mais 
efetiva, de forma que a rede neural consiga aprender mais características e 
padrões daquele conjunto de dados. 
Os dados são passados de camada para camada, até chegarem à sua saída. 
A primeira camada é a entrada, e a última é a saída — todas as camadas 
entre as duas são denominadas camadas ocultas. Entre cada camada, o sinal 
é propagado por meio da função de ativação. A aprendizagem profunda é 
precursora em diversas soluções das áreas de reconhecimento de fala, visão 
computacional, carros autônomos e diversas outras.
Os conceitos de treinamento e aprendizagem 
de uma rede neural
A rede neural consegue aprender com o erro de saída da função de ativação, 
ajustando os pesos para que esse erro seja minimizado. A função de custo 
é a responsável por minimizar o erro da saída da rede neural. Então, o 
intuito é fazer um movimento de ida ( forward) e um de volta (backward). 
Na ida, entram os dados, que são multiplicados pelos pesos iniciais. E, 
ao final da rede há a saída pela função de ativação. Ao chegar à saída, a 
rede pode ver que houve um erro e que o resultado não corresponde ao 
esperado. Assim, precisa fazer a volta para ajustar os pesos, até que o erro 
seja mínimo.
Normalmente, dividimos os dados de entrada disponíveis para a aprendiza-
gem de máquina em conjuntos de treino, teste e validação, e cada um participa 
de uma fase da rede neural. Ao realizar o treinamento, o nosso modelo pode 
ter um sobreajuste (overfitting), um subajuste (underfitting), ou pode ser um 
modelo equilibrado (balanced), conforme a Figura 7. 
O sobreajuste ocorre quando o modelo memoriza os dados do conjunto de 
treino e, portanto, não consegue predizer nada sobre novos dados que entra-
rem na rede. Já o subajuste ocorre quando o modelo criado pela rede neural 
fica aquém do esperado e aprende muito pouco sobre os dados. O modelo 
equilibrado é esperado quando, a partir da etapa de treinamento, o modelo 
aprende sobre os dados e consegue inferir sobre dados novos que possam ser 
apresentados à rede neural.
Técnicas utilizadas em ciência de dados e big data10
Figura 7. Gráficos que representam modelos subajustados, balanceados e sobreajustados.
Fonte: Kasturi (2019, documento on-line).
Os hiperparâmetros em uma rede neural
Os hiper parâmetros são parâmetros de redes neurais que devem ser defi nidos antes 
de treinar o modelo. Eles são responsáveis pela arquitetura geral de treinamento 
e por variáveis que contribuem diretamente para o aprendizado de máquina. O 
número de neurônios, a quantidade de camadas, a função de ativação e de custo, a 
inicialização dos pesos e bias, a quantidade de dados de treinamento são exemplos 
de hiperparâmetros — e são muito importantes nos contextos das redes neurais.
Os hiperparâmetros têm papel fundamental no treinamento de uma rede neural e na 
sua acurácia para determinado problema.
Como demonstra Syarif, Prugel-Bennett e Wills (2016), a técnica do grid 
search pode ser utilizada para a otimização dos hiperparâmetros dentro do 
aprendizado de máquina.
11Técnicas utilizadas em ciência de dados e big data
Os assistentes pessoais, aos quais recorremos com frequência no cotidiano, como o 
Google Home e o Alexa Amazon, tiveram a sua ascensão devido ao aprimoramento 
da inteligência artificial e, especificamente, ao uso de redes neurais recorrentes para 
o processamento de língua natural.
Neste capítulo, você viu o comparativo entre os neurônios biológicos e 
artificiais, as redes neurais e os diversos tipos de aprendizado de máquina: 
supervisionado, não supervisionado e por reforço. Além disso, estudou também 
vários algoritmos e os conceitos de deep learning.
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de 
Janeiro: Alta Books, 2016.
BLOCK, H. D. The perceptron: a model for brain functioning. Reviews of Modern Physics, 
v. 34, n. 1, 1962. Disponível em: https://journals.aps.org/rmp/abstract/10.1103/RevMo-
dPhys.34.123. Acesso em: 5 maio 2020.
IDD. Clusterização: serviços. São Paulo: [S. n.], 2015. Disponível em: http://www.inteli-
genciadedados.com.br/clusterizacao/. Acesso em: 5 maio 2020
KASTURI, S. N. Underfitting and Overfitting in machine learning and how to deal 
with it!!! In: TOWARDS. [S. l.: s. n.], 2019. Disponível em: https://towardsdatascience.
com/underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it-
-6fe4a8a49dbf. Acesso em: 5 maio 2020.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: 
REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicações. Barueri: Manole, 2003.
OPENAI. Skiing-ram-v0. [S. l.: s. n., 202-?]. Disponível em: https://gym.openai.com/envs/
Skiing-ram-v0/. Acesso em: 5 maio 2020.
REDES neurais artificiais. In: LET’S CODE. São Paulo: [S. n.], 2005. Disponível em: https://
letscode-academy.com/blog/redes-neurais-artificias/. Acesso em: 5 maio 2020.
SYARIF, I.; PRUGEL-BENNETT, A.; WILLS, G. SVM parameter optimization using grid 
search and genetic algorithm to improve classification performance. Telkomnika, v. 
14, n. 4, 2016. Disponível em: http://journal.uad.ac.id/index.php/TELKOMNIKA/article/
view/3956/3028. Acesso em: 5 maio 2020.
Técnicas utilizadas em ciência de dados e big data12
VENTURA, D. F. Um retrato da área de neurociência e comportamento no Brasil. Psi-
cologia: Teoria e Pesquisa, v. 26, 2010. Disponível em: https://www.scielo.br/scielo.
php?script=sci_abstract&pid=S0102-37722010000500011&lng=pt&nrm=iso&tlng=pt. 
Acesso em: 5 maio 2020.
FIX, E.; HODGES, J. L. Discriminatory analysis, nonparametric discrimination: Consis-
tency properties,” Technique Report No. 4, U.S. Air Force School of Aviation Medicine, 
Randolf Field Texas, 1951
13Técnicas utilizadas em ciência de dados e big data
Dica do professor
O aprendizado de máquina pode ser aplicado em diversos contextos, seja na indústria, no comércio, 
no governo e nas empresas. Sua aplicação na aprendizagem de determinado contexto, a partir dos 
dados, tem sido utilizada em diversas pesquisas, e há excelentes avanços.
Nesta Dica do Professor, você verá a aplicação do aprendizado por reforço em diferentes 
segmentos.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código paraacessar.
 
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/9f7205e43a169e9f0b2226f1746baee5
Exercícios
1) O machine learning pode ser usado como uma tecnologia para identificar transações que 
podem ser fraudulentas. Uma instituição que faz operações de crédito precisa analisar se um 
novo cliente tem potencial de tornar-se inadimplente; assim, utiliza-se de uma base que 
contém dados de transações bancárias de 5 mil clientes dos últimos cinco anos, em que há a 
informação completa de financiamentos, cartões de crédito e compras realizadas e, ainda, se 
houve dívidas não pagas.
Nesse contexto, pode-se afirmar:
A) Utilizar algoritmos com a aprendizagem não supervisionada será uma boa estratégia para o 
problema; assim, podem-se agrupar os clientes.
B) O problema tem uma base catalogada, e, assim pode-se utilizar o aprendizado supervisionado 
e, ainda, o algoritmo Naive Bayes ou SVM na classificação.
C) Poderia ser desenvolvido um software em que haveria a recuperação dos dados por meio do 
SQL e a emissão de um relatório para a tomada de decisão.
D) A base não está catalogada, já que não está definido se o cliente tem bom ou mau potencial; 
então, haverá o descarte parcial dos dados.
E) O problema é de regressão, e pode-se utizar tanto o aprendizado supervisionado como o não 
supervisionado.
2) No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na 
indústria petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro 
por pessoas, em que o padrão não é gravado, pois é somente manipulado por uma pessoa.
Ao falar do contexto da aprendizagem de máquina, o que pode ser aplicado?
A) Dado que os dados oriundos desse processo são abundantes, mas não rotulados, pode-se 
utilizar o aprendizado não supervisionado e, assim, garantir a eficácia do procedimento.
B) Os algoritmos de regressão linear e regressão logística poderiam ser utilizados nesse 
contexto. No entanto, os dados deveriam ser devidamente mapeados.
C) Pode-se aplicar o aprendizado por reforço, pois, a cada ação da mão perfuradora, 
recompensa-se ou pune-se a fim de que tenha um padrão para o encontro de combustível.
D) Não cabe o contexto do aprendizado de máquina, já que o sentido seria o de desenvolver um 
sistema comum com um banco de dados relacional, armazenar os dados atuais e realizar a 
geração de dashboards.
E) O aprendizado de máquina supervisionado e a utilização de um algoritmo de classificação 
comporiam a metodologia nesse segmento. No entanto, o treinamento seria longo.
3) No contexto do jornalismo, são produzidas diversas notícias sobre diferentes assuntos. Ao 
analisar a ciência de dados e o contexto da classificação, verifica-se que nas notícias não são, 
comumente, informadas a sua temática. Caso se quisesse saber quantas notícias tivessem 
sido publicadas sobre o governo, economia, indústria, pessoas ou quaisquer outras, tal 
informação não seria acessível.
A partir desse contexto e da ciência de dados, poderia ser aplicado o aprendizado de 
máquina, a fim de organizar uma estatística de temáticas que os meios de comunicação 
produzem. Indique a alternativa que apresenta uma solução para esse contexto:
A) Pode utilizar o algoritmo Random Forest dentro do aprendizado supervisinado, a fim de 
concebermos as temáticas.
B) Como não há a rotulação das notícias, pode-se aplicar o algoritmo K-means e, então, 
primeiramente organizar as notícias em grupos.
C) O aprendizado não supervisionado não cabe ao contexto, pois os dados não estão rotulados.
D) Não se pode avançar nesse contexto, pois não há informações pertinentes para que se possa 
realizar o aprendizado de máquina.
E) Como é um problema de regressão, devem-se organizar os dados de forma a conduzir o 
modelo para uma função contínua.
4) Dentro da deep learning, há inúmeras camadas de neurônios interconectados. Eles são 
utilizados para realizar a aprendizagem dos dados de entrada. Dentro desse contexto, têm-
se as redes convolucionais, que extraem características de imagens e, posteriormente, 
realizam o processo de classificação por alguns neurônios. Dado que uma base A contém 
fotos de gatos e uma base B contém fotos de cachorros, o que pode ser afirmado se fotos de 
hipopótamo forem apresentadas a essa rede já em produção?
A) Ela afirmará que há uma porcentagem alta próxima dos cachorros, por terem características 
semelhantes, como a orelha e pelos.
B) Não reconhecerá, sequer parcialmente, por não ter sido usada a técnica de aprendizado 
supervisionado.
C) Para a devida acurácia, seria necessário retreinar a rede com as imagens de hipopótamos.
D) Não é possível extrair características de diferentes animais, já que há limitação de camadas de 
neurônios.
E) Faz-se necessário criar uma rede exclusiva para a identificação de somente um animal.
5) O treinamento de uma rede neural profunda é parte importante no processo de 
aprendizagem. Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos 
dados consiste na divisão deles em amostras de treino, teste e validação.
Dado que uma base A contém 5 milhões de dados sobre câncer de pele, classificados como 
benigno e maligno, e que 20% desse conjunto de dados não está rotulado, em relação à 
divisão referida, o que se pode afirmar?
A) Os 20% não rotulados poderiam ser utilizados para a aprendizagem não supervisionada.
B) Os dados não rotulados poderiam ser usados para validação e teste, e os rotulados, para o 
treinamento.
C) Pode-se afirmar que não há quantidade suficiente de dados para realizar o treinamento inicial.
D) Os dados não rotulados têm a prioridade de serem encontrados primeiro, a fim de, 
posteriormente, realizarem o treinamento.
E) Para o treinamento inicial, basta obter 0,1% dos dados não rotulados, e, assim, será realizada 
a primeira parte.
Na prática
As redes neurais podem ser utilizadas para realizar a aprendizagem de máquina em determinado 
contexto. O neurônio biológico tornou-se artificial e, agora, pode ser implementado em 
computadores.
Acompanhe, Na Prática, o uso da Inteligência Artificial para o contexto da segurança e permissão 
de acesso a locais específicos.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/781f8126-0c0e-4878-8eaa-b8ec92ce6776/503b698f-c23b-4ec6-9fce-00f397101f2a.png
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Deep learning: do conceito à execução
Neste vídeo, veja conceitos iniciais sobre a aplicação da deep learning pelas diversas empresas no 
mundo. Veja códigos em Python e o treinamento utilizado em diversas camadas.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Análise de imagens e machine learning utilizando Python e 
OpenCV
A palestrante e professora Paula Santos trabalha com análise de imagens de tumores em crianças 
utilizando Inteligência Artificial, a fim de melhorar o tratamento. Neste vídeo, ela fala sobre o uso 
do Python e da biblioteca OpenCV para aplicar os conceitos de redes neurais para a análise de 
imagens.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Machine learning para análises preditivas em saúde: exemplo 
de aplicação para predizer óbito em idosos de São Paulo, Brasil
Este artigo aborda o contexto do aprendizado de máquina utilizado para o bem da sociedade na 
área de saúde em doenças que acometem idosos.
https://www.youtube.com/embed/KIvB5LFbA0w
https://www.youtube.com/embed/Goy2p0tMXcI
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Recuperação de informação — conceitos e tecnologia das 
máquinas de busca
No capítulo 7, Classificação de textos, você poderá acompanhar que, dentro do aprendizado de 
máquina em Inteligência Artificial, há estudos relacionados à análise textual, permitindocompreender padrões e predições, realizar a análise de sentimentos, entre outros aspectos.
Conteúdo interativo disponível na plataforma de ensino!
https://www.scielosp.org/pdf/csp/2019.v35n7/e00050818/pt?v=1003201451

Mais conteúdos dessa disciplina