Buscar

Aula 5 - Análise de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

/
Big Data
Aula 5: Análise de dados
Apresentação
Nessa aula, primeiramente, veremos como preparar os dados armazenados para serem analisados. Posteriormente, os
algoritmos de aprendizado de máquina e ferramentas utilizadas para análise.
Objetivos
Enumerar as diferentes formas de tratamento que podem ser realizadas nos dados para que eles �quem preparados
para análise;
Identi�car os tipos de algoritmo de análise;
Reconhecer ferramentas de análise para serem utilizadas em projetos de Big Data.
Introdução
Em um projeto de Big Data, diante de todos os dados disponíveis são selecionados aqueles que vão satisfazer a necessidade
do negócio e oferecer suporte à tomada de decisão. Isto é, os dados devem ser capturados de acordo com as perguntas que se
pretende responder. Os questionamentos são baseados no tipo e na necessidade do negócio. Antes de verdadeiramente
realizar análises, tem-se que identi�car quais dados utilizar, como integrá-los e quais perguntas serão úteis na tomada de
decisão. Diante dessas informações, deve ser de�nido o objetivo da análise para estabelecer um plano para alcançá-lo.
Nesse momento, devem ser levados em consideração tanto os requisitos do negócio, como os dados armazenados para
serem analisados. Sendo assim, uma exploração dos dados para compreender sua estrutura, atributos e contexto torna-se
essencial para de�nir qual a melhor forma de analisá-los. A qualidade, quantidade e tipo dos dados in�uenciam na escolha do
método para analisá-los.
/
No contexto de Big Data, é muito comum a utilização de dados em sua
forma bruta, que não passaram por um processo de re�namento. O
problema é que, sem um processo de inspeção, pode ocorrer que dados
incorretos não sejam descartados ou corrigidos. Provavelmente, os dados
que serão analisados podem estar incompletos, inconsistentes,
corrompidos, duplicados, em formatos inadequados, com caracteres
indesejados, entre tantas outras questões. Por esse motivo, após uma
exploração inicial, inicia-se a preparação dos dados para que sejam
submetidos a análise.
A análise em si envolve o uso de um método para transformar os dados em informação. Nas últimas décadas, com a crescente
complexidade dos problemas a serem tratados computacionalmente e do volume de dados gerados, tornou-se clara a
necessidade de ferramentas computacionais mais so�sticadas, que fossem mais autônomas, reduzindo a necessidade de
intervenção humana e dependência de especialistas.
Para isso, essas técnicas deveriam ser capazes de criar, por si próprias, a partir da experiência passada, uma hipótese capaz de
resolver o problema que se deseja tratar. Um exemplo simples é a descoberta de uma hipótese na forma de uma regra ou
conjunto de regras para de�nir quais clientes de uma loja virtual devem receber material de propaganda de um novo produto,
utilizando para isso dados de compras passadas dos clientes cadastrados na base de dados de uma loja virtual. A esse
processo de indução de uma hipótese a partir da experiência passada dá-se o nome de aprendizado de máquina (AM).
Nesta aula, estudaremos alguns tipos de algoritmos de AM que têm sido utilizados para realizar análises. Esses algoritmos
serão apresentados de acordo com o tipo de análise que se pretende realizar.
Tipos de análises
Existem diversas técnicas e metodologias focadas em transformar dados em informação para apoio no processo de tomada
de decisão. Dentre elas, existem algumas com foco na extração de informação a partir de um grande volume, variedade e
velocidade dos dados para serem utilizadas em projetos de Big Data. Essas metodologias estão divididas em duas grandes
categorias: análise descritiva e análise preditiva.
Análise descritiva
A análise descritiva refere-se à forma mais básica de se obter indicadores para análise da situação da organização. Nesse tipo
de análise, o objetivo principal é responder à seguinte pergunta: “o que aconteceu?”. Para isso, indicadores são gerados a partir
de dados históricos da organização, permitindo ter uma visão das ocorrências passadas.
Saiba mais
Em tarefas de descrição, a meta é explorar ou descrever um conjunto de dados. Os algoritmos de AM utilizados nessas tarefas
não fazem uso do atributo de saída. Por isso, seguem o paradigma de aprendizado não supervisionado.
/
Uma tarefa descritiva de agrupamento de dados, por exemplo, tem por meta encontrar grupos de objetos semelhantes no
conjunto de dados. Outro exemplo comum de tarefa descritiva é estimar regras de associação que relacionam um grupo de
atributos a outro grupo de atributos. Uma terceira possibilidade da análise descritiva consiste em sumarizar dados fornecendo
uma descrição simples e compacta para um conjunto de dados, obtendo informações como a quantidade de vendas por
categoria, média de vendas, índice de aumento de novos clientes e quantidade de produtos em estoque.
Várias análises descritivas podem ser combinadas para realizar uma análise diagnóstica com foco em responder à questão
“por que isso aconteceu”.
Exemplo
Utilizando grá�cos de controle, pode ser identi�cado que houve um declínio das vendas na mesma época que determinado
produto estava em falta. Normalmente, esse tipo de análise requer a interferência humana no processo de tomada de decisão.
Análise prescritiva
A análise prescritiva consiste em usar um grande conjunto de dados históricos com o objetivo de obter informações sobre “o
que pode acontecer” no futuro, tanto em relação aos riscos como também oportunidades. Para tal, podem ser usados
mecanismos de aprendizagem de máquina e técnicas estatísticas para identi�car padrões, tendências e exceções existentes
nos dados históricos e, a partir daí, criar uma hipótese que permita fazer predições de eventos futuros.
Nesse tipo da análise, os mecanismos de aprendizagem de máquina têm como meta encontrar uma hipótese a partir dos
dados, nesse caso chamados de conjunto de treinamento, que possam ser utilizados para prever um rótulo ou valor que
caracterize um novo exemplo, com base nos valores de seus atributos de entrada. Para isso, cada registro do conjunto de
treinamento deve possuir atributos de entrada e de saída. Esses algoritmos seguem o paradigma de aprendizado
supervisionado. O termo supervisionado vem da simulação de presença de um “supervisor externo”, que conhece a saída, a
resposta desejada para cada conjunto de valores dos atributos de entrada. Com isso, o supervisor externo pode avaliar a
capacidade da hipótese induzida de predizer o valor de saída para novos exemplos.
Saiba mais
Quando o atributo de saída contém valores que identi�cam categorias ou classes às quais os atributos de entrada pertencem,
ele é denominado de classe e assume valores discretos. Para tal, utiliza-se algoritmo de AM de classi�cação. Atributos
discretos contêm um número contável de valores. Um caso especial dos atributos discretos são os atributos binários ou
booleanos que apresentam apenas dois valores, como 0/1, sim/não, ausência/presença e verdadeiro/falso.
Por outro lado, os algoritmos de AM de regressão foram desenvolvidos para lidar com o atributo de saída que contenha valores
numéricos contínuos. Atributos contínuos podem assumir um número in�nito de valores e, geralmente, eles são resultados de
medidas. Frequentemente, esses valores são representados por números reais, como por exemplo, atributos que representam
peso, tamanho e distância.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
/
Preparação dos dados
Apesar do crescente número de dados disponíveis, na maioria das vezes não é possível utilizá-los diretamente. Muitos
conjuntos de dados apresentam algum tipo de problema, como presença de ruídos, dados inconsistentes, dados ausentes,
estão em formatos inadequados, com caracteres indesejados, dados redundantes entre tantas outras questões. Por esse
motivo, é necessário realizar ajustes nos dados para que eles �quem de acordo com o desejado, antes da análise ser
efetivamente realizada.
Existem algoritmos de AM robustos e capazes de lidar com os problemaspresentes nos dados. Porém, mesmo não
inviabilizando o uso do algoritmo, esses dados in�uenciam no processo de indução de hipóteses. Uma vez que esses dados
sejam usados na análise, o resultado obtido pode não representar a realidade dos fatos. Se uma organização faz a tomada de
decisão orientada por esses resultados, ela pode desencadear uma série de ações baseadas em fatos inconsistentes.
Entretanto, dependendo de sua extensão, esses problemas podem prejudicar o processo indutivo. Sendo assim, mesmo
utilizando algoritmos de AM, os dados devem ser tratados para minimizar a ocorrência desses problemas.
Técnicas de preparação, tratamento ou pré-processamento de dados são
frequentemente utilizadas para melhorar a qualidade dos dados por meio da
eliminação ou minimização dos problemas citados. Essa melhora pode
facilitar o uso de métodos de análise, reduzir a complexidade
computacional, tornar mais fáceis e rápidos o ajuste de parâmetros para
construção da hipótese e seu posterior uso. Isso pode, adicionalmente,
facilitar a interpretação dos padrões extraídos da análise.
Além de minimizar ou eliminar problemas existentes em um conjunto de dados, a preparação dos dados pode tornar os dados
mais adequados para sua utilização por um determinado algoritmo de AM. Por exemplo, alguns algoritmos de AM trabalham
apenas com valores numéricos.
/
Clique nos botões para ver as informações.
Primeiramente elimina-se os atributos de entrada que claramente não contribuem para a estimativa do atributo de saída.
Existem situações em que um atributo irrelevante pode ser facilmente detectado. Por exemplo, um atributo possui o
mesmo valor em todos os registros. Tal atributo não contém informação que ajude a distinguir os registros. Assim, ele
pode ser considerado irrelevante.
Também deve-se veri�car se há ocorrências de registros ou atributos redundantes. Um registro é considerado redundante
quando tem muita semelhança com um outro registro do mesmo conjunto de dados. Um atributo também é redundante
quando seu valor para todos os objetos pode ser deduzido a partir do valor de um ou mais atributos. Um exemplo simples
de redundância de atributos é a presença de um atributo idade e de um atributo data de nascimento em um conjunto de
dados. Nesses casos, basta manter um dos atributos e eliminar o outro.
Eliminação de dados irrelevantes 
Os dados que serão analisados podem estar distribuídos em diferentes bases de dados e, para serem analisados, eles
devem ser integrados. Nesse caso, é possível que cada base de dados tenha diferentes atributos para caracterizar a
mesma ocorrência, registro ou objeto. Dessa forma, quando as bases forem integradas, esses atributos devem ser
combinados e reunidos no mesmo registro.
Nesse tipo de preparação, deve-se ter atenção aos atributos correspondentes, pois eles podem ter nomes diferentes e
possuir a mesma semântica. Eles devem ser identi�cados para evitar duplicidade.
Integração de dados 
Mesmo com as possibilidades oferecidas pelas tecnologias de Big Data para processar um grande volume de dados, é
possível que o processamento de uma base de dados muito grande seja muito dispendioso computacionalmente,
resultando em um gargalo de desempenho em alguns métodos de análise. Em algoritmos de AM, por exemplo, quanto
mais dados são utilizados, maior tende a ser a acurácia do modelo e menor a e�ciência computacional do processo
indutivo, pois um número muito grande de registros pode tornar o tempo de processamento muito longo.
Deve ser observado que uma amostra pequena pode não representar bem o problema que se deseja modelar. Logo, a
amostra deve ser representativa do conjunto de dados original e ter a mesma distribuição estatística que gerou o conjunto
de dados original. Para casos como esse, são aplicadas técnicas de redução e sintetização de dados em busca de reduzir
a dimensionalidade dos dados. As técnicas de amostragem estatística, tais como, amostragem aleatória simples,
amostragem estrati�cada e amostragem progressiva são exemplos de técnicas que têm sido utilizadas para extrair uma
amostra representativa dos dados.
Amostragem de dados 
/
Em vários conjuntos de dados reais, o número de objetos varia para as diferentes classes. Isso é, dados de um
subconjunto das classes aparecem com uma frequência maior que os dados das demais classes. Esse
desbalanceamento pode interferir no resultado da análise, como é o caso dos métodos de classi�cação. Para lidar com
esse problema, existem várias abordagens, dentre elas:
Rede�nir o tamanho do conjunto de dados através do acréscimo de registros à classe minoritária ou a eliminação de
registros da classe majoritária;
Utilizar diferentes custos de classi�cação para as diferentes classes;
Induzir uma hipótese para uma classe, isto é, a classe minoritária e a classe majoritária são analisadas
separadamente.
Dados desbalanceados 
O conjunto de dados que serão analisados pode conter registros com atributos não preenchidos por diversos motivos,
desde desconhecimento do valor do atributo no momento da geração do registro ou falta de obrigação em atribuir valor
ao atributo, até a inexistência de um valor para o atributo para alguns registros. Várias alternativas têm sido propostas
para lidar com esses atributos, como por exemplo:
Eliminar os objetos com valores ausentes;
Substituir os valores ausentes por alguma constante;
Realizar cálculos para completar os valores ausentes.
Dados incompletos 
Dados com ruído são dados que contêm objetos que, aparentemente, não pertencem à distribuição que gerou os dados
analisados. Dados inconsistentes podem ser resultado da presença de ruídos. Existem diversos tipos de técnicas de pré-
processamento que podem ser aplicadas na detecção e remoção de ruídos:
Técnicas de encestamento: essas técnicas suavizam o valor de um atributo através da ordenação e divisão dos
dados em faixas ou cestas, cada uma com o mesmo número de valores. Os valores em uma mesma cesta são
substituídos, por exemplo, pela média ou mediana dos valores presentes na cesta;
Técnicas baseadas em agrupamentos dos dados: essas técnicas podem ser utilizadas tanto para os objetos como
para os atributos. Os valores que não formarem um grupo com outros valores são considerados ruídos e são
descartados;
Técnicas baseadas em distância: veri�cam a que classe pertencem os objetos mais próximos do objeto com ruído e
atribui esta classe ao atributo com ruído;
Técnicas baseadas em regressão ou classi�cação: estima-se um novo valor para substituir o valor com ruído.
Dados com ruído 
/
Os métodos de análise podem ter sido desenvolvidos para manipulação de valores de determinados tipos ou ter seu
desempenho in�uenciado pelo intervalo de variação dos valores numéricos. Entretanto, para aproveitar o potencial dos
métodos a serem utilizados os dados devem ser transformados.
A conversão de atributo simbólico em numérico é simples quando o atributo simbólico assume apenas dois valores,
quando um dígito binário é su�ciente. Para um atributo simbólico com mais de dois valores, uma forma de conversão
codi�ca cada valor nominal por uma sequência de c bits, em que c é igual ao número de possíveis valores ou categorias.
Nessa codi�cação, chamada 1-de-c, cada sequência possui apenas um bit com valor 1 e os demais com valor zero. A
diferença entre sequências é de�nida pela posição que o valor 1 ocupa nelas.
Transformação de dados 
Saiba mais
Algumas técnicas de AM foram desenvolvidas para trabalhar com valores simbólicos e têm seu desempenho reduzido quando
usam valores numéricos. Se o atributo numérico for binário, com apenas dois valores, a conversão é trivial. Basta associar um
nome a cada valor. Se o atributo original for formado por sequências binárias sem uma relação de ordem entre si, cada
sequência pode ser substituída por um nome ou categoria. Nos demais casos, métodos de discretização permitem converter
um intervalo de valores numéricos em valores simbólicos.
Algumas vezes, o valor de um atributo numérico precisa ser transformadoem outro valor numérico. Isso geralmente ocorre
quando os limites inferior e superior de valores dos atributos são muito diferentes, o que leva a uma grande variação de valores,
ou ainda quando vários atributos estão em escalas diferentes. Este tipo de transformação geralmente é realizado para evitar
que um atributo predomine sobre outro. Técnicas como a normalização em amplitude por reescala ou por padronização e a
tradução são utilizadas para realizar esse tipo de conversão.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
/
Algoritmos de análise
Com os dados preparados para a análise, podemos utilizar algoritmos para gerar a resposta que estamos procurando. Existem
vários tipos de algoritmos de AM que podem ser utilizados para alcançar o tipo de análise desejada. Ao longo dessa seção,
será apresentado o funcionamento geral de alguns deles e citados os exemplos mais populares de cada tipo.
Agrupamento
Os algoritmos de agrupamento são não supervisionados para análise descritiva, com o objetivo de detectar padrões ocultos
nos dados, formando grupos. Também conhecido como clustering ou segmentação, nessa tarefa um algoritmo de
agrupamento analisa um conjunto de exemplos não rotulados, com foco em determinar se alguns deles podem ser agrupados
de acordo com uma medida de similaridade, gerando assim os grupos (ou clusters). Dessa forma, um algoritmo de
agrupamento poderia segmentar clientes de uma loja virtual de acordo com os padrões encontrados, tais como: faixa etária,
preferências de marca etc. Essa mesma estratégia pode ser adotada em inúmeras outras aplicações, tais como o agrupamento
de pacientes com sintomas similares e a classi�cação de documentos.
Durante a fase de treinamento, uma hipótese é criada para identi�car os grupos com base nas similaridades. Estando a
hipótese construída, na fase operacional novos registros são enviados à hipótese, que deverá identi�car a qual grupo esse
registro pertence.
Os algoritmos de agrupamento podem ser classi�cados de acordo com o método adotado para de�nir os clusters. Nesse caso,
os algoritmos são divididos em:
Hierárquicos
Agrupam dados a partir de uma
matriz de proximidade, utilizando
métricas de integração até qu
seja atingido um critério de
parada.
Particionais baseados
em erro quadrático
O objetivo desses algoritmos é
obter uma partição que minimiza
o erro quadrático para um
número �xo de clusters. Ex: k-
médias, PAM, CLARA e
CLARANS.
Baseados em redes
neurais
As conexões das redes neurais
são utilizadas para agrupar
dados. Ex: SOM, GCS, SOTA,
HCSOT, DGSOT.
Baseados em grid
O algoritmo de�ne um grid para o
espaço de dados e realiza todas
as operações nesse espaço. Esse
tipo de algoritmo é muito
e�ciente para grande conjunto de
dados. Ex: CLIQUE, MAFIA,
OptiGrid, STING;
Baseados em densidade
Assumem que os clusters são
regiões de alta densidade de
objetos separadas por regiões de
baixa densidade, no espaço de
objetos. Ex: DENCLUE, DBSCAN e
Wase-cluster.
Baseado em grafo
Utiliza técnica baseada na teoria
de grafos para agrupar dados. Ex:
HSC e CLICK.
Saiba mais
No caso dos algoritmos hierárquicos, pode ser utilizada a abordagem aglomerativa, que começa com n clusters com um único
objeto e forma a sequência de partições agrupando os clusters sucessivamente, ou a abordagem divisiva, que começa com um
cluster com todos os objetos e forma a sequência dividindo os clusters sucessivamente.
https://estacio.webaula.com.br/cursos/go0686/aula5.html
/
Associações
Esse tipo de algoritmo tem o propósito de encontrar conjunto de itens que ocorram simultaneamente de forma frequente em
um conjunto de dados. Os algoritmos desse tipo estabelecem regras de associação válidas no conjunto de dados, de acordo
com a especi�cação dos parâmetros de suporte e con�ança mínimos. Exemplos desse tipo de algoritmo: apriori, DHP, partition,
DIC.
Sumarização
Para realizar análise descritiva com o objetivo mapear os dados em subconjuntos, utiliza-se um algoritmo de sumarização. A
sumarização pode ocorrer em diversos níveis, para fazer uma descrição compacta sobre os dados.
Existem algoritmos desse tipo que utilizam operações estatísticas básicas
como média, mediana, moda e desvio padrão. E algoritmos que realizam
operações mais complexas como a derivação de regras de sumarização.
Uma regra pode ser, por exemplo, a descoberta dos tipos de cliente por
região do país. Geralmente, a sumarização é feita por algoritmos genéticos.
Classi�cação
Considerado por muitos pesquisadores a tarefa mais comum em mineração de dados, a classi�cação tem como objetivo
utilizar atributos de um objeto para determinar a qual classe ele pertence. Os algoritmos de classi�cação necessitam de um
conjunto de dados rotulados para gerar o modelo preditivo. A partir desse conjunto de dados, o algoritmo de classi�cação vai
"aprender" quais combinações dos atributos estão associados com cada rótulo, gerando assim o modelo. Após essa etapa,
novos registros de transações, agora não rotulados, são enviados ao modelo, que deverá gerar como resultado a predição do
rótulo de cada uma delas.
Algoritmos que utilizam dados rotulados na fase de treinamento do modelo são categorizados como algoritmos de
aprendizado supervisionado. Os tipos mais comuns de algoritmos de classi�cação são:
01
Baseados em distância – consideram a proximidade entre dados para realizar predições. Ex: algoritmo 1-NN, algoritmo
k-NN.
02
Métodos probabilísticos – muito utilizados quando os dados disponíveis são incompletos ou imprecisos. Esse tipo de
algoritmo estima a probabilidade de ocorrência de um evento pela observação de como esse evento ocorre. Ex: naive
bayes.
03
Baseados em procura – buscam resolver um problema, procurando possíveis soluções num espaço de hipóteses. Ex:
os algoritmos de árvore de decisão ID3, ASSISTANT, C4.5 e os algoritmos baseados em regras One.
04
Baseados em otimização – realizam a busca pela hipótese que descreve os dados recorrendo à otimização de alguma
função. Ex: os algoritmos de redes neurais arti�ciais back-propagation, EN, KT, LAP, M-of-N, OLS, RULEX, RuleNeg e
TREPAN e algoritmos de máquinas de vetores de suporte (SVN).
/
Regressão
Além da classi�cação, outra técnica de aprendizado supervisionado é a regressão. A diferença entre essas técnicas é que,
enquanto a classi�cação tenta prever a qual classe pertence uma nova instância, a regressão busca prever um valor numérico
contínuo. São exemplos de algoritmos de regressão: o algoritmo de árvore de regressão M5, o algoritmo de máquinas de
vetores de suporte E-SVN.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
 Ferramentas de análise
 Clique no botão acima.
/
Hadoop
Durante muitos anos, as organizações somente utilizavam sistemas transacionais para operacionalizar e manter seus
negócios. Porém, conforme foi aumentando a necessidade de analisar seus dados, começou a busca pelo
acompanhamento do histórico de acontecimentos para identi�car pontos que deveriam ser melhorados e pontos que
estariam evoluindo positivamente.
Inicialmente, análises simples eram feitas com ferramentas de fácil acesso como planilhas eletrônicas, por exemplo,
Microsoft Excel. Posteriormente, extrações mais elaboradas começaram a ser realizadas através de consultas SQL em
banco de dados relacionais. Conforme a quantidade de dados estruturados foi aumentando, eles começaram a ser
armazenados em Data Warehouse para serem feitas análises de dados históricos baseadas em fatos. Com o
surgimento do Big Data, novas ferramentas surgiram e alguns exemplos serão apresentados ao longo dessa seção.
Apache Mahout
O Apache Mahout é uma biblioteca Java com uma série de implementações prontas para serem usadas para criar
aplicativos de aprendizado de máquina com desempenho e escalonável. Ela contém algoritmos para classi�cação,
agrupamento, regressão entre outros que podem ser facilmente manipulados através da con�guração de parâmetros e
�uxo desejado. Além disso, dispõe de suporte a vários back-ends distribuídos, incluindo o ApacheSpark.
Spark Mllib
 A biblioteca Spark MLLib de aprendizado de máquina do Apache Spark tem o objetivo de tornar o aprendizado de
máquina prático, escalonável e fácil. MLLib contém recursos para preparação de dados, vários tipos de algoritmos de
análise (Ex: classi�cação, regressão, agrupamento), utilitários de persistência, além de oferecer interoperabilidade com
bibliotecas R e Python.
Weka
O software Weka (Waikato Environment for Knowledge Analysis) foi desenvolvido pela Universidade de Waikato,
localizada em Nova Zelândia, para oferecer à comunidade acadêmica uma interface grá�ca para o desenvolvimento de
algoritmos de mineração de dados. Ele tem código aberto, testado e aprovado que pode ser acessado por meio de
interface grá�ca, terminal ou uma API Java. É amplamente usado na área de ensino, pesquisa e industriais, por conter
uma in�nidade de ferramentas integradas para tarefas de aprendizado de máquina que permitem realizar análises sem
necessidade de escrever linhas de código. Além disso, Weka pode ser integrado com ferramenta R, Python e Apache
Spark.
R 
R é um conjunto integrado de recursos de software para manipulação de dados, realização de cálculos e exibição
grá�ca. Para tal, conta com uma linguagem de programação bem desenvolvida, simples e e�caz que inclui estruturas
condicionais, loops, funções recursivas e recursos de entrada e saída. Atualmente, o R contém um amplo conjunto de
pacotes que facilitar a análise de dados de forma interativa.
 
Python 
Linguagem de programação orientada a objetos e interativa que possui um conjunto de bibliotecas com diversas
�nalidades, inclusive análise de dados. A biblioteca scikit-learn contém funcionalidades para pré-processamento e
análise descritiva e prescritiva de dados em código aberto, tornando-se uma ferramenta acessível a todos e reutilizável
em vários contextos. Outra biblioteca muito utilizada para projeto de Big Data é a Pandas. Ela tem funcionalidade para
manipulação e análise de dados em diferentes formatos.
As ferramentas de análise de dados disponíveis facilitam a construção de inúmeros algoritmos utilizando uma
diversidade de dados. Adicionalmente, existem diversos algoritmos e funcionalidades prontas que podem ser
utilizados. Entretanto, um erro cometido ou uma interpretação errada dos dados durante esse processo pode gerar
resultados animadores, mas que na verdade não condizem com a realidade.
/
Outro fator que interfere nos resultados consiste na qualidade dos dados. Para evitar inconsistências nos resultados
das análises, deve-se investir tempo em explorar os dados para identi�car problemas e tratá-los. Conforme vimos, há
vários métodos automatizados de preparação dos dados, porém, como cada base de dados possui sua peculiaridade,
muitas preparações precisam ser feitas manualmente, tornando essa etapa importante, etapa mais demorada e
trabalhosa do processo de análise.
Por esses motivos, é extremamente necessária a validação das respostas obtidas, principalmente quando se trata de
grande volume de dados, em que as incoerências podem não ser claramente perceptíveis. Diversos aspectos sobre os
resultados obtidos devem ser validados, tais como, as veri�cações da acurácia, con�abilidade e utilidade da hipótese.
A medida de acurácia é utilizada para avaliar quão bem o modelo faz a correlação de um resultado com os
atributos dos dados de entrada.
Já a con�abilidade tem como objetivo avaliar como a hipótese continua válida ao ser submetida a diferentes
conjuntos de dados.
E a utilidade da hipótese é uma medida que avalia o quanto ela oferece informações signi�cativas ao propósito
da análise.
Atividades
1. As análises preditivas têm a característica de serem supervisionadas. O tipo de análise preditiva usada para identi�car
categorias ou classes às quais os atributos de entrada pertencem, denomina-se:
a) Regressão
b) Associação
c) Sumarização
d) Classificação
e) Agrupamento
Existem diversas formas de realizar a análise dos dados, dentre elas a análise descritiva explora um conjunto de dados e como
resultado provê uma descrição desses dados. Para tal, podem ser utilizadas as seguintes técnicas:
a) Agrupamento e associação
b) Classificação e sumarização
c) Regressão e associação
d) Classificação e regressão
e) Sumarização e regressão
/
3. A qualidade dos dados pode interferir no resultado das análises e para evitar que isso ocorra várias técnicas para pré-
processamento podem ser usadas. Assinale a opção que apresenta a técnica usada para aumentar a e�ciência computacional
quando um número muito grande de registros tornar o tempo de processamento muito longo.
a) Integração de dados
b) Transformação de dados
c) Dados incompletos
d) Amostragem de dados
e) Dados redundantes
Notas
Redes neurais
Redes neurais são sistemas paralelos distribuídos, compostos de unidades de processamento simples que computam
determinadas funções matemáticas, sendo dispostas em uma ou mais camadas e interligadas por um grande número de
conexões.
Título modal 1
Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente
uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da
indústria tipográ�ca e de impressos.
Referências
Marquesone, Rosangela. Big Data: Técnicas e tecnologias para extração de valor dos dados. Editora Casa do Código, 2016.
Faceli, K., Lorena, A. C., Gama, J., Carvalho, A. C. P. Inteligência Arti�cial: Uma abordagem de aprendizado de máquina. Rio de
Janeiro: LTC, 2011.
Próxima aula
Estratégias para representar os dados;
Ferramentas para visualização dos dados
Explore mais
/
Para visualizar de forma divertida o poder do aprendizado de máquina para realizar análises em redes sociais, assista ao
documentário “O dilema das redes” produzido no ano de 2020 pela Net�ix.
Escolha algum dos conjuntos de dados disponíveis em https://waikato.github.io/weka-wiki/datasets/ e o manipule
utilizando a ferramenta Weka ou qualquer outra ferramenta de análise de sua preferência.
Veja as empresas Brasileiras que utilizam Python (https://python.org.br/empresas/)
javascript:void(0);
javascript:void(0);

Continue navegando