Baixe o app para aproveitar ainda mais
Prévia do material em texto
/ Big Data Aula 5: Análise de dados Apresentação Nessa aula, primeiramente, veremos como preparar os dados armazenados para serem analisados. Posteriormente, os algoritmos de aprendizado de máquina e ferramentas utilizadas para análise. Objetivos Enumerar as diferentes formas de tratamento que podem ser realizadas nos dados para que eles �quem preparados para análise; Identi�car os tipos de algoritmo de análise; Reconhecer ferramentas de análise para serem utilizadas em projetos de Big Data. Introdução Em um projeto de Big Data, diante de todos os dados disponíveis são selecionados aqueles que vão satisfazer a necessidade do negócio e oferecer suporte à tomada de decisão. Isto é, os dados devem ser capturados de acordo com as perguntas que se pretende responder. Os questionamentos são baseados no tipo e na necessidade do negócio. Antes de verdadeiramente realizar análises, tem-se que identi�car quais dados utilizar, como integrá-los e quais perguntas serão úteis na tomada de decisão. Diante dessas informações, deve ser de�nido o objetivo da análise para estabelecer um plano para alcançá-lo. Nesse momento, devem ser levados em consideração tanto os requisitos do negócio, como os dados armazenados para serem analisados. Sendo assim, uma exploração dos dados para compreender sua estrutura, atributos e contexto torna-se essencial para de�nir qual a melhor forma de analisá-los. A qualidade, quantidade e tipo dos dados in�uenciam na escolha do método para analisá-los. / No contexto de Big Data, é muito comum a utilização de dados em sua forma bruta, que não passaram por um processo de re�namento. O problema é que, sem um processo de inspeção, pode ocorrer que dados incorretos não sejam descartados ou corrigidos. Provavelmente, os dados que serão analisados podem estar incompletos, inconsistentes, corrompidos, duplicados, em formatos inadequados, com caracteres indesejados, entre tantas outras questões. Por esse motivo, após uma exploração inicial, inicia-se a preparação dos dados para que sejam submetidos a análise. A análise em si envolve o uso de um método para transformar os dados em informação. Nas últimas décadas, com a crescente complexidade dos problemas a serem tratados computacionalmente e do volume de dados gerados, tornou-se clara a necessidade de ferramentas computacionais mais so�sticadas, que fossem mais autônomas, reduzindo a necessidade de intervenção humana e dependência de especialistas. Para isso, essas técnicas deveriam ser capazes de criar, por si próprias, a partir da experiência passada, uma hipótese capaz de resolver o problema que se deseja tratar. Um exemplo simples é a descoberta de uma hipótese na forma de uma regra ou conjunto de regras para de�nir quais clientes de uma loja virtual devem receber material de propaganda de um novo produto, utilizando para isso dados de compras passadas dos clientes cadastrados na base de dados de uma loja virtual. A esse processo de indução de uma hipótese a partir da experiência passada dá-se o nome de aprendizado de máquina (AM). Nesta aula, estudaremos alguns tipos de algoritmos de AM que têm sido utilizados para realizar análises. Esses algoritmos serão apresentados de acordo com o tipo de análise que se pretende realizar. Tipos de análises Existem diversas técnicas e metodologias focadas em transformar dados em informação para apoio no processo de tomada de decisão. Dentre elas, existem algumas com foco na extração de informação a partir de um grande volume, variedade e velocidade dos dados para serem utilizadas em projetos de Big Data. Essas metodologias estão divididas em duas grandes categorias: análise descritiva e análise preditiva. Análise descritiva A análise descritiva refere-se à forma mais básica de se obter indicadores para análise da situação da organização. Nesse tipo de análise, o objetivo principal é responder à seguinte pergunta: “o que aconteceu?”. Para isso, indicadores são gerados a partir de dados históricos da organização, permitindo ter uma visão das ocorrências passadas. Saiba mais Em tarefas de descrição, a meta é explorar ou descrever um conjunto de dados. Os algoritmos de AM utilizados nessas tarefas não fazem uso do atributo de saída. Por isso, seguem o paradigma de aprendizado não supervisionado. / Uma tarefa descritiva de agrupamento de dados, por exemplo, tem por meta encontrar grupos de objetos semelhantes no conjunto de dados. Outro exemplo comum de tarefa descritiva é estimar regras de associação que relacionam um grupo de atributos a outro grupo de atributos. Uma terceira possibilidade da análise descritiva consiste em sumarizar dados fornecendo uma descrição simples e compacta para um conjunto de dados, obtendo informações como a quantidade de vendas por categoria, média de vendas, índice de aumento de novos clientes e quantidade de produtos em estoque. Várias análises descritivas podem ser combinadas para realizar uma análise diagnóstica com foco em responder à questão “por que isso aconteceu”. Exemplo Utilizando grá�cos de controle, pode ser identi�cado que houve um declínio das vendas na mesma época que determinado produto estava em falta. Normalmente, esse tipo de análise requer a interferência humana no processo de tomada de decisão. Análise prescritiva A análise prescritiva consiste em usar um grande conjunto de dados históricos com o objetivo de obter informações sobre “o que pode acontecer” no futuro, tanto em relação aos riscos como também oportunidades. Para tal, podem ser usados mecanismos de aprendizagem de máquina e técnicas estatísticas para identi�car padrões, tendências e exceções existentes nos dados históricos e, a partir daí, criar uma hipótese que permita fazer predições de eventos futuros. Nesse tipo da análise, os mecanismos de aprendizagem de máquina têm como meta encontrar uma hipótese a partir dos dados, nesse caso chamados de conjunto de treinamento, que possam ser utilizados para prever um rótulo ou valor que caracterize um novo exemplo, com base nos valores de seus atributos de entrada. Para isso, cada registro do conjunto de treinamento deve possuir atributos de entrada e de saída. Esses algoritmos seguem o paradigma de aprendizado supervisionado. O termo supervisionado vem da simulação de presença de um “supervisor externo”, que conhece a saída, a resposta desejada para cada conjunto de valores dos atributos de entrada. Com isso, o supervisor externo pode avaliar a capacidade da hipótese induzida de predizer o valor de saída para novos exemplos. Saiba mais Quando o atributo de saída contém valores que identi�cam categorias ou classes às quais os atributos de entrada pertencem, ele é denominado de classe e assume valores discretos. Para tal, utiliza-se algoritmo de AM de classi�cação. Atributos discretos contêm um número contável de valores. Um caso especial dos atributos discretos são os atributos binários ou booleanos que apresentam apenas dois valores, como 0/1, sim/não, ausência/presença e verdadeiro/falso. Por outro lado, os algoritmos de AM de regressão foram desenvolvidos para lidar com o atributo de saída que contenha valores numéricos contínuos. Atributos contínuos podem assumir um número in�nito de valores e, geralmente, eles são resultados de medidas. Frequentemente, esses valores são representados por números reais, como por exemplo, atributos que representam peso, tamanho e distância. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online / Preparação dos dados Apesar do crescente número de dados disponíveis, na maioria das vezes não é possível utilizá-los diretamente. Muitos conjuntos de dados apresentam algum tipo de problema, como presença de ruídos, dados inconsistentes, dados ausentes, estão em formatos inadequados, com caracteres indesejados, dados redundantes entre tantas outras questões. Por esse motivo, é necessário realizar ajustes nos dados para que eles �quem de acordo com o desejado, antes da análise ser efetivamente realizada. Existem algoritmos de AM robustos e capazes de lidar com os problemaspresentes nos dados. Porém, mesmo não inviabilizando o uso do algoritmo, esses dados in�uenciam no processo de indução de hipóteses. Uma vez que esses dados sejam usados na análise, o resultado obtido pode não representar a realidade dos fatos. Se uma organização faz a tomada de decisão orientada por esses resultados, ela pode desencadear uma série de ações baseadas em fatos inconsistentes. Entretanto, dependendo de sua extensão, esses problemas podem prejudicar o processo indutivo. Sendo assim, mesmo utilizando algoritmos de AM, os dados devem ser tratados para minimizar a ocorrência desses problemas. Técnicas de preparação, tratamento ou pré-processamento de dados são frequentemente utilizadas para melhorar a qualidade dos dados por meio da eliminação ou minimização dos problemas citados. Essa melhora pode facilitar o uso de métodos de análise, reduzir a complexidade computacional, tornar mais fáceis e rápidos o ajuste de parâmetros para construção da hipótese e seu posterior uso. Isso pode, adicionalmente, facilitar a interpretação dos padrões extraídos da análise. Além de minimizar ou eliminar problemas existentes em um conjunto de dados, a preparação dos dados pode tornar os dados mais adequados para sua utilização por um determinado algoritmo de AM. Por exemplo, alguns algoritmos de AM trabalham apenas com valores numéricos. / Clique nos botões para ver as informações. Primeiramente elimina-se os atributos de entrada que claramente não contribuem para a estimativa do atributo de saída. Existem situações em que um atributo irrelevante pode ser facilmente detectado. Por exemplo, um atributo possui o mesmo valor em todos os registros. Tal atributo não contém informação que ajude a distinguir os registros. Assim, ele pode ser considerado irrelevante. Também deve-se veri�car se há ocorrências de registros ou atributos redundantes. Um registro é considerado redundante quando tem muita semelhança com um outro registro do mesmo conjunto de dados. Um atributo também é redundante quando seu valor para todos os objetos pode ser deduzido a partir do valor de um ou mais atributos. Um exemplo simples de redundância de atributos é a presença de um atributo idade e de um atributo data de nascimento em um conjunto de dados. Nesses casos, basta manter um dos atributos e eliminar o outro. Eliminação de dados irrelevantes Os dados que serão analisados podem estar distribuídos em diferentes bases de dados e, para serem analisados, eles devem ser integrados. Nesse caso, é possível que cada base de dados tenha diferentes atributos para caracterizar a mesma ocorrência, registro ou objeto. Dessa forma, quando as bases forem integradas, esses atributos devem ser combinados e reunidos no mesmo registro. Nesse tipo de preparação, deve-se ter atenção aos atributos correspondentes, pois eles podem ter nomes diferentes e possuir a mesma semântica. Eles devem ser identi�cados para evitar duplicidade. Integração de dados Mesmo com as possibilidades oferecidas pelas tecnologias de Big Data para processar um grande volume de dados, é possível que o processamento de uma base de dados muito grande seja muito dispendioso computacionalmente, resultando em um gargalo de desempenho em alguns métodos de análise. Em algoritmos de AM, por exemplo, quanto mais dados são utilizados, maior tende a ser a acurácia do modelo e menor a e�ciência computacional do processo indutivo, pois um número muito grande de registros pode tornar o tempo de processamento muito longo. Deve ser observado que uma amostra pequena pode não representar bem o problema que se deseja modelar. Logo, a amostra deve ser representativa do conjunto de dados original e ter a mesma distribuição estatística que gerou o conjunto de dados original. Para casos como esse, são aplicadas técnicas de redução e sintetização de dados em busca de reduzir a dimensionalidade dos dados. As técnicas de amostragem estatística, tais como, amostragem aleatória simples, amostragem estrati�cada e amostragem progressiva são exemplos de técnicas que têm sido utilizadas para extrair uma amostra representativa dos dados. Amostragem de dados / Em vários conjuntos de dados reais, o número de objetos varia para as diferentes classes. Isso é, dados de um subconjunto das classes aparecem com uma frequência maior que os dados das demais classes. Esse desbalanceamento pode interferir no resultado da análise, como é o caso dos métodos de classi�cação. Para lidar com esse problema, existem várias abordagens, dentre elas: Rede�nir o tamanho do conjunto de dados através do acréscimo de registros à classe minoritária ou a eliminação de registros da classe majoritária; Utilizar diferentes custos de classi�cação para as diferentes classes; Induzir uma hipótese para uma classe, isto é, a classe minoritária e a classe majoritária são analisadas separadamente. Dados desbalanceados O conjunto de dados que serão analisados pode conter registros com atributos não preenchidos por diversos motivos, desde desconhecimento do valor do atributo no momento da geração do registro ou falta de obrigação em atribuir valor ao atributo, até a inexistência de um valor para o atributo para alguns registros. Várias alternativas têm sido propostas para lidar com esses atributos, como por exemplo: Eliminar os objetos com valores ausentes; Substituir os valores ausentes por alguma constante; Realizar cálculos para completar os valores ausentes. Dados incompletos Dados com ruído são dados que contêm objetos que, aparentemente, não pertencem à distribuição que gerou os dados analisados. Dados inconsistentes podem ser resultado da presença de ruídos. Existem diversos tipos de técnicas de pré- processamento que podem ser aplicadas na detecção e remoção de ruídos: Técnicas de encestamento: essas técnicas suavizam o valor de um atributo através da ordenação e divisão dos dados em faixas ou cestas, cada uma com o mesmo número de valores. Os valores em uma mesma cesta são substituídos, por exemplo, pela média ou mediana dos valores presentes na cesta; Técnicas baseadas em agrupamentos dos dados: essas técnicas podem ser utilizadas tanto para os objetos como para os atributos. Os valores que não formarem um grupo com outros valores são considerados ruídos e são descartados; Técnicas baseadas em distância: veri�cam a que classe pertencem os objetos mais próximos do objeto com ruído e atribui esta classe ao atributo com ruído; Técnicas baseadas em regressão ou classi�cação: estima-se um novo valor para substituir o valor com ruído. Dados com ruído / Os métodos de análise podem ter sido desenvolvidos para manipulação de valores de determinados tipos ou ter seu desempenho in�uenciado pelo intervalo de variação dos valores numéricos. Entretanto, para aproveitar o potencial dos métodos a serem utilizados os dados devem ser transformados. A conversão de atributo simbólico em numérico é simples quando o atributo simbólico assume apenas dois valores, quando um dígito binário é su�ciente. Para um atributo simbólico com mais de dois valores, uma forma de conversão codi�ca cada valor nominal por uma sequência de c bits, em que c é igual ao número de possíveis valores ou categorias. Nessa codi�cação, chamada 1-de-c, cada sequência possui apenas um bit com valor 1 e os demais com valor zero. A diferença entre sequências é de�nida pela posição que o valor 1 ocupa nelas. Transformação de dados Saiba mais Algumas técnicas de AM foram desenvolvidas para trabalhar com valores simbólicos e têm seu desempenho reduzido quando usam valores numéricos. Se o atributo numérico for binário, com apenas dois valores, a conversão é trivial. Basta associar um nome a cada valor. Se o atributo original for formado por sequências binárias sem uma relação de ordem entre si, cada sequência pode ser substituída por um nome ou categoria. Nos demais casos, métodos de discretização permitem converter um intervalo de valores numéricos em valores simbólicos. Algumas vezes, o valor de um atributo numérico precisa ser transformadoem outro valor numérico. Isso geralmente ocorre quando os limites inferior e superior de valores dos atributos são muito diferentes, o que leva a uma grande variação de valores, ou ainda quando vários atributos estão em escalas diferentes. Este tipo de transformação geralmente é realizado para evitar que um atributo predomine sobre outro. Técnicas como a normalização em amplitude por reescala ou por padronização e a tradução são utilizadas para realizar esse tipo de conversão. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online / Algoritmos de análise Com os dados preparados para a análise, podemos utilizar algoritmos para gerar a resposta que estamos procurando. Existem vários tipos de algoritmos de AM que podem ser utilizados para alcançar o tipo de análise desejada. Ao longo dessa seção, será apresentado o funcionamento geral de alguns deles e citados os exemplos mais populares de cada tipo. Agrupamento Os algoritmos de agrupamento são não supervisionados para análise descritiva, com o objetivo de detectar padrões ocultos nos dados, formando grupos. Também conhecido como clustering ou segmentação, nessa tarefa um algoritmo de agrupamento analisa um conjunto de exemplos não rotulados, com foco em determinar se alguns deles podem ser agrupados de acordo com uma medida de similaridade, gerando assim os grupos (ou clusters). Dessa forma, um algoritmo de agrupamento poderia segmentar clientes de uma loja virtual de acordo com os padrões encontrados, tais como: faixa etária, preferências de marca etc. Essa mesma estratégia pode ser adotada em inúmeras outras aplicações, tais como o agrupamento de pacientes com sintomas similares e a classi�cação de documentos. Durante a fase de treinamento, uma hipótese é criada para identi�car os grupos com base nas similaridades. Estando a hipótese construída, na fase operacional novos registros são enviados à hipótese, que deverá identi�car a qual grupo esse registro pertence. Os algoritmos de agrupamento podem ser classi�cados de acordo com o método adotado para de�nir os clusters. Nesse caso, os algoritmos são divididos em: Hierárquicos Agrupam dados a partir de uma matriz de proximidade, utilizando métricas de integração até qu seja atingido um critério de parada. Particionais baseados em erro quadrático O objetivo desses algoritmos é obter uma partição que minimiza o erro quadrático para um número �xo de clusters. Ex: k- médias, PAM, CLARA e CLARANS. Baseados em redes neurais As conexões das redes neurais são utilizadas para agrupar dados. Ex: SOM, GCS, SOTA, HCSOT, DGSOT. Baseados em grid O algoritmo de�ne um grid para o espaço de dados e realiza todas as operações nesse espaço. Esse tipo de algoritmo é muito e�ciente para grande conjunto de dados. Ex: CLIQUE, MAFIA, OptiGrid, STING; Baseados em densidade Assumem que os clusters são regiões de alta densidade de objetos separadas por regiões de baixa densidade, no espaço de objetos. Ex: DENCLUE, DBSCAN e Wase-cluster. Baseado em grafo Utiliza técnica baseada na teoria de grafos para agrupar dados. Ex: HSC e CLICK. Saiba mais No caso dos algoritmos hierárquicos, pode ser utilizada a abordagem aglomerativa, que começa com n clusters com um único objeto e forma a sequência de partições agrupando os clusters sucessivamente, ou a abordagem divisiva, que começa com um cluster com todos os objetos e forma a sequência dividindo os clusters sucessivamente. https://estacio.webaula.com.br/cursos/go0686/aula5.html / Associações Esse tipo de algoritmo tem o propósito de encontrar conjunto de itens que ocorram simultaneamente de forma frequente em um conjunto de dados. Os algoritmos desse tipo estabelecem regras de associação válidas no conjunto de dados, de acordo com a especi�cação dos parâmetros de suporte e con�ança mínimos. Exemplos desse tipo de algoritmo: apriori, DHP, partition, DIC. Sumarização Para realizar análise descritiva com o objetivo mapear os dados em subconjuntos, utiliza-se um algoritmo de sumarização. A sumarização pode ocorrer em diversos níveis, para fazer uma descrição compacta sobre os dados. Existem algoritmos desse tipo que utilizam operações estatísticas básicas como média, mediana, moda e desvio padrão. E algoritmos que realizam operações mais complexas como a derivação de regras de sumarização. Uma regra pode ser, por exemplo, a descoberta dos tipos de cliente por região do país. Geralmente, a sumarização é feita por algoritmos genéticos. Classi�cação Considerado por muitos pesquisadores a tarefa mais comum em mineração de dados, a classi�cação tem como objetivo utilizar atributos de um objeto para determinar a qual classe ele pertence. Os algoritmos de classi�cação necessitam de um conjunto de dados rotulados para gerar o modelo preditivo. A partir desse conjunto de dados, o algoritmo de classi�cação vai "aprender" quais combinações dos atributos estão associados com cada rótulo, gerando assim o modelo. Após essa etapa, novos registros de transações, agora não rotulados, são enviados ao modelo, que deverá gerar como resultado a predição do rótulo de cada uma delas. Algoritmos que utilizam dados rotulados na fase de treinamento do modelo são categorizados como algoritmos de aprendizado supervisionado. Os tipos mais comuns de algoritmos de classi�cação são: 01 Baseados em distância – consideram a proximidade entre dados para realizar predições. Ex: algoritmo 1-NN, algoritmo k-NN. 02 Métodos probabilísticos – muito utilizados quando os dados disponíveis são incompletos ou imprecisos. Esse tipo de algoritmo estima a probabilidade de ocorrência de um evento pela observação de como esse evento ocorre. Ex: naive bayes. 03 Baseados em procura – buscam resolver um problema, procurando possíveis soluções num espaço de hipóteses. Ex: os algoritmos de árvore de decisão ID3, ASSISTANT, C4.5 e os algoritmos baseados em regras One. 04 Baseados em otimização – realizam a busca pela hipótese que descreve os dados recorrendo à otimização de alguma função. Ex: os algoritmos de redes neurais arti�ciais back-propagation, EN, KT, LAP, M-of-N, OLS, RULEX, RuleNeg e TREPAN e algoritmos de máquinas de vetores de suporte (SVN). / Regressão Além da classi�cação, outra técnica de aprendizado supervisionado é a regressão. A diferença entre essas técnicas é que, enquanto a classi�cação tenta prever a qual classe pertence uma nova instância, a regressão busca prever um valor numérico contínuo. São exemplos de algoritmos de regressão: o algoritmo de árvore de regressão M5, o algoritmo de máquinas de vetores de suporte E-SVN. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Ferramentas de análise Clique no botão acima. / Hadoop Durante muitos anos, as organizações somente utilizavam sistemas transacionais para operacionalizar e manter seus negócios. Porém, conforme foi aumentando a necessidade de analisar seus dados, começou a busca pelo acompanhamento do histórico de acontecimentos para identi�car pontos que deveriam ser melhorados e pontos que estariam evoluindo positivamente. Inicialmente, análises simples eram feitas com ferramentas de fácil acesso como planilhas eletrônicas, por exemplo, Microsoft Excel. Posteriormente, extrações mais elaboradas começaram a ser realizadas através de consultas SQL em banco de dados relacionais. Conforme a quantidade de dados estruturados foi aumentando, eles começaram a ser armazenados em Data Warehouse para serem feitas análises de dados históricos baseadas em fatos. Com o surgimento do Big Data, novas ferramentas surgiram e alguns exemplos serão apresentados ao longo dessa seção. Apache Mahout O Apache Mahout é uma biblioteca Java com uma série de implementações prontas para serem usadas para criar aplicativos de aprendizado de máquina com desempenho e escalonável. Ela contém algoritmos para classi�cação, agrupamento, regressão entre outros que podem ser facilmente manipulados através da con�guração de parâmetros e �uxo desejado. Além disso, dispõe de suporte a vários back-ends distribuídos, incluindo o ApacheSpark. Spark Mllib A biblioteca Spark MLLib de aprendizado de máquina do Apache Spark tem o objetivo de tornar o aprendizado de máquina prático, escalonável e fácil. MLLib contém recursos para preparação de dados, vários tipos de algoritmos de análise (Ex: classi�cação, regressão, agrupamento), utilitários de persistência, além de oferecer interoperabilidade com bibliotecas R e Python. Weka O software Weka (Waikato Environment for Knowledge Analysis) foi desenvolvido pela Universidade de Waikato, localizada em Nova Zelândia, para oferecer à comunidade acadêmica uma interface grá�ca para o desenvolvimento de algoritmos de mineração de dados. Ele tem código aberto, testado e aprovado que pode ser acessado por meio de interface grá�ca, terminal ou uma API Java. É amplamente usado na área de ensino, pesquisa e industriais, por conter uma in�nidade de ferramentas integradas para tarefas de aprendizado de máquina que permitem realizar análises sem necessidade de escrever linhas de código. Além disso, Weka pode ser integrado com ferramenta R, Python e Apache Spark. R R é um conjunto integrado de recursos de software para manipulação de dados, realização de cálculos e exibição grá�ca. Para tal, conta com uma linguagem de programação bem desenvolvida, simples e e�caz que inclui estruturas condicionais, loops, funções recursivas e recursos de entrada e saída. Atualmente, o R contém um amplo conjunto de pacotes que facilitar a análise de dados de forma interativa. Python Linguagem de programação orientada a objetos e interativa que possui um conjunto de bibliotecas com diversas �nalidades, inclusive análise de dados. A biblioteca scikit-learn contém funcionalidades para pré-processamento e análise descritiva e prescritiva de dados em código aberto, tornando-se uma ferramenta acessível a todos e reutilizável em vários contextos. Outra biblioteca muito utilizada para projeto de Big Data é a Pandas. Ela tem funcionalidade para manipulação e análise de dados em diferentes formatos. As ferramentas de análise de dados disponíveis facilitam a construção de inúmeros algoritmos utilizando uma diversidade de dados. Adicionalmente, existem diversos algoritmos e funcionalidades prontas que podem ser utilizados. Entretanto, um erro cometido ou uma interpretação errada dos dados durante esse processo pode gerar resultados animadores, mas que na verdade não condizem com a realidade. / Outro fator que interfere nos resultados consiste na qualidade dos dados. Para evitar inconsistências nos resultados das análises, deve-se investir tempo em explorar os dados para identi�car problemas e tratá-los. Conforme vimos, há vários métodos automatizados de preparação dos dados, porém, como cada base de dados possui sua peculiaridade, muitas preparações precisam ser feitas manualmente, tornando essa etapa importante, etapa mais demorada e trabalhosa do processo de análise. Por esses motivos, é extremamente necessária a validação das respostas obtidas, principalmente quando se trata de grande volume de dados, em que as incoerências podem não ser claramente perceptíveis. Diversos aspectos sobre os resultados obtidos devem ser validados, tais como, as veri�cações da acurácia, con�abilidade e utilidade da hipótese. A medida de acurácia é utilizada para avaliar quão bem o modelo faz a correlação de um resultado com os atributos dos dados de entrada. Já a con�abilidade tem como objetivo avaliar como a hipótese continua válida ao ser submetida a diferentes conjuntos de dados. E a utilidade da hipótese é uma medida que avalia o quanto ela oferece informações signi�cativas ao propósito da análise. Atividades 1. As análises preditivas têm a característica de serem supervisionadas. O tipo de análise preditiva usada para identi�car categorias ou classes às quais os atributos de entrada pertencem, denomina-se: a) Regressão b) Associação c) Sumarização d) Classificação e) Agrupamento Existem diversas formas de realizar a análise dos dados, dentre elas a análise descritiva explora um conjunto de dados e como resultado provê uma descrição desses dados. Para tal, podem ser utilizadas as seguintes técnicas: a) Agrupamento e associação b) Classificação e sumarização c) Regressão e associação d) Classificação e regressão e) Sumarização e regressão / 3. A qualidade dos dados pode interferir no resultado das análises e para evitar que isso ocorra várias técnicas para pré- processamento podem ser usadas. Assinale a opção que apresenta a técnica usada para aumentar a e�ciência computacional quando um número muito grande de registros tornar o tempo de processamento muito longo. a) Integração de dados b) Transformação de dados c) Dados incompletos d) Amostragem de dados e) Dados redundantes Notas Redes neurais Redes neurais são sistemas paralelos distribuídos, compostos de unidades de processamento simples que computam determinadas funções matemáticas, sendo dispostas em uma ou mais camadas e interligadas por um grande número de conexões. Título modal 1 Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Referências Marquesone, Rosangela. Big Data: Técnicas e tecnologias para extração de valor dos dados. Editora Casa do Código, 2016. Faceli, K., Lorena, A. C., Gama, J., Carvalho, A. C. P. Inteligência Arti�cial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC, 2011. Próxima aula Estratégias para representar os dados; Ferramentas para visualização dos dados Explore mais / Para visualizar de forma divertida o poder do aprendizado de máquina para realizar análises em redes sociais, assista ao documentário “O dilema das redes” produzido no ano de 2020 pela Net�ix. Escolha algum dos conjuntos de dados disponíveis em https://waikato.github.io/weka-wiki/datasets/ e o manipule utilizando a ferramenta Weka ou qualquer outra ferramenta de análise de sua preferência. Veja as empresas Brasileiras que utilizam Python (https://python.org.br/empresas/) javascript:void(0); javascript:void(0);
Compartilhar