Prévia do material em texto
Técnicas utilizadas em ciência de dados e Big Data Apresentação A coleta e o armazenamento dos dados possibilitaram que as ferramentas de análise os recuperem e realizem a extração de conhecimento. Utilizando os contextos das redes neurais, houve grande avanço em descoberta de padrões, análise de características, classificações, predições e diversas outras atividades. Em Ciência da Computação, as redes neurais artificiais são modelos computacionais inspirados pelo sistema nervoso central humano capazes de realizar o aprendizado de máquina. O aprendizado de máquina visa a conceber um raciocínio a respeito de um conjunto de dados, compreendendo o que eles representam, e realizar inferências a partir deles. Nesta Unidade de Aprendizagem, você verá as técnicas nos processos de ciência de dados, a aplicação do aprendizado de máquina (machine learning) e os conceitos de aprendizagem profunda (deep learning). Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Reconhecer as técnicas utilizadas nos processos de ciência de dados.• Aplicar o aprendizado de máquina (machine learning).• Explicar o conceito de aprendizagem profunda (deep learning).• Desafio Os buracos existentes na camada de ozônio podem ter efeitos nocivos em humanos, animais e plantas, pois perde-se a proteção contra os raios ultravioleta irradiados pelo Sol. Assim, a camada é o "protetor solar" de toda a Terra. Suponha que você tenha sido contratado por um pesquisador para ajudá-lo na análise dos dados. Com base nesse contexto, você deve informar para o andamento das análises: a) Qual tipo de arquitetura de rede neural deve ser usada? b) Como você dividiria os dados para treinamento e teste? c) O treinamento do aprendizado de máquina será supervisionado e/ou não supervisionado? Infográfico Ao longo dos anos, as redes neurais foram sendo objeto de estudo de muitos pesquisadores, cada um tentando encontrar o que poderia e, de forma efetiva, contribuir para o contexto do aprendizado de máquina. Veja, neste Infográfico, a evolução histórica das descobertas a respeito das redes neurais. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/8066ef0b-3fad-4586-8cbb-e649f166e750/de48d271-d716-439b-9cdf-b96a87fd1f78.png Conteúdo do livro O mundo da Inteligência Artificial em suas redes neurais é fascinante e tem diversas aplicações. O seu combustível são os dados, e sua saída de aprendizagem depende da destreza do pesquisador e do profissional a executarem conforme diversos parâmetros e tratamentos. No capítulo Técnicas utilizadas em ciência de dados e Big Data, da obra Introdução à ciência de dados, você verá as técnicas utilizadas em ciência de dados, as redes neurais e os tipos de aprendizado de máquina e, ainda, conceitos de redes neurais profundas: a deep learning. Boa leitura. INTRODUÇÃO A CIÊNCIA DE DADOS Luiz Fernando Calaça Silva Técnicas utilizadas em ciência de dados e big data Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Reconhecer as técnicas utilizadas nos processos de ciência de dados. Aplicar o aprendizado de máquina (machine learning). Explicar o conceito de aprendizagem profunda (deep learning). Introdução A extração de conhecimento é um trabalho necessário diante de um conjunto de dados a serem analisados. O que eles significam e o que têm a mostrar sobre a realidade é objeto de estudo de vários pesquisadores, alunos e profissionais. Assim, há diversas técnicas baseadas em inteligên- cia artificial que podem ser aplicadas no contexto de ciência de dados, permitindo-nos observar melhor e aprender com os dados disponíveis. Dentro desse contexto estão o aprendizado de máquina (ou machine learning) e as redes neurais. Existe ainda o conceito de deep learning, um termo específico, dentro do aprendizado de máquina, que oferece maior capacidade de processamento dos dados. Essas técnicas simulam o aprendizado humano, os dados são o seu fomento para a descoberta de informações. Neste capítulo, você estudará as técnicas utilizadas em ciências de dados. Além disso, verá a aplicação do aprendizado de máquina, e lerá sobre os conceitos de aprendizagem profunda. 1 Técnicas utilizadas em ciência de dados A ciência de dados faz parte de um contexto abrangente, cujo processo é com- posto pelas fases de coleta, armazenamento, análise, descarte, processamento e visualização da informação. Com isso, os dados brutos se tornam conhecidos e podem ter esse conhecimento extraído deles. Desse modo, existem técnicas específi cas em ciência de dados que permitem o tratamento e a extração de informações. Nesse sentido, o aprendizado de máquina se refere a um contexto inteligente, capaz de obter, de forma automática, conhecimento a partir de dados. O intuito dessa técnica é simular o processo de aprendizagem humana e ter os mesmos insights que um humano teria — porém, trata-se de um conhecimento adquirido de forma artificial, por uma máquina. Atualmente, sabe-se que, para tarefas específicas, a máquina pode ser até mais eficaz e eficiente que o ser humano. Segundo Ventura (2010), as nossas funções locomotoras e sensoriais, a aprendizagem e a memória são objeto de pesquisa em inteligência artificial. Ferramentas tecnológicas são utilizadas para entender os sistemas biológicos como fonte de inspiração para o desenvolvimento de soluções. Assim, tem-se a aplicação de modelos biologicamente inspirados em áreas como engenharia, indústria, transporte, entre outras. O aprendizado de máquina tem aplicações em vários âmbitos da sociedade e pode auxiliar diversos segmentos nas suas tarefas. Além disso, como pontua Amaral (2016), a ciência de dados é composta por várias outras ciências, mo- delos, tecnologias, processos e procedimentos relacionados aos dados. Dentro do contexto do aprendizado de máquina, estão as redes neurais, que se baseiam em neurônios artificiais, em referência aos biológicos, conforme a Figura 1. As redes neurais se inspiram no funcionamento anatômico e fisiológico, a fim de se assemelhar à aprendizagem humana. Figura 1. O neurônio biológico. Fonte: Redes... (2005, documento on-line). Técnicas utilizadas em ciência de dados e big data2 Assim, técnicas em ascensão no contexto de ciência de dados e inteligência artificial estão ligadas ao uso do aprendizado de máquina e das redes neurais. Elas são baseadas na descoberta de conhecimento a partir de um conjunto de dados, que pode ser variado, contendo imagens, textos, arquivos em formato tabular, entre outros. 2 Aplicação do aprendizado de máquina Dentro do contexto matemático, temos que a indução é a forma de inferência lógica, em que podemos obter conclusões sobre um conjunto específi co de exemplos. Ela parte de um princípio inicial e o generaliza para todo o conjunto. Como se baseia em hipóteses, ela pode conter inferências errôneas e, portanto, pode não representar a verdade. Da mesma forma, podemos realizar a aprendizagem a partir de um con- junto de dados usando a indução. Segundo Monard e Baranauskas (2003), o aprendizado indutivo ocorre a partir de raciocínios e inferências sobre exemplos fornecidos ao sistema de aprendizado. O aprendizado indutivo pode ser dividido em supervisionado e não supervisionado. No aprendi- zado supervisionado, fornece-se ao algoritmo de aprendizado (ou indutor) um conjunto de exemplos de treinamento para os quais o rótulo da classe associada é conhecido. Já no aprendizado não supervisionado, o indutor analisa as amostras fornecidas e tenta verificar se elas podem ser organizadas de alguma maneira, formando agrupamentos ou clusters. Após a indicação dos agrupamentos, em geral é necessária uma análise para inferir o que cada agrupamento significa no contexto do problema. Além disso, há ainda o aprendizado por reforço, que se baseiano estado do conjunto de dados, conforme você verá na sequência. Segundo Monard e Baranauskas (2003), há diversos paradigmas de apren- dizado de máquina: o simbólico se utiliza da lógica booleana; o estatístico usa técnicas matemáticas do contexto; o genético utiliza modelos evolucionários; as redes neurais se baseiam nos neurônios artificiais. 3Técnicas utilizadas em ciência de dados e big data Aprendizado supervisionado O aprendizado supervisionado tem esse nome porque o indutor tem o objetivo de extrair um modelo de generalização a partir de dados de entrada rotulados. Assim, dado um conjunto de entrada de dados conhecidos, já se sabe qual é a saída esperada. Nesse sentido, ao enviarmos novos dados para esse indutor, que apren- deu com os dados iniciais, esperamos que ele possa compreender os novos, de acordo com os rótulos aprendidos. Por exemplo, um técnico de futebol aprende a partir de dados de times adversários; assim, quando há um novo jogo, espera-se que ele saiba manejar a sua equipe, já que conheceu previamente as jogadas do oponente. Usando técnicas do aprendizado de máquina, podemos resolver proble- mas de regressão ou de classificação. O problema de regressão (Figura 2a) ocorre quando precisamos prever o resultado em uma saída contínua. Assim, o objetivo é mapear as variáveis de entrada em uma função contínua. Já o de classificação (Figura 2b) se coloca quando estamos tentando prever o resultado em uma saída discreta. Figura 2. Problema de regressão (a) e problema de classificação (b). Fonte: Kasturi (2019, documento on-line). Os algoritmos de regressão linear, regressão logística, SVM (Support Vector Machine), KNN (K-Nearest Neighbors), árvores de decisão, Naïve Bayes, entre outros são bastante utilizados para os problemas de classificação Técnicas utilizadas em ciência de dados e big data4 e regressão. A regressão linear é uma análise que tem o intuito de gerar uma função linear para descrever a relação entre os dados, de forma que se possa estimar uma variável numérica por meio da função gerada. A regressão logística é semelhante à linear, mas a variável estimada será categórica. O SVM foi proposto por Buser et al. (1992) e utiliza o conceito de planos de decisão em um espaço multidimensional utilizando uma função kernel, que é ajustada de forma a generalizar o modelo. O KNN foi proposto por Fix e Hodges (1951), como um algoritmo simples que gera um modelo baseado nos dados e nos seus vizinhos. As árvores de decisão são um conjunto de raízes e de nós que se orga- nizam como um fluxograma de deliberações, a fim de se consolidar um modelo. Pode-se ter inúmeras árvores para um dado conjunto, ao ponto de haver famílias de árvores de decisão. Por último, o Naïve Bayes, dentro do contexto do aprendizado de máquina, tem a aplicação direta do teorema com o mesmo nome. Assim, o intuito é encontrar uma probabilidade, dado que já ocorreu algo. Para facilitar o entendimento, veja um exemplo de predição de valores imobiliários. A imobiliária Casa Nova tem, na sua base de dados, cinco mil imóveis (casas) de diferentes tamanhos. Ao receber novas casas para disponibilizá-las para aluguéis, ela faz uma estimativa do valor que poderá ser cobrado pelo tamanho da casa. Assim, na sua base, ela tem os tamanhos e os valores já praticados no mercado. Quando aparece uma casa nova, há uma estimativa baseada naquela base de dados. Nesse exemplo, temos os dados rotulados de saída dentro da base de dados. Assim, esse mapeamento será para uma saída de valores contínuos: o valor do aluguel da casa. Logo, trata-se de um problema de regressão. Para realizar a regressão, poderíamos utilizar a regressão logística, por exemplo. No exemplo anterior, você viu uma aplicação prática do aprendizado de máquina em um problema de regressão. A seguir, veja outro exemplo prático, dessa vez lidando com um problema de classificação. 5Técnicas utilizadas em ciência de dados e big data Nesse exemplo, busca-se identificar diagnósticos de tumor no pulmão ou de pneumonia. O hospital Newton Houston tem na sua base diversos raios-X de pacientes que tiveram como diagnóstico câncer no pulmão ou pneumonia. O hospital quer criar um sistema que possa aprender o diagnóstico, ao ser apresentado a novas imagens. Temos os dados rotulados de saída dentro da base de dados, e esse mapeamento será para uma saída de valores discretos: câncer (1) ou pneumonia (0). Logo, trata-se de um problema de classificação. Para realizar a classificação, poderíamos utilizar o Naïve Bayes, por exemplo. Aprendizado não supervisionado No aprendizado não supervisionado, temos um conjunto de dados não rotulados — e, portanto, o indutor não tem conhecimento inicial das classes envolvidas. Assim, dado um conjunto de entrada de dados, nós não sabemos qual é a saída esperada. Um tipo de abordagem bastante utilizado nesse contexto é o de clusterização (agrupamento), conforme a Figura 3. Nessa abordagem, ocorre o agrupamento dos dados conforme características em comum. Figura 3. Clusterização: agrupamento por características comuns que representam um grupo. Fonte: IDD (2015, documento on-line). Técnicas utilizadas em ciência de dados e big data6 Veja um exemplo em que se busca agrupar pesquisas acadêmicas de diversas univer- sidades. A equipe de ciência de dados do Governo do Estado precisa considerar os assuntos tratados pelos artigos científicos produzidos por 30 universidades residentes no seu território. O intuito é mostrar estatísticas da produção intelectual por assunto e fomentar políticas públicas para que áreas pouco exploradas possam ascender no meio acadêmico. Não temos os dados rotulados de saída dentro da base de dados. Portanto, esse mapeamento será oriundo de um possível agrupamento, por exemplo, utilizando a frequência de palavras em um artigo e o classificando para determinado assunto, se aquele conjunto for relativo a uma área do conhecimento. Assim, o algoritmo de clusterização pode atuar agrupando dados que não estão rotulados. Aprendizado por reforço e as cadeias de Markov O aprendizado por reforço é a terceira abordagem, na qual a máquina aprende tomando decisões circunstanciais e aprendendo com elas. Se tomar uma deci- são correta, recebe uma pontuação positiva (recompensa), reforçando aquele comportamento. Caso contrário, recebe uma pontuação negativa (punição), reforçando que aquela decisão foi errônea naquela circunstância. Um exemplo disso é o jogo Skiing, do antigo console Atari, como mostra a Figura 4. Nesse jogo, é necessário esquiar e evitar os obstáculos, como árvores, bandeiras e outras partes que façam o jogador perder o equilíbrio. Usando um algoritmo baseado em aprendizado por reforço, se o jogador se mover e ultrapassar o obstáculo sem se desequilibrar, então é recompensado; se cair, é penalizado. Assim, reforçam-se os comportamentos corretos e punem-se os errados, para que a máquina aprenda a ter êxito no jogo. Vale pontuar a teoria matemática das cadeias de Markov, proposta pelo matemático russo Andrey Andreyevich Markov (1856–1922), em comparação com o aprendizado por reforço. Essa teoria afirma que um caso particular do processo estocástico é caracterizado pelo fato de que o seu estado futuro depende apenas do seu estado atual — e não dos fatos passa- dos. Em resumo, os estados anteriores são irrelevantes para a predição dos estados seguintes, desde que o estado atual e as possibilidades de atuação sejam conhecidos. 7Técnicas utilizadas em ciência de dados e big data Figura 4. Jogo Atari Skiing. Fonte: OpenAi ([202-?], documento on-line). 3 Conceitos de aprendizagem profunda Os dados de entrada, os pesos e os respectivos ajustes, o bias, a função de ativação e a minimização do erro por uma função de custo são processos im- portantes das redes neurais. Nesse sentido, a teoria da perceptron acompanha fortemente o contexto. Segundo H. D. Block (1962), uma perceptron pode ser definida como um modelomatemático que recebe várias entradas que serão ponderadas por pesos. A soma desses termos será a entrada da função de ativação, que demonstra se o neurônio será ativado ou não. Ao observarmos a perceptron como o início de uma rede neural, temos os dados de entrada, sobre os quais desejamos que a rede aprenda algo. Os pesos ponderam esses dados de entrada de determinada forma. Lembrando o conceito matemático de “ponderar”, estamos dando “importâncias” para cada dado. Dentro da perceptron, temos o parâmetro bias, que é o aprendizado inicial, isto é, o ponto de onde partimos. Como mostrado na Figura 5, os dados de entrada x1 e x2 serão multiplicados pelos pesos w1 e w2, e os resultados serão somados. Há uma função de ativação f(x), que dita se aquele resultado ativa ou não ativa o neurônio. Assim, a partir dela, temos a saída da perceptron. Técnicas utilizadas em ciência de dados e big data8 Figura 5. Representação da perceptron. Fonte: Redes... (2005, documento on-line). Em 1975, Werbos realizou experimentos conectando alguns neurônios e criando camadas de vários deles, como mostra a Figura 6. Assim, o aprendizado ia sendo repassado entre eles. Imagine que cada bolinha azul na Figura 6 é uma perceptron, tendo pesos de entrada e repassando o seu sinal por meio da função de ativação até a saída. Figura 6. Várias camadas e diversos neurônios: camadas profundas (deep). Fonte: all_is_magic/Shutterstock.com. 9Técnicas utilizadas em ciência de dados e big data Nesse contexto, as redes neurais profundas (deep learning) são um sub- tópico dentro do aprendizado de máquina, e se caracterizam por conter uma quantidade de camadas e neurônios superior ao contexto de machine learning. O objetivo de se ter mais camadas é, de fato, obter uma aprendizagem mais efetiva, de forma que a rede neural consiga aprender mais características e padrões daquele conjunto de dados. Os dados são passados de camada para camada, até chegarem à sua saída. A primeira camada é a entrada, e a última é a saída — todas as camadas entre as duas são denominadas camadas ocultas. Entre cada camada, o sinal é propagado por meio da função de ativação. A aprendizagem profunda é precursora em diversas soluções das áreas de reconhecimento de fala, visão computacional, carros autônomos e diversas outras. Os conceitos de treinamento e aprendizagem de uma rede neural A rede neural consegue aprender com o erro de saída da função de ativação, ajustando os pesos para que esse erro seja minimizado. A função de custo é a responsável por minimizar o erro da saída da rede neural. Então, o intuito é fazer um movimento de ida ( forward) e um de volta (backward). Na ida, entram os dados, que são multiplicados pelos pesos iniciais. E, ao final da rede há a saída pela função de ativação. Ao chegar à saída, a rede pode ver que houve um erro e que o resultado não corresponde ao esperado. Assim, precisa fazer a volta para ajustar os pesos, até que o erro seja mínimo. Normalmente, dividimos os dados de entrada disponíveis para a aprendiza- gem de máquina em conjuntos de treino, teste e validação, e cada um participa de uma fase da rede neural. Ao realizar o treinamento, o nosso modelo pode ter um sobreajuste (overfitting), um subajuste (underfitting), ou pode ser um modelo equilibrado (balanced), conforme a Figura 7. O sobreajuste ocorre quando o modelo memoriza os dados do conjunto de treino e, portanto, não consegue predizer nada sobre novos dados que entra- rem na rede. Já o subajuste ocorre quando o modelo criado pela rede neural fica aquém do esperado e aprende muito pouco sobre os dados. O modelo equilibrado é esperado quando, a partir da etapa de treinamento, o modelo aprende sobre os dados e consegue inferir sobre dados novos que possam ser apresentados à rede neural. Técnicas utilizadas em ciência de dados e big data10 Figura 7. Gráficos que representam modelos subajustados, balanceados e sobreajustados. Fonte: Kasturi (2019, documento on-line). Os hiperparâmetros em uma rede neural Os hiper parâmetros são parâmetros de redes neurais que devem ser defi nidos antes de treinar o modelo. Eles são responsáveis pela arquitetura geral de treinamento e por variáveis que contribuem diretamente para o aprendizado de máquina. O número de neurônios, a quantidade de camadas, a função de ativação e de custo, a inicialização dos pesos e bias, a quantidade de dados de treinamento são exemplos de hiperparâmetros — e são muito importantes nos contextos das redes neurais. Os hiperparâmetros têm papel fundamental no treinamento de uma rede neural e na sua acurácia para determinado problema. Como demonstra Syarif, Prugel-Bennett e Wills (2016), a técnica do grid search pode ser utilizada para a otimização dos hiperparâmetros dentro do aprendizado de máquina. 11Técnicas utilizadas em ciência de dados e big data Os assistentes pessoais, aos quais recorremos com frequência no cotidiano, como o Google Home e o Alexa Amazon, tiveram a sua ascensão devido ao aprimoramento da inteligência artificial e, especificamente, ao uso de redes neurais recorrentes para o processamento de língua natural. Neste capítulo, você viu o comparativo entre os neurônios biológicos e artificiais, as redes neurais e os diversos tipos de aprendizado de máquina: supervisionado, não supervisionado e por reforço. Além disso, estudou também vários algoritmos e os conceitos de deep learning. AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de Janeiro: Alta Books, 2016. BLOCK, H. D. The perceptron: a model for brain functioning. Reviews of Modern Physics, v. 34, n. 1, 1962. Disponível em: https://journals.aps.org/rmp/abstract/10.1103/RevMo- dPhys.34.123. Acesso em: 5 maio 2020. IDD. Clusterização: serviços. São Paulo: [S. n.], 2015. Disponível em: http://www.inteli- genciadedados.com.br/clusterizacao/. Acesso em: 5 maio 2020 KASTURI, S. N. Underfitting and Overfitting in machine learning and how to deal with it!!! In: TOWARDS. [S. l.: s. n.], 2019. Disponível em: https://towardsdatascience. com/underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it- -6fe4a8a49dbf. Acesso em: 5 maio 2020. MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicações. Barueri: Manole, 2003. OPENAI. Skiing-ram-v0. [S. l.: s. n., 202-?]. Disponível em: https://gym.openai.com/envs/ Skiing-ram-v0/. Acesso em: 5 maio 2020. REDES neurais artificiais. In: LET’S CODE. São Paulo: [S. n.], 2005. Disponível em: https:// letscode-academy.com/blog/redes-neurais-artificias/. Acesso em: 5 maio 2020. SYARIF, I.; PRUGEL-BENNETT, A.; WILLS, G. SVM parameter optimization using grid search and genetic algorithm to improve classification performance. Telkomnika, v. 14, n. 4, 2016. Disponível em: http://journal.uad.ac.id/index.php/TELKOMNIKA/article/ view/3956/3028. Acesso em: 5 maio 2020. Técnicas utilizadas em ciência de dados e big data12 VENTURA, D. F. Um retrato da área de neurociência e comportamento no Brasil. Psi- cologia: Teoria e Pesquisa, v. 26, 2010. Disponível em: https://www.scielo.br/scielo. php?script=sci_abstract&pid=S0102-37722010000500011&lng=pt&nrm=iso&tlng=pt. Acesso em: 5 maio 2020. FIX, E.; HODGES, J. L. Discriminatory analysis, nonparametric discrimination: Consis- tency properties,” Technique Report No. 4, U.S. Air Force School of Aviation Medicine, Randolf Field Texas, 1951 13Técnicas utilizadas em ciência de dados e big data Dica do professor O aprendizado de máquina pode ser aplicado em diversos contextos, seja na indústria, no comércio, no governo e nas empresas. Sua aplicação na aprendizagem de determinado contexto, a partir dos dados, tem sido utilizada em diversas pesquisas, e há excelentes avanços. Nesta Dica do Professor, você verá a aplicação do aprendizado por reforço em diferentes segmentos. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código paraacessar. https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/9f7205e43a169e9f0b2226f1746baee5 Exercícios 1) O machine learning pode ser usado como uma tecnologia para identificar transações que podem ser fraudulentas. Uma instituição que faz operações de crédito precisa analisar se um novo cliente tem potencial de tornar-se inadimplente; assim, utiliza-se de uma base que contém dados de transações bancárias de 5 mil clientes dos últimos cinco anos, em que há a informação completa de financiamentos, cartões de crédito e compras realizadas e, ainda, se houve dívidas não pagas. Nesse contexto, pode-se afirmar: A) Utilizar algoritmos com a aprendizagem não supervisionada será uma boa estratégia para o problema; assim, podem-se agrupar os clientes. B) O problema tem uma base catalogada, e, assim pode-se utilizar o aprendizado supervisionado e, ainda, o algoritmo Naive Bayes ou SVM na classificação. C) Poderia ser desenvolvido um software em que haveria a recuperação dos dados por meio do SQL e a emissão de um relatório para a tomada de decisão. D) A base não está catalogada, já que não está definido se o cliente tem bom ou mau potencial; então, haverá o descarte parcial dos dados. E) O problema é de regressão, e pode-se utizar tanto o aprendizado supervisionado como o não supervisionado. 2) No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na indústria petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro por pessoas, em que o padrão não é gravado, pois é somente manipulado por uma pessoa. Ao falar do contexto da aprendizagem de máquina, o que pode ser aplicado? A) Dado que os dados oriundos desse processo são abundantes, mas não rotulados, pode-se utilizar o aprendizado não supervisionado e, assim, garantir a eficácia do procedimento. B) Os algoritmos de regressão linear e regressão logística poderiam ser utilizados nesse contexto. No entanto, os dados deveriam ser devidamente mapeados. C) Pode-se aplicar o aprendizado por reforço, pois, a cada ação da mão perfuradora, recompensa-se ou pune-se a fim de que tenha um padrão para o encontro de combustível. D) Não cabe o contexto do aprendizado de máquina, já que o sentido seria o de desenvolver um sistema comum com um banco de dados relacional, armazenar os dados atuais e realizar a geração de dashboards. E) O aprendizado de máquina supervisionado e a utilização de um algoritmo de classificação comporiam a metodologia nesse segmento. No entanto, o treinamento seria longo. 3) No contexto do jornalismo, são produzidas diversas notícias sobre diferentes assuntos. Ao analisar a ciência de dados e o contexto da classificação, verifica-se que nas notícias não são, comumente, informadas a sua temática. Caso se quisesse saber quantas notícias tivessem sido publicadas sobre o governo, economia, indústria, pessoas ou quaisquer outras, tal informação não seria acessível. A partir desse contexto e da ciência de dados, poderia ser aplicado o aprendizado de máquina, a fim de organizar uma estatística de temáticas que os meios de comunicação produzem. Indique a alternativa que apresenta uma solução para esse contexto: A) Pode utilizar o algoritmo Random Forest dentro do aprendizado supervisinado, a fim de concebermos as temáticas. B) Como não há a rotulação das notícias, pode-se aplicar o algoritmo K-means e, então, primeiramente organizar as notícias em grupos. C) O aprendizado não supervisionado não cabe ao contexto, pois os dados não estão rotulados. D) Não se pode avançar nesse contexto, pois não há informações pertinentes para que se possa realizar o aprendizado de máquina. E) Como é um problema de regressão, devem-se organizar os dados de forma a conduzir o modelo para uma função contínua. 4) Dentro da deep learning, há inúmeras camadas de neurônios interconectados. Eles são utilizados para realizar a aprendizagem dos dados de entrada. Dentro desse contexto, têm- se as redes convolucionais, que extraem características de imagens e, posteriormente, realizam o processo de classificação por alguns neurônios. Dado que uma base A contém fotos de gatos e uma base B contém fotos de cachorros, o que pode ser afirmado se fotos de hipopótamo forem apresentadas a essa rede já em produção? A) Ela afirmará que há uma porcentagem alta próxima dos cachorros, por terem características semelhantes, como a orelha e pelos. B) Não reconhecerá, sequer parcialmente, por não ter sido usada a técnica de aprendizado supervisionado. C) Para a devida acurácia, seria necessário retreinar a rede com as imagens de hipopótamos. D) Não é possível extrair características de diferentes animais, já que há limitação de camadas de neurônios. E) Faz-se necessário criar uma rede exclusiva para a identificação de somente um animal. 5) O treinamento de uma rede neural profunda é parte importante no processo de aprendizagem. Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos dados consiste na divisão deles em amostras de treino, teste e validação. Dado que uma base A contém 5 milhões de dados sobre câncer de pele, classificados como benigno e maligno, e que 20% desse conjunto de dados não está rotulado, em relação à divisão referida, o que se pode afirmar? A) Os 20% não rotulados poderiam ser utilizados para a aprendizagem não supervisionada. B) Os dados não rotulados poderiam ser usados para validação e teste, e os rotulados, para o treinamento. C) Pode-se afirmar que não há quantidade suficiente de dados para realizar o treinamento inicial. D) Os dados não rotulados têm a prioridade de serem encontrados primeiro, a fim de, posteriormente, realizarem o treinamento. E) Para o treinamento inicial, basta obter 0,1% dos dados não rotulados, e, assim, será realizada a primeira parte. Na prática As redes neurais podem ser utilizadas para realizar a aprendizagem de máquina em determinado contexto. O neurônio biológico tornou-se artificial e, agora, pode ser implementado em computadores. Acompanhe, Na Prática, o uso da Inteligência Artificial para o contexto da segurança e permissão de acesso a locais específicos. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/781f8126-0c0e-4878-8eaa-b8ec92ce6776/503b698f-c23b-4ec6-9fce-00f397101f2a.png Saiba + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Deep learning: do conceito à execução Neste vídeo, veja conceitos iniciais sobre a aplicação da deep learning pelas diversas empresas no mundo. Veja códigos em Python e o treinamento utilizado em diversas camadas. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Análise de imagens e machine learning utilizando Python e OpenCV A palestrante e professora Paula Santos trabalha com análise de imagens de tumores em crianças utilizando Inteligência Artificial, a fim de melhorar o tratamento. Neste vídeo, ela fala sobre o uso do Python e da biblioteca OpenCV para aplicar os conceitos de redes neurais para a análise de imagens. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil Este artigo aborda o contexto do aprendizado de máquina utilizado para o bem da sociedade na área de saúde em doenças que acometem idosos. https://www.youtube.com/embed/KIvB5LFbA0w https://www.youtube.com/embed/Goy2p0tMXcI Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Recuperação de informação — conceitos e tecnologia das máquinas de busca No capítulo 7, Classificação de textos, você poderá acompanhar que, dentro do aprendizado de máquina em Inteligência Artificial, há estudos relacionados à análise textual, permitindocompreender padrões e predições, realizar a análise de sentimentos, entre outros aspectos. Conteúdo interativo disponível na plataforma de ensino! https://www.scielosp.org/pdf/csp/2019.v35n7/e00050818/pt?v=1003201451