Baixe o app para aproveitar ainda mais
Prévia do material em texto
TECNOLOGIA DA INFORMAÇÃO Aprendizagem de Máquina Livro Eletrônico 2 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Sumário Apresentação .....................................................................................................................................................................3 Aprendizagem de Máquina .........................................................................................................................................4 inteligência Artificial .....................................................................................................................................................4 iA, ioT, Big data .................................................................................................................................................................5 iA e a ciência de dados .................................................................................................................................................6 iA nas organizações .......................................................................................................................................................7 ferramentas de iA ........................................................................................................................................................ 10 exemplos de Uso de iA nas organizações Públicas ................................................................................. 10 inteligência computacional .....................................................................................................................................12 Aprendizado de Máquina/Machine learning) ...............................................................................................13 Visão geral .........................................................................................................................................................................13 exemplos de Aplicações do Machine learning ............................................................................................16 Tipos de Aprendizado de Máquina .......................................................................................................................16 overfitting (Sobreajuste) e Underfitting (Sub-Ajuste) em Machine learning ..........................19 Visão geral dos Algoritmos de Machine learning ....................................................................................23 Técnicas e etapas de construção do Modelo de Machine learning ................................................31 resumo ...............................................................................................................................................................................35 Questões comentadas na Aula .............................................................................................................................40 Questões de concurso ...............................................................................................................................................42 gabarito ..............................................................................................................................................................................46 gabarito comentado ...................................................................................................................................................47 referências ....................................................................................................................................................................... 59 O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 3 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão ApresentAção Olá, querido (a) amigo (a), meus cumprimentos! Que tal buscarmos inspiração na ÁGUIA! Em nossas vidas, muitas vezes temos que nos resguardar por algum tempo para dar início ao difícil processo de renovação, arrancando as velhas e pesadas penas, desprendendo de nossos vícios, conscientes do caminho a percorrer para enfrentar os desafios vindouros. Temos difíceis escolhas no decorrer de nossas trajetórias, no entanto, ao final, vale todo o sacrifício! Lembre-se sempre de que a LIBERDADE é uma conquista, o SUCESSO é um prêmio e a RENOVAÇÃO é o ÚNICO CAMINHO PARA SE CHEGAR AOS NOSSOS OBJETIVOS! Rumo então à aula que contempla os principais tópicos relacionados à Aprendizagem de Máquina. Em caso de dúvidas, acesse o fórum do curso ou entre em contato. Um abraço. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 4 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão APrendiZAgeM de MÁQUinA IntelIgêncIA ArtIfIcIAl A inteligência artificial, geralmente referenciada pelas siglas IA (em português) e AI (em inglês), é um campo de estudo que engloba várias outras ciências, como estatística, matemática, computação etc. Assim, a IA é uma área bem ampla, cujo objetivo é desenvolver ferramentas para máquinas desempenharem tarefas como se um ser humano as estivesse executando, o que é bem complexo para uma máquina. É muito comum encontrar nos meios de comunicação notícias para o grande público utilizando definições imprecisas do termo, como algo do tipo: “Inteligência artificial prevê câncer de mama cinco anos antes” (GALILEU, 2019). Esse tipo de informação dá uma ideia de senso comum de que a IA é apenas uma técnica ou uma ferramenta por si só, e não uma área de pesquisa. A finalidade do campo de estudo de IA é a realização de tarefas que, apesar de serem simples para seres humanos, são bem complexas para os computadores. Por exemplo, um ser humano não tem dificuldades em diferenciar um gato de um cachorro. Isso porque na fase de aprendizados, no início da sua vida, o ser humano aprendeu a perceber que esses animais são diferentes. Mas imagine uma pessoa que não conheça nem gato e nem cachorro e tente explicar para essa pessoa como é um gato. Se você utilizar a seguinte definição: possui quatro patas, duas orelhas, dois olhos, um focinho, uma boca e tem pelos, isso não ajudará essa pessoa a diferenciar um cachorro de um gato. Você precisa explicar justamente as características que visualmente diferem um gato de um cachorro. Figura 2. Fonte:(https://blogs.correiobraziliense.com.br/maisbichos/ caes-e-gatos-podem-ser-melhores-amigos/) O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 5 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Isso dá uma ideia de como é complexo criar um programa de computador para fazer a distinção entre gatos e cachorros, utilizando imagens desses animais, que fornecem as informações estruturadas, tais como quantidade de membros, formato ou cor. E o programa precisa através da análise dessas informações conseguir diferenciar esses animais. Esse é o objeto de estudo pela ciência da inteligência artificial: desenvolver programas que executam tarefas automaticamente, sem interação doser humano, mas cujo resultado se assemelha ao que o ser humano faria. Portanto, a inteligência artificial é um campo de estudo que se caracteriza por métodos computacionais que simulam a capacidade humana de raciocinar, perceber, tomar decisões e resolver problemas, ou seja, a capacidade de ser inteligente. Em resumo, IA pode ser definida como “tecnologia capaz de executar tarefas específicas tão bem quanto, ou até melhor, que nós humanos conseguimos” (DATA BRIDGE BRIGADE, 2016). Figura. Fonte: (https://nossaciencia.com.br/colunas/inteligencia-artificial/) O exemplo de diferenciar um gato de um cachorro é caracterizado como um problema de classificação. E problemas de classificação são apenas uma das aplicabilidades de técnicas de IA. Além disso, para solucionar alguns problemas, a área de inteligência artificial precisa trabalhar com conceitos de outras áreas de pesquisa como por exemplo, processamento de linguagem natural, visão computacional etc. IA, Iot, BIg DAtA Atualmente, produzimos uma enorme quantidade de dados de forma não estruturada, e tal produção não se limita a documentos de escritório ou arquivos multimídia, como fotos ou vídeos. A popularização dos dispositivos móveis, de sensores conectados, conhecidos pelo termo internet das coisas (IoT), ampliou de forma exponencial a produção de dados por pessoas comuns. Por isso, estima-se que o tamanho do universo digital se duplica a cada dois anos, abrindo um mundo de possibilidades para empresas e consequentemente para uso e aprimoramento de algoritmos inteligentes. Por exemplo, quando fazemos uma compra com o cartão de crédito, ou fazemos uma busca por um produto na Web ou no smartphone, todos esses dados são armazenados e tratados com algoritmos poderosos para, por exemplo, nos sugerir alguma O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 6 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão promoção de algum produto que “coincidentemente” está em um estabelecimento entre sua casa e seu trabalho. Para se ter uma ideia, o Facebook gera mais de 500TB de dados a cada 24 horas (CANALTECH,2012), o aplicativo do Google, Waze, quando ligado no smartphone, coleta um ponto do GPS do motorista a cada 10 metros ou 1 segundo (FOLHA UOL, 2019). Por conta disso, surgiu a área de Big Data (Grandes dados, em português), que é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de grandes conjuntos de dados, impossíveis de serem analisados por sistemas tradicionais (WIKIPEDIA, 2021). Tais conjuntos de dados requerem sistemas de informação especializados para tratamento. Sistemas criados utilizando técnicas de IA conseguem fazer uso desses dados de maneira bastante efetiva, o que se tornou essencial nas relações econômicas e sociais e representou uma evolução nos sistemas de negócio e na ciência. Tais ferramentas são de grande importância no meio corporativo na definição de estratégias de marketing, aumentar a produtividade, reduzir custos e tomar decisões mais inteligentes. E os avanços tecnológicos acontecem em ritmos cada vez mais rápidos, difícil até de acompanhar. Por exemplo, a NEC Corporation (WIKIPEDIA, 2020) “já tem utilizado em sua sede em Tóquio, um sistema de pagamento por meio de reconhecimento facial, que debita as despesas feitas na cafeteria da empresa, diretamente na conta do funcionário sem nenhum toque. Neste caso, a face é a chave utilizada para a realização da operação. A identificação da face também está sendo empregada pelo banco taiwanês E.Sun, nos ATMs da rede, juntamente com a utilização do sistema de QR Code. As operações são autenticadas sem que o cliente precise tocar no caixa eletrônico em nenhum momento” (NEC, 2021). Para isso, os sistemas criados utilizam técnicas de IA, não só para coletar os dados, mas fazer uso deles de forma efetiva. IA e A cIêncIA De DADos Como vimos anteriormente, o avanço da tecnologia permitiu a criação e armazenamento de quantidades crescentes de informações. É o que chamamos de Era da Informação (FIA, 2019). O mundo está se tornando cada vez mais “data driven” - orientado por dados, ou seja, o volume dos dados armazenados cresce a cada hora do dia, embutindo uma riqueza de informações que pode trazer benefícios transformadores para organizações e sociedades como um todo, de modo que não é mais possível tomar uma decisão correta sem analisar um volume gigantesco de informação disponível. Entre estas informações podemos citar aquelas úteis para a otimização e o direcionamento de estratégias, para a compreensão das tendências do cenário econômico e de seus reflexos no mercado, assim como informações relevantes para conhecer a percepção dos consumidores em relação à marca, ou para fazer uma previsão do potencial de vendas, lucros ou prejuízos, etc. O problema é que estamos falando de tanta informação, que excede a capacidade de processamento dos seres humanos. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br https://fia.com.br/blog/era-da-informacao/ 7 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Portanto, para ter acesso a essas informações, precisamos interpretar esses dados, que estão armazenados em bancos de dados e data lakes1. É aí que entra um dos campos de estudo interdisciplinar, que apesar de existir há 30 anos, ganhou mais destaque nos últimos anos devido ao surgimento e popularização de grandes bancos de dados e o desenvolvimento de áreas como aprendizagem de máquina (em inglês machine learning), se tornando muito promissor hoje em dia: a Ciência de Dados (ORACLE, 2021). Ciência de Dados (em inglês: Data Science) é uma área interdisciplinar que combina métodos das áreas de matemática, estatística, ciência da computação e engenharias, voltada para o estudo e a análise de dados econômicos, financeiros e sociais, estruturados e não- estruturados, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de novas informações para possíveis tomadas de decisão, ou seja, envolve conhecimentos de economia e administração de forma geral (CIÊNCIA E DADOS, 2021). A ciência de dados engloba técnicas como mineração de dados, visualização de dados, análise de dados e aprendizagem de máquina, buscando extrair informações a partir dos dados, mais precisamente, do Big Data. O Big Data mudou a forma como gerenciamos, analisamos e aproveitamos dados em qualquer indústria. E um cientista de dados não consegue fazer milagres, mas consegue dar acesso a um conjunto de informações para que uma empresa tome decisões assertivas, o que impacta diretamente no futuro e sucesso de um negócio. IA nAs orgAnIzAções No mundo corporativo, as empresas recebem dados e informações a todo momento. Sejam de fornecedores ou de clientes, estes dados ficam disponíveis para análise. Saber extrair informações valiosas contidas neles é um diferencial para a empresa e, ferramentas que têm como base a inteligência artificial conseguem compilar dados de uma maneira bem mais eficiente do que um ser humano (STEFANINI, 2021). Por isso, os últimos anos têm sido marcados pelo uso de análise de dados e Inteligência Artificial nas empresas, independentemente do seu perfil de negócio. Ferramentas como essas estão sendo empregadas para potencializar os resultados, aumentar a produtividade e economizar tempo nas empresas, além de auxiliar profissionaisa evitarem fraudes, terem aplicações mais eficientes e criarem uma infraestrutura de TI cada vez mais confiável, apoiando processos comerciais e proporcionando a otimização de atividades do dia a dia. Nos últimos tempos, a IA deixou de ter uma aura de “ficção científica” e passou a fazer parte do dia a dia de um gigantesco número de pessoas, no Brasil e no mundo. Apesar dos desafios que a adoção de novas tecnologias impõe ao empreendimento, a IA deve ser vista como um investimento estratégico. Soluções que possuem funcionalidades 1 O termo “data lake” (“lago de dados”, em português) foi criado por James Dixon, CTO da Pentaho. É apropriado descrever esse tipo de repositório como um lago porque ele armazena um conjunto de dados em seu estado natural, como um corpo d’água que não foi filtrado ou contido. Os dados fluem de diversas fontes para o lago e são armazenados no formato original (REDHAT,2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br https://pt.wikipedia.org/wiki/L%C3%ADngua_inglesa https://stefanini.com/pt-br/trends/artigos/aplicacoes-da-inteligencia-artificial-no-dia-a-dia 8 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão baseadas em Inteligência Artificial podem otimizar com mais eficácia o ambiente corporativo e causar um impacto maior nos índices de vendas. Dessa forma, a empresa pode manter-se eficaz e pronta para lidar com as demandas de clientes e parceiros comerciais. As possibilidades do uso de Inteligência Artificial no mundo empresarial são infinitas, como por exemplo: implementar ferramentas de colaboração que usam a Inteligência Artificial; fazer uso de ferramentas que usam a IA para a segurança de dados. A Inteligência Artificial é uma aliada indispensável quando se trata de procurar por buracos nas defesas da rede de computadores da empresa, elevando a segurança da informação a outro patamar; aplicar a gestão de mudança para os funcionários adaptarem-se rapidamente ao novo ambiente etc. Diferentemente de um software convencional, soluções que exploram a inteligência artificial conseguem “aprender” a melhorar o próprio serviço a que se destinam. Soluções artificialmente inteligentes aumentam a performance, otimizam o cotidiano operacional e proporcionam mais tempo para cuidar da estratégia da empresa. E esse ferramental tecnológico não está acessível apenas para grandes empresas, com orçamentos milionários e alto poder de investimento, pois também é realidade para pequenas e médias empresas, causando uma revolução digital nos negócios, moldando processos e ajudando no desenvolvimento de produtos cada vez mais personalizados (MJV, 2019). Essa tecnologia alterou a maneira de fazer negócios em diversos segmentos do comércio, da indústria e do varejo. Algumas principais vantagens das aplicações de Inteligência Artificial nas empresas (MJV, 2019): • aumento da produtividade: Essa tecnologia tende a aumentar a produtividade de muitos cargos. A expectativa, segundo dados divulgados no Blog da LG, é economizar 6,2 bilhões de horas de atividades; • redução da chance de erros nos processos: atividades que apresentam maior índice de falhas humanas devem ser repassadas para a IA a fim de diminuir essas ocorrências, como por exemplo: tirar pedidos de vendas, enviar solicitações de estoque, analisar materiais específicos, como vídeos e traduções etc.; • automação dos processos: facilitar as atividades rotineiras e aprender os recursos preferidos pelos usuários, tornando os dados mais acessíveis para que as tomadas de decisão sejam acertadas; • melhoria do relacionamento com o cliente (Marketing): solucionar problemas com agilidade e antecipar futuras compras. A experiência do cliente é aprimorada, o que tende a aumentar as vendas. Além disso, a IA torna as plataformas de gerenciamento de relacionamento com o cliente (CRM) mais potentes e precisas, pois é possível com o autoaprendizado personalizar o atendimento com o intuito de fidelizar o consumidor. Impactar seus clientes com a mensagem ideal, no momento certo de sua jornada de O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br https://www.qinetwork.com.br/entenda-a-importancia-de-usar-ferramentas-colaborativas-na-empresa/ https://blog.leucotron.com.br/aumente-produtividade-em-ti-de-sua-empresa/ https://www.lg.com.br/blog/inteligencia-artificial-revolucionar-negocio/ https://blog.leucotron.com.br/treinamento-de-vendas-dicas-para-fechar-negocio-via-telefone/ 9 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão compra, faz toda a diferença na hora de desenvolver uma campanha publicitária para o lançamento de um novo produto. Ao entender o que os clientes precisam, é possível ser mais competitivo e melhorar a experiência de compra para o lado deles; • modernizar serviços financeiros: Bancos já trabalham para integrar IA em operações bancárias regulares, como empréstimos hipotecários e suporte aos clientes. Chatbots fornecem informações sobre gastos, cartões de crédito, ajudam nas transações cotidianas e também fornecem respostas a perguntas frequentes. Embora percebam a importância da Inteligência Artificial, as organizações ainda enfrentam desafios para implementá-la, principalmente de natureza funcional, como, capacitar força de trabalho para acelerar sua adoção, avaliar e resolver problemas de privacidade e segurança, otimizar a governança e etc. É certo que os efeitos da IA serão ampliados nas próximas décadas, por isso é preciso: • integrar inteligência humana e inteligência artificial para que elas tenham uma coexistência bem-sucedida e reforcem o papel das pessoas como motores do crescimento; • garantir que os relacionamentos entre startups, grandes empresas, pesquisadores acadêmicos, agências governamentais e outras partes sejam regulares e intensos; • atualizar a legislação relevante por meio de leis que possam ser adaptadas e se aperfeiçoem de forma “automática” para eliminar a lacuna entre a velocidade da evolução tecnológica e a resposta regulatória a ela; • debates éticos para a IA precisam ser complementados por padrões mais tangíveis e melhores práticas no desenvolvimento de máquinas inteligentes; O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 10 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão • os formuladores de políticas precisam tomar ações preventivas para limitar os riscos que a inteligência artificial poderia representar para os setores e regiões mais vulneráveis. ferrAmentAs De IA É uma biblioteca de código aberto utilizada para a criação de modelos de aprendizado de máquina. Amazon SageMaker Neo É um dos componentes do Amazon SageMaker, serviço provido pela Amazon para criação, treinamento e implantação de modelos de aprendizagem de máquina. A ferramenta tem como objetivo a otimização de modelos para a execução em nuvem ou em dispositivos de borda. O Scikit-learn é um conjunto de ferramentas em Python de aprendizagem de máquina a partir de algoritmos supervisionados e não supervisionados. PyTorch é mais uma opção de bibliotecade deep learning baseada em Python, construída com foco na flexibilidade e modularidade. O framework foi disponibilizado em 2016 pelo Facebook, sendo rapidamente adotado pela comunidade científica e, mais recentemente, pelo meio empresarial em geral. Theano é uma biblioteca Python criada pela Universidade de Montreal para computação científica. A biblioteca permite a definição, otimização e análise de expressões matemáticas envolvendo matrizes multidimensionais de forma eficiente. Keras é uma API de redes neurais escrita em Python que busca simplificar ao máximo o processo de codificação de redes neurais, diminuindo a curva de aprendizado`. exemplos De Uso De IA nAs orgAnIzAções púBlIcAs 1) Em 2019, a Secretaria do Tesouro Nacional criou a atendente virtual Jacque, baseada em tecnologias de inteligência artificial para o Siconfi, portal de informações contábeis da Administração Pública federal (Enap,2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 11 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Logo do Siconfi e mensagem inicial da atendente virtual Jacque. 2) Em 2019, o Ministério da Economia lançou dois serviços de atendimento virtual por meio de chatbots: • a Isis, que responde dúvidas da plataforma +Brasil, e • a Lia, para esclarecimento de dúvidas do Comprasnet (ENAP,2020). 3) O Zello, desenvolvido pelo Tribunal de Contas da União, é mais um exemplo de utilização de chatbot na Administração Pública. A ferramenta funciona pelo aplicativo WhatsApp e permite efetuar consultas sobre contas irregulares, processos e emissão de certidões do TCU (ENAP,2020). 4) Projeto Malha Fina de Convênios, da Controladoria Geral da União, para a análise de prestações de contas dos convênios e contratos de repasses firmados pelo governo federal por meio do sistema Siconv (Enap,2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 12 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 5) A Secretaria de Segurança Pública e Defesa Social (SSPDS) do estado do Ceará desenvolveu o Sistema Policial de Indicativo de Abordagem (Spia). Utilizando câmeras de segurança espalhadas pelo estado, algoritmos de reconhecimento realizam a identificação de pessoas procuradas e o rastreamento de veículos com queixa, a partir da leitura das placas dos automóveis (ENAP,2020). 6) O Conselho Administrativo de Defesa Econômica (Cade) desenvolveu o Projeto Cérebro, que, por meio de mineração e cruzamento de dados, permite a identificação de possíveis cartéis em licitações. Iniciado em 2013, os indícios identificados por ele já apoiaram operações da Polícia Federal (ENAP,2020). IntelIgêncIA compUtAcIonAl A Inteligência Computacional é um ramo da área de Inteligência Artificial/IA), com o objetivo de investigar e simular aspectos da cognição humana: percepção, raciocínio básico e complexo, aprendizado etc. (POSITIVOTECNOLOGIA, 2020). Então tem como particularidade o olhar sobre quem é esse agente das decisões, buscando reproduzir suas estratégias para solucionar problemas. Obs.: � A Inteligência Computacional é também conhecida pelos termos Computação Bio- -Inspirada, Computação Natural e Soft Computing. Veja a seguir algumas técnicas da Inteligência Computacional (POSITIVOTECNOLOGIA, 2020): O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 13 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão • Lógica Fuzzy (ou nebulosa): abordagem lógica que considera qualquer número real entre 0 e 1, opondo-se à booleana ou binária; • máquinas de vetores de suporte: método que identifica padrões por meio de análises como a classificação de regressão; • aprendizagem de máquina (Machine Learning): investiga estratégias para que um software proponha soluções e faça análises sobre os resultados para desenvolver outros métodos ainda mais eficientes; • aprendizagem profunda (Deep Learning): método similar ao Machine Learning, mas que adota padrões de análise baseados em diversas camadas de dados, potencializando a identificação. Obs.: � Inteligência computacional é um conjunto de métodos e(ou) técnicas que procura desenvolver sistemas dotados de comportamento semelhante a certos aspectos do comportamento inteligente. Esses e outros métodos podem ser aplicados de diferentes formas, cada um levando em conta o objetivo que se deseja alcançar. AprenDIzADo De máqUInA/mAchIne leArnIng) VIsão gerAl Machine Learning, ou Aprendizado de Máquina, é uma subárea da Inteligência Artificial (IA) e da Ciência da Computação que se concentra no uso de dados e algoritmos para imitar a forma como os humanos aprendem, melhorando gradativamente sua precisão (DATASCIENCEACADEMY, 2022). Machine Learning é um método de análise de dados que busca a automatização do desenvolvimento de modelos analíticos (MACHADO, 2018, p.142). Obs.: � Trata-se de uma representação que tem como objetivo criar um modelo (ou seja, uma representação dos relacionamentos existentes nos dados por meio de uma fórmula matemática), a partir de dados históricos para generalizar decisões (ENAP, 2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br https://www.meupositivo.com.br/panoramapositivo/machine-learning/ https://www.meupositivo.com.br/panoramapositivo/deep-learning/ 14 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. O Que é Machine Learning (DATASCIENCEACADEMY, 2022) O diagrama seguinte, extraído de DATASCIENCEACADEMY (2022), ajuda a explicar bem esse conceito. Conforme visto, é possível aplicar a Inteligência Artificial (IA) - ciência capaz de mimetizar (imitar) as habilidades humanas - através de uma série de técnicas diferentes. Uma dessas técnicas é a ML (Machine Learning - Aprendizado de Máquina), que se baseia na ideia de que os sistemas podem aprender com dados, identificar padrões e tomar decisões com o mínimo de intervenção humana. Nesse contexto, um programa de computador aprende com uma experiência e passa a executar uma tarefa com melhor desempenho. Figura. O que é Machine Learning (DATASCIENCEACADEMY, 2022) O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 15 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão ML não é mineração de dados, mas usa os padrões descobertos para aprender. E, relacionados à Machine Learning, tem-se várias categorias de algoritmos de que podem ser utilizados. Deep Learning (ou Aprendizado Profundo) éum deles, sendo considerado como um subconjunto do aprendizado de máquina que usa redes neurais com muitas camadas para aprender sobre uma grande variedade de dados. Ele permite resolver problemas bastante complexos (como por exemplo visão computacional e processamento de linguagem natural). Obs.: � A capacidade de aplicar automaticamente cálculos matemáticos complexos a Big Data é um desenvolvimento recente decorrente das tecnologias de processamento paralelo mais atuais e dinâmicas, como o Haddop (MACHADO, 2018, p.143). Conforme Machado (2018), usando algoritmos que aprendem interativamente a partir de dados, por meio de um processo repetitivo, Machine Learning permite que os computadores, ao aplicar modelos preditivos, que permitam analisar dados maiores e mais complexos, encontrem insights ocultos sem serem explicitamente programados para procurar uma informação oculta específica. “A existência de um aspecto interativo do aprendizado de máquinas tem como característica, conforme os modelos são expostos a novos dados, seus algoritmos serem capazes de se adaptar de forma independente e realizar correções”, destaca Machado (2018, p.142). Assim, o autor ainda cita que eles aprendem com os cálculos anteriores as modificações necessárias no tratamento dos dados, para produzir decisões e resultados mais rápidos, confiáveis e reproduzíveis. O resultado? Previsões de alto valor e completamente inesperadas, que poderão levar a melhores decisões e ações inteligentes em tempo real sem a intervenção humana (MACHADO, 2018). 001. (CESPE/ANP/2022) As aplicações em inteligência artificial são definidas como uma subárea da área de aprendizagem de máquina/machine learning). É justamente o contrário! Machine Learning, ou Aprendizado de Máquina, é uma área de estudo que busca dar aos computadores a habilidade de aprender sem serem programados explicitamente. Segundo artigo da Data Science Academy (2018), “a aprendizagem de máquina é um subconjunto da inteligência artificial (IA), o segmento da ciência da computação que se concentra no uso de dados e algoritmos para imitar a forma como os humanos aprendem, melhorando gradativamente sua precisão (DATASCIENCEACADEMY, 2022). Errado. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 16 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão exemplos De AplIcAções Do mAchIne leArnIng Vamos então a alguns exemplos de aplicações em que se faz uso de Aprendizado de Máquina (MACHADO, 2018): carros autônomos da Google que dirigem sozinhos; • ofertas de recomendações on-line, como as da Amazon e da Netflix; • saber o que os clientes estão dizendo sobre você no Twitter. Aqui o aprendizado de máquina é combinado com a criação de regra linguística; • detecção de fraudes (Por exemplo, para prever se uma transação realizada com determinado cartão de crédito é fraudulenta. Isso já ocorreu comigo, e a operadora identificou o comportamento fora do padrão (Ela fez uso da técnica de detecção de outliers, por exemplo) no uso do cartão, e o bloqueou no exato momento em que a compra estava sendo realizada);etc. tIpos De AprenDIzADo De máqUInA Os principais tipos de aprendizado de máquina são apresentados a seguir. Figura. Tipos de Aprendizado de Máquina (QUINTÃO, 2023) a) Aprendizado Supervisionado • Abordagem mais comum de aprendizado de máquina. • Existe um supervisor ou professor responsável por treinar o algoritmo. • O supervisor conhece de antemão o resultado (rótulo/classe) e pode guiar o aprendizado mapeando as entradas em saídas por meio do ajuste de parâmetros em um modelo capaz de prever rótulos desconhecidos. • Algoritmos de aprendizado supervisionado são realizados usando exemplos rotulados, como uma entrada em que a saída desejada é conhecida. Exemplo: uma peça de equipamento pode ter pontos de dados rotulados com “F” (com falha) ou “R” (em funcionamento)” (MACHADO, 2018, p.147). • O algoritmo de aprendizagem recebe um conjunto de entradas junto com as saídas corretas correspondentes, e o algoritmo aprende comparando a saída real com as saídas corretas para encontrar erros. Em seguida, modifica o modelo preditivo de acordo com O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 17 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão a eliminação desses erros. Por meio de métodos (Ex.: classificação, regressão, etc.), o aprendizado supervisionado usa padrões para prever os valores do rótulo em dados adicionais não rotulados (MACHADO, 2018, p.147). Obs.: � O algoritmo procura associações entre os atributos (variáveis preditoras) e a variável resposta (variável que se quer prever) de um dataset. A partir dessas associações, é possível realizar previsões quando o algoritmo for apresentado a novos dados. • O aprendizado supervisionado é mais utilizado para aplicações nas quais os dados históricos podem prever prováveis acontecimentos futuros. Como exemplo, ele pode prever a probabilidade de as transações de cartão de crédito serem fraudulentas ou qual cliente do seguro deve registrar uma reclamação (MACHADO, 2018, p.147). Outro exemplo: com base nos dados históricos de pacientes, pode-se prever se um novo paciente irá desenvolver ou não uma determinada doença. • Modelos supervisionados mais comuns: a. Árvores de decisão; b. Regressão linear; c. Regressão logística; d. Redes neurais; e. K-Nearest Neighbors (KNN); f. Support Vector Machines (SVM), etc. b) Aprendizado não Supervisionado • O aprendizado não supervisionado é usado com dados que não possuem rótulos históricos. O sistema não sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado. O objetivo é explorar os dados e encontrar alguma estrutura neles (MACHADO, 2018, p.148). Obs.: � Conjunto de técnicas para treinar um modelo em que não se sabe a saída esperada para cada dado usado no treinamento. • Aqui não se utiliza rótulos/categorias para as amostras de treinamento. • O algoritmo identifica as semelhanças nos dados apresentados e reage com base na presença ou ausência dessas tais semelhanças. • Busca agrupar os dados com base em características similares, não sendo necessário apresentar o algoritmo à variável resposta (variável que se quer prever). • Funciona bem em dados transacionais. Por exemplo, ele pode identificar segmentos de clientes com atributos semelhantes que podem ser tratados de modo semelhante em campanhas de marketing, ou então ele pode encontrar os principais atributos que separam os segmentos de clientes uns dos outros (MACHADO, 2018, p.148). • Grandes sub-grupos de aprendizado não supervisionado: O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 18 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão a. agrupamentos (Clustering); b. regras de Associação (Association Rules). Exemplo: pode ser utilizado para identificar anomalias ou agrupar clientes com base em comportamentos similares. c) Aprendizado Semi-supervisionado • Conforme Machado (2018), usa tanto dados rotulados quanto dados não marcados para o treinamento– normalmente uma pequena quantidade de dados rotulados com uma grande quantidade de dados não rotulados (pois os dados não rotulados são mais baratos e precisam de menos esforço para serem adquiridos). • Útil quando o custo associado à rotulagem é muito elevado para permitir um processo de treinamento totalmente rotulado (MACHADO, 2018). • Esse tipo de aprendizagem pode ser usado com métodos como a classificação, regressão e previsão (MACHADO, 2018). Obs.: � Exemplo: identificação do rosto de uma pessoa em uma webcam (processo de iden- tificação facial). d) Aprendizado por reforço • Muito usado para a robótica (robôs aspiradores etc.), jogos e navegação (carros autônomos, etc.). • Nesse caso, o algoritmo descobre pela tentativa e erro quais ações geram as maiores recompensas. • Três componentes principais: − o agente (o aluno ou tomador de decisões); − o ambiente (tudo com o qual o agente interage); e − as ações (o que o agente pode fazer). • Objetivo: que o agente escolha ações que maximizem a recompensa esperada ao longo de um determinado período de tempo. O objetivo é aprender a melhor técnica” (MACHADO, 2018, p.149). 002. (CESPE/TCE-MG/2018) Em machine learning, a categoria de aprendizagem por reforço identifica as tarefas em que: a) um software interage com um ambiente dinâmico, como, por exemplo, veículos autônomos. b) as etiquetas de classificação não sejam fornecidas ao algoritmo, de modo a deixá-lo livre para entender as entradas recebidas. c) o aprendizado pode ser um objetivo em si mesmo ou um meio para se atingir um fim. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 19 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão d) o objetivo seja aprender um conjunto de regras generalistas para converter as entradas em saídas predefinidas. e) são apresentados ao computador exemplos de entradas e saídas desejadas, fornecidas por um orientador. a) Certa. Um veículo totalmente é equipado com sensores que auxiliam um sistema de controle em seu objetivo de navegar autonomamente até um local desejado, ou seja, sem a necessidade de atuação direta ou indireta de um condutor humano. Esse sistema deve ser capaz de dirigir de maneira segura e consistente ao longo de todo seu percurso. Utilizaremos técnicas de Aprendizagem por Reforço no treinamento dos sistemas utilizados por esses veículos, com o objetivo de manter a direção do veículo dentro de uma pista. b) Errada. Trata-se de uma tarefa de aprendizagem não supervisionada. c) Errada. Trata-se de uma tarefa de aprendizagem não supervisionada. d) Errada. Trata-se de uma tarefa de aprendizagem supervisionada, na qual se busca aprender uma regra geral que mapeia entradas de dados em saídas de dados. e) Errada. Trata-se de uma tarefa de aprendizagem supervisionada, na qual são apresentados ao computador exemplos de entradas e saídas desejadas, fornecidas por um orientador/supervisor. Letra a. oVerfIttIng (soBreAjUste) e UnDerfIttIng (sUB-AjUste) em mAchIne leArnIng Nos modelos de aprendizado de máquina, existem dois problemas básicos que devem ser considerados. Vamos então ao estudo dos termos overfitting e underfitting, problemas comuns da área de ciência de dados (BRANCO, 2022). Quando treinamos um modelo de Machine Learning, a ideia é que o modelo aprenda sobre os dados de entrada e possa realizar previsões, com um erro aceitável, com novos dados, que não estavam presentes nos dados de entrada, ou seja, dados nunca vistos pelo modelo (BRANCO, 2022). Você treina um modelo para que ele consiga realizar previsões quando receber novos dados, certo? Mas, como iremos medir a performance de um modelo? Para isso, podemos dividir os dados de entrada em 2 grupos, que são: • os dados de treino, utilizados para treinar o modelo, e • os dados de teste. Assim, comparamos a previsão do modelo nos dados de teste com os valores originais. Mas o que isso tem a ver com underfitting e overfitting? O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 20 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Overfitting (Sobreajuste) É quando o modelo aprende demais sobre os dados, ou seja, acontece quando se tem um modelo com bom desempenho com os dados treinados, mas que não trabalha bem com novos dados. Também é bem mais difícil de ser perceber. Neste caso, mostra-se adequado apenas para os dados de treino, como se o modelo tivesse apenas decorado os dados de treino e não fosse capaz de generalizar para outros dados nunca vistos antes. Quando isso acontece, os dados de treino apresentam resultados excelentes, enquanto que a performance do modelo cai drasticamente com os dados de teste (BRANCO, 2022). Podemos identificar que há sobreajuste quando comparamos a performance do modelo em treino e teste, variando alguns parâmetros (como a quantidade de dados, por exemplo). Underfitting (sub-ajuste) Indica que o modelo não conseguiu aprender o suficiente sobre os dados. É mais fácil de ser identificado. Ele acontece quando o erro do modelo é elevado em ambos os dados de treino e teste (BRANCO, 2022). A visualização gráfica pode nos fornecer um indício de que há problemas com overfitting/ underfitting, no entanto, nem sempre conseguimos identificar visualmente quando esses problemas existem (BRANCO, 2022). Vejamos na figura seguinte alguns exemplos de curvas. Figura. Exemplos de curvas sub-ajustada (Underfitted), adequada (Good Fit/Robust) e sobreajustada (Overfitted), respectivamente (BRANCO, 2022). A figura seguinte ilustra a curva de complexidade do modelo vs erro para dados de treino e teste. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 21 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. Curva de complexidade do modelo vs erro para dados de treino e teste (BRANCO, 2022) Podemos considerar a complexidade do modelo como sendo a quantidade de dados, de parâmetros, ou o tipo de algoritmo utilizado. Percebam que o modelo começa com erro elevado tanto para treino quanto para teste. Nesta etapa da curva há o underfitting (BRANCO, 2022). Conforme aumentamos a complexidade do modelo, ele vai se ajustando aos dados de treino e teste até um determinado ponto (ponto ótimo). A partir deste ponto, que é o ponto ótimo, o erro para os dados de teste começam a subir novamente e o mesmo erro continua decaindo para os dados de treino. Neste ponto, a partir desta diferença dos erros de treino e teste, podemos afirmar que o modelo sofre overfitting (BRANCO, 2022). 003. (COM. ORG./IFSP/ANALISTA DE TECNOLOGIA DA INFORMAÇÃO/IF SP/CIÊNCIA DE DADOS/2022) Nos modelos de aprendizado de máquina, existem dois problemas básicos que devem ser considerados. O primeiro problema é o sobreajuste/overfitting) que acontece quando se tem um modelo com bom desempenho com os dados treinados, mas que não trabalha bem com novos dados. Já o segundo problema, é o sub-ajuste/underfitting) que já sequer trabalhar com os dados de treino e, consequentemente, na aplicação em si. Para isso, é necessário implementar modelos que sejam equilibradospara atender as demandas. Considerando essas afirmações e a figura a seguir, selecione a alternativa que melhor associa o problema com os dados dispostos no espaço com a solução equilibrada, com sub-ajuste e sobreajuste de acordo com sua indicação (I, II e III). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 22 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão a) (I) equilibrado, (II) sobreajustado e (III) sub-ajustado b) (I) equilibrado, (II) sub-ajustado e (III) sobreajustado c) (I) sobreajustado, (II) equilibrado e (III) sub-ajustado d) (I) sub-ajustado, (II) sobreajustado e (III) equilibrado Observe pela figura que os pontos verdes são os rótulos gerados pela máquina, enquanto a linha preta indica o resultado esperado que seja gerado por ela. No gráfico I temos uma situação de sub-ajuste. O underfitting, nesse caso, se dá em situações em que os resultados gerados pela máquina são insatisfatórios, ou péssimos, tendo pouca precisão e proximidade com o resultado esperado. O gráfico III está em uma situação de equilíbrio, pois demonstra uma relação entre rótulos esperados e rótulos gerados de forma melhor do que o II. O gráfico II, por eliminação, está em situação de sobreajuste ou sobreajustado. Letra d. 004. (CESPE-CEBRASPE/ANP/ATIVIDADES DE REGULAÇÃO/NOVAS ATRIBUIÇÕES IV/2022) Considerando-se, nos gráficos a seguir, que o resultado #2 corresponda ao melhor desempenho do algoritmo, é correto afirmar que o resultado #1 indica que houve underfitting. No resultado #1, a reta não se ajusta bem aos dados. Temos, portanto, uma situação de sub-ajuste (underfitting), que se dá em situações em que os resultados gerados pela máquina são insatisfatórios, ou péssimos, tendo pouca precisão e proximidade com o resultado esperado. Nesse contexto, o modelo é excessivamente simples para modelar a real complexidade do problema para novos dados. No resultado #2 a curva acompanha os dados, e corresponde ao melhor desempenho do algoritmo. Certo. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 23 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 005. (CESPE/EMBRAPA/PESQUISADOR/MÉTODOS QUANTITATIVOS AVANÇADO/DATA- E-TEXTMINING/2006) Em modelos de classificação, ocorre overfitting quando o número de erros cometidos no grupo de dados usado para treinar/ajustar) o modelo é muito pequeno e o número de erros de generalização é grande. Isso mesmo! Overfitting (Sobreajuste) ocorre quando o modelo aprende demais sobre os dados, ou seja, acontece quando se tem um modelo com bom desempenho com os dados treinados, mas que não trabalha bem com novos dados. Assim, há poucos erros no treino, mas há muitos erros no teste (erro de generalização). Certo. Conforme Branco (2022), o overfitting tem algumas causas principais, que podem direcionar a solução do problema. São elas: • Algoritmo muito complexo para os dados: pode-se simplificar o modelo escolhendo um algoritmo mais simples, com menos parâmetros, caso seja possível, o que irá reduzir as chances do modelo sofrer overfitting. • Poucos dados de treinamento: talvez seja necessário coletar mais dados para treinar o modelo. • Ruídos nos dados de treinamento: caso exista algum tipo de ruído (valores extremos ou até mesmo valores incorretos nos dados), pode ser que o modelo aprenda sobre ele, levando ao overfitting. Caberia um pré-processamento adequado para tratar essa interferência (BRANCO, 2022). No entanto, Branco (2022) destaca que se formos muito rigorosos nos tratamentos acima, podemos ir para o outro extremo, o underfitting (Sub-ajuste). Nesse contexto tem-se: • Algoritmo inadequado, pouco poderoso para os dados: aqui podemos amplificar o poder do algoritmo escolhendo outro com mais parâmetros para solucionar o underfitting. • Características não representativas: neste caso, pode ser que as características utilizadas para treinar o modelo não sejam representativas (não tenham relação entre si ou não sejam importantes para o modelo). • Modelo com muitos parâmetros de restrição: o modelo torna-se inflexível, restrito, e não se ajusta de forma adequada aos dados. VIsão gerAl Dos AlgorItmos De mAchIne leArnIng Em relação aos algoritmos de machine learning, merecem destaque (ILUMEO, 2021): 1. regressão linear Trata-se de uma ferramenta estatística que nos ajuda a quantificar a relação entre uma variável específica e um resultado que nos interessa enquanto controlamos outros fatores. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 24 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão A regressão linear é denominada dessa forma por ser uma reta traçada a partir de uma relação em um diagrama de dispersão. Tal reta resume uma relação entre os dados de duas variáveis e também pode ser utilizada para realizar previsões (ILUMEO, 2021). A origem da regressão linear vem da correlação linear, que é a verificação da existência de um relacionamento entre duas variáveis. Ou seja, dado X e Y, quanto que X explica Y. Para isso, a regressão linear utiliza os pontos de dados para encontrar a melhor linha de ajuste para modelar essa relação (ILUMEO, 2021). O resultado da regressão linear é sempre um número. É utilizada adequadamente quando o dataset apresenta algum tipo de tendência de crescimento/descrescimento constante (ILUMEO, 2021). Figura. (ILUMEO, 2021) Um exemplo de regressão linear é a relação de Preço x Oferta, em que a quantidade de produtos ofertados aumenta na medida em que o preço se eleva. A regressão linear pode ser de dois tipos (ILUMEO, 2021): • regressão linear simples: utiliza apenas uma variável independente; e • regressão linear múltipla: em que múltiplas variáveis independentes são definidas. 2. regressão logística Método usado para problemas de classificação binária (problemas com dois valores de classe), utilizando conceitos de estatística e probabilidade. É um algoritmo que lida com questões e problemas de classificação, analisando diferentes aspectos ou variáveis de um objeto para depois determinar uma classe na qual ele se encaixa melhor (ILUMEO, 2021). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 25 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão A função logística parece um grande S e transformará qualquer valor no intervalo de 0 a 1. Isso é útil porque é possível aplicar uma regra à saída da função logística para ajustar valores para 0 e 1 e prever um valor de classe (ILUMEO, 2021). Figura. Regressão logística: Gráfico de uma curva de regressão logística mostrando a probabilidade de aprovação em um exame versus horas de estudo (ILUMEO, 2021). A literatura (ILUMEO, 2021) destaca três modelos principais de regressão logística: 2.1. regressão logística BinominalNesse contexto, os objetos são classificados em dois grupos ou categorias. É quase um jogo entre “o que é” e “o que não é”. Ex.: o e-mail é spam ou não, a imagem é colorida ou não, a célula é cancerígena ou não (ILUMEO, 2021). 2.2. regressão logística ordinal Esse modelo é diferente porque trabalha com o conceito de categorias ordenadas. Neste cenário, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. Exs.: o desempenho do atleta é ruim, neutro ou excelente; o grau de satisfação do paciente com o tratamento é insatisfeito, satisfeito ou muito satisfeito (ILUMEO, 2021). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 26 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 2.3. regressão logística Multinomial Neste modelo os objetos são classificados em três ou mais categorias que não possuem ordem entre si. Ex.: este animal é um gato, um leão ou um tigre. Esta fruta é uma maçã, uma pera, uma manga ou um maracujá. 3. Análise discriminante linear (ldA) Regressão logística é um algoritmo de classificação tradicionalmente limitado a apenas problemas de classificação de duas classes (ILUMEO, 2021). Caso se tenha mais de duas classes, o algoritmo de Análise Discriminante Linear (LDA) é a técnica de classificação linear preferida (ILUMEO, 2021). A representação da LDA consiste em propriedades estatísticas dos seus dados, calculados para cada classe. Para uma única variável de entrada, isso inclui (ILUMEO, 2021): • o valor médio para cada classe; • a variação calculada para todas as classes. As previsões são feitas calculando um valor diferenciado para cada classe e fazendo uma previsão para a classe com o maior valor. A técnica pressupõe que os dados tenham uma distribuição normal; assim, é uma boa ideia limpar a base de dados removendo possíveis outliers. É um método simples e poderoso para classificar problemas de modelagem preditiva. O LDA pode ser usado em qualquer problema que possa ser transformado em um problema de classificação. Exemplos: reconhecimento de velocidade, reconhecimento facial, química, recuperação de imagens, biometria e bioinformática (ILUMEO, 2021). 4. Árvores de Classificação e Regressão Conforme ILUMEO (2021), a representação do modelo da árvore de decisão é uma árvore binária. Cada nó representa uma única variável de entrada (x) e um ponto de divisão nessa variável (assumindo que a variável seja numérica). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 27 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. (ILUMEO, 2021) Os nós das folhas da árvore contêm uma variável de saída (y) que é usada para fazer uma previsão. As previsões são feitas percorrendo as divisões da árvore até chegar a uma folha e gerar o valor da classe nessa folha (ILUMEO, 2021). As árvores são muito rápidas para fazer previsões. Eles também costumam ser precisas para uma ampla gama de problemas e não exigem nenhuma preparação especial para seus dados (ILUMEO, 2021). Veja o exemplo citado por (ILUMEO, 2021): uma amostra de 30 alunos de uma escola, com três variáveis: sexo (masculino ou feminino), classe (IX ou X) e altura (160 cm a 180 cm). Digamos também que dos 30 alunos, 15 deles jogam tênis no recreio. A partir disso, como podemos criar um modelo para prever quem vai jogar tênis durante o recreio? Neste problema, precisamos dividir os alunos que jogam tênis no recreio com base nas três variáveis à disposição. Nesse ponto entra a árvore de decisão. Ela dividirá os alunos com base nos valores das três variáveis e identificará a variável que cria os melhores conjuntos homogêneos de alunos (que são heterogêneos entre si). No quadro seguinte, é possível ver que a variável “sexo” é capaz de identificar os melhores conjuntos homogêneos em comparação com as variáveis “altura” e “classe”. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 28 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. (ILUMEO, 2021) 5. naive Bayes Algoritmo utilizado para categorizar textos baseado na frequência das palavras usadas. Como exemplo, permite identificar se determinado e-mail é um spam ou também se uma notícia é sobre tecnologia, política ou esportes... ou ainda pode verificar um pedaço de texto que expressa emoções positivas ou emoções negativas (ILUMEO, 2021) É simples, rápido e possui um desempenho relativamente maior do que outros classificadores. Também, só precisa de um pequeno número de dados de teste para concluir classificações com uma boa precisão (ILUMEO, 2021). A principal característica do algoritmo, e também o motivo de receber “naive” (ingênuo) no nome, é que ele desconsidera completamente a correlação entre as variáveis, tratando-as de forma independente (ILUMEO, 2021). 6. Knn (K-nearest neighbors) O K-Nearest Neighbors (KNN) é um algoritmo de classificação que se baseia nos vizinhos mais próximos. Quando um novo dado é apresentado ao algoritmo, ele irá classificá-lo com base nos exemplos mais próximos apresentados na fase de treinamento (ENAP, 2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 29 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. Raschka (2015) Ele pressupõe que itens semelhantes estão próximos um dos outros, então tenta encaixar o dado em questão nos conjuntos de seus vizinhos. O parâmetro k representa a quantidade de vizinhos mais próximos que deve ser considerada pelo algoritmo. Analisando o gráfico apresentado e considerando o valor de k = 3, temos que o novo elemento (?) é classificado como triângulo, pois é a quantidade de elementos mais próximos da nova observação. Um dos seus usos é para serviços de recomendação, como produtos da Amazon, filmes na Netflix, e vídeos no YouTube. No entanto, podemos ter certeza de que todos eles usam meios mais eficientes de fazer recomendações devido ao enorme volume de dados que processam, porque uma desvantagem do KNN é a lentidão à medida que o volume de dados aumenta, tornando uma escolha impraticável em ambientes em que as previsões precisam ser feitas rapidamente (ILUMEO, 2021). 7. lVQ (learning Vector Quantization) Trata-se de um método de aprendizado baseado em protótipo, em que eles são usados para representar diferentes classes em um conjunto de dados (ILUMEO, 2021). O LVQ é semelhante ao KNN, levando vantagem em não precisar considerar todo o conjunto de dados disponível, reduzindo os requisitos computacionais necessários para ser executado (ILUMEO, 2021). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aosinfratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 30 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 8. SVM (Support Vector Machine) O SVM também é amplamente utilizado em objetivos de classificação. Porém, seu objetivo é encontrar um hiperplano (limites de decisão que ajudam a classificar os pontos de um conjunto de dados) em um espaço N-dimensional (N = o número de variáveis) que classifica de forma diferente os pontos de dados (ILUMEO, 2021). Os dados que caem em ambos os lados do hiperplano podem ser atribuídos a diferentes classes. Além disso, a dimensão do hiperplano depende do número de variáveis. Se o número de recursos de entrada for 2, o hiperplano será apenas uma linha. Se o número de recursos de entrada for 3, o hiperplano se tornará um plano tridimensional. Torna-se difícil imaginar quando o número de recursos excede 3 (ILUMEO, 2021). Na prática, um algoritmo de otimização é usado para encontrar os valores dos coeficientes que maximizam a margem. Assim, o SVM pode ser um dos mais poderosos classificadores em machine learning (ILUMEO, 2021). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 31 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 9. random forest Os algoritmos Random Forest são criados por várias árvores de decisão, geralmente treinados com o método de bagging, cuja ideia principal é que a combinação de modelos aumenta o resultado final (ILUMEO, 2021). Como exemplo, pode ser usado nos bancos para detectar clientes que irão usar os serviços bancários mais frequentemente que outros e pagar suas dívidas em dia. No e-commerce pode ser utilizado para determinar se um cliente irá gostar do produto ou não, fazendo recomendações dos mais alinhados ao seu perfil e que, provavelmente, façam mais sentido comprar (ILUMEO, 2021). técnIcAs e etApAs De constrUção Do moDelo De mAchIne leArnIng Ao criar um modelo de machine learning, nem sempre teremos os dados prontos. Assim, faz-se necessário realizar algumas transformações nos dados antes de apresentá-los ao algoritmo (ENAP, 2020). Na fase de pré-processamento, os dados são divididos em dados de treino e dados de teste (ENAP, 2020). Dados de Treino Apresentados ao algoritmo para que ele aprenda o relacionamento entre as variáveis e crie o modelo. Dados de Teste Utilizados para avaliar o quanto o algoritmo aprendeu. Ao apresentar os dados de teste ao modelo, as previsões são realizadas tomando-se como base o que foi aprendido na fase de treinamento. Essas previsões são então comparadas com as respostas esperadas para calcular o desempenho do modelo. Uma vez criado e validado, o modelo pode ser utilizado para que sejam realizadas novas previsões quando for apresentado a novos dados (ENAP, 2020). A figura seguinte, extraída de ENAP (2020) apresenta um esquema destacando as atividades envolvidas na construção de um modelo preditivo: O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 32 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. ENAP (2020) apud Raschka (2015) Vamos então ao estudo das etapas de construção do modelo de machine learning (ENAP, 2020): 1. Pré-processamento dos dados Essa etapa tem como objetivo melhorar a qualidade dos dados que serão apresentados ao algoritmo. Algumas técnicas utilizadas nessa etapa são destacadas a seguir (ENAP, 2020): O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 33 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Fonte: Quintão (2023) 2. Aprendizagem – construção do Modelo Nessa etapa, o modelo é construído a partir dos dados que são apresentados ao algoritmo (ENAP, 2020). Algumas técnicas utilizadas são: • Cross-validation O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 34 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Utilizada para treinar e validar um modelo com o mesmo conjunto de dados, dividindo-os em partições. Assim, a cada iteração, o algoritmo troca os dados de treino e teste com o objetivo de obter um melhor desempenho. • Métricas de desempenho Uso de métricas para medir o desempenho de um modelo. Como exemplo, é possível medir a acurácia (o percentual de previsões corretas em problemas de classificação). • Otimização de hiperparâmetros Cada algoritmo possui um conjunto de hiperparâmetros que podem ser alterados. Essa técnica busca encontrar a combinação certa de valores com o objetivo de melhorar a performance do modelo. 3. Avaliação do Modelo Nesta etapa, os dados de teste são apresentados ao modelo e, com isso, são geradas previsões. Essas previsões são comparadas com os resultados desejados para avaliar o desempenho do modelo (ENAP, 2020). 4. Predição Se o modelo avaliado apresentar um bom resultado, poderá ser utilizado para receber novos dados e realizar previsões (ENAP, 2020). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 35 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão reSUMo Vamos, inicialmente, destacar alguns termos utilizados para se referir a partes específicas de um conjunto de dados. Figura. Alguns Conceitos Relacionados a Machine Learning (QUINTÃO, 2023) O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 36 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. Raschka (2015) Overfitting (Sobreajuste) É quando o modelo aprende demais sobre os dados, ou seja, acontece quando se tem um modelo com bom desempenho com os dados treinados, mas que não trabalha bem com novos dados. Também é bem mais difícil de ser perceber. Neste caso, mostra-se adequado apenas para os dados de treino, como se o modelo tivesse apenas decorado os dados de treino e não fosse capaz de generalizar para outros dados nunca vistos antes. Quando isso acontece, os dados de treino apresentam resultados excelentes, enquanto que a performance do modelo cai drasticamente com os dados de teste (BRANCO, 2022). Podemos identificar que há sobreajuste quando comparamos a performance do modeloem treino e teste, variando alguns parâmetros (como a quantidade de dados, por exemplo). Underfitting (sub-ajuste) Indica que o modelo não conseguiu aprender o suficiente sobre os dados. É mais fácil de ser identificado. Ele acontece quando o erro do modelo é elevado em ambos os dados de treino e teste (BRANCO, 2022). O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 37 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. O Pipeline de Machine Learning (DATASCIENCEACADEMY, 2022) O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 38 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. Tipos de Aprendizado de Máquina (QUINTÃO, 2023) O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 39 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão Figura. Algoritmos de Machine Learning (QUINTÃO, 2023) Algoritmos de Machine Learning Algoritmo Problema Tipo de Aprendizagem Logistic Regression Classificação Supervisionada K-Nearest Neighbor Classificação Supervisionada Naive Bayes Classificação Supervisionada Decision Trees Classificação Supervisionada Regression Trees Regressão Supervisionada Linear Regression Regressão Supervisionada Neural Networks Classificação/Regressão Supervisionada Support Vector Machines Classificação/Regressão Supervisionada Random Forest Classificação/Regressão Supervisionada PCA Redução de dimensionalidade Não Supervisionada Association Rules Detecção de padrões Não Supervisionada K-means Clustering Agrupamento Não Supervisionada DBSCAN Agrupamento Não Supervisionada O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 40 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão QUeSTÕeS coMenTAdAS nA AUlA 001. (CESPE/ANP/2022) As aplicações em inteligência artificial são definidas como uma subárea da área de aprendizagem de máquina/machine learning). 002. (CESPE/TCE-MG/2018) Em machine learning, a categoria de aprendizagem por reforço identifica as tarefas em que: a) um software interage com um ambiente dinâmico, como, por exemplo, veículos autônomos. b) as etiquetas de classificação não sejam fornecidas ao algoritmo, de modo a deixá-lo livre para entender as entradas recebidas. c) o aprendizado pode ser um objetivo em si mesmo ou um meio para se atingir um fim. d) o objetivo seja aprender um conjunto de regras generalistas para converter as entradas em saídas predefinidas. e) são apresentados ao computador exemplos de entradas e saídas desejadas, fornecidas por um orientador 003. (COM. ORG. IFSP/ANALISTA DE TECNOLOGIA DA INFORMAÇÃO-IF SP/CIÊNCIA DE DADOS/2022) Nos modelos de aprendizado de máquina, existem dois problemas básicos que devem ser considerados. O primeiro problema é o sobreajuste/overfitting) que acontece quando se tem um modelo com bom desempenho com os dados treinados, mas que não trabalha bem com novos dados. Já o segundo problema, é o sub-ajuste/underfitting) que já sequer trabalhar com os dados de treino e, consequentemente, na aplicação em si. Para isso, é necessário implementar modelos que sejam equilibrados para atender as demandas. Considerando essas afirmações e a figura a seguir, selecione a alternativa que melhor associa o problema com os dados dispostos no espaço com a solução equilibrada, com sub-ajuste e sobreajuste de acordo com sua indicação (I, II e III). a) (I) equilibrado, (II) sobreajustado e (III) sub-ajustado b) (I) equilibrado, (II) sub-ajustado e (III) sobreajustado c) (I) sobreajustado, (II) equilibrado e (III) sub-ajustado d) (I) sub-ajustado, (II) sobreajustado e (III) equilibrado 004. (CESPE-CEBRASPE/ANP/ATIVIDADES DE REGULAÇÃO/NOVAS ATRIBUIÇÕES IV/2022) Considerando-se, nos gráficos a seguir, que o resultado #2 corresponda ao melhor desempenho do algoritmo, é correto afirmar que o resultado #1 indica que houve underfitting. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 41 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão 005. (CESPE/EMBRAPA/PESQUISADOR/MÉTODOS QUANTITATIVOS AVANÇADO/DATA- E-TEXTMINING/2006) Em modelos de classificação, ocorre overfitting quando o número de erros cometidos no grupo de dados usado para treinar/ajustar) o modelo é muito pequeno e o número de erros de generalização é grande. O conteúdo deste livro eletrônico é licenciado para Nome do Concurseiro(a) - 000.000.000-00, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.grancursosonline.com.br https://www.grancursosonline.com.br 42 de 63www.grancursosonline.com.br Aprendizagem de Máquina TecnologiA dA inforMAção Patrícia Quintão QUeSTÕeS de concUrSo 006. (QUADRIX/CRO – SC/TÉCNICO EM INFORMÁTICA/2023) No que diz respeito às novas tecnologias, julgue o item. A inteligência artificial refere-se a um campo de conhecimento que não está associado à aprendizagem, uma vez que esta é uma capacidade puramente humana; contudo, este campo está associado à linguagem e à inteligência, ao raciocínio e à resolução de problemas. 007. (FGV/SEFAZ MG/AUDITOR FISCAL DA RECEITA ESTADUAL/ÁREA TECNOLOGIA DA INFORMAÇÃO/2023) Machine Learning é um subconjunto da Inteligência Artificial que utiliza dados e algoritmos para imitar o raciocínio humano. Em relação aos algoritmos de machine learning, assinale a afirmativa incorreta. a) Algoritmo de regressão: prevê valores de saída usando recursos de entrada dos dados fornecidos ao sistema. Os algoritmos mais populares são Linear Regression, Logistic Regression Multivariate Adaptive Regression Splines (MARS) e Locally Estimated Scatter plot Smoothing (LOESS). b) Algoritmo de agrupamento: agrupamento de pontos de dados com base em recursos semelhantes. Alguns algoritmos são KMeans, K-Medians e Hierárquical Clustering. c) Algoritmo de regularização: é um processo de diminuir informações adicionais para evitar o overfitting ou resolver um problema mal definido. Os algoritmos mais comuns são Least Absolute Shrinkage and Selection Operator (LASSO), Least-Angle Regression (LARS) e Elastic Net and Ridge Regression. d) Algoritmos de redução de dimensionalidade: reduzem o número de características obtendo um conjunto de variáveis principais. Alguns algoritmos são Principal Component Analysis (PCA) e Principal Component Regression (PCR). e) Algoritmos de regras de associação: é usado para descobrir
Compartilhar