Baixe o app para aproveitar ainda mais
Prévia do material em texto
AV1 - Fundamentos de IA Entrega 12 nov em 23:59 Pontos 40 Perguntas 16 Disponível até 12 nov em 23:59 Limite de tempo 120 Minutos Instruções Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 35 minutos 40 de 40 As respostas corretas estarão disponíveis de 14 nov em 0:00 a 27 nov em 0:00. Pontuação deste teste: 40 de 40 Enviado 7 nov em 13:11 Esta tentativa levou 35 minutos. Leia com atenção as orientações abaixo antes de iniciar esta prova: É permitido apenas uma tentativa para realizar esta avaliação. Programe-se para realizar suas avaliações com tranquilidade, pois você terá 120 minutos cronometrados para conclusão e envio das respostas. Ao iniciar a avaliação o cronômetro não para, independentemente da plataforma estar aberta ou não; Durante a realização da prova: Será exibido uma questão por vez, podendo “Avançar” ou “Voltar” quando necessário; A prova será encerrada após clicar no botão “Enviar”. 2,5 / 2,5 ptsPergunta 1 https://newtonpaiva.instructure.com/courses/16651/quizzes/36133/history?version=1 Desde os tempos mais remotos o ser humano produz dados. Os homens das cavernas escreviam nas paredes. Seus hieróglifos tornaram-se dados que permitem hoje compreendermos o modo como viviam. Tempos depois, os pergaminhos foram escritos e os dados contidos contam a história de povos antigos. Atualmente, milhões de dados são produzidos por hora; logo, armazená-los e tratá-los torna-se um desafio para todos. Há, porém, um desafio maior ainda, que é interpretar esses dados e tirar deles algum valor, assim como fizemos com os hieróglifos e pergaminhos antigos. De acordo com o seu conhecimento e os conceitos de ETL, assinale a alternativa correta em relação aos tipos e exemplos de visualização de dados: A fase de transformação (Transform) do ETL é uma técnica de mineração de dados que pode ser usada para descobrir padrões nos dados. A fase de extração é considerada a mais importante, pois é nela que os dados são enviados para o Data Warehouse. As ferramentas de ETL automatizam o processo de extração de dados dos diferentes bancos de dados e o entrega para um Data Warehouse. A extração de dados consiste em limpar os dados, resolvendo problemas como inconsistências nesses dados. Ao realizar a carga (load) para um Data Warehouse, os dados são organizados de acordo com o tipo, por exemplo, tipos de texto e tipos de números. Feedback: O processo de ETL desempenha um papel fundamental nas estratégias de integração de dados. O ETL permite que as empresas coletem dados de várias fontes e os consolidem em um único local centralizado. O ETL também possibilita que diferentes tipos de dados trabalhem juntos. Você pode ler mais na unidade 1, tópico 4. 2,5 / 2,5 ptsPergunta 2 A mineração de dados é o processo de análise de grandes volumes de dados para descobrir inteligências que ajudem as empresas a resolver problemas, mitigar riscos e aproveitar novas oportunidades. Esse ramo da ciência de dados tem a nomenclatura derivada das semelhanças entre procurar informações valiosas em um grande banco de dados e extrair uma montanha de minério. Considerando as informações sobre mineração de dados, analise as asserções a seguir a respeito dos principais conceitos de mineração de dados. I. Usa aprendizado de máquina. II. Usa dados diretamente dos sistemas de processamento de transações. III. Ajuda os gerentes na tomada de decisões de rotina. IV. Limpeza e preparação de dados. Está correto o que se afirma em: II e III. I e IV. I e III. III e IV. II e IV. Feedback: Limpeza e preparação de dados é uma etapa na qual os dados são transformados em um formulário adequado para análises e processamentos adicionais, como a identificação e a remoção de erros e a falta de dados (dados incompletos). Do mesmo modo, o aprendizado de máquina é um conceito de mineração de dados no qual um programa, usando probabilidades estatísticas, permite aos computadores ter a capacidade de "aprender" sem que sejam explicitamente programados. Você pode ler mais na unidade 1, tópico 3. 2,5 / 2,5 ptsPergunta 3 ETL é a abreviação de Extract, Transform, Load que, em tradução livre, significa extração, transformação e carga, respectivamente. Essas são três funções de base de dados que são combinadas em uma ferramenta responsável por extrair os dados de uma base e colocá-los em outra base. Além disso, o ETL também é utilizado para converter bancos de dados de um formato ou tipo para outro. Considerando o exposto, analise as asserções a seguir quanto ao emprego de ETL: I. O ETL pode ser usado para centralizar os dados em um único repositório de dados, viabilizando o aprendizado de máquina. II. O ETL é usado para transformar dados de uma base de dados em um modelo .doc. III. ETL é uma técnica de mineração de dados que pode ser usada para descobrir padrões nos dados. IV. O ETL pode ajudar a mover dados de várias fontes de IoT (Internet of Things) para um único local onde você pode analisá-los. Está correto o que se afirma em: II, III, IV. I, II e III. II e III. I e IV. I e II. Feedback: IoT significa Internet das Coisas e se refere ao uso de dispositivos e sistemas conectados que aproveitam os dados coletados por sensores e atuadores incorporados em máquinas e outros objetos físicos, como o sensor em um semáforo. O ETL pode mover todos os dados das diversas fontes e armazená-los em uma única base. O aprendizado de máquina é um método de análise de dados que automatiza a construção de modelos analíticos. Desse modo, o ETL pode centralizar os dados em um único repositório (por exemplo, Data Warehouse) para efetuar as análises. Você pode ler mais na unidade 1, tópico 3. 2,5 / 2,5 ptsPergunta 4 Uma empresa vendedora de produtos de praia deseja analisar a quantidade de vendas do produto bola de praia na cidade de Florianópolis. A empresa deseja analisar as vendas do mês de fevereiro do ano passado realizadas pelo vendedor José Camilo, comparada com os números da receita com o mesmo produto em fevereiro deste ano, também na cidade de Florianópolis. Após esta análise, a empresa fará uma comparação de outras vendas do mesmo produto em Florianópolis no mesmo período com o objetivo de realizar uma previsão de vendas. Considerando o caso apresentado e o conteúdo estudado, assinale a alternativa que indica a melhor ferramenta a ser utilizada por essa empresa para realizar essa ação: Monodimensional Data Analytic. Big Data. Ferramentas OLAP. Business Intelligence. Mineração de dados. Feedback: O OLAP (Processamento Analítico Online) é um método de computação que permite aos usuários extrair e consultar dados de maneira fácil e seletiva a fim de analisá-los sob diferentes pontos de vista. As consultas de OLAP geralmente ajudam na análise de tendências, relatórios financeiros, previsão de vendas, orçamento e outros fins de planejamento. Você pode ler mais na unidade 1, tópico 3. 2,5 / 2,5 ptsPergunta 5 Leia o trecho a seguir: Os operadores aritméticos de soma, subtração, divisão e multiplicação podem ser utilizados nas operações com números inteiros e números reais. Se um número inteiro for dividido por um número real, teremos um número do tipo real como resultado. Esses operadores podem ser utilizados em uma cadeia de instruções, respeitando sempre a ordem de precedência matemática: primeiro a multiplicação, em seguida a divisão, a soma e, por fim, a subtração. De posse dessas informações e do conteúdo estudado sobre Python, analise as asserções a seguir e a relação proposta entre elas. I. Supondo os seguintes valores de variáveis do tipo string: A=”Bom” e B=” DIA”, podemos somar A+B, obtendo C = A + B que é igual a “Bom dia”. PORQUE II. Quando realizamos a soma de strings, o resultado final é a concatenação das duas strings com comportamento semelhante ao símbolo de &. A seguir, assinale a alternativa correta: As asserções I e II são falsas. A asserção I é verdadeira e a II é falsa. As asserçõesI e II são verdadeiras, mas a II não é uma justificativa correta da I. As asserções I e II são verdadeiras e a II é uma justificativa correta da I. A asserção I é falsa e a II é verdadeira. Feedback: Quando somamos duas strings na realidade estamos realizando uma junção. Desse modo, estamos juntando a palavra “Bom” com a palavra “dia” e o resultado é a frase “Bom dia”. Em Python o símbolo responsável por realizar a concatenação de strings é o sinal de adição +. O e-comercial “&” não realiza concatenação. Veja mais sobre variáveis e manipulação de string no tópico I na unidade 2. 2,5 / 2,5 ptsPergunta 6 Analise com atenção o código-fonte a seguir: De acordo com o conteúdo estudado sobre Python e após analisar o código-fonte, marque a alternativa correta: O código apresentará um erro quando o valor de a for igual ao valor de b, uma vez que não existe uma condição que contemple essa igualdade. A linha 5 e 7 poderiam ser suprimidas, ficando apenas os comandos a = b e b = a dentro do escopo do if. O valor de a após a execução do comando da linha 6 é 9 e o valor de b após a execução do mesmo comando é 41. O código apresentará um erro na linha 4 uma vez que existe um sinal desconhecido na linguagem que são os dois pontos : O objetivo desse código é apresentar uma sequência ordenada nas linhas 9 e 10, e a linha 5 é essencial nesse processo. Feedback: O algoritmo realiza a troca dos valores entre as variáveis a e b sempre que a variável a for maior que a variável b. Entretanto, se fizer uma troca direta, ou seja, a receber b e b receber a, perderemos o valor da variável a. Desse modo, precisamos de um auxiliar que guarde para nós o valor de a, então isso é feito na linha 5. A única condição de entrarmos nesse if é quando a variável a for maior que a variável b, logo estamos ordenando os valores. Você pode ver mais sobre variáveis no tópico 1 e sobre estrutura condicional no tópico 2. 2,5 / 2,5 ptsPergunta 7 A variável representa, em linguagem de alto nível, um espaço de memória onde serão inseridos valores. Utilizar variável é mais prático do que referenciar a memória diretamente utilizando bits binários 0s e 1s. Ela pode assumir os seguintes tipos de dados: números e cadeia de caracteres (string). Veja o código a seguir que possui algumas variáveis e realiza algumas operações sobre elas: Considerando essas informações e o conteúdo estudado sobre Python, dentre as principais características do código podemos determinar: I. Nesse código, será apresentada uma entrada de dados que, ao digitar valores numéricos, eles serão mostrados na tela. II. Nesse código, ao digitar palavras e expressões alfanuméricas, elas serão armazenadas em var1 e mostradas na tela na linha 7. III. Esse código apresentará mensagem de erro na linha 4, que recebe um texto, porém a variável var2 é do tipo inteiro. IV. Esse código apresenta uma saída de texto na linha 7 com o conteúdo da variável var3, sempre que var1 for um número. Estão corretas as asserções: I e II. III e IV. II e III. I e IV. II e IV. Feedback: O tipo da variável var1 no início do código (linha 1) é string. Na linha 2 é solicitada a idade, que será um número, porém a variável continua sendo string. Na linha 4, essa string é convertida para número inteiro. Logo, se houver um caractere numeral na variável var1, este será convertido para número do tipo inteiro na linha 4. Desse modo, na linha 5, estamos elevando esse número ao cubo. Se for 10, por exemplo, na linha 7 será mostrado o valor 1000. Ao digitar qualquer letra ou palavra, contendo ou não número, o código apresentará erro uma vez que existe uma operação aritmética na linha 5, logo o programa espera que você informe números e não letras. A variável var2 não é do tipo inteiro, ela não tem tipo até então, pois acabou de ser criada. O único erro que pode ocorrer na linha 4 é a tentativa de converter um caractere (letra) em inteiro. Sempre que for digitado um número na linha 2 ele será convertido de string para tipo inteiro e, em seguida, será realizada a operação aritmética de exponenciação e, por fim, apresentado na tela na linha 7. Você pode ver mais sobre variáveis e operadores aritméticos no tópico 1 da unidade 2. 2,5 / 2,5 ptsPergunta 8 Uma variável possui papel fundamental em um código: guardar dados. Elas podem armazenar apenas um dado por vez, logo, se uma variável chamada nome possui o conteúdo “João”, ao receber o valor “Maria” a palavra “João” é perdida. Por outro lado, temos as estruturas condicionais, cuja principal característica é modificar o fluxo de um código de acordo com uma condição e, consequentemente, modificar o conteúdo de uma variável. Veja um exemplo de código-fonte em Python o qual manipula uma única variável chamada txt e possui uma condicional: Considerando essas informações e o conteúdo estudado sobre Python, dentre as principais características do código, podemos determinar: I. O valor digitado pelo usuário na linha 1 será armazenado na variável txt e apresentado na linha 4 ou na linha 6. II. A linha 6 desse código apresentará a mensagem “Digite seu nome”, pois esse é o valor da variável txt. III. Uma característica da Python pode ser observada na linha 7, o uso da indentação ao invés de usarmos chaves. IV. Independente do conteúdo de txt, o print da linha 7 será apresentado, pois ele está fora da estrutura if/else. Estão corretas as asserções: I e III. III e IV. II e IV. II e III. I e IV. Feedback: A variável txt recebe o dado do input e, na linha 4 ou 6, mostra o valor digitado. O valor apresentado na linha 4 será diferente do valor da linha 6, pois há uma condicional, se for diferente de Maria ou se for igual a Maria. O conteúdo “Digite seu nome” é apenas uma instrução para a ação que o usuário deve tomar. A Python delimita o escopo ou bloco de código por meio da indentação. Note que na linha 7 existe uma tabulação, um espaço que coloca o print dentro do else. Sem a indentação o print ficaria fora do escopo do else. O print da linha 7 está dentro do else e isso pode ser justificado pelo uso da tabulação ou indentação do código. Se tirarmos a tabulação antes do print, dessa forma sim o print da linha 7 seria apresentado independentemente do valor de txt. Mas, para esse código, o print da linha 7 só será apresentado se o nome for igual a Maria. Você pode ver mais sobre variáveis no tópico 1 e sobre estrutura condicional no tópico 2. 2,5 / 2,5 ptsPergunta 9 Uma certa marca de guloseimas cria embalagem para seu produto com o objetivo de que contenha aproximadamente o mesmo número de jujubas por embalagem. No entanto, o procedimento de preenchimento não é perfeito. Os pacotes são preenchidos com uma média de 375 jujubas, mas o número que entra em cada sacola é normalmente distribuído com um desvio padrão de 8. Ontem Maria foi à loja e comprou quatro desses pacotes em preparação para uma festa da primavera. Maria estava curiosa e contou o número de jujubas nessas embalagens – suas quatro sacolas continham uma média de 382 jujubas. A partir do cenário apresentado, qual dos seguintes casos é um parâmetro? O parâmetro pode ser obtido somando e subtraindo o valor do desvio padrão em relação ao preenchimento médio de todas as embalagens de jujuba, logo o parâmetro pode ser 375 + 8 e 375 - 8. Entende-se por parâmetro a média entre o número médio de jujubas nas embalagens de Maria e o número médio de jujubas em todas embalagens, tendo como total 378,5. Podemos dizer que o número médio de jujubas nas embalagens de Maria é igual a 382, logo esse é o parâmetro populacional. O parâmetro será a soma do número médio das jujubas em todas as embalagens feitas com o número médio das jujubas das embalagens de Maria, totalizando 757. Entende-se por parâmetro populacional o número médio de jujubas em todas as embalagens, que é de 375. Feedback: Um parâmetro é um número que descreve a população. Então, aqui, o parâmetro deve ser o número médio de jujubas em todasas embalagens feitas, que é 375. Veja mais no tópico 1 da unidade 3. 2,5 / 2,5 ptsPergunta 10 Uma mediana divide um conjunto de dados em duas partes iguais. O conjunto pode ser subdividido ainda mais em quatro partes iguais por valores chamados quartis. Os quartis dividem o conjunto de dados em quartos com cada quarto contendo um quarto (ou 25%) dos dados. Os quartis são como "medianas" adicionais da metade inferior e superior do conjunto de dados. Um quartil é um número e não é um intervalo de valores. Uma empresa deseja saber o número de acessos ao seu site. Para tanto, registrou o número de acessos (em milhares) durante 15 dias. Veja os dados coletados: 19, 12, 9, 7, 17, 10, 6, 18, 9, 14, 19, 8, 5, 17, 9. A partir dessas informações e do conhecimento estudado no livro da disciplina, responda qual alternativa apresenta o método para calcular o segundo quartil bem como quanto será o seu valor. Para encontrar o segundo quartil utilizamos df.quartile(2) e o seu valor será 10. Para encontrar o segundo quartil utilizamos df.quartile(0.5) e o seu valor será 10. Para encontrar o segundo quartil utilizamos df.quartile(2) e o seu valor será 6. Para encontrar o segundo quartil utilizamos df.quartile(50) e o seu valor será 6. Para encontrar o segundo quartil utilizamos df.quartile(50) e o seu valor será 10. Feedback: Antes de tudo, vamos pegar os dados coletados e organizar em ordem crescente, ficando assim: 5, 6, 7, 8, 9, 9, 9, 10, 12, 14, 17, 17, 18, 19, 19. O valor do segundo quartil é o mesmo da mediana que, por sua vez, é o exato valor do meio que, para nós, é o 10. Logo, temos que a mediana será 10. Para encontrar um determinado quartil, utilizamos o método quartile, passando como parâmetro qual quartil desejamos, se o primeiro (0.25), se o segundo (0.5) ou o terceiro (0.75). Veja mais no tópico 2 da unidade 3. 2,5 / 2,5 ptsPergunta 11 Ao lidar com dados estatísticos, é importante distinguir entre "população" dos conjuntos de dados e "amostra" dos conjuntos de dados. Em um volume de dados, a população contém todos os membros de um grupo específico. Por outro lado, a amostra de um grupo de dados contém uma parte, ou um subconjunto, de uma população. O tamanho de uma amostra é sempre menor do que o tamanho da população da qual é retirada. Considerando essas informações e os conteúdos estudados na disciplina, analise as asserções a seguir: I. A população pode ser todas as pessoas que vivem no Brasil. II. A amostra pode ser todas as pessoas que vivem no Nordeste. III. A amostra pode ser todas as pessoas entre 40 e 50 anos que vivem no Brasil. Está correto apenas o que se afirma em: III apenas. II e III. II apenas. I apenas. I e III. Feedback: Quando falamos de população estamos tratando o todo, ou seja, todas as pessoas que vivem no Brasil, sem exceção. O conceito de amostra está relacionado a pegarmos uma parte da população, ou seja, uma parte do todo. A asserção diz “todas as pessoas que vivem no Nordeste”, logo isso caracteriza uma população. Se fosse afirmado: “todas as pessoas do Brasil que vivem no Nordeste”, teríamos o Brasil como população e as pessoas que vivem no Nordeste como amostra. O todo (população) são as pessoas que vivem no Brasil. A amostra são as pessoas que vivem no Brasil e que possuem entre 40 e 50 anos. Veja mais sobre amostra e população no tópico 1 da unidade 3. 2,5 / 2,5 ptsPergunta 12 Leia o trecho a seguir: Em uma pesquisa, o entrevistador fez a seguinte pergunta: “A caridade é o melhor meio de ajudar as pessoas que mais necessitam?”. Foi elaborado um questionário com 10 pontuações em uma escala, em que 1 (valor mínimo) é “Discordo totalmente” e 10 (valor máximo) é “Concordo totalmente”. A seguir encontram-se os dados coletados. 6 4 7 2 9 1 4 4 6 4 1 6 9 8 4 2 7 1 8 3 Considerando esses dados, bem como as informações fornecidas, pode-se considerar como informações corretas a respeito dos dados da amostra: O valor modal (moda) é o que aparece com maior frequência e, nesse caso, foi o número 1. A mediana e a média possuem o mesmo valor. Nesse caso, podem ser obtidas pelo método median(). O valor modal (moda) é 4 e corresponde a 25% da amostra. Pode ser obtido com o método mode(). O desvio padrão para essa amostra é igual ao valor da média e é obtido pelo método desvpad(). Pode-se dizer que pelo menos 60% das pessoas deram nota menor do que a média. Feedback: Para esse exercício, coloque todos os dados em ordem crescente. Como a amostra possui um número par de dados, haverá 2 números centrais cujo valor é 4. Ache a média desses dois valores e, então, teremos a mediana, que é 4. Na amostra temos 5 entradas para o número 4, logo 5/20 ou 1/4 ou 25% da amostra corresponde ao valor 4. Por fim, para obtermos o valor modal, utilizamos o método mode(). Veja mais no tópico 2 da unidade 3. 2,5 / 2,5 ptsPergunta 13 Considere o conjunto de dados a seguir como sendo o conjunto de dados original a ser utilizado por um algoritmo de aprendizado de máquina supervisionado: Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Considerando o que já foi estudado e a prática usual sobre os conjuntos de dados de treinamento e de teste, uma representação deles pode ser encontrada em: Conjunto de treinamento Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D7 Nublado Frio Forte Sim D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura vento Pedalar D2 Sol Calor Forte Não D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não Conjunto de treinamento Dia Tempo Temperatura vento Pedalar D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não Conjunto de treinamento Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não Conjunto de teste Dia Tempo Temperatura vento Pedalar D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de treinamento Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não Conjunto de teste Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não Conjunto de treinamento Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Feedback: A divisão do conjunto original nos conjuntos de treinamento e de teste usualmente é feita na proporção de 80% e 20%, respectivamente, sem repetição dos dados entre um conjunto e outro, de forma que, ao final, o desempenho do classificador possa ser calculado com base em dados previamente não vistos por ele, como apresentado na unidade 4, tópico 2.1.2,5 / 2,5 ptsPergunta 14 A respeito da Matriz de Confusão, considere as asserções abaixo: I - A Matriz de Confusão recebe esse nome porque é necessária muita atenção para o seu entendimento. II - A Matriz de Confusão, para ser obtida, é necessário que o desempenho do classificador seja calculado a partir do conjunto de dados de treinamento. III - A Matriz de Confusão que melhor retrata o desempenho do classificador deve ser obtida pela aplicação do classificador sobre o conjunto de dados de teste. IV - A Matriz de Confusão tem em cada uma de suas células a média do resultado do cálculo do desempenho do classificador sobre os conjuntos de dados de treinamento e de teste. Sobre essas asserções, escolha a alternativa abaixo que melhor retrata o julgamento sobre a veracidade delas: Somente a III é verdadeira. I, II e IV são falsas. Somente a II é verdadeira. I, III e IV são falsas. III e IV são verdadeiras. I e II são falsas. Somente a IV é verdadeira. I, II e III são falsas. II e IV são verdadeiras. I e III são falsas. Feedback: A Matriz de Confusão que melhor retrata o desempenho do classificador deve ser obtida pela aplicação do classificador sobre o conjunto de dados de teste, de forma que o classificador é obtido pelos dados de treinamento, ou seja, o aprendizado ocorre pelos dados de treinamento para verificar o desempenho, ou seja, se houve realmente aprendizado ou se o classificador simplesmente decorou os dados a validação, usando a Matriz de Confusão, é feita com os dados de treinamento, como apresentado na unidade 4, tópico 3. 2,5 / 2,5 ptsPergunta 15 O aprendizado de máquina supervisionado é uma classe de problemas de aprendizado no qual se procura inferir o valor da variável dependente a partir das variáveis independentes. Considere as asserções abaixo: I - Determinar a doença de um paciente com base nos resultados dos exames. II - Determinar as características de compras dos consumidores de um supermercado. III - Determinar a direção de um robô em um ambiente com base nas respostas dos sensores. IV - Determinar o risco de intrusão em uma rede de computadores com base nos ataques anteriores dos hackers. Em relação às asserções anteriores, quais dizem respeito ao aprendizado de máquina supervisionado? I e IV. I e III. III e IV. II e III. II e IV. Feedback: No aprendizado de máquina supervisionado, a característica básica que o define é a relação existente entre uma variável dependente e outras variáveis independentes, sendo o trabalho do algoritmo estabelecer de forma computacional essa relação de causa-consequência, como apresentado na unidade 4, tópico 1.1. 2,5 / 2,5 ptsPergunta 16 Considere o seguinte conjunto de dados abaixo como sendo o resultado da classificação de um conjunto de testes ao passar por um classificador supervisionado. Tempo Temperatura Vento Pedalar Classificador Sol Calor Fraco Sim Sim Sol Calor Forte Não Sim Nublado Calor Fraco Sim Sim Chuva Amena Fraco Sim Não Chuva Frio Fraco Não Não Chuva Frio Forte Não Sim Nublado Frio Forte Sim Sim Sol Amena Fraco Não Não Nublado Frio Forte Não Não Chuva Amena Fraco Sim Sim Escolha a alternativa que melhor representa a Matriz de Confusão que representa o cenário anterior: Classe esperada Sim Não Classe predita Sim 4 1 Não 2 3 Classe esperada Sim Não Classe original Sim 4 1 Não 2 3 Classe classificador Sim Não Classe predita Sim 3 2 Não 1 4 Classe esperada Sim Não Classe predita Sim 3 2 Não 1 4 Classe esperada Sim Não Classe predita Não 4 1 Sim 2 3 Feedback: Como apresentado na unidade 4, tópico 3, a classe original dada ao algoritmo de aprendizado de máquina supervisionado é chamado de classe esperada, rótulo, classe original, label, variável dependente, consequência etc. Já a classe calculada pelo algoritmo de aprendizado de máquina supervisionado é chamada de classe predita, calculada, descoberta etc. Dessa forma: • VP = verdadeiro positivo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Sim”; • VN = verdadeiro negativo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Não”; • FP = falso positivo, ou seja, número de exemplos para os quais classe predita = “Sim”, mas a classe esperada = “Não”; • FN = falso negativo, ou seja, número de exemplos para os quais classe predita = “Não”, mas a classe esperada = “Sim”. Pontuação do teste: 40 de 40
Compartilhar