Prévia do material em texto
AC2 Entrega 26 mai em 23:59 Pontos 10 Perguntas 10 Disponível 20 mai em 0:00 - 26 mai em 23:59 Limite de tempo 60 Minutos Instruções Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 25 minutos 9 de 10 As respostas corretas estarão disponíveis em 27 mai em 0:00. Pontuação deste teste: 9 de 10 Enviado 22 mai em 22:00 Esta tentativa levou 25 minutos. Pergunta 1 1 / 1 pts Prezado Aluno: Leia com atenção as instruções abaixo antes de realizar a Avaliação AC2: IMPORTANTE: Escolha um ambiente adequado para a realização da avaliação, onde você possa se concentrar e responder às questões sem interrupções; Você precisará de uma conexão de Internet estável, que esteja ativa durante toda a realização da avaliação; Para maior tranquilidade, evite fazer a avaliação a partir do celular ou outros dispositivos móveis, use um notebook ou computador desktop; Não se esqueça de clicar no botão "Enviar teste" após responder às perguntas , para confirmar o seu envio; Fique atento ao horário limite para realização da avaliação; Uma vez iniciada, você terá apenas o tempo limite da avaliação para finalizá-la e enviá-la. Não haverá uma segunda chance para refazê-la. Boa Prova! Equipe EAD 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 1/17 https://facens.instructure.com/courses/13506/quizzes/53713/history?version=1 II e III. I e IV. I e III. III e IV. II e IV. No aprendizado de máquina supervisionado, a característica básica que o define é a relação existente entre uma variável dependente e outras variáveis independentes, sendo o trabalho do algoritmo estabelecer de forma computacional essa relação de causa-consequência, como apresentado na unidade 4, tópico 1.1. Pergunta 2 1 / 1 pts O aprendizado de máquina supervisionado é uma classe de problemas de aprendizado no qual se procura inferir o valor da variável dependente a partir das variáveis independentes. Considere as asserções abaixo: I - Determinar a doença de um paciente com base nos resultados dos exames. II - Determinar as características de compras dos consumidores de um supermercado. III - Determinar a direção de um robô em um ambiente com base nas respostas dos sensores. IV - Determinar o risco de intrusão em uma rede de computadores com base nos ataques anteriores dos hackers. Em relação às asserções anteriores, quais dizem respeito ao aprendizado de máquina supervisionado? Considere o conjunto de dados a seguir como sendo o conjunto de dados original a ser utilizado por um algoritmo de aprendizado de máquina supervisionado: Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 2/17 D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Considerando o que já foi estudado e a prática usual sobre os conjuntos de dados de treinamento e de teste, uma representação deles pode ser encontrada em: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 3/17 Conjunto de treinamento Dia Tempo Temperatura Vento Pedalar D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 4/17 Conjunto de treinamento Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D7 Nublado Frio Forte Sim D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura Vento Pedalar D2 Sol Calor Forte Não D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 5/17 Conjunto de treinamento Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de teste Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 6/17 D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim Conjunto de treinamento Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não Conjunto de teste Dia Tempo Temperatura Vento Pedalar D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não D9 Nublado Frio Forte Não D10 Chuva Amena Fraco Sim 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 7/17 Conjunto de treinamento Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não D3 Nublado Calor Fraco Sim D4 Chuva Amena Fraco Sim D5 Chuva Frio Fraco Não D6 Chuva Frio Forte Não D7 Nublado Frio Forte Sim D8 Sol Amena Fraco Não Conjunto de teste Dia Tempo Temperatura Vento Pedalar D1 Sol Calor Fraco Sim D2 Sol Calor Forte Não A divisão do conjunto original nos conjuntos de treinamento e de teste usualmente é feita na proporção de 80% e 20%, respectivamente, sem repetição dos dados entre um conjunto e outro, de forma que, ao final, o desempenho do classificador possa ser calculado com base em dados previamente não vistos por ele, como apresentado na unidade 4, tópico 2.1. Pergunta 3 1 / 1 pts Considere o seguinte conjunto de dados abaixo como sendo o resultado da classificação de um conjunto de testes ao passar por um classificador supervisionado. 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 8/17 Classe esperada Sim Não Classe predita Sim 4 1 Não 2 3 Tempo Temperatura Vento Pedalar Classificador Sol Calor Fraco Sim Sim Sol Calor Forte Não Sim Nublado Calor Fraco Sim Sim Chuva Amena Fraco Sim Não Chuva Frio Fraco Não Não Chuva Frio Forte Não Sim Nublado Frio Forte Sim Sim Sol Amena Fraco Não Não Nublado Frio Forte Não Não Chuva Amena Fraco Sim Sim Escolha a alternativa que melhor representa a Matriz de Confusão que representa o cenário anterior: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 9/17 Classe esperada Sim Não Classe predita Não 4 1 Sim 2 3 Classe esperada Sim Não Classe original Sim 4 1 Não 2 3 Classe esperada Sim Não Classe predita Sim 3 2 Não 1 4 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 10/17 Classe classificador Sim Não Classe predita Sim 3 2 Não 1 4 Como apresentado na unidade 4, tópico 3, a classe original dada ao algoritmo de aprendizado de máquina supervisionadoé chamado de classe esperada, rótulo, classe original, label, variável dependente, consequência etc. Já a classe calculada pelo algoritmo de aprendizado de máquina supervisionado é chamada de classe predita, calculada, descoberta etc. Dessa forma: VP = verdadeiro positivo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Sim”; VN = verdadeiro negativo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Não”; FP = falso positivo, ou seja, número de exemplos para os quais classe predita = “Sim”, mas a classe esperada = “Não”; FN = falso negativo, ou seja, número de exemplos para os quais classe predita = “Não”, mas a classe esperada = “Sim”. IncorretaPergunta 4 0 / 1 pts Considere o seguinte conjunto de dados abaixo como sendo o resultado da classificação de um conjunto de testes ao passar por um classificador supervisionado. Tempo Temperatura Vento Pedalar Classificador Sol Calor Fraco Sim Sim Sol Calor Forte Não Sim Nublado Calor Fraco Sim Sim 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 11/17 70,0% e 60,0%. 60,0% e 70,0%. 70,0% e 80,0%. 60,0% e 83,3%. 83,3% e 60,0%. Como apresentado na unidade 4, tópico 3, considerando que a Matriz de Confusão pode ser representada como a seguir: Classe esperada Sim Não Classe predita Sim VP = 4 FP = 1 Não FN = 2 VN = 3 Chuva Amena Fraco Sim Não Chuva Frio Fraco Não Não Chuva Frio Forte Não Sim Nublado Frio Forte Sim Sim Sol Amena Fraco Não Não Nublado Frio Forte Não Não Chuva Amena Fraco Sim Sim Os valores das medidas de desempenho acurácia do classificador e precisão, nesse caso relativo à classe “Sim”, são, respectivamente: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 12/17 Sendo que: VP = verdadeiro positivo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Sim”; VN = verdadeiro negativo, ou seja, número de exemplos para os quais classe predita = classe esperada = “Não”; FP = falso positivo, ou seja, número de exemplos para os quais classe predita = “Sim”, mas a classe esperada = “Não”; FN = falso negativo, ou seja, número de exemplos para os quais classe predita = “Não”, mas a classe esperada = “Sim”. Pergunta 5 1 / 1 pts Todas estão incorretas. Apenas I e III. Apenas I e II. Analise o trecho de código a seguir em Python, desenvolvido dentro do Jupyter Notebook. Há uma informação básica a respeito do DataFrame e também alguns dados estatísticos com relação à coluna ‘Valor Compra’ do mesmo DataFrame. Fonte: elaborado pelo autor. Após a sua análise, considere as asserções a seguir: I. A contagem de valores do campo ‘Valor Compra’ é inferior ao total de linhas do DataFrame, indicando que na coluna ‘Valor Compra’ há exatamente 28 valores ausentes. II. Supondo dados expressos em moeda brasileira, o valor médio das compras feitas presentes nesse DataFrame é de aproximadamente R$3.131,60. III. Supondo dados expressos em moeda brasileira, o valor mais comum (standard, std) para a coluna ‘Valor Compra’ é de aproximadamente R$1.279,90. As asserções corretas são: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 13/17 Todas estão corretas. Apenas II e III. A asserção I está correta, porque count mostra a contagem de valores não nulos (ou ausentes) para uma determinada coluna. A asserção II também está correta, porque mean, que é a média mostrada na figura, é exatamente o valor colocado nessa afirmativa. Já a asserção III está incorreta, porque std mostra o valor do desvio padrão para o campo ‘Valor Compra’. O valor mais comum ou de maior frequência é a moda. Reveja esses conceitos na unidade 5, tópico 2. Pergunta 6 1 / 1 pts Campos que possuam cálculo automático dependente de outros campos do conjunto de dados e que o sistema aleatoriamente possa estar deixando de executar essa tarefa, que fica pré-agendada no sistema. Campos obrigatórios, mas sem a correta consistência que obrigue a correta captura do preenchimento (nome completo, CPF, RG etc.). Campos com opção correta faltante, por exemplo, uma lista de cidades onde não consta uma delas em particular. A pessoa, ao preencher e notar que não tem a sua cidade, provavelmente irá deixar em branco. Campos que dependem de uma ação temporal, por exemplo, os dados de navegação em um e-commerce, em que o nome do produto adquirido e o valor somente existirão no conjunto de dados se o cliente fizer a compra, senão eles estarão em branco até que o referido evento ocorra. Campos não obrigatórios que, ao serem preenchidos, são deixados em branco ou zerados, como idade, endereço, renda etc. A existência de dados ausentes sempre envolve uma questão de modelagem do sistema para fazer a aquisição das informações, seja por negligência de validação dos campos e/ou pela coleta esparsa em tabelas pré-formatadas. Os sistemas de informação simplesmente vão fazer o que o programador mandou e não o que ele desejaria que pudesse ser feito, já que os sistemas não agem por conta própria e de forma aleatória. Reveja esses conceitos na unidade 5, tópico 1.1. Pergunta 7 1 / 1 pts A presença de dados ausentes em conjuntos de dados é algo presente na maior parte das informações provenientes do mundo real. É possível remediar a existência de dados ausentes utilizando técnicas estatísticas, como a média, a mediana e a moda. Marque a alternativa INCORRETA a respeito das razões que propiciam a ocorrência de dados ausentes: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 14/17 Terá somente a coluna ’Cliente’ do DataFrame inicial, já que as demais serão removidas por conter dados ausentes. Terá os mesmos dados do DataFrame inicial, exceto a coluna ‘Cliente’, porque não contém valores ausentes. Terá os mesmos dados do DataFrame inicial, exceto que as linhas que continham algum tipo de valor ausente não estarão mais presentes. Terá os mesmos dados do DataFrame inicial, exceto: as 14 linhas que continham ‘Região’ sem informação; as 16 linhas que continham ‘Mês’ sem informação; e as 28 linhas que continham ‘Valor Compra’ sem informação, totalizando, portanto, 58 linhas removidas do DataFrame inicial. Terá somente os dados cujas linhas do DataFrame contenham ao menos um valor ausente. O método dropna() remove do DataFrame todas as linhas que contêm ao menos algum valor ausente (NaN) e retorna um novo DataFrame com essa característica. Assim, o novo DataFrame é exatamente o mesmo do original, exceto pela supressão das linhas com algum valor ausente. Não se pode deduzir o total de linhas a serem removidas somente com as informações prestadas, porque uma mesma linha pode conter mais que um valor ausente, então, a soma dos valores ausentes não é necessariamente o total de linhas a serem removidas. Reveja esses conceitos na unidade 5, tópico 1.1. Pergunta 8 1 / 1 pts Cada exemplo do conjunto de dados participa K vezes das partições de treinamento e teste. Cada exemplo do conjunto de dados participa uma única vez da partição de teste e (K-1) vezes da partição de treinamento. O trecho de código em Python a seguir, desenvolvido dentro do Jupyter Notebook, está relacionado ao tratamento de dados ausentes dentro de um DataFrame. Fonte: elaborado pelo autor. Considerando os valores mostrados dentro do Jupyter Notebook para o método df.isnull().sum() e, na sequência, a chamada do método df.dropna(), pode-se afirmar que o DataFrame resultante: A validação do modelo utilizando K-fold cross-validation é uma estimativa de erro bem aceita por produzir uma estatística confiável e normalizada em relação à predição de exemplos futuros. A respeito das partições, é corretoafirmar que: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 15/17 Cada exemplo é uma partição individual que participa, portanto, (K)n vezes do processo de treinamento e teste, em que n é o número de linhas do conjunto de dados. Cada exemplo do conjunto de dados participa uma única vez da partição de treinamento e (K-1) vezes da partição de teste. Cada exemplo é uma partição individual que participa, portanto, (n)K vezes do processo de treinamento e teste, em que n é o número de linhas do conjunto de dados. A avaliação por k fold cross-validation divide o conjunto de dados em K partições iguais e sem repetição dos dados entre as partições. O classificador é testado K vezes sobre as partições de modo que em cada iteração o classificador é treinado sobre (K-1) partições e testado sobre uma única partição. Reveja esse conceito na unidade 6, tópico 4. Pergunta 9 1 / 1 pts O desempenho do classificador sobre os dados de treinamento é tão bom quanto o desempenho do classificador sobre os dados de teste que não foram previamente vistos. Não é possível identificar uma situação de overfitting com as informações fornecidas no enunciado da questão. O desempenho do classificador sobre os dados de treinamento é bom, mas muito superior ao desempenho do classificador sobre os dados de teste que não foram previamente vistos. A situação descrita no enunciado da questão faz remeter ao conceito de underfitting e não de overfitting. O desempenho do classificador sobre os dados de treinamento é tão ruim quanto o desempenho do classificador sobre os dados de teste que não foram previamente vistos. Para detectar se está ocorrendo overfitting, basta você comparar o desempenho do classificador sobre os dados de treinamento e comparar o desempenho do mesmo classificador sobre os dados de teste. Se o desempenho sobre os dados de teste for muito pior que sobre os dados de treinamento, significa que o classificador decorou os dados de treinamento, ocorrendo o fenômeno chamado overfitting. Reveja esse conceito na unidade 6, tópico 4. Pergunta 10 1 / 1 pts O overfitting possui uma característica muito marcante quando estamos validando um classificador. Essa característica é fundamental para sabermos se a principal funcionalidade de um classificador está de acordo com seu papel esperado. Então, pense em um caso hipotético em que possa estar ocorrendo overfitting e aponte abaixo o que identificaria corretamente o overfitting no desempenho do um classificador: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 16/17 É que na avaliação por k-fold stratified cross-validation as partições são criadas de forma a manter o balanceamento entre as distribuições dos dados por classe. É que na avaliação por k-fold cross-validation as partições são criadas de forma a manter o balanceamento entre as distribuições dos dados por classe. É que na avaliação por k-fold stratified cross-validation as partições são criadas com exemplos escolhidos aleatoriamente para poder reduzir o efeito viés da separação dos exemplos. É que na avaliação por k-fold stratified cross-validation as partições são criadas de forma a ser mantida a homogeneidade e igualdade entre os exemplos das partições. É que na avaliação por k-fold cross-validation as partições são criadas com exemplos escolhidos aleatoriamente para poder reduzir o efeito viés da separação dos exemplos. Na avaliação por k -old stratified cross-validation a principal diferença está justamente na palavra stratified (estratificada). Isso significa que as partições são criadas de forma a manter o balanceamento entre as distribuições dos dados por classe. Se o conjunto de dados, por exemplo, tiver 60% de exemplos da classe A e 40% de exemplos da classe B, utilizando k-fold stratified cross- validation cada partição terá os mesmos 60% de exemplos da classe A e 40% de exemplos da classe B. Reveja esse conceito na unidade 6, tópico 2. Pontuação do teste: 9 de 10 As avaliações do modelo por k-fold cross-validation e k-fold stratified cross-validation são conhecidas por serem validações cruzadas de forma que os dados são divididos em partições que se revezam para serem usadas no processo de treinamento e teste do classificador. A respeito dessas duas avalições cruzadas, podemos dizer que a diferença central entre elas: 22/05/2024, 22:00 AC2: GT501TSN1 - Fundamentos de Inteligência Artificial https://facens.instructure.com/courses/13506/quizzes/53713 17/17