Buscar

Aprendizagem de Máquina (Unidade 2)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Aprendizagem de Máquina
Unidade 1
Deixe seu like !!!
Aprendizagem supervisionada: técnica baseada em instâncias
1. O algoritmo kNN é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para resolver problemas de classificação e regressão. Dado um problema em que considera-se a tarefa de classificar uma nova instância (ponto de consulta) entre várias instâncias conhecidas, considere uma área controlada com diversos sinais de carga positiva e outros diversos de carga negativa. A tarefa é estimar (classificar) o resultado do ponto de consulta com base em um número selecionado de seus vizinhos mais próximos. Em outras palavras, pretende-se saber se o ponto de consulta pode ser classificado como um sinal positivo ou negativo. Para o uso do kNN com solução mais adequada a qualquer ponto de consulta a ser escolhido, garantindo, assim, uma certeza de maior relevância que tal ponto será de carga positiva ou negativa, que valor deve ser atribuído a k?
E. K = 3.
2. O algoritmo kNN faz a utilização de métricas de similaridade entre instâncias, das quais podemos citar a Distância Euclidiana, Manhattan, Chebychev, dentre outras.
Em relação às métricas utilizadas pelo kNN, qual das alternativas a seguir será a Distância Euclidiana entre os dois pontos dados em um espaço bidimensional sendo os pontos A (1,3) e B (2,3)?
A. 1
3. Diversos trabalhos exigem a aplicação do uso do algoritmo kNN ao aprendizado de máquina supervisionado. Relacionado a esse contexto, tem-se um conjunto de afirmações a seguir quanto à definição e ao uso de valores atribuídos ao parâmetro k. Leia:
I) Para qualquer problema de consulta ao qual façamos o uso do algoritmo kNN, definir um pequeno valor para k irá levar a uma grande variação nas previsões.
II) Para qualquer problema de consulta ao qual façamos o uso do algoritmo kNN, definir para k um valor alto pode levar a um grande erro sistemático do modelo.
III) Quando fazemos o uso do algoritmo kNN, o valor de k deve ser definido como um valor grande o suficiente para minimizar a probabilidade de classificação incorreta, e pequeno o suficiente (com relação ao número de casos na amostra de exemplo) para que os k pontos mais próximos fiquem suficientemente próximos do ponto da consulta.
É correto o que se afirma apenas em:
B. As afirmativas I, II e III estão corretas.
4. O algoritmo kNN é um algoritmo simples de aprendizado de máquina supervisionado que pode ser usado para resolver problemas de classificação e regressão.
A seguir, apresentamos um resumo da sequência de passos do processo realizado pelo algoritmo kNN:
1 ) Receber um dado não classificado e realizar a medição da distância desse novo dado em relação a cada um dos outros dados classificados.
2 ) Selecionar as k menores distâncias.
3 ) Classificar esse novo dado como dado que é pertencente à classe que mais apareceu.
4 )  Realizar a verificação das classes dos dados que tiveram as k menores distâncias e, ainda, contabilizar a quantidade de vezes que cada classe apareceu. 
 
Assinale a opção que apresenta a ordem correta dos passos realizados:
B. 1 – 2 – 4 – 3
5. Com base nos conceitos do algoritmo kNN, em relação ao seu entendimento e uso, avalie as seguintes asserções e a relação proposta entre elas:
I) O kNN é um método que consiste em memorizar os dados de treinamento para realizar predições para uma nova instância desconhecida, a partir dos valores observados para uma quantidade k de vizinhos mais próximos (SHALEV-SHWARTZ; BEN-DAVID, 2014).
PORQUE
II) O algoritmo kNN é um algoritmo simples de aprendizado de máquina supervisionado que pode ser usado para resolver problemas de classificação e regressão.
A respeito dessas asserções, assinale a alternativa correta:
B. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
Aprendizagem supervisionada: árvores de decisão e regressão
1. Para este exercício, entenda que cogumelos de vários tipos
crescem amplamente em determinada floresta. Alguns foram considerados venenosos e outros, não venenosos. Você é o
 responsável por fazer a procura e a colheita de cogumelos e tem os seguintes dados a serem considerados quanto aos atributos deles:
Dado esse quadro, relacionando-se com o aprendizado em árvores de decisão, qual é a entropia associada aos "cogumelos comestíveis"?
 Considere "Comestível" como atributo-alvo. Quando tiver valor igual a "1", significa que, sim, é comestível; e valor igual "0" indica que não é comestível.
D. Entropia = 0,954434003
2. Cogumelos de vários tipos crescem amplamente em determinada floresta. Alguns foram considerados venenosos e outros, não venenosos. Você é o responsável por fazer a procura e a colheita de cogumelos e tem os seguintes dados a serem considerados quanto aos atributos deles:
Dado esse quadro, qual é o nodo raiz da Árvore de Decisão, baseando-se no Ganho de Informação? 
D. Ganho(Liso).
3. Recentemente, 800 planetas fora do sistema solar foram identificados em nossa galáxia. Um estudo quanto ao envio de naves espaciais a todos esses planetas é necessário, de modo a estabelecer se são habitáveis para humanos ou não. Entretanto, enviar uma nave espacial para cada planeta tem alto custo.
Considerando isso, você criará Árvores de Decisão para prever se um planeta é habitável com base apenas em características observáveis usando telescópios.
Na tabela, você recebe os dados dos 800 planetas pesquisados. As características observadas pelo telescópio são Tamanho (“Grande” ou “Pequeno”) e Órbita (“Próximo” ou “Distante”). Em cada linha, há indicação de valores dos recursos de habitabilidade e quantas vezes esse conjunto de valores foi observado, como, por exemplo, na primeira linha, há a indicação de 20 planetas "Grandes" e "Próximos" da estrela que são considerados habitáveis.
Para apresentar a resposta, que é uma Árvore de Decisão, derive a Árvore de Decisão por ID3 com base nos dados apresentados nestas 8 linhas (use o valor máximo critério de Ganho de Informações para as divisões). Então mostre como deverá ser a Árvore de Decisão final, indicado os valores de cada nó, em qual atributo você está dividindo e qual valor corresponde a que ramo. Para cada nó folha da árvore, escreva o número de planetas habitáveis e não habitáveis nos dados de treinamento que pertencem a esse nó.
Avalie as alternativas e assinale a resposta correta:
A. clique aqui
4. As Árvores de Decisão e Regressão são aplicadas em problemas de classificação e regressão, respectivamente. São capazes de resolver problemas a partir da lógica de geração de árvores, usando os conceitos de Ganho de Informação e Entropia. Avalie se as três frases a seguir são corretas em relação aos conceitos aplicados a Árvores de Decisão e Regressão:
I - Árvores de Decisão e Regressão objetivam a criação de estruturas binárias de tamanho fixo e que sejam compreensíveis por humanos.
II - Em uma Árvore de Decisão, a decisão é tomada pelo caminhamento a partir do nodo raiz até o nodo folha.
III - É importante que a Árvore de Decisão esteja composta por relacionamento significativo entre uma classe de instâncias e o valor de seus atributos.
Assinale a alternativa correta:
E. Apenas as frases II e III são verdadeiras.
5. As Árvores de Decisão são aplicadas em problemas de classificação, usando os conceitos de Ganho de Informação e Entropia. Avalie se as três frases a seguir são corretas em relação aos conceitos de Entropia e Ganho de Informação:
I - A entropia mede a aleatoriedade de uma variável aleatória, e sua fórmula permite calcular o quanto uma amostra é homogênea.
II - A entropia permite a avaliação da divisão de nodos da Árvore de Decisão a partir da seleção adequada do atributo associado ao teste.
III - Ao processo de contrução da Árvore de Decisão, o atributo com o maior ganho de informação é aquele escolhido como o atributo teste para o nodo corrente.
Assinale a alternativa correta:
B. As frases I, II e III são verdadeiras.
Aprendizagem supervisionada: técnica Bayesiana
1. Recomenda-se que, a partir dos 40 anos, as mulheresfaçam mamografias anuais. Nessa idade, 1% (0,01) das mulheres são portadoras de um tumor assintomático de mama, ou seja, 99% (0,99) não têm câncer. Sabe-se que a mamografia apresenta resultado positivo em 80% das mulheres com câncer de mama, mas esse mesmo resultado ocorre também com 9,6% das mulheres sem o câncer, isto é, a mulher pode ter o resultado positivo mesmo sem ter propriamente câncer.
Suponha que você chegou em casa e encontrou um resultado de exame de mamografia de rotina com resultado positivo. Qual é a probabilidade de esse exame comprovar que o paciente tem um câncer de mama? Justifique a sua resposta com o uso da técnica bayesiana.
B. 0,54 (54%).
2. A tabela de contingência a seguir mostra o número de pessoas indo para o trabalho (em milhares) em São Paulo, em 2015, organizadas pelo meio de transporte e pelo tempo de viagem.
	
	Menos de 15 minutos
	15-29 minutos
	30-44 minutos
	45-59 minutos
	60 ou mais minutos
	Total
	Veículo particular
	636
	908
	590
	257
	256
	2647
	Transporte público
	9
	54
	96
	62
	108
	329
	Outro
	115
	70
	23
	7
	7
	222
	Total
	760
	1032
	709
	326
	371
	3198
Dado que a pessoa usou transporte público, calcule a probabilidade de que a sua viagem tenha levado 60 minutos ou mais.
A. 0,33.
3. Segundo os seguintes dados supostos sobre o câncer de mama, qual é a porcentagem de uma mulher qualquer obter o resultado positivo em uma mamografia e realmente estar com câncer?
Sendo que 1% das mulheres têm câncer de mama; 80% das mamografias detectam câncer de mama quando ele está presente e, consequentemente, 20% das vezes não detectam; 9,6% das mamografias detectam câncer de mama quando ele não está presente e, com isso, 90,4% dos testes dão um resultado negativo correto.
Colocando os dados em uma tabela:
	
	% de mulheres
	Resultado do exame positivo
	Resultado do exame negativo
	Chance de ter câncer
	1% = 0,01
	80% = 0,80
	20% = 0,2
	Chance de não ter câncer
	99% = 0,99
	9,6% = 0,096
	90,4 = 0,904
Por meio do teorema de Bayes: P (A|B) = Chance de ter câncer (A) obtendo um resultado positivo (B).
P (B|A) = Chance de obter um resultado positivo (B) tendo câncer (A).
P (A) = Chance de ter câncer.
P (nA) = Chance de não ter câncer.
P (B|nA) = Chance de obter um resultado positivo (B) não tendo câncer (nA).
Por meio do teorema de Bayes, descubra a porcentagem P (A|B) = P(A) * P(B|A) / P(B|A) * P(A) + P(B|nA) * P (nA):
C. P (A|B) = 0,0077 ou 7,8%.
4. As fábricas A, B e C são responsáveis por 50, 30 e 20% do total de celulares produzidos por uma empresa. Os percentuais de celulares defeituosos na produção dessas fábricas valem, respectivamente, 1, 2 e 5%. Um celular produzido por essa empresa é adquirido em uma loja por um cliente.
Qual é a probabilidade de o celular adquirido pelo cliente apresentar defeito de fábrica?
B. P(D) = 0,021 ou 2,1%.
5. As fábricas de aparelhos celulares A, B e C são responsáveis por 50, 30 e 20% do total de celulares produzidos por uma empresa. Os percentuais de celulares defeituosos na produção dessas fábricas valem, respectivamente, 1, 2 e 5%. Um celular produzido por essa empresa é adquirido em uma loja por um cliente.
Qual é a probabilidade de um celular com defeito ter sido fabricado na fábrica C?
D. P(C|D) = 0,476 ou 47,6%.
Aprendizagem supervisionada: redes neurais artificiais
1. A definição da arquitetura de uma RNA tem grande influência na taxa de acerto de suas predições.
Dado um conjunto de dados com 10 entradas, que precisam ser classificados em duas classes, marque a opção que determina o número de neurônios que deveria ser utilizado na camada oculta.
D. 6.
2. A escolha da arquitetura geralmente acontece por meio de um processo de busca exaustiva entre possíveis arquiteturas e pode ocorrer por diferentes abordagens. Marque a opção que representa a configuração da RNA que deve ter seu valor aumentado à medida que se diminui a taxa de aprendizagem no processo de busca de melhor configuração.
A. Épocas.
3. Para escolher uma entre diferentes arquiteturas de RNAs possíveis, é necessário avaliar os resultados de treinamento com determinadas arquiteturas, comparando-as a um ou mais critérios de avaliação. Marque a opção que representa o principal critério utilizado para avaliação da melhor arquitetura entre as arquiteturas testadas.
E. Acurácia preditiva.
4. O algoritmo backpropagation realiza a iteração entre duas fases, uma para cálculo dos valores de saída e outra para ajustar a rede.
Dado o seguinte trecho do algoritmo:
Marque a opção que representa o nome da fase do algoritmo.
C. Backward.
5. O processo de treinamento de uma RNA pode ser dividido em diferentes tipos de aprendizagem. Marque a opção que representa o processo de aprendizagem supervisionado.
B. Pesos são adaptados por meio do fornecimento das respostas esperadas pelas saídas dos neurônios.

Continue navegando