Buscar

MACHINE LEARNING - A2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
A análise de componentes principais é uma técnica na qual um conjunto de variáveis é reescrito por meio 
de transformações lineares em outro conjunto de variáveis que recebe o nome de componentes principais. 
O propósito da PCA é reduzir a dimensão da massa de dados, mas reduzindo, ao máximo, a perda de 
informação. 
 
Em relação à técnica PCA, considere as afirmações a seguir. 
 
I. ( ) A PCA é uma técnica que utiliza álgebra de Lie e, portanto, apresenta elevado custo computacional. 
II. ( ) A técnica de PCA pode ser aplicada exclusivamente a bases de dados com duas dimensões. 
III. ( ) PCA tem como uma de suas características permitir a identificação de padrões ocultos nos dados. 
IV. ( ) A PCA implementa uma correlação entre as variáveis. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada: 
F, F, V, V. 
Resposta Correta: 
F, F, V, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta, pois, como o PCA reescreve as variáveis 
principais em termos de outras variáveis do problema, permite que sejam identificados 
padrões anteriormente ocultos nos dados. São próprios do algoritmo da PCA a busca de 
correlação entre as variáveis e, por meio da aplicação de técnicas de álgebra linear, a 
reescrita das variáveis, considerando a correlação entre elas. 
 
 
• Pergunta 2 
1 em 1 pontos 
 
Existem diversas classificações das tarefas da Mineração de Dados. Alguns autores dividem as tarefas de 
Mineração de Dados em preditivas e descritivas. Outros autores dividem as tarefas de Mineração de Dados 
em classificação e regressão; mineração de padrões frequentes, associações e correlações, análise de 
agrupamentos e estudos sobre outliers. 
 
Sobre os modelos e técnicas de aprendizado preditivo e descritivo, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) As técnicas de aprendizado preditivo tem por objetivo desenvolver modelos e gerar conhecimento a 
partir de bases de dados e experiências anteriores que possam ser utilizadas no futuro. 
II. ( ) Tarefas descritivas seguem o paradigma de aprendizado não supervisionado, de tal forma que busca-
se uma função a qual, a partir de dados passados ou de treinamento, permita sua utilização para prever 
valores no futuro ou a previsão de um rótulo. 
III. ( ) Algoritmos de aprendizado preditivo estão associados à hipótese por indução, seguindo o paradigma 
de aprendizado não supervisionado e buscando regras de associação que relacionam um grupo de atributos 
a outro grupo de atributos. 
IV. ( ) As tarefas preditivas são divididas em tarefas de classificação e regressão. As tarefas de 
classificação são chamadas de predição discreta e as tarefas de regressão são chamadas de predição 
contínua. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada: 
V, F, F, V. 
Resposta Correta: 
V, F, F, V. 
 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a afirmação I é verdadeira. É 
característica das tarefas preditivas utilizar os valores dos atributos para efetuar 
predições de valores futuros. A afirmação IV é verdadeira, uma vez que, como podemos 
conferir no material em forma de texto, as tarefas preditivas são classificadas em tarefas 
de classificação e regressão. As tarefas de classificação, por sua vez, são categorizadas 
como tarefas de predição discreta e as tarefas de regressão como tarefas de predição 
contínua, pois suas variáveis de saída percorrem intervalos de números reais. 
 
• Pergunta 3 
1 em 1 pontos 
 
Temos redundância de dados quando dois atributos possuem os mesmos valores ou valores muito 
parecidos, sendo que tal situação pode ocorrer por conta dos mais diversos motivos. Para identificá-la, 
podemos utilizar a análise de correlação, técnicas manuais ou, ainda, a análise de componentes principais 
ou PCA (Principal Component Analysis). Uma das questões que deve ser atacada na etapa de integração de 
dados é a redundância de dados. 
 
Sobre a etapa de integração de dados e seus problemas, considere as afirmações a seguir. 
 
I. ( ) Um dos fatores que pode resultar em redundância de dados é o uso de nomenclaturas diferentes para 
atributos equivalentes, mas originadas de fontes de dados distintas. 
II. ( ) Pode ocorrer redundância de dados em razão da inclusão de exemplares repetidos no conjunto de 
dados. 
III. ( ) Quando temos redundância de dados é interessante efetuar uma redução do conjunto de dados. 
IV. ( ) É considerada uma boa prática armazenar atributos do tipo derivado (valores que são previstos a 
partir de valores de outros atributos). Tal prática resulta na redução do conjunto de dados. 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
V, V, V, F. 
Resposta Correta: 
V, V, V, F. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a afirmativa I é verdadeira, já que, de 
fato, se utilizarmos distintos nomes para atributos que sejam equivalentes, podemos ter 
redundância na base de dados. O uso de nomenclaturas diferentes para atributos 
equivalentes pode, sim, gerar redundância. A afirmativa II é verdadeira, pois uma das 
possíveis causas de redundância é justamente a entrada na base de dados de elementos 
repetidos. A afirmativa III também é verdadeira, pois é recomendável efetuar a redução 
dos dados em situações de redundância, uma vez que, assim, o posterior trabalho de 
análise dos dados será simplificado. 
 
 
• Pergunta 4 
1 em 1 pontos 
 
A mineração de dados é constituída por atividades de análise bem como de descoberta de relações entre 
objetos de uma base de dados. Tais bases de dados podem ser estruturadas, não estruturadas ou 
semiestruturadas. Temos tarefas de preparação da base e de análise descritiva. As tarefas de predição 
podem ser classificadas em predição discreta ou predição contínua. Já a aprendizagem de máquina pode ser 
categorizada como aprendizagem supervisionada ou não supervisionada. 
 
Com relação às tarefas supervisionadas e não supervisionadas, assinale a alternativa correta: 
 
Resposta 
Selecionada: 
 
A sumarização efetua a descoberta de descrição simples e compacta para um 
conjunto de dados. 
Resposta Correta: 
 
A sumarização efetua a descoberta de descrição simples e compacta para um 
conjunto de dados. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a tarefa de sumarização (conhecida 
como descrição de conceitos) se traduz na identificação e apresentação resumida das 
características principais da base de dados. Como exemplo de sumarização, considere a 
tarefa de identificar os assinantes de um site de notícias na região sul do Brasil: “são 
mulheres, brancas, nível universitário, entre 25 e 40 anos de idade”. 
 
• Pergunta 5 
1 em 1 pontos 
 
Enquanto nos algoritmos classificadores temos um atributo (classe) para o qual devemos efetuar a previsão 
a partir dos outros atributos, nos algoritmos de agrupamento não existe esse atributo ou classe. Assim, os 
dados nesse tipo de situação não apresentam uma característica que constitua o objetivo de previsão. 
 
Considerando os algoritmos fuzzy k-médias , k-médias e medoide, e métodos baseados em particionamento, 
assinale a alternativa correta. 
 
Resposta 
Selecionada: 
 
O algoritmo fuzzy k-médias é uma extensão do algoritmo k-médias, sendo que, no 
algoritmo fuzzy k-médias, um objeto pode pertencer a mais de um grupo. 
Resposta 
Correta: 
 
O algoritmo fuzzy k-médias é uma extensão do algoritmo k-médias, sendo que, no 
algoritmo fuzzy k-médias, um objeto pode pertencer a mais de um grupo. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois enquanto no K-médias é realizada uma 
partição da base de dados, com cada objeto podendo pertencer a um único agrupamento, 
no fuzzy K-médias, um objeto pode pertencer a mais de um agrupamento, com um 
índice de pertencimentoe diversos graus de pertencimento. Dessa forma, o fuzzy K-
médias constitui uma extensão do K-médias. 
 
 
• Pergunta 6 
1 em 1 pontos 
 
Na etapa de mineração de dados, são utilizados algoritmos com capacidade de aprender a partir de 
exemplos (ou aprendizado indutivo). A aprendizagem de máquina pode seguir um paradigma de 
aprendizagem supervisionada ou um paradigma de aprendizagem não supervisionada. Nos dois casos, são 
utilizadas ferramentas matemáticas e estatísticas para implementar tais paradigmas. 
 
A respeito do aprendizado supervisionado e não supervisionado, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) No aprendizado supervisionado, o analista está de posse de um conjunto de objetos em que os valores 
resposta (ou saídas) são conhecidos. Alternativamente, o analista possui informações sobre o 
comportamento esperado pelo sistema. 
II. ( ) No aprendizado não supervisionado, nós temos rótulos ( labels ) associados com os valores de saída 
da variável resposta. 
III. ( ) Um exemplo de algoritmo utilizado na aprendizagem não supervisionada é a regressão linear. 
IV. ( ) Como exemplo de algoritmo de aprendizagem não supervisionada podemos citar a clusterização. 
Na clusterização, esperamos classificar objetos a partir de seus atributos. Por exemplo, esperamos 
classificar espécies de plantas a partir do tamanho das sépalas e das pétalas. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada: 
V, F, F, V. 
Resposta Correta: 
 
V, F, F, V. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois, no aprendizado supervisionado, existe 
uma variável, uma classe ou atributo especial, com um rótulo com o qual podemos 
comparar as respostas do algoritmo e efetuar a validação do resultado. A afirmação IV é 
verdadeira, pois, no aprendizado não supervisionado, não existe uma classe ou rótulo 
prévio com o qual possamos validar as saídas do algoritmo. O exemplo clássico de 
aprendizado não supervisionado é a clusterização, na qual pretendemos classificar 
objetos por seus atributos. Temos o exemplo de classificar espécies animais por meio 
dos atributos dos indivíduos amostrados. No livro-texto, foi apresentado o exemplo de 
classificar (rotular) garrafas. 
 
• Pergunta 7 
1 em 1 pontos 
 
A linguagem R é uma linguagem orientada a objetos, de código livre, de acesso gratuito e com uma 
comunidade mundial (e brasileira) de colaboradores que desenvolve os chamados pacotes ( packages ) 
voltados à resolução de problemas específicos da Estatística, Ciência de Dados e Machine Learning . Em 
maio de 2021, a linguagem R possuía mais de 17.000 pacotes em seu repositório oficial. 
 
THE R Project for Statistical Computing. R-project , [2021]. Disponível em: https://www.r-project.org/ . 
Acesso em: 10 jun. 2021. 
 
Considere a utilização do software R para aplicar o algoritmo k-médias a um conjunto de dados e assinale a 
alternativa correta. 
 
Resposta 
Selecionada: 
 
O k-médias tem como uma de suas principais características trabalhar por meio de 
técnica de refinamento iterativo. 
Resposta Correta: 
O k-médias tem como uma de suas principais características trabalhar por meio de 
técnica de refinamento iterativo. 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta, pois o k-médias trabalha com refinamento 
iterativo e esta é uma das suas principais características. O k-médias vem instalado 
no Rbase ( utils), não sendo necessário carregar determinado tipo de pacote para rodar 
o k-médias no R. 
 
 
• Pergunta 8 
1 em 1 pontos 
 
Dentre as tarefas mais utilizadas na mineração de dados estão a regressão, a classificação e as tarefas de 
agrupamento. Tanto na classificação quanto no agrupamento existem várias famílias de algoritmos, cada 
uma com suas características próprias. A tarefa de classificação é a tarefa da mineração de dados que possui 
maior família de algoritmos. 
 
A respeito das diferenças entre classificação e agrupamento, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) Na clusterização, buscamos agrupar os dados em categorias de objetos similares. A clusterização é 
uma técnica não supervisionada. 
II. ( ) Na classificação, a base não é rotulada. A tarefa dos algoritmos de classificação é identificar a classe 
à qual pertence um novo objeto ainda não apresentado e com rótulo conhecido. 
III. ( ) Uma das aplicações da clusterização seria segmentar a base de clientes, a partir de atributos como 
idade, sexo ou faixa de renda, entre clientes com maior probabilidade de adquirir o produto X (de menor 
preço) e clientes com maior probabilidade de adquirir o produto Y (de maior preço). 
IV. ( ) Dentre os algoritmos de agrupamentos mais usados, citamos: k-médias, DBSCAN e k-medoides. 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada: 
V, F, V, V. 
Resposta Correta: 
V, F, V, V. 
Comentário 
da resposta: 
Resposta correta. A afirmação I é verdadeira. A clusterização é uma técnica não 
supervisionada, por não existirem rótulos nestes algoritmos. A afirmação III é 
verdadeira, já que uma das aplicações da clusterização é a segmentação de bases de 
clientes em função de seus atributos. Na clusterização, queremos particionar a base de 
dados de forma que toda a base é dividida em grupos, tal que a união desses grupos 
constitui a base inteira e intersecção vazia entre os grupos. A afirmação IV é verdadeira, 
pois todos os algoritmos listados são algoritmos de agrupamento. 
 
 
• Pergunta 9 
1 em 1 pontos 
 
O R é uma linguagem orientada a objetos, desenvolvida pelo neozelandês Ross Ihaka e pelo canadense 
Robert Gentleman a partir de um projeto de pesquisa na Universidade de Auckland, na Nova Zelândia. O R 
está inserido no Projeto GNU e vem sendo desenvolvido a partir de trabalho colaborativo por um grupo que 
se denomina R Core Team . 
 
Nesse sentido, sobre o software R é correto afirmar que: 
 
Resposta 
Selecionada: 
 
Para ler dados de uma tabela csv no R, podemos usar o comando read.table(). Esse 
comando já vem instalado no Rbase. 
Resposta Correta: 
Para ler dados de uma tabela csv no R, podemos usar o comando read.table(). Esse 
comando já vem instalado no Rbase. 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta, pois podemos ler dados no software R que 
estejam no formato csv (ou, em inglês comma-separated-values), utilizando para tal 
finalidade o comando que já vem instalado no utils do Rbase denominado read.table(). 
 
 
• Pergunta 10 
1 em 1 pontos 
 
O termo agrupamento é utilizado quando se estuda a similaridade entre objetos de uma base de dados, 
objetivando determinar como eles estão organizados em um número de grupos. Em um agrupamento, 
busca-se particionar a base de dados em k grupos. Existem estratégias de agrupamento denominadas de 
hierárquicas e não hierárquicas. Costuma-se denominar classificação o processo de determinar uma função 
que indica a qual classe pertence um objeto de uma base de dados sob estudo. 
 
Sobre aprendizado não supervisionado, clusterização e classificação, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) O agrupamento ou clusterização tem por objetivo a organização dos objetos em categorias de acordo 
com alguma métrica de similaridade ou distância. 
II. ( ) Nos algoritmos de classificação, a base não possui rótulos, sendo que cada objeto da base possui uma 
classe correspondente. 
III. ( ) O objetivo dos algoritmos de classificação é identificar a classe à qual pertence um novo objeto 
ainda não apresentado e com rótulo desconhecido. 
IV. ( ) Na clusterização ou agrupamento, o objetivo é segmentar a base de dados (que já vem rotulada) em 
grupos com algum significado. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada:V, F, V, F. 
Resposta Correta: 
V, F, V, F. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a afirmação I é verdadeira. A 
clusterização é uma tarefa não supervisionada que tem por objetivo particionar a base de 
dados em k grupos que tenham a máxima similaridade dentro de cada grupo e a menor 
similaridade entre os grupos. Para isso, é utilizada uma matriz de similaridade. A 
afirmação III é verdadeira, pois o objetivo dos algoritmos de classificação é identificar à 
qual classe um novo objeto (ainda não apresentado e com rótulo desconhecido) 
pertence. A classificação é uma tarefa descritiva.

Continue navegando