MACHINE LEARNING - A2

•

UNP

3

0

3

0

Manoel Francisco

06/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Machine Learning

1.263 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

• Pergunta 1
1 em 1 pontos

A análise de componentes principais é uma técnica na qual um conjunto de variáveis é reescrito por meio
de transformações lineares em outro conjunto de variáveis que recebe o nome de componentes principais.
O propósito da PCA é reduzir a dimensão da massa de dados, mas reduzindo, ao máximo, a perda de
informação.

Em relação à técnica PCA, considere as afirmações a seguir.

I. ( ) A PCA é uma técnica que utiliza álgebra de Lie e, portanto, apresenta elevado custo computacional.
II. ( ) A técnica de PCA pode ser aplicada exclusivamente a bases de dados com duas dimensões.
III. ( ) PCA tem como uma de suas características permitir a identificação de padrões ocultos nos dados.
IV. ( ) A PCA implementa uma correlação entre as variáveis.

Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
F, F, V, V.
Resposta Correta:
F, F, V, V.
Comentário
da resposta:
Resposta correta. A sequência está correta, pois, como o PCA reescreve as variáveis
principais em termos de outras variáveis do problema, permite que sejam identificados
padrões anteriormente ocultos nos dados. São próprios do algoritmo da PCA a busca de
correlação entre as variáveis e, por meio da aplicação de técnicas de álgebra linear, a
reescrita das variáveis, considerando a correlação entre elas.

• Pergunta 2
1 em 1 pontos

Existem diversas classificações das tarefas da Mineração de Dados. Alguns autores dividem as tarefas de
Mineração de Dados em preditivas e descritivas. Outros autores dividem as tarefas de Mineração de Dados
em classificação e regressão; mineração de padrões frequentes, associações e correlações, análise de
agrupamentos e estudos sobre outliers.

Sobre os modelos e técnicas de aprendizado preditivo e descritivo, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

I. ( ) As técnicas de aprendizado preditivo tem por objetivo desenvolver modelos e gerar conhecimento a
partir de bases de dados e experiências anteriores que possam ser utilizadas no futuro.
II. ( ) Tarefas descritivas seguem o paradigma de aprendizado não supervisionado, de tal forma que busca-
se uma função a qual, a partir de dados passados ou de treinamento, permita sua utilização para prever
valores no futuro ou a previsão de um rótulo.
III. ( ) Algoritmos de aprendizado preditivo estão associados à hipótese por indução, seguindo o paradigma
de aprendizado não supervisionado e buscando regras de associação que relacionam um grupo de atributos
a outro grupo de atributos.
IV. ( ) As tarefas preditivas são divididas em tarefas de classificação e regressão. As tarefas de
classificação são chamadas de predição discreta e as tarefas de regressão são chamadas de predição
contínua.

Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, F, V.
Resposta Correta:
V, F, F, V.

Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a afirmação I é verdadeira. É
característica das tarefas preditivas utilizar os valores dos atributos para efetuar
predições de valores futuros. A afirmação IV é verdadeira, uma vez que, como podemos
conferir no material em forma de texto, as tarefas preditivas são classificadas em tarefas
de classificação e regressão. As tarefas de classificação, por sua vez, são categorizadas
como tarefas de predição discreta e as tarefas de regressão como tarefas de predição
contínua, pois suas variáveis de saída percorrem intervalos de números reais.

• Pergunta 3
1 em 1 pontos

Temos redundância de dados quando dois atributos possuem os mesmos valores ou valores muito
parecidos, sendo que tal situação pode ocorrer por conta dos mais diversos motivos. Para identificá-la,
podemos utilizar a análise de correlação, técnicas manuais ou, ainda, a análise de componentes principais
ou PCA (Principal Component Analysis). Uma das questões que deve ser atacada na etapa de integração de
dados é a redundância de dados.

Sobre a etapa de integração de dados e seus problemas, considere as afirmações a seguir.

I. ( ) Um dos fatores que pode resultar em redundância de dados é o uso de nomenclaturas diferentes para
atributos equivalentes, mas originadas de fontes de dados distintas.
II. ( ) Pode ocorrer redundância de dados em razão da inclusão de exemplares repetidos no conjunto de
dados.
III. ( ) Quando temos redundância de dados é interessante efetuar uma redução do conjunto de dados.
IV. ( ) É considerada uma boa prática armazenar atributos do tipo derivado (valores que são previstos a
partir de valores de outros atributos). Tal prática resulta na redução do conjunto de dados.

Está correto o que se afirma em:

Resposta Selecionada:
V, V, V, F.
Resposta Correta:
V, V, V, F.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a afirmativa I é verdadeira, já que, de
fato, se utilizarmos distintos nomes para atributos que sejam equivalentes, podemos ter
redundância na base de dados. O uso de nomenclaturas diferentes para atributos
equivalentes pode, sim, gerar redundância. A afirmativa II é verdadeira, pois uma das
possíveis causas de redundância é justamente a entrada na base de dados de elementos
repetidos. A afirmativa III também é verdadeira, pois é recomendável efetuar a redução
dos dados em situações de redundância, uma vez que, assim, o posterior trabalho de
análise dos dados será simplificado.

• Pergunta 4
1 em 1 pontos

A mineração de dados é constituída por atividades de análise bem como de descoberta de relações entre
objetos de uma base de dados. Tais bases de dados podem ser estruturadas, não estruturadas ou
semiestruturadas. Temos tarefas de preparação da base e de análise descritiva. As tarefas de predição
podem ser classificadas em predição discreta ou predição contínua. Já a aprendizagem de máquina pode ser
categorizada como aprendizagem supervisionada ou não supervisionada.

Com relação às tarefas supervisionadas e não supervisionadas, assinale a alternativa correta:

Resposta
Selecionada:

A sumarização efetua a descoberta de descrição simples e compacta para um
conjunto de dados.
Resposta Correta:

A sumarização efetua a descoberta de descrição simples e compacta para um
conjunto de dados.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a tarefa de sumarização (conhecida
como descrição de conceitos) se traduz na identificação e apresentação resumida das
características principais da base de dados. Como exemplo de sumarização, considere a
tarefa de identificar os assinantes de um site de notícias na região sul do Brasil: “são
mulheres, brancas, nível universitário, entre 25 e 40 anos de idade”.

• Pergunta 5
1 em 1 pontos

Enquanto nos algoritmos classificadores temos um atributo (classe) para o qual devemos efetuar a previsão
a partir dos outros atributos, nos algoritmos de agrupamento não existe esse atributo ou classe. Assim, os
dados nesse tipo de situação não apresentam uma característica que constitua o objetivo de previsão.

Considerando os algoritmos fuzzy k-médias , k-médias e medoide, e métodos baseados em particionamento,
assinale a alternativa correta.

Resposta
Selecionada:

O algoritmo fuzzy k-médias é uma extensão do algoritmo k-médias, sendo que, no
algoritmo fuzzy k-médias, um objeto pode pertencer a mais de um grupo.
Resposta
Correta:

O algoritmo fuzzy k-médias é uma extensão do algoritmo k-médias, sendo que, no
algoritmo fuzzy k-médias, um objeto pode pertencer a mais de um grupo.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois enquanto no K-médias é realizada uma
partição da base de dados, com cada objeto podendo pertencer a um único agrupamento,
no fuzzy K-médias, um objeto pode pertencer a mais de um agrupamento, com um
índice de pertencimentoe diversos graus de pertencimento. Dessa forma, o fuzzy K-
médias constitui uma extensão do K-médias.

• Pergunta 6
1 em 1 pontos

Na etapa de mineração de dados, são utilizados algoritmos com capacidade de aprender a partir de
exemplos (ou aprendizado indutivo). A aprendizagem de máquina pode seguir um paradigma de
aprendizagem supervisionada ou um paradigma de aprendizagem não supervisionada. Nos dois casos, são
utilizadas ferramentas matemáticas e estatísticas para implementar tais paradigmas.

A respeito do aprendizado supervisionado e não supervisionado, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

I. ( ) No aprendizado supervisionado, o analista está de posse de um conjunto de objetos em que os valores
resposta (ou saídas) são conhecidos. Alternativamente, o analista possui informações sobre o
comportamento esperado pelo sistema.
II. ( ) No aprendizado não supervisionado, nós temos rótulos ( labels ) associados com os valores de saída
da variável resposta.
III. ( ) Um exemplo de algoritmo utilizado na aprendizagem não supervisionada é a regressão linear.
IV. ( ) Como exemplo de algoritmo de aprendizagem não supervisionada podemos citar a clusterização.
Na clusterização, esperamos classificar objetos a partir de seus atributos. Por exemplo, esperamos
classificar espécies de plantas a partir do tamanho das sépalas e das pétalas.

Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, F, V.
Resposta Correta:

V, F, F, V.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois, no aprendizado supervisionado, existe
uma variável, uma classe ou atributo especial, com um rótulo com o qual podemos
comparar as respostas do algoritmo e efetuar a validação do resultado. A afirmação IV é
verdadeira, pois, no aprendizado não supervisionado, não existe uma classe ou rótulo
prévio com o qual possamos validar as saídas do algoritmo. O exemplo clássico de
aprendizado não supervisionado é a clusterização, na qual pretendemos classificar
objetos por seus atributos. Temos o exemplo de classificar espécies animais por meio
dos atributos dos indivíduos amostrados. No livro-texto, foi apresentado o exemplo de
classificar (rotular) garrafas.

• Pergunta 7
1 em 1 pontos

A linguagem R é uma linguagem orientada a objetos, de código livre, de acesso gratuito e com uma
comunidade mundial (e brasileira) de colaboradores que desenvolve os chamados pacotes ( packages )
voltados à resolução de problemas específicos da Estatística, Ciência de Dados e Machine Learning . Em
maio de 2021, a linguagem R possuía mais de 17.000 pacotes em seu repositório oficial.

THE R Project for Statistical Computing. R-project , [2021]. Disponível em: https://www.r-project.org/ .
Acesso em: 10 jun. 2021.

Considere a utilização do software R para aplicar o algoritmo k-médias a um conjunto de dados e assinale a
alternativa correta.

Resposta
Selecionada:

O k-médias tem como uma de suas principais características trabalhar por meio de
técnica de refinamento iterativo.
Resposta Correta:
O k-médias tem como uma de suas principais características trabalhar por meio de
técnica de refinamento iterativo.
Comentário da
resposta:
Resposta correta. A alternativa está correta, pois o k-médias trabalha com refinamento
iterativo e esta é uma das suas principais características. O k-médias vem instalado
no Rbase ( utils), não sendo necessário carregar determinado tipo de pacote para rodar
o k-médias no R.

• Pergunta 8
1 em 1 pontos

Dentre as tarefas mais utilizadas na mineração de dados estão a regressão, a classificação e as tarefas de
agrupamento. Tanto na classificação quanto no agrupamento existem várias famílias de algoritmos, cada
uma com suas características próprias. A tarefa de classificação é a tarefa da mineração de dados que possui
maior família de algoritmos.

A respeito das diferenças entre classificação e agrupamento, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

I. ( ) Na clusterização, buscamos agrupar os dados em categorias de objetos similares. A clusterização é
uma técnica não supervisionada.
II. ( ) Na classificação, a base não é rotulada. A tarefa dos algoritmos de classificação é identificar a classe
à qual pertence um novo objeto ainda não apresentado e com rótulo conhecido.
III. ( ) Uma das aplicações da clusterização seria segmentar a base de clientes, a partir de atributos como
idade, sexo ou faixa de renda, entre clientes com maior probabilidade de adquirir o produto X (de menor
preço) e clientes com maior probabilidade de adquirir o produto Y (de maior preço).
IV. ( ) Dentre os algoritmos de agrupamentos mais usados, citamos: k-médias, DBSCAN e k-medoides.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário
da resposta:
Resposta correta. A afirmação I é verdadeira. A clusterização é uma técnica não
supervisionada, por não existirem rótulos nestes algoritmos. A afirmação III é
verdadeira, já que uma das aplicações da clusterização é a segmentação de bases de
clientes em função de seus atributos. Na clusterização, queremos particionar a base de
dados de forma que toda a base é dividida em grupos, tal que a união desses grupos
constitui a base inteira e intersecção vazia entre os grupos. A afirmação IV é verdadeira,
pois todos os algoritmos listados são algoritmos de agrupamento.

• Pergunta 9
1 em 1 pontos

O R é uma linguagem orientada a objetos, desenvolvida pelo neozelandês Ross Ihaka e pelo canadense
Robert Gentleman a partir de um projeto de pesquisa na Universidade de Auckland, na Nova Zelândia. O R
está inserido no Projeto GNU e vem sendo desenvolvido a partir de trabalho colaborativo por um grupo que
se denomina R Core Team .

Nesse sentido, sobre o software R é correto afirmar que:

Resposta
Selecionada:

Para ler dados de uma tabela csv no R, podemos usar o comando read.table(). Esse
comando já vem instalado no Rbase.
Resposta Correta:
Para ler dados de uma tabela csv no R, podemos usar o comando read.table(). Esse
comando já vem instalado no Rbase.
Comentário da
resposta:
Resposta correta. A alternativa está correta, pois podemos ler dados no software R que
estejam no formato csv (ou, em inglês comma-separated-values), utilizando para tal
finalidade o comando que já vem instalado no utils do Rbase denominado read.table().

• Pergunta 10
1 em 1 pontos

O termo agrupamento é utilizado quando se estuda a similaridade entre objetos de uma base de dados,
objetivando determinar como eles estão organizados em um número de grupos. Em um agrupamento,
busca-se particionar a base de dados em k grupos. Existem estratégias de agrupamento denominadas de
hierárquicas e não hierárquicas. Costuma-se denominar classificação o processo de determinar uma função
que indica a qual classe pertence um objeto de uma base de dados sob estudo.

Sobre aprendizado não supervisionado, clusterização e classificação, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

I. ( ) O agrupamento ou clusterização tem por objetivo a organização dos objetos em categorias de acordo
com alguma métrica de similaridade ou distância.
II. ( ) Nos algoritmos de classificação, a base não possui rótulos, sendo que cada objeto da base possui uma
classe correspondente.
III. ( ) O objetivo dos algoritmos de classificação é identificar a classe à qual pertence um novo objeto
ainda não apresentado e com rótulo desconhecido.
IV. ( ) Na clusterização ou agrupamento, o objetivo é segmentar a base de dados (que já vem rotulada) em
grupos com algum significado.

Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:V, F, V, F.
Resposta Correta:
V, F, V, F.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a afirmação I é verdadeira. A
clusterização é uma tarefa não supervisionada que tem por objetivo particionar a base de
dados em k grupos que tenham a máxima similaridade dentro de cada grupo e a menor
similaridade entre os grupos. Para isso, é utilizada uma matriz de similaridade. A
afirmação III é verdadeira, pois o objetivo dos algoritmos de classificação é identificar à
qual classe um novo objeto (ainda não apresentado e com rótulo desconhecido)
pertence. A classificação é uma tarefa descritiva.