N2 (A5)_ Revisão da tentativa

FMU

Estudante PD

em 16/12/2022

Questões resolvidas

Em estatística, variáveis latentes são variáveis não observáveis. Elas se opõem às variáveis que são observáveis (ou seja, obtidas diretamente por medidas). O método de mínimos quadrados parciais é baseado em variáveis latentes (fatores). Os mínimos quadrados parciais são indicados quando temos mais variáveis do que observações.
Sobre a técnica de mínimos quadrados parciais (ou PLS) e como implementá-la no software R, analise as afirmativas a seguir e assinale V para Verdadeiro e F para Falso:
I. ( ) Uma variável latente é uma variável que, para ser observável, necessita de um processo de redução de dimensionalidade das variáveis originais do problema.
II. ( ) O pacote do R que implementa o algoritmo de mínimos quadrados parciais é o PLS.
III. ( ) A técnica de mínimos quadrados parciais (ou PLS) é um método de reconhecimento de padrões e de classificação de dados supervisionados que produz um crescimento exponencial dos preditores.
IV. ( ) A técnica de mínimos quadrados parciais (ou PLS) requer o conhecimento exato de todos os componentes presentes nas amostras.
a. V, F, V, V.
b. V, V, F, F.
c. F, V, V, F.
d. F, V, F, F.
e. F, F, V, V.

A tarefa de classificação é a tarefa que possui a maior quantidade de algoritmos na Mineração de Dados. Na classificação, pretende-se determinar a classe de um objeto em uma base de dados. Os algoritmos de agrupamento pretendem particionar um conjunto de dados em k grupos. Como exemplos de algoritmos de agrupamento, temos o k-médias, o k-medoid, o DBSCAN e o Hierárquico.
A respeito da classificação, agrupamento, predição discreta e contínua, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) Um exemplo de predição contínua é prever, com base em características do viajante (sexo, renda familiar, posse de automóvel), se ele vai utilizar automóvel (transporte individual) ou ônibus (transporte coletivo).
II. ( ) Algoritmos de agrupamento caracterizam-se por agruparem os dados por similaridade. São exemplos recorrentes de aprendizado não supervisionado.
III. ( ) As árvores de decisão constituem uma das mais difundidas famílias de classificadores. A classificação é considerada predição discreta.
IV. ( ) Tarefas de classificação podem ser consideradas como casos particulares de uma estimação na qual a variável resposta é discreta. Assim, qualquer algoritmo de estimação pode ser utilizado na classificação.
a. V, F, V, F.
b. F, F, V, V.
c. F, V, V, V.
d. V, F, F, F.
e. V, V, F, F.

O cientista de dados não conclui seu trabalho simplesmente entregando uma base de dados limpa. Para que o cientista de dados consiga agregar valor para a organização na qual trabalha, são necessárias métricas para avaliação do desempenho dos algoritmos. Sabe-se que a avaliação dos resultados aplicados no processo de mineração são elementos essenciais para a entrega de resultados para o cliente. Assim, avaliar o desempenho da mineração de dados é parte relevante do processo.
De acordo com o exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Há uma regra especificando a quantidade de elementos que devem ser distribuídos entre as bases de teste e de treino.
II. ( ) A medida de desempenho acurácia corresponde ao total de acertos dividido pelo total de dados do conjunto.
III. ( ) A medida de desempenho sensibilidade corresponde à divisão dos acertos positivos pelo total de positivos.
IV. ( ) A medida de desempenho especificidade corresponde à divisão dos verdadeiros negativos pela soma de verdadeiro negativo com falso positivo.
a. V, F, F, V.
b. F, F, V, V.
c. V, V, F, F.
d. F, V, V, V.
e. F, V, F, V.

O termo agrupamento é utilizado quando se estuda a similaridade entre objetos de uma base de dados, objetivando determinar como eles estão organizados em um número de grupos. Em um agrupamento, busca-se particionar a base de dados em k grupos. Existem estratégias de agrupamento denominadas de hierárquicas e não hierárquicas. Costuma-se denominar classificação o processo de determinar uma função que indica a qual classe pertence um objeto de uma base de dados sob estudo.
Sobre aprendizado não supervisionado, clusterização e classificação, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) O agrupamento ou clusterização tem por objetivo a organização dos objetos em categorias de acordo com alguma métrica de similaridade ou distância.
II. ( ) Nos algoritmos de classificação, a base não possui rótulos, sendo que cada objeto da base possui uma classe correspondente.
III. ( ) O objetivo dos algoritmos de classificação é identificar a classe à qual pertence um novo objeto ainda não apresentado e com rótulo desconhecido.
IV. ( ) Na clusterização ou agrupamento, o objetivo é segmentar a base de dados (que já vem rotulada) em grupos com algum significado.
a. F, V, F, V.
b. F,F,F,V
c. V, F, V, F.
d. F, F, V, V.
e. V, V, F, F.

Em paralelo à proposição feita por Rosenblatt a respeito da estrutura do perceptron, Widrow e Hoff apresentaram o algoritmo dos quadrados mínimos, também conhecido como regra delta. Trata-se de um mecanismo fundamental para a obtenção de um algoritmo de treinamento em redes neurais simples, cuja saída seja linear. Desde então, inúmeros desenvolvimentos foram realizados na área de redes neurais artificiais.
Sobre as redes neurais artificiais, assinale a alternativa correta.
a. Nas redes neurais do tipo Multilayer Perceptron, é utilizado um algoritmo de treinamento denominado "retropropagação do erro". Nele, é realizada a propagação negativa do sinal funcional.
b. São características do modelo Multilayer Perceptron: a retropropagação, a alimentação adiante, a inexistência de camadas intermediárias e o uso de funções sigmoidais nas camadas intermediárias.
c. Em uma rede neural artificial, quando duas ou mais camadas são utilizadas, um neurônio pode receber, em seus terminais de entrada, valores de saída de um ou de mais neurônios da camada anterior.
d. Em detrimento de a maioria dos problemas que tratamos em data mining serem resolvidos por algoritmos do tipo linearmente separável, o modelo perceptron carrega grande importância teórica e prática.
e. É característico das redes Multilayer Perceptron que, à medida que há o avanço para as últimas camadas da rede, o processamento se torne cada vez mais simples até ser obtida a resolução do problema.

As redes neurais são muito usadas na classificação de dados. Assim como os neurônios biológicos, cada neurônio artificial tem dendritos, axônios e um núcleo. Além disso, cada neurônio carrega um peso sináptico associado e um valor chamado “viés”. No núcleo do neurônio, existe uma função somatória responsável por efetuar a soma ponderada dos dados de entrada.
Sobre as redes neurais artificiais, assinale a alternativa correta.
a. A combinação de sistemas difusos com visão computacional e redes neurais não apresenta resultados animadores nas aplicações industriais.
b. As redes neurais multicamadas, com funções de ativação não lineares nas camadas intermediárias, apresentam baixo desempenho em tarefas de classificação.
c. Para alguns autores, como Haykin, o comportamento do cérebro humano é similar ao de um computador digital convencional.
d. Redes neurais artificiais realizam aprendizagem por hábito, e não por conceito. Diante disso, devemos treiná-las com dados de entrada.
e. Se houver um erro de classificação, os pesos presentes na rede neural são ajustados por meio de um método denominado 'retropropagação'.

Florestas aleatórias podem fazer uso do que se denomina “bagging”: tomar múltiplos subconjuntos do conjunto de dados de treinamento, com o objetivo de construir um número de modelos de árvore de decisão independentes para, depois, tomar a média desses modelos, o que possibilita a criação de um modelo preditivo com desempenho comparado ao modelo clássico CART. Outra técnica para melhorar o desempenho das florestas aleatórias é o gradient boosted trees.
Sobre o gradient boosted trees, assinale a alternativa correta.
a. No modelo de aprendizado de máquina gradient boosted trees, a combinação das árvores de decisão é realizada com amostras de boostrap. Essas amostras são definidas por uma função matemática do tipo sigmoide.
b. Na linguagem R, o parâmetro responsável pelo controle do número de árvores na modelagem GBM é chamado de numtrees, presente na função gbm(). Esse parâmetro possibilita a redução do impacto de aprendizagem de cada árvore.
c. O número de iterações na função gbm() é controlado pelo parâmetro shrinkage. Quanto maior for o valor, menor será o impacto de aprendizagem de cada árvore de decisão em particular.
d. O método boosting é similar ao bagging. No entanto, no bagging, as árvores crescem de forma sequencial, ou seja, cada árvore é construída a partir das informações da árvore anterior.
e. As árvores utilizadas em uma floresta aleatória a partir do método bagging carregam sempre os mesmos parâmetros, constituindo uma modelagem heterogênea. O número de quebras em cada árvore e a profundidade são dois desses parâmetros.

Existem diversas classificações das tarefas da Mineração de Dados. Alguns autores dividem as tarefas de Mineração de Dados em preditivas e descritivas. Outros autores dividem as tarefas de Mineração de Dados em classificação e regressão; mineração de padrões frequentes, associações e correlações, análise de agrupamentos e estudos sobre outliers.
Sobre os modelos e técnicas de aprendizado preditivo e descritivo, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) As técnicas de aprendizado preditivo tem por objetivo desenvolver modelos e gerar conhecimento a partir de bases de dados e experiências anteriores que possam ser utilizadas no futuro.
II. ( ) Tarefas descritivas seguem o paradigma de aprendizado não supervisionado, de tal forma que busca-se uma função a qual, a partir de dados passados ou de treinamento, permita sua utilização para prever valores no futuro ou a previsão de um rótulo.
III. ( ) Algoritmos de aprendizado preditivo estão associados à hipótese por indução, seguindo o paradigma de aprendizado não supervisionado e buscando regras de associação que relacionam um grupo de atributos a outro grupo de atributos.
IV. ( ) As tarefas preditivas são divididas em tarefas de classificação e regressão. As tarefas de classificação são chamadas de predição discreta e as tarefas de regressão são chamadas de predição contínua.
a. F, V, V, F.
b. V, V, F, F.
c. V, F, F, V.
d. V, F, V, F.
e. F, F, V, V.

Conteúdos escolhidos para você

5 pág.

Atividade 4 (A4)_ Revisão da tentativa

FMU

5 pág.

Machine Learning - Atividade 2

ESTÁCIO

6 pág.

FUNDAMENTOS DA CIÊNCIA DE DADOS

ESTÁCIO

Perguntas dessa disciplina

A rede SOM é uma ferramenta poderosa para a visualização e clusterização de dados multidimensionais, amplamente utilizada em aprendizado de máquina...

UNIVESP

Com o avanço das redes neurais profundas, técnicas de regularização tornaram-se fundamentais para melhorar a capacidade de generalização dos modelo...

UNIVESP

Questão 3 "Esses vieses algorítmicos não surgem apenas durante o treinamento e desenvolvimento da programação; podem ocorrer, também, fora dessas e...

UNICESUMAR

"Esses vieses algorítmicos não surgem apenas durante o treinamento e desenvolvimento da programação; podem ocorrer, também, fora dessas etapas, poi...

UNICESUMAR

Durante o avanço dos estudos em redes neurais profundas, identificou-se que modelos lineares não são suficientes para representar relações complexa...

UNIVESP

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Em estatística, variáveis latentes são variáveis não observáveis. Elas se opõem às variáveis que são observáveis (ou seja, obtidas diretamente por medidas). O método de mínimos quadrados parciais é baseado em variáveis latentes (fatores). Os mínimos quadrados parciais são indicados quando temos mais variáveis do que observações.
Sobre a técnica de mínimos quadrados parciais (ou PLS) e como implementá-la no software R, analise as afirmativas a seguir e assinale V para Verdadeiro e F para Falso:
I. ( ) Uma variável latente é uma variável que, para ser observável, necessita de um processo de redução de dimensionalidade das variáveis originais do problema.
II. ( ) O pacote do R que implementa o algoritmo de mínimos quadrados parciais é o PLS.
III. ( ) A técnica de mínimos quadrados parciais (ou PLS) é um método de reconhecimento de padrões e de classificação de dados supervisionados que produz um crescimento exponencial dos preditores.
IV. ( ) A técnica de mínimos quadrados parciais (ou PLS) requer o conhecimento exato de todos os componentes presentes nas amostras.
a. V, F, V, V.
b. V, V, F, F.
c. F, V, V, F.
d. F, V, F, F.
e. F, F, V, V.

A tarefa de classificação é a tarefa que possui a maior quantidade de algoritmos na Mineração de Dados. Na classificação, pretende-se determinar a classe de um objeto em uma base de dados. Os algoritmos de agrupamento pretendem particionar um conjunto de dados em k grupos. Como exemplos de algoritmos de agrupamento, temos o k-médias, o k-medoid, o DBSCAN e o Hierárquico.
A respeito da classificação, agrupamento, predição discreta e contínua, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) Um exemplo de predição contínua é prever, com base em características do viajante (sexo, renda familiar, posse de automóvel), se ele vai utilizar automóvel (transporte individual) ou ônibus (transporte coletivo).
II. ( ) Algoritmos de agrupamento caracterizam-se por agruparem os dados por similaridade. São exemplos recorrentes de aprendizado não supervisionado.
III. ( ) As árvores de decisão constituem uma das mais difundidas famílias de classificadores. A classificação é considerada predição discreta.
IV. ( ) Tarefas de classificação podem ser consideradas como casos particulares de uma estimação na qual a variável resposta é discreta. Assim, qualquer algoritmo de estimação pode ser utilizado na classificação.
a. V, F, V, F.
b. F, F, V, V.
c. F, V, V, V.
d. V, F, F, F.
e. V, V, F, F.

O cientista de dados não conclui seu trabalho simplesmente entregando uma base de dados limpa. Para que o cientista de dados consiga agregar valor para a organização na qual trabalha, são necessárias métricas para avaliação do desempenho dos algoritmos. Sabe-se que a avaliação dos resultados aplicados no processo de mineração são elementos essenciais para a entrega de resultados para o cliente. Assim, avaliar o desempenho da mineração de dados é parte relevante do processo.
De acordo com o exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Há uma regra especificando a quantidade de elementos que devem ser distribuídos entre as bases de teste e de treino.
II. ( ) A medida de desempenho acurácia corresponde ao total de acertos dividido pelo total de dados do conjunto.
III. ( ) A medida de desempenho sensibilidade corresponde à divisão dos acertos positivos pelo total de positivos.
IV. ( ) A medida de desempenho especificidade corresponde à divisão dos verdadeiros negativos pela soma de verdadeiro negativo com falso positivo.
a. V, F, F, V.
b. F, F, V, V.
c. V, V, F, F.
d. F, V, V, V.
e. F, V, F, V.

O termo agrupamento é utilizado quando se estuda a similaridade entre objetos de uma base de dados, objetivando determinar como eles estão organizados em um número de grupos. Em um agrupamento, busca-se particionar a base de dados em k grupos. Existem estratégias de agrupamento denominadas de hierárquicas e não hierárquicas. Costuma-se denominar classificação o processo de determinar uma função que indica a qual classe pertence um objeto de uma base de dados sob estudo.
Sobre aprendizado não supervisionado, clusterização e classificação, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) O agrupamento ou clusterização tem por objetivo a organização dos objetos em categorias de acordo com alguma métrica de similaridade ou distância.
II. ( ) Nos algoritmos de classificação, a base não possui rótulos, sendo que cada objeto da base possui uma classe correspondente.
III. ( ) O objetivo dos algoritmos de classificação é identificar a classe à qual pertence um novo objeto ainda não apresentado e com rótulo desconhecido.
IV. ( ) Na clusterização ou agrupamento, o objetivo é segmentar a base de dados (que já vem rotulada) em grupos com algum significado.
a. F, V, F, V.
b. F,F,F,V
c. V, F, V, F.
d. F, F, V, V.
e. V, V, F, F.

Em paralelo à proposição feita por Rosenblatt a respeito da estrutura do perceptron, Widrow e Hoff apresentaram o algoritmo dos quadrados mínimos, também conhecido como regra delta. Trata-se de um mecanismo fundamental para a obtenção de um algoritmo de treinamento em redes neurais simples, cuja saída seja linear. Desde então, inúmeros desenvolvimentos foram realizados na área de redes neurais artificiais.
Sobre as redes neurais artificiais, assinale a alternativa correta.
a. Nas redes neurais do tipo Multilayer Perceptron, é utilizado um algoritmo de treinamento denominado "retropropagação do erro". Nele, é realizada a propagação negativa do sinal funcional.
b. São características do modelo Multilayer Perceptron: a retropropagação, a alimentação adiante, a inexistência de camadas intermediárias e o uso de funções sigmoidais nas camadas intermediárias.
c. Em uma rede neural artificial, quando duas ou mais camadas são utilizadas, um neurônio pode receber, em seus terminais de entrada, valores de saída de um ou de mais neurônios da camada anterior.
d. Em detrimento de a maioria dos problemas que tratamos em data mining serem resolvidos por algoritmos do tipo linearmente separável, o modelo perceptron carrega grande importância teórica e prática.
e. É característico das redes Multilayer Perceptron que, à medida que há o avanço para as últimas camadas da rede, o processamento se torne cada vez mais simples até ser obtida a resolução do problema.

As redes neurais são muito usadas na classificação de dados. Assim como os neurônios biológicos, cada neurônio artificial tem dendritos, axônios e um núcleo. Além disso, cada neurônio carrega um peso sináptico associado e um valor chamado “viés”. No núcleo do neurônio, existe uma função somatória responsável por efetuar a soma ponderada dos dados de entrada.
Sobre as redes neurais artificiais, assinale a alternativa correta.
a. A combinação de sistemas difusos com visão computacional e redes neurais não apresenta resultados animadores nas aplicações industriais.
b. As redes neurais multicamadas, com funções de ativação não lineares nas camadas intermediárias, apresentam baixo desempenho em tarefas de classificação.
c. Para alguns autores, como Haykin, o comportamento do cérebro humano é similar ao de um computador digital convencional.
d. Redes neurais artificiais realizam aprendizagem por hábito, e não por conceito. Diante disso, devemos treiná-las com dados de entrada.
e. Se houver um erro de classificação, os pesos presentes na rede neural são ajustados por meio de um método denominado 'retropropagação'.

Florestas aleatórias podem fazer uso do que se denomina “bagging”: tomar múltiplos subconjuntos do conjunto de dados de treinamento, com o objetivo de construir um número de modelos de árvore de decisão independentes para, depois, tomar a média desses modelos, o que possibilita a criação de um modelo preditivo com desempenho comparado ao modelo clássico CART. Outra técnica para melhorar o desempenho das florestas aleatórias é o gradient boosted trees.
Sobre o gradient boosted trees, assinale a alternativa correta.
a. No modelo de aprendizado de máquina gradient boosted trees, a combinação das árvores de decisão é realizada com amostras de boostrap. Essas amostras são definidas por uma função matemática do tipo sigmoide.
b. Na linguagem R, o parâmetro responsável pelo controle do número de árvores na modelagem GBM é chamado de numtrees, presente na função gbm(). Esse parâmetro possibilita a redução do impacto de aprendizagem de cada árvore.
c. O número de iterações na função gbm() é controlado pelo parâmetro shrinkage. Quanto maior for o valor, menor será o impacto de aprendizagem de cada árvore de decisão em particular.
d. O método boosting é similar ao bagging. No entanto, no bagging, as árvores crescem de forma sequencial, ou seja, cada árvore é construída a partir das informações da árvore anterior.
e. As árvores utilizadas em uma floresta aleatória a partir do método bagging carregam sempre os mesmos parâmetros, constituindo uma modelagem heterogênea. O número de quebras em cada árvore e a profundidade são dois desses parâmetros.

Existem diversas classificações das tarefas da Mineração de Dados. Alguns autores dividem as tarefas de Mineração de Dados em preditivas e descritivas. Outros autores dividem as tarefas de Mineração de Dados em classificação e regressão; mineração de padrões frequentes, associações e correlações, análise de agrupamentos e estudos sobre outliers.
Sobre os modelos e técnicas de aprendizado preditivo e descritivo, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) As técnicas de aprendizado preditivo tem por objetivo desenvolver modelos e gerar conhecimento a partir de bases de dados e experiências anteriores que possam ser utilizadas no futuro.
II. ( ) Tarefas descritivas seguem o paradigma de aprendizado não supervisionado, de tal forma que busca-se uma função a qual, a partir de dados passados ou de treinamento, permita sua utilização para prever valores no futuro ou a previsão de um rótulo.
III. ( ) Algoritmos de aprendizado preditivo estão associados à hipótese por indução, seguindo o paradigma de aprendizado não supervisionado e buscando regras de associação que relacionam um grupo de atributos a outro grupo de atributos.
IV. ( ) As tarefas preditivas são divididas em tarefas de classificação e regressão. As tarefas de classificação são chamadas de predição discreta e as tarefas de regressão são chamadas de predição contínua.
a. F, V, V, F.
b. V, V, F, F.
c. V, F, F, V.
d. V, F, V, F.
e. F, F, V, V.