PROVA ALGORITIMO PARA ANALISE DE DADOS

•

UniDBSCO

Neito Junior

14/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Algoritimos Avançados

395 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 1/29
AS Geral
Entrega Sem prazo Pontos 10 Perguntas 20 Disponível 20 jun em 0:00 - 30 jun em 23:59 11 dias
Limite de tempo Nenhum Tentativas permitidas 3
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 37 minutos 7,5 de 10
 As respostas corretas estão ocultas.
Pontuação desta tentativa: 7,5 de 10
Enviado 20 jun em 23:43
Esta tentativa levou 37 minutos.
Fazer o teste novamente
0,5 / 0,5 ptsPergunta 1
Analise as definições:
I - Essa medida se baseia nas correlações entre as variáveis.
II - É uma forma de geometria que se baseia na soma das diferenças absolutas de todas as coordenadas
entre um ponto e outro.
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737/history?version=1
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737/take?user_id=225855
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 2/29
III - É a menor distância entre dois pontos quaisquer em um plano.
Assinale a alternativa que traz os corretos nomes das medidas de distâncias definidas em cada uma das
afirmativas:
 I - distância euclidiana, II – distância de mahalanobis e III – distância de manhattan. 
 I - distância de mahalanobis, II – distância de manhattan e III – distância euclidiana. 
 I - distância de mahalanobis, II – distância euclidian e III – distância de manhattan. 
 - distância de manhattan, II – distância de mahalanobis e III – distância euclidiana. 
 I - distância euclidiana, II – distância de manhattan e III – distância de mahalanobis. 
A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra
Mahalanobis. Essa medida se baseia nas correlações entre as variáveis.
A distância de Manhattan é uma forma de geometria que se baseia na soma das diferenças
absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à
distância calculada em um software de GPS.
Vamos nos concentrar na distância euclidiana, que é uma das mais utilizadas. Essa medida de
distância mede na verdade o comprimento de uma reta entre dois pontos no espaço euclidiano, o
que é a menor distância entre dois pontos quaisquer em um plano.
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 3/29
0,5 / 0,5 ptsPergunta 2
Selecione a alternativa que traz o nome da técnica ou característica definida por: representam um padrão
de relacionamento entre itens de dados no domínio da aplicação, que ocorrem com uma determinada
frequência nas bases de dados.
 outlier. 
 clustering. 
 padrão. 
 regra de associação. 
 classificador. 
Regras de Associação representam um padrão de relacionamento entre itens de dados no domínio
da aplicação, que ocorrem com uma determinada frequência nas bases de dados.
0,5 / 0,5 ptsPergunta 3
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 4/29
Analise as afirmativas:
I. A abrangência de uma regra constitui-se no número de instâncias que são preditas corretamente;
II. É conhecida como a precisão da regra associativa;
III. Tem o objetivo de encontrar regras associativas em grandes e complexas bases de dados;
Selecione a correta alternativa que traz o correto relacionamento entre uma definição e sua técnica:
 I – algoritmo apriori, II – confiança e III – suporte. 
 I – confiança , II – algoritmo apriori e III – suporte. 
 I – confiança , II – suporte e III – algoritmo apriori. 
 I – suporte , II – confiança e III – algoritmo apriori. 
 I – suporte , II – algoritmo apriori e III – confiança. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 5/29
O algoritmo mais conhecido para a criação de regras de associação é o Apriori, que foi proposto por
AGRAWAL em (1994) com o objetivo de encontrar regras associativas em grandes e complexas
bases de dados. Constitui-se em um dos algoritmos mais difundidos em regras associativas e
originou muitos outros, seu grande diferencial está em sua simplicidade.
A abrangência de uma regra constitui-se no número de instâncias que são preditas corretamente,
esta característica é chamada de Suporte. A precisão da regra associativa é conhecida como
Confiança, onde se faz uma proporção das instâncias corretamente preditas sobre todas as
instâncias analisadas (GILLMEISTER, 2007).
0,5 / 0,5 ptsPergunta 4
Analise a afirmativa:
O objetivo da função é fazer a poda do conjunto de itens candidatos, usando o princípio de que cada
subconjunto de um conjunto de itens frequentes também deve ser frequentes.
Selecione a alternativa que traz o nome da função definida na afirmativa.
 função apriori. 
 função classify. 
 função apriori-gen. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 6/29
 função outlier. 
 função kmeans. 
O outro objetivo da função Apriori-gen é fazer a poda do conjunto de itens candidatos, usando o
princípio de que cada subconjunto de um conjunto de itens frequentes também deve ser frequentes.
Esta regra é utilizada para reduzir o número de candidatos a serem comparados com cada transação
na base de dados (GILLMEISTER, 2007)
0,5 / 0,5 ptsPergunta 5
Analise as afirmativas:
I. uma medida de similaridade ou dissimilaridade expressa em valor real a similaridade ou a diferença entre
dois vetores ou instância;
II. A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra
Mahalanobis. Essa medida se baseia nas correlações entre as variáveis;
III. A distância Euclidiana é uma forma de geometria que se baseia na soma das diferenças absolutas de
todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à distância calculada em
um software de GPS;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 7/29
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
Conforme se observa em Theodoridis e Koutroumbas em (2008) uma medida de similaridade ou
dissimilaridade expressa em valor real a similaridade ou a diferença entre dois vetores ou instância,
para se medir esses valores podem ser utilizadas medidas de distância entre dois pontos. As
medidas de distância comumente utilizadas são: distância euclidiana, distância de Mahalanobis e
distância de Manhattan.
A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra
Mahalanobis. Essa medida se baseia nas correlações entre as variáveis.
A distância de Manhattan é uma forma de geometria que se baseia na soma das diferenças
absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à
distância calculada em um software de GPS.
0,5 / 0,5 ptsPergunta 6
Analise as afirmativas:
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 8/29
I. empregam critérios que são derivados dos dados em si;
II. as instâncias foram previamente etiquetadas, com informações oriundas de conhecimento de
especialistas e se faz uma validação a partir dos erros e acertos do algoritmo, sem levar em consideração
medidas específicas;
III. utilizam critérios que não são inerentes ao Conjunto de dados, mas sim ao domínio de aplicação;
Selecione a correta alternativa quanto às afirmativas relacionadas às medidas de validação de clustering
internas e externas ao modelo gerado:
 I – internas, II – externas e III - internas. 
 I – internas,II – externas e III - externas. 
 I – internas, II – internas e III - externas. 
 I – internas, II – internas e III - internas. 
 I – externas, II – externas e III – externas. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 9/29
Dada a grande variedade de algoritmos de clustering, observa-se também uma grande variedade de
técnicas de validação, que levam em consideração medidas internas aos clusters e medidas externa,
considerando o modelo completo (Zaki e Meira, 2014).
Medidas externas: as medidas de validação externa utilizam critérios que não são inerentes ao
Conjunto de dados, mas sim ao domínio de aplicação. Isso pode ser na forma de conhecimento
prévio ou especializado sobre os clusters, por exemplo, as instâncias foram previamente
etiquetadas, com informações oriundas de conhecimento de especialistas e se faz uma validação a
partir dos erros e acertos do algoritmo, sem levar em consideração medidas específicas. Para esse
tipo de técnica pode-se usar as medidas chamada F-measure, que deverá medir a precisão do
algoritmo como um todo, técnica comumente utilizada para validação de classificadores ou detecção
de outliers.
Medidas internas: as medidas internas de validação empregam critérios que são derivados dos
dados em si. Por exemplo, podemos usar distâncias intracluster e intercluster para obter medidas de
coesão do cluster (por exemplo, quão semelhantes são os pontos no mesmo Cluster?) e de
separação (por exemplo, quão distantes estão os pontos em diferentes clusters?).
0 / 0,5 ptsPergunta 7IncorretaIncorreta
Analise as afirmativas:
I. As medidas de "similaridade" não são boas para o uso em algoritmos de clustering;
II. A distância (um inverso de semelhança) entre os pontos dentro de um cluster é sempre menor do que a
distância entre pontos em um cluster diferente;
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 10/29
III. A escolha do tipo de medida de distância é importante para a execução dos algoritmos de usam medidas
de similaridades;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
Note que a definição de "similaridade" é específica para o domínio do problema. Estamos definindo
semelhança como esses pontos de dados com a mesma característica como "tópico" ou clientes que
podem ser perfilados para uma mesma "faixa etária / renda / gênero" ou um "padrão de compra".
Se tivermos um vetor de medidas de um atributo dos dados, os pontos de dados agrupados em um
cluster terão valores para a medição próxima uns dos outros dos pontos de dados agrupados em um
cluster diferente. Em outras palavras, a distância (um inverso de semelhança) entre os pontos dentro
de um cluster é sempre menor do que a distância entre pontos em um cluster diferente. Em um
cluster, acabamos com um grupo apertado (homogêneo) de pontos de dados que estão distantes
dos pontos de dados que acabam em um cluster diferente.
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 11/29
0,5 / 0,5 ptsPergunta 8
Analise as afirmativas:
I. Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há
estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se
encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters;
II. Pode-se usar o método de clustering para realizar segmentação de clientes para permitir programas de
marketing direcionados ou especiais;
III. As técnicas de clustering não podem ser utilizadas para criar agrupamentos de documentos dada a
natureza desestruturada dos textos;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 12/29
Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há
estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se
encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters.
A ideia de semelhanças pode ser explicada com os seguintes exemplos:
Considere questões como
1. Como faço para agrupar esses documentos por tópico?
2. Como faço para realizar segmentação de clientes para permitir programas de marketing
direcionados ou especiais.
0,5 / 0,5 ptsPergunta 9
Analise as afirmativas:
I. método que inicia criando-se tuplas e se vai aumentando o número de participantes do clusters e
agrupando as instâncias dada a similaridade, conforme se observa na figura, onde um dendograma é
formado pela execução do algoritmo, onde no eixo vertical se observa a escala de similaridade e no eixo
horizontal as instâncias a serem agrupadas;
II. nesse caso as vértices são os objetos e suas ligações ou arestas são suas similaridades, ao analisar
essa estrutura é possível se criar os clusters;
III. a ideia principal é continuar o crescimento de um cluster à medida em que sua densidade ou quantidade
de objetos em sua vizinhança tenha uma proximidade determinada;
Selecione a correta alternativa quanto às afirmativas relacionados aos métodos de clustering:
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 13/29
 I – baseado em grafos, II – baseado em densidade e III – clustering hierárquico. 
 I – clustering hierárquico, II – baseado em grafos e III – baseado em densidade. 
 I – baseado em grafos, II – clustering hierárquico e III – baseado em densidade. 
 I – clustering hierárquico, II – baseado em grafos e III – baseado em partição. 
 I – baseado em densidade, II – baseado em grafos e III – clustering hierárquico. 
Na literatura são encontrados diversos tipos de algoritmos de clustering, dentre eles:
I. Métodos de partição: às quais são criados os clusters e são agregadas as instâncias a cada um
dos clusters dada a execução dos algoritmos;
II. Métodos de clusters hierárquicos: método que inicia criando-se tuplas e se vai aumentando o
número de participantes do clusters e agrupando as instâncias dada a similaridade, conforme se
observa na figura, onde um dendograma é formado pela execução do algoritmo, onde no eixo
vertical se observa a escala de similaridade e no eixo horizontal as instâncias a serem agrupadas.
Notem que a cada nível se aumenta no número de participantes do cluster, chegando até o nível
máximo que será o número total de instâncias do modelo.
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 14/29
Dendograma gerado pelo método de clustering hierárquico (Duda e Hart, 2000)
III. Métodos com base em densidade de objetos: a ideia principal é continuar o crescimento de um
cluster à medida em que sua densidade ou quantidade de objetos em sua vizinhança tenha uma
proximidade determinada. Este método permite criar clusters de forma arbitrária com regiões densas
separadas entre si por dados dispersos, o algoritmo comumente mencionado na literatura é o
DBSCAN.
Exemplo de clusters utilizando a técnica de densidade (Zaki e Meira, 2014)
IV. Métodos que utilizam estruturas de grafo: nesse caso as vértices são os objetos e suas ligações
ou arestas são suas similaridades, ao analisar a estrutura do grafo ou rede gerada é possível se criar
os clusters.
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/5273715/29
Exemplo de clusters usando a estrutura dos grafos(Theodoridis, Koutroumbas, 2008)
0 / 0,5 ptsPergunta 10IncorretaIncorreta
Analise as afirmativas:
I. Tipicamente o Coeficiente de Silhueta total será um valor entre -1 e 1, sendo que o modelo com K que
melhor agrupa o conjunto de dados ser o que possuir valor mais próximo de 1.
II. O coeficiente de silhueta é uma medida de coesão e separação de clusters;
III. O coeficiente de silhueta é baseado na diferença entre a distância média de um ponto para os pontos de
seu cluster e a distância média de um objeto a todos os objetos do cluster mais próximo;
Selecione a correta alternativa quanto às afirmativas relacionada à medida de validação de clusters usando
o coeficiente de silhueta:
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 16/29
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
O coeficiente de silhueta é uma medida de coesão e separação de clusters, é baseado na diferença
entre a distância média de um ponto para os pontos de seu cluster e a distância média de um objeto
a todos os objetos do cluster mais próximo.
Para que se validar o modelo proposto é importante executar essa validação para inúmeros valores
de K, ou seja, se executar o algoritmo iniciando com K igual a 1 e aumentando gradativamente, para
cada execução do algoritmo se calcular o coeficiente de silhueta total (SWC) e se plotar em um
gráfico. Tipicamente o SWC será um valor entre -1 e 1, sendo que o modelo com K que melhor
agrupa o conjunto de dados ser o que possuir valor mais próximo de 1
0,5 / 0,5 ptsPergunta 11
Analise as afirmativas quanto ao processo de extração e seleção de feições:
I. O coeficiente de jaccard pode ser utilizado no processo de word stemming;
II. Após a aplicação do processo de extração de feições é aplicado o processo de seleção de feições, que
define a importância de cada termo para um documento ou para um dado conjunto de documentos;
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 17/29
III. Todos os termos que permaneceram na representação dos documentos ou extração de feições agregam
conhecimento;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
As palavras restantes do processo de extração de feições passam por um processo mencionado na
literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como
por exemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre
palavras, como por exemplo o coeficiente de jaccard. Após a aplicação do processo de extração de
feições é aplicado o processo de seleção de feições, que define a importância de cada termo para
um documento ou para um dado conjunto de documentos, pois nem todos os termos que
permaneceram na representação dos documentos agregam conhecimento.
0,5 / 0,5 ptsPergunta 12
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 18/29
Analise as afirmativas quanto ao processo de seleção de feições:
I. O método comumente utilizado para o esse processo é o TF/IDF;
II. TF refere-se à frequência do termo;
III. IDF refere-se à inversa da frequência do documento;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
Conforme se observa em (Souza, 2010), diversas métricas encontradas na literatura podem ser
aplicadas; por exemplo, métodos estatísticos, entropia ou frequência dos termos. Um método
comumente utilizado é a o chamado TF/IDF, ou frequência do termo (tf – term frequency), e a inversa
da frequência do documento, ou (idf - inverse document frequency), o seu produto é usado para
determinar o poder de discriminação de uma dada palavra para um determinado documento ou
conjunto de documentos (HAN et al., 2006), (CALVO; LEE; LI, 2004), (ROSE, 1994).
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 19/29
0,5 / 0,5 ptsPergunta 13
Analise as afirmativas:
I. A mineração de textos é definido como um processo de extração de informações relevantes ou
conhecimento a partir de textos não estruturados;
II. O processo de categorização de documentos é uma subárea de algoritmos de clustering;
III. O processo de mineração em textos é definido como um processo para agrupar documentos similares, a
partir da organização do conhecimento e da remoção de redundâncias e variações de palavras existentes
nos documentos;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 20/29
A mineração de textos é definido como um processo de extração de informações relevantes ou
conhecimento a partir de textos não estruturados (HOTHO; NüRNBERGER;
PAASS, 2005). O processo de categorização de documentos é uma subárea da mineração em
textos, que se definido como um processo para agrupar documentos similares, a partir da
organização do conhecimento e da remoção de redundâncias e variações de palavras existentes nos
documentos (BRüCHER; KNOLMAYER; MITTERMAYER, 2002).
0,5 / 0,5 ptsPergunta 14
Analise as afirmativas quanto ao processo de representação de documentos:
I. Um documento ou um padrão pode ser representado em termos das características ou feições
selecionadas, transformadas em vetores de características;
II. Cada termo importante deve ter um valor e posição definida no documento ou conjunto de documentos;
III. a representação de um documento é dado por: f = (f1, f2, f3, ..., fn ), onde cada fi corresponde ao tf do
termo ou feição que i representa;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 21/29
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
Representação de documentos
Um documento ou um padrão pode ser representado em termos das características ou feições
selecionadas, transformadas em vetores de características, onde cada termo importante deve ter um
valor e posição definida no documento ou conjunto de documentos.
Se o processo de seleção produzir n como quantidade de feições e m como quantidade de
documentos no conjunto total, o conjunto de documentos será representado por uma matriz de
feições m X n. Um dado conjunto n de feições ou características de um dado documento ou conceito
é representado por 1 X n vetor de feições representado por f, conforme a representação dada: f =
(f1, f2, f3, ..., fn ), onde cada fi corresponde ao tf do termo ou feição que i representa.
0 / 0,5 ptsPergunta 15IncorretaIncorreta
Analise as afirmativas quanto ao processo de Conversão de documentos e remoção de palavras:
I. As diversas fontes de dados deverão ser trabalhadas de maneira genérica, paranão impactar o processo
de importação de textos;
II. Dados de redes sociais, dados da WEB, Blogs, fóruns em sistemas específicos, bases de e-mails são
exemplos de fontes de dados em análise de textos;
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 22/29
III. Ao se trabalhar com diversas fontes de dados de Big Data, o processo inicial de requisição de dados
poderá variar bastante, dependendo do tipo de fonte de dados;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
Conversão de documentos e remoção de palavras
Ao se trabalhar com diversas fontes de dados de Big Data, o processo inicial de requisição de dados
poderá variar bastante, dependendo do tipo de fonte de dados, pode exemplo, dados de redes
sociais, dados da WEB, Blogs, fóruns em sistemas específicos, bases de e-mails, enfim, uma
infinidade de fontes de dados que deverão ser trabalhadas em suas especificidades. Cabe ressaltar
ainda, que dada a característica da análise, é sempre importante se conseguir etiquetar o dado com
fonte de origem ou autor, o agrupamento dos documentos, seja por data, autor ou origem poderão
alterar grandemente o resultado da análise de textos e isso deve variar também de acordo com o
projeto e tecnologia.
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 23/29
0,5 / 0,5 ptsPergunta 16
Analise as afirmativas:
I. Para a criação de classificadores se deve incialmente passar por uma etapa de treinamento;
II. Na etapa inicial é criado um conjunto de treinamento, onde se conhece a quais classes essas instâncias
de treinamento pertencem;
III. Após a etapa de treinamento o classificador poderá associar novas instâncias a essas classes
inicialmente impostas a ele;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 24/29
Para a criação de classificadores se deve incialmente passar por uma etapa de treinamento, na qual
é criado um conjunto de treinamento, onde se conhece a quais classes essas instâncias de
treinamento pertencem, para que seja possível, posteriormente, o classificador associar novas
instâncias a essas classes inicialmente impostas a ele.
0,5 / 0,5 ptsPergunta 17
Analise as afirmativas:
I. O algoritmo a priori é um exemplo de algoritmo de classificação;
II. O algoritmo kmeans é um exemplo de algoritmo de classificação;
III. As técnicas de classificação podem ser utilizadas para se classificar objetos em um determinado número
de categorias ou classes.;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – incorreta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 25/29
 I – correta, II – correta e III - correta. 
Algoritmos de classificação
As técnicas de classificação podem ser utilizadas para se classificar objetos em um determinado
número de categorias ou classes.
Em (DOUGHERTY, 2012) é citado que, para se dividir objetos em classes é necessário observar as
características dos objetos, verificar quais características discriminam melhor as classes e a partir
delas iniciar o processo de classificação.
Em (THEODORIDIS; KOUTROUMBAS, 2008) e em (DOUGHERTY, 2012) são encontradas diversas
técnicas de classificação, como por exemplo, classificadores probabilísticos, classificadores
baseados na teoria de decisão de Bayes, classificadores lineares baseados em funções de
probabilidade, classificadores baseados em rede neurais, métodos estocásticos, classificadores
polinomiais, dentre outros.
0,5 / 0,5 ptsPergunta 18
Analise as afirmativas:
I. O algoritmo Naïve Bayes é um classificador probabilístico baseado na Lei de Bayes e nações de
suposições de independência condicional.;
II. O algoritmo baseado na teoria de decisão de Bayes é um típico algoritmo de clustering;
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 26/29
III. o algoritmo Naïve Bayes assume que a presença ou ausência de uma característica específica ou
atributo de uma classe não está relacionada com a presença ou ausência de qualquer outra característica.;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
Algoritmo de classificação Naïve Bayes
O algoritmo Naïve Bayes é um classificador probabilístico baseado na Lei de Bayes e nações de
suposições de independência condicional. Em outras palavras o algoritmo Naïve Bayes assume que
a presença ou ausência de uma característica específica ou atributo de uma classe não está
relacionada com a presença ou ausência de qualquer outra característica.
0 / 0,5 ptsPergunta 19IncorretaIncorreta
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 27/29
Analise as afirmativas:
I. Numa curva ROC a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório;
II. Para se implementar a técnica de curva ROC para a validação de classificadores deve-se dividir a base
de dados total de treinamento em parcelas;
III. Para se implementar a técnica de validação cruzada se faz necessária o cálculo da área abaixo da curva
(AUC);
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/52737 28/29
A curva ROC ou Receive Operating Characteristic possuirá uma área abaixo da curva AUC (Area
Under Curve), onde, para um classificador preciso sua área deverá ser 1 e para um classificador
ruim ou impreciso sua área será 0, ou seja, classificadores que forem mais próximos de 1, tem um
melhor desempenho, classificadores aleatórios possuem AUC em 0,5. Note que, a reta entre os
pontos (0,0) e (1,1) se trata de um classificador aleatório.
A validação cruzada é uma técnica relativamente simples, onde, pode-se dividir a base de dados
total de treinamento em parcelas, por exemplo, validação cruzada de 50%, onde o classificador será
treinado com os 50% de dados representativos e validado com os outros 50%, nesse caso, dado que
se sabe o resultado da classificação pode-se mediar a acurácia do classificador.
0 / 0,5 ptsPergunta 20IncorretaIncorreta
Analise as afirmativas:
I. Uma reta de regressão pode ser encontrada através da execução do algoritmo kmeans;
II. A reta de regressão e sua equação podem ser usadas na predição do valor de y, para um dado valor de
x;
III. Uma reta de regressão, ou reta de ajuste ótimo, é aquela para a qual a soma dos quadrados dos
resíduos é mínimo;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. 
20/06/2021 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/12694/quizzes/5273729/29
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
A predição numérica ou regressão é definida como uma técnica para se prever valores numéricos a
partir de uma dada entrada, por exemplo uma situação industrial, onde se deseja prever a
quantidade de metros cúbicos de água poluída por um determinado componente na saída de água
corrente em um processo químico, dado que esse valor está relacionado à temperatura de entrada
da água. Observa-se nesse caso que a variável de quantidade é dependente da variável de
temperatura. Nesse exemplo as técnicas de regressão podem ser utilizadas para a predição dos
valores (LARSON; FARBER, 2010) (NAVIDI, 2014).
Para se prever uma variável dependente a partir de uma outra independente usando a regressão
linear, se faz necessário determinar a equação da reta de regressão que melhor modela os dados. A
reta de regressão e sua equação podem ser usadas na predição do valor de y, para um dado valor
de x (LARSON; FARBER, 2010).
Uma reta de regressão, ou reta de ajuste ótimo, é aquela para a qual a soma dos quadrados dos
resíduos é mínimo.
Pontuação do teste: 7,5 de 10