Prova de ALGORITMOS PARA ANÁLISE DE DADOS

•

CSV

Luana Schalski

29/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Algoritmos

28.790 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 1/23
AS Geral
Entrega Sem prazo Pontos 10 Perguntas 20
Disponível 20 nov em 0:00 - 30 nov em 23:59 11 dias Limite de tempo Nenhum
Tentativas permitidas 3
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 111 minutos 8 de 10
 As respostas corretas estão ocultas.
Pontuação desta tentativa: 8 de 10
Enviado 28 nov em 20:55
Esta tentativa levou 111 minutos.
Fazer o teste novamente
0,5 / 0,5 ptsPergunta 1
Analise as afirmativas:
I. A mediana é o valor que separa a metade menor da metade maior
da população ou do conjunto de dados;
II. Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza a
medida de Mediana;
III. Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza a
medida de Media;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592/history?version=1
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592/take?user_id=225428
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 2/23
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza
a medida de Mediana. A mediana é o valor que separa a
metade menor da metade maior da população ou do conjunto
de dados.
0,5 / 0,5 ptsPergunta 2
Analise as afirmativas:
I. Minerar dados é o processo de descobrir informações relevantes
como padrões, associações, mudanças, anomalias e estruturas, em
grandes quantidades de dados armazenados em bancos de dados;
II. A mineração de dados serve única e exclusivamente para o
reconhecimento de outliers e classificação de instâncias;
III. Estimação de valores, detecção de outliers e agrupamento de
instâncias são algumas das técnicas de análise e reconhecimento de
padrões;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 3/23
Minerar dados é o processo de descobrir informações
relevantes como padrões, associações, mudanças, anomalias e
estruturas, em grandes quantidades de dados armazenados em
bancos de dados, depósitos de dados ou outros depósitos de
informação. A mineração de dados fornece percepções dos
dados, descobrindo padrões e relacionamentos ocultos em
grandes bancos de dados e inferindo regras a partir deles, para
prever comportamentos futuros (ZAKI; MEIRA, 2014).
O reconhecimento de padrões é uma disciplina da ciência que
tem como objetivo classificar objetos em um número de
categorias ou classes, conforme o observado em
(THEODORIDIS; KOUTROUMBAS, 2008). Dependendo da
aplicação, esses objetos podem ser, por exemplo, imagens,
sinais de ondas de rádio, ou qualquer tipo de medida que se
deseja classificar.
Observa-se ainda que, com as técnicas de reconhecimento de
padrões pode-se, por exemplo (DOUGHERTY, 2012):
• estimar valores;
• selecionar atributos relevantes para classificação;
• reconhecer pontos fora da curva, chamados de outliers;
• agrupamento de instâncias;
• classificação de instâncias; ou
• análise de textos;
0,5 / 0,5 ptsPergunta 3
Analise as afirmativas:
I. uma medida de similaridade ou dissimilaridade expressa em valor
real a similaridade ou a diferença entre dois vetores ou instância;
II. A distância de Mahalanobis foi introduzida em 1936 pelo matemático
indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas
correlações entre as variáveis;
III. A distância Euclidiana é uma forma de geometria que se baseia na
soma das diferenças absolutas de todas as coordenadas entre um
ponto e outro, em outras palavras assemelha-se à distância calculada
em um software de GPS;
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 4/23
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
Conforme se observa em Theodoridis e Koutroumbas em
(2008) uma medida de similaridade ou dissimilaridade expressa
em valor real a similaridade ou a diferença entre dois vetores ou
instância, para se medir esses valores podem ser utilizadas
medidas de distância entre dois pontos. As medidas de
distância comumente utilizadas são: distância euclidiana,
distância de Mahalanobis e distância de Manhattan.
A distância de Mahalanobis foi introduzida em 1936 pelo
matemático indiano Prasanta Chandra Mahalanobis. Essa
medida se baseia nas correlações entre as variáveis.
A distância de Manhattan é uma forma de geometria que se
baseia na soma das diferenças absolutas de todas as
coordenadas entre um ponto e outro, em outras palavras
assemelha-se à distância calculada em um software de GPS.
0,5 / 0,5 ptsPergunta 4
Analise a afirmativa:
O objetivo da função é fazer a poda do conjunto de itens candidatos,
usando o princípio de que cada subconjunto de um conjunto de itens
frequentes também deve ser frequentes.
Selecione a alternativa que traz o nome da função definida na
afirmativa.
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 5/23
 função outlier. 
 função apriori. 
 função classify. 
 função kmeans. 
 função apriori-gen. 
O outro objetivo da função Apriori-gen é fazer a poda do
conjunto de itens candidatos, usando o princípio de que cada
subconjunto de um conjunto de itens frequentes também deve
ser frequentes. Esta regra é utilizada para reduzir o número de
candidatos a serem comparados com cada transação na base
de dados (GILLMEISTER, 2007)
0,5 / 0,5 ptsPergunta 5
Analise as afirmativas:
I. classificação de clientes mediante ao perfil de compra e crédito;
II. comumente aplicado em análise de operações de compras com
cartão de crédito, onde se percebem caso ocorram fraudes;
III. técnicas de agrupamento podem ser aplicadas para a criação de
grupos e separação de indivíduas ou criação de categorias, criação de
categorias de documentos, por exemplo, análise de dados de
postagens em redes sociais;
Selecione a correta alternativa que traz o correto relacionamento entre
uma definição e sua técnica associada:
 I – classificação , II – detecção de outlier e III – clustering. 
 I – regras de associação , II – clustering e III – classificação. 
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 6/23
 
I – estimação de valores ou regressão, II – classificação e III – regras
de associação.
 
I – clustering , II – classificação e III – estimação de valores ou
regressão.
 I – detecção de outlier, II – clustering e III – classificação. 
Seguem alguns exemplos de aplicabilidade das técnicas
(THEODORIDIS; KOUTROUMBAS, 2008): Detecção de outlier:
comumente aplicado em análise de operações de compras com
cartão de crédito, onde se percebem caso ocorram fraudes;
Técnicas de classificação: classificação de clientes mediante ao
perfil de compra e crédito; Técnica de clustering: técnicas de
agrupamentopodem ser aplicadas para a criação de grupos e
separação de indivíduas ou criação de categorias, criação de
categorias de documentos, por exemplo, análise de dados de
postagens em redes sociais;
Estimação de valores: estimar leituras de sensores quando há
falhas na leitura ou falhas na comunicação entre uma aplicação
e o sensor;
Seleção de atributos: compreender quais são as características
que melhor definem o comportamento de uma espécie;
Análise de textos: aplicação que caracteriza um perfil social
dadas as suas postagens em uma rede social de textos;
0,5 / 0,5 ptsPergunta 6
Analise as afirmativas:
I. Tipicamente o Coeficiente de Silhueta total será um valor entre -1 e
1, sendo que o modelo com K que melhor agrupa o conjunto de dados
ser o que possuir valor mais próximo de 1.
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 7/23
II. O coeficiente de silhueta é uma medida de coesão e separação de
clusters;
III. O coeficiente de silhueta é baseado na diferença entre a distância
média de um ponto para os pontos de seu cluster e a distância média
de um objeto a todos os objetos do cluster mais próximo;
Selecione a correta alternativa quanto às afirmativas relacionada à
medida de validação de clusters usando o coeficiente de silhueta:
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
O coeficiente de silhueta é uma medida de coesão e separação
de clusters, é baseado na diferença entre a distância média de
um ponto para os pontos de seu cluster e a distância média de
um objeto a todos os objetos do cluster mais próximo.
Para que se validar o modelo proposto é importante executar
essa validação para inúmeros valores de K, ou seja, se
executar o algoritmo iniciando com K igual a 1 e aumentando
gradativamente, para cada execução do algoritmo se calcular o
coeficiente de silhueta total (SWC) e se plotar em um gráfico.
Tipicamente o SWC será um valor entre -1 e 1, sendo que o
modelo com K que melhor agrupa o conjunto de dados ser o
que possuir valor mais próximo de 1
0,5 / 0,5 ptsPergunta 7
Analise as afirmativas:
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 8/23
I. Clustering é um método frequentemente usado para análise
exploratória dos dados, onde não há estimativas de quaisquer valores
ou agrupamentos, as criações dos grupos ocorrem apenas se
encontrando a semelhança entre os dados e agrupando-os em grupos
ou clusters;
II. Pode-se usar o método de clustering para realizar segmentação de
clientes para permitir programas de marketing direcionados ou
especiais;
III. As técnicas de clustering não podem ser utilizadas para criar
agrupamentos de documentos dada a natureza desestruturada dos
textos;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
Clustering é um método frequentemente usado para análise
exploratória dos dados, onde não há estimativas de quaisquer
valores ou agrupamentos, as criações dos grupos ocorrem
apenas se encontrando a semelhança entre os dados e
agrupando-os em grupos ou clusters.
A ideia de semelhanças pode ser explicada com os seguintes
exemplos:
Considere questões como
1. Como faço para agrupar esses documentos por tópico?
2. Como faço para realizar segmentação de clientes para
permitir programas de marketing direcionados ou especiais.
0,5 / 0,5 ptsPergunta 8
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 9/23
Analise as afirmativas:
I. As medidas de "similaridade" não são boas para o uso em algoritmos
de clustering;
II. A distância (um inverso de semelhança) entre os pontos dentro de
um cluster é sempre menor do que a distância entre pontos em um
cluster diferente;
III. A escolha do tipo de medida de distância é importante para a
execução dos algoritmos de usam medidas de similaridades;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
Note que a definição de "similaridade" é específica para o
domínio do problema. Estamos definindo semelhança como
esses pontos de dados com a mesma característica como
"tópico" ou clientes que podem ser perfilados para uma mesma
"faixa etária / renda / gênero" ou um "padrão de compra".
Se tivermos um vetor de medidas de um atributo dos dados, os
pontos de dados agrupados em um cluster terão valores para a
medição próxima uns dos outros dos pontos de dados
agrupados em um cluster diferente. Em outras palavras, a
distância (um inverso de semelhança) entre os pontos dentro de
um cluster é sempre menor do que a distância entre pontos em
um cluster diferente. Em um cluster, acabamos com um grupo
apertado (homogêneo) de pontos de dados que estão distantes
dos pontos de dados que acabam em um cluster diferente.
0,5 / 0,5 ptsPergunta 9
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 10/23
Analise as afirmativas:
I. escolhe aleatoriamente a quantidade de grupos ou clusters nos quais
se deseja agrupar os objetos;
II. recebe como parâmetro a quantidade de grupos ou clusters nos
quais se deseja agrupar os objetos;
III. utiliza medidas de similaridade entre os objetos;
Selecione a correta alternativa quanto às afirmativas relacionadas ao
algoritmo kmeans:
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
O algoritmo de clustering k-means foi proposto incialmente por
MacQueen (1967), e utiliza medidas de similaridade entre os
objetos.
O algoritmo deve receber como parâmetro a quantidade de
grupos ou clusters nos quais se deseja agrupar os objetos. O
algoritmo escolhe aleatoriamente N objetos, que tornam-se
representantes de cada cluster, chamados de centroides. A
cada iteração do algoritmo, os outros objetos são alocados nos
clusters, ou seja, o objeto é colocado no cluster do centroide
mais próximo. A cada iteração, o algoritmo recalcula o
centroide, usando a média das distâncias entre todos os
integrantes do cluster.
0,5 / 0,5 ptsPergunta 10
Selecione a alternativa que traz uma correta definição de algoritmos de
clustering.
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 11/23
 
Geram regras de associação que demonstram a presença de um
determinado conjunto que implica na presença de algum outro conjunto
distinto de itens
 
Comumente utilizada para a classificação de clientes mediante ao perfil
de compra e crédito.
 
Os algoritmos de Clustering são métodos de aprendizado não
supervisionados usados para a criação de grupos homogêneos, dado
um conjunto de dados com base em sua estrutura interna.
 
utilizado para se compreender quais são as características que melhor
definem o comportamento de uma espécie.
 
comumente aplicado em análise de operações de compras com cartão
de crédito, onde se percebem caso ocorram fraudes.
Os algoritmos de Clustering são método de aprendizado não
supervisionados usados para a criação de grupos homogêneos,
dado um conjunto de dados com base em sua estrutura interna.
Clustering é um método frequentemente usado paraanálise
exploratória dos dados, onde não há estimativas de quaisquer
valores ou agrupamentos, as criações dos grupos ocorrem
apenas se encontrando a semelhança entre os dados e
agrupando-os em grupos ou clusters.
0 / 0,5 ptsPergunta 11IncorretaIncorreta
Analise as afirmativas quanto ao processo de extração e seleção de
feições:
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 12/23
I. O coeficiente de jaccard pode ser utilizado no processo de word
stemming;
II. Após a aplicação do processo de extração de feições é aplicado o
processo de seleção de feições, que define a importância de cada
termo para um documento ou para um dado conjunto de documentos;
III. Todos os termos que permaneceram na representação dos
documentos ou extração de feições agregam conhecimento;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
As palavras restantes do processo de extração de feições
passam por um processo mencionado na literatura como word
stemming, que tem por objetivo remover variações de um
mesmo termo, como por exemplo conjugações verbais. Para
esse fim pode-se usar conceitos de similaridade entre palavras,
como por exemplo o coeficiente de jaccard. Após a aplicação
do processo de extração de feições é aplicado o processo de
seleção de feições, que define a importância de cada termo
para um documento ou para um dado conjunto de documentos,
pois nem todos os termos que permaneceram na representação
dos documentos agregam conhecimento.
0,5 / 0,5 ptsPergunta 12
Analise as afirmativas quanto ao processo de representação de
documentos:
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 13/23
I. Um documento ou um padrão pode ser representado em termos das
características ou feições selecionadas, transformadas em vetores de
características;
II. Cada termo importante deve ter um valor e posição definida no
documento ou conjunto de documentos;
III. a representação de um documento é dado por: f = (f1, f2, f3, ..., fn ),
onde cada fi corresponde ao tf do termo ou feição que i representa;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
Representação de documentos
Um documento ou um padrão pode ser representado em
termos das características ou feições selecionadas,
transformadas em vetores de características, onde cada termo
importante deve ter um valor e posição definida no documento
ou conjunto de documentos.
Se o processo de seleção produzir n como quantidade de
feições e m como quantidade de documentos no conjunto total,
o conjunto de documentos será representado por uma matriz de
feições m X n. Um dado conjunto n de feições ou características
de um dado documento ou conceito é representado por 1 X n
vetor de feições representado por f, conforme a representação
dada: f = (f1, f2, f3, ..., fn ), onde cada fi corresponde ao tf do
termo ou feição que i representa.
0,5 / 0,5 ptsPergunta 13
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 14/23
Analise as afirmativas quanto ao processo de extração de feições:
I. O conjunto de palavras obtidos com a aplicação do passo de
transformação é submetido a um processo de remoção de palavras, no
qual são removidas palavras que não possuem importância no texto,
chamadas na literatura como stop words;
II. As palavras restantes passam por um processo mencionado na
literatura como word stemming, que tem por objetivo remover
variações de um mesmo termo, como por exemplo conjugações
verbais.;
III. Os documentos não precisam ser transformados em texto plano e
dividido em palavras individuais para a análise;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. 
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 15/23
O processo de extração de feições agrupa os passos de
conversão de documentos, remoção de palavras e
desambiguação ilustrados na Figura XX. Este processo
pretende determinar as palavras que caracterizam ou que
possuem maior importância em um dado documento, para isso
são necessários os seguintes passos:
1. Os documentos são transformados em texto plano e dividido
em palavras individuais.
2. O conjunto de palavras obtidos com a aplicação do passo
anterior é submetido a um processo de remoção de palavras,
no qual são removidas palavras que não possuem importância
no texto, chamadas na literatura como stop words; neste caso
são removidos artigos, numerais, pronomes e verbos.
3. Por fim, as palavras restantes passam por um processo
mencionado na literatura como word stemming, que tem por
objetivo remover variações de um mesmo termo, como por
exemplo conjugações verbais. Para esse fim pode-se usar
conceitos de similaridade entre palavras, como por exemplo o
coeficiente de jaccard.
0 / 0,5 ptsPergunta 14IncorretaIncorreta
Analise as afirmativas:
I. O processo de análise de textos possui inúmeras fases, que dado o
tipo de projeto e tipo de tecnologia de processamento de textos fará
com que algumas das fases sejam agrupadas;
II. O processo de categorização de documentos é uma subárea da
mineração em textos;
III. O processo de remoção de palavras não é uma fase do processo
de categorização de documentos;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 16/23
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
O processo de categorização de documentos é uma subárea da
mineração em textos, que se definido como um processo para
agrupar documentos similares, a partir da organização do
conhecimento e da remoção de redundâncias e variações de
palavras existentes nos documentos (BRüCHER;
KNOLMAYER; MITTERMAYER, 2002).
A Figura XX ilustra a arquitetura do processo de categorização
de documentos.
Arquitetura do processo de categorização de documentos.
Adaptado de (GUO et al., 2003)
O processo de análise de textos possui inúmeras fases, que
dado o tipo de projeto e tipo de tecnologia de processamento de
textos fará com que algumas das fases sejam agrupadas. Aqui
será feita uma descrição de cada etapa de maneira simplificada
sem entrar no aspecto de ferramenta ou tecnologia utilizada.
 
0,5 / 0,5 ptsPergunta 15
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 17/23
Analise as afirmativas quanto ao processo de Conversão de
documentos e remoção de palavras:
I. Como exemplo, pode-se pensar no resgate de dados de postagens
em Blogs, onde cada postagem, deverá ser inicialmente trabalhada
para se remover as TAGs HTML, de modo a deixar tudo com texto
plano, etiquetadas com características de autor e informações
temporais.;
II. A separação em pastas dos dados iniciais poderá influenciar o
resultado e deverá ser feito de acordo com a análise que se requer;
III. A análise não requer se etiquetar o dado com fonte de origemou
autor, o agrupamento dos documentos, seja por data, autor ou origem
poderão alterar grandemente o resultado da análise de textos e isso
deve variar também de acordo com o projeto e tecnologia.;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. 
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 18/23
Conversão de documentos e remoção de palavras
Ao se trabalhar com diversas fontes de dados de Big Data, o
processo inicial de requisição de dados poderá variar bastante,
dependendo do tipo de fonte de dados, pode exemplo, dados
de redes sociais, dados da WEB, Blogs, fóruns em sistemas
específicos, bases de e-mails, enfim, uma infinidade de fontes
de dados que deverão ser trabalhadas em suas
especificidades. Cabe ressaltar ainda, que dada a característica
da análise, é sempre importante se conseguir etiquetar o dado
com fonte de origem ou autor, o agrupamento dos documentos,
seja por data, autor ou origem poderão alterar grandemente o
resultado da análise de textos e isso deve variar também de
acordo com o projeto e tecnologia.
A fase inicial de Dados de entrada, sejam dados etiquetados
deve ser bem definida e trabalhada em sua especificidade de
projeto e finalizará com a etapa de conversão dos documentos.
Como exemplo, pode-se pensar no resgate de dados de
postagens em Blogs, onde cada postagem, deverá ser
inicialmente trabalhada para se remover as TAGs HTML, de
modo a deixar tudo com texto plano, etiquetadas com
características de autor e informações temporais. Nesse passo,
hipoteticamente ao trabalhar com a plataforma HADOOP,
deverão ser criados diversos arquivos em texto plano e
agrupados ou separados de maneira temporal ou por autor em
pastas no sistema de arquivos. Note que essa separação em
pastas poderá influenciar o resultado e deverá ser feito de
acordo com a análise que se requer.
0,5 / 0,5 ptsPergunta 16
Analise as afirmativas:
I. Em (DOUGHERTY, 2012) é citado que, para se dividir objetos em
classes é necessário observar as características dos objetos, verificar
quais características discriminam melhor as classes e a partir delas
iniciar o processo de classificação;
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 19/23
II. São exemplos de algoritmos de classificação: classificadores
probabilísticos, classificadores baseados na teoria de decisão de
Bayes, classificadores lineares baseados em funções de
probabilidade;
III. São exemplos de algoritmos de classificação: classificadores
baseados em rede neurais, métodos estocásticos, classificadores
polinomiais;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
Em (THEODORIDIS; KOUTROUMBAS, 2008) e em
(DOUGHERTY, 2012) são encontradas diversas técnicas de
classificação, como por exemplo, classificadores probabilísticos,
classificadores baseados na teoria de decisão de Bayes,
classificadores lineares baseados em funções de probabilidade,
classificadores baseados em rede neurais, métodos
estocásticos, classificadores polinomiais, dentre outros.
0 / 0,5 ptsPergunta 17IncorretaIncorreta
Analise as afirmativas:
I. O algoritmo a priori é um exemplo de algoritmo de classificação;
II. O algoritmo kmeans é um exemplo de algoritmo de classificação;
III. As técnicas de classificação podem ser utilizadas para se classificar
objetos em um determinado número de categorias ou classes.;
Selecione a correta alternativa quanto às afirmativas:
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 20/23
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
Algoritmos de classificação
As técnicas de classificação podem ser utilizadas para se
classificar objetos em um determinado número de categorias ou
classes.
Em (DOUGHERTY, 2012) é citado que, para se dividir objetos
em classes é necessário observar as características dos
objetos, verificar quais características discriminam melhor as
classes e a partir delas iniciar o processo de classificação.
Em (THEODORIDIS; KOUTROUMBAS, 2008) e em
(DOUGHERTY, 2012) são encontradas diversas técnicas de
classificação, como por exemplo, classificadores probabilísticos,
classificadores baseados na teoria de decisão de Bayes,
classificadores lineares baseados em funções de probabilidade,
classificadores baseados em rede neurais, métodos
estocásticos, classificadores polinomiais, dentre outros.
0 / 0,5 ptsPergunta 18IncorretaIncorreta
Analise as afirmativas:
I. Numa curva ROC a reta entre os pontos (0,0) e (1,1) se trata de um
classificador aleatório;
II. Para se implementar a técnica de curva ROC para a validação de
classificadores deve-se dividir a base de dados total de treinamento
em parcelas;
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 21/23
III. Para se implementar a técnica de validação cruzada se faz
necessária o cálculo da área abaixo da curva (AUC);
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
A curva ROC ou Receive Operating Characteristic possuirá uma
área abaixo da curva AUC (Area Under Curve), onde, para um
classificador preciso sua área deverá ser 1 e para um
classificador ruim ou impreciso sua área será 0, ou seja,
classificadores que forem mais próximos de 1, tem um melhor
desempenho, classificadores aleatórios possuem AUC em 0,5.
Note que, a reta entre os pontos (0,0) e (1,1) se trata de um
classificador aleatório.
A validação cruzada é uma técnica relativamente simples, onde,
pode-se dividir a base de dados total de treinamento em
parcelas, por exemplo, validação cruzada de 50%, onde o
classificador será treinado com os 50% de dados
representativos e validado com os outros 50%, nesse caso,
dado que se sabe o resultado da classificação pode-se mediar
a acurácia do classificador.
0,5 / 0,5 ptsPergunta 19
Analise as afirmativas:
I. Verdadeiro positivo (TP - true positive): trata-se do número de pontos
classificados incorretamente como positivos;
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 22/23
II. Falso positivo (FP - false positive): o número de pontos classificados
como negativo, porém é positivo para a dada classe;
III. Falso negativo (FN - false negative): o número de pontos
classificado como positivo para uma dada classe, porém ele deveria
ser negativo;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
Vamos falar sobre a F-measure que mede na verdade a
quantidade de acertos e erros dos algoritmos, ou conhecido
como acurácia.
Essa medida soma os seguintes acertos e erros do algoritmo:
Verdadeiro positivo (TP – true positive): trata-se do número
de pontos classificados corretamente como positivos;
Falsopositivo (FP – false positive): o número de pontos
classificados como positivo, porém é negativo para a dada
classe, nesse caso um erro;
Falso negativo (FN – false negative): o número de pontos
classificado como negativo para uma dada classe, porém ele
deveria ser positivo, que também se trata de um erro do
algoritmo; e Verdadeiro negativo (TN – true negative):
número de pontos classificados corretamente como negativos,
ou seja, de fato não pertencem à dada classe;
0,5 / 0,5 ptsPergunta 20
Analise as afirmativas:
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 23/23
I. Uma árvore de decisão consiste em nós internos que representam
as decisões correspondentes aos hiperplanos ou pontos de divisão
entre as classes;
II. Nós de folha representam regiões ou partições do espaço de dados,
que são rotulados com a maioridade da classe;
III. Um algoritmo de árvore de decisão permite a criação de clustering
e é relativamente simples;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
Uma árvore de decisão consiste em nós internos que
representam as decisões correspondentes aos hiperplanos ou
pontos de divisão entre as classes, e nós de folha que
representam regiões ou partições do espaço de dados, que são
rotulados com a maioridade da classe. Uma região é então
caracterizada pelo subconjunto de pontos de dados que se
encontram na região.
O algoritmo é relativamente simples, tendo em vista que os
pontos de divisão entre as classes estão previamente definidos.
Pontuação do teste: 8 de 10