Buscar

AS Geral_ ALGORITMOS PARA ANÁLISE DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 1/21
Pontuação desta tentativa: 8,5 de 10
Enviado 27 jun em 17:05
Esta tentativa levou 76 minutos.
0,5 / 0,5 ptsPergunta 1
Analise as afirmativas:
I. uma medida de similaridade ou dissimilaridade expressa em valor
real a similaridade ou a diferença entre dois vetores ou instância;
II. A distância de Mahalanobis foi introduzida em 1936 pelo matemático
indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas
correlações entre as variáveis;
III. A distância Euclidiana é uma forma de geometria que se baseia na
soma das diferenças absolutas de todas as coordenadas entre um
ponto e outro, em outras palavras assemelha-se à distância calculada
em um software de GPS;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. Correto!Correto!
Conforme se observa em Theodoridis e Koutroumbas em
(2008) uma medida de similaridade ou dissimilaridade expressa
em valor real a similaridade ou a diferença entre dois vetores ou
instância, para se medir esses valores podem ser utilizadas
medidas de distância entre dois pontos. As medidas de
distância comumente utilizadas são: distância euclidiana,
distância de Mahalanobis e distância de Manhattan.
A distância de Mahalanobis foi introduzida em 1936 pelo
matemático indiano Prasanta Chandra Mahalanobis. Essa
medida se baseia nas correlações entre as variáveis.
A distância de Manhattan é uma forma de geometria que se
baseia na soma das diferenças absolutas de todas as
coordenadas entre um ponto e outro, em outras palavras
assemelha-se à distância calculada em um software de GPS.
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 2/21
0,5 / 0,5 ptsPergunta 2
Analise as afirmativas:
I. Minerar dados é o processo de descobrir informações relevantes
como padrões, associações, mudanças, anomalias e estruturas, em
grandes quantidades de dados armazenados em bancos de dados;
II. A mineração de dados serve única e exclusivamente para o
reconhecimento de outliers e classificação de instâncias;
III. Estimação de valores, detecção de outliers e agrupamento de
instâncias são algumas das técnicas de análise e reconhecimento de
padrões;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. Correto!Correto!
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 3/21
Minerar dados é o processo de descobrir informações
relevantes como padrões, associações, mudanças, anomalias e
estruturas, em grandes quantidades de dados armazenados em
bancos de dados, depósitos de dados ou outros depósitos de
informação. A mineração de dados fornece percepções dos
dados, descobrindo padrões e relacionamentos ocultos em
grandes bancos de dados e inferindo regras a partir deles, para
prever comportamentos futuros (ZAKI; MEIRA, 2014).
O reconhecimento de padrões é uma disciplina da ciência que
tem como objetivo classificar objetos em um número de
categorias ou classes, conforme o observado em
(THEODORIDIS; KOUTROUMBAS, 2008). Dependendo da
aplicação, esses objetos podem ser, por exemplo, imagens,
sinais de ondas de rádio, ou qualquer tipo de medida que se
deseja classificar.
Observa-se ainda que, com as técnicas de reconhecimento de
padrões pode-se, por exemplo (DOUGHERTY, 2012):
• estimar valores;
• selecionar atributos relevantes para classificação;
• reconhecer pontos fora da curva, chamados de outliers;
• agrupamento de instâncias;
• classificação de instâncias; ou
• análise de textos;
0,5 / 0,5 ptsPergunta 3
Analise as afirmativas:
I. classificação de clientes mediante ao perfil de compra e crédito;
II. comumente aplicado em análise de operações de compras com
cartão de crédito, onde se percebem caso ocorram fraudes;
III. técnicas de agrupamento podem ser aplicadas para a criação de
grupos e separação de indivíduas ou criação de categorias, criação de
categorias de documentos, por exemplo, análise de dados de
postagens em redes sociais;
Selecione a correta alternativa que traz o correto relacionamento entre
uma definição e sua técnica associada:
 I – detecção de outlier, II – clustering e III – classificação. 
 I – classificação , II – detecção de outlier e III – clustering. Correto!Correto!
 
I – clustering , II – classificação e III – estimação de valores ou
regressão.
 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 4/21
 I – regras de associação , II – clustering e III – classificação. 
 
I – estimação de valores ou regressão, II – classificação e III – regras
de associação.
 
Seguem alguns exemplos de aplicabilidade das técnicas
(THEODORIDIS; KOUTROUMBAS, 2008): Detecção de outlier:
comumente aplicado em análise de operações de compras com
cartão de crédito, onde se percebem caso ocorram fraudes;
Técnicas de classificação: classificação de clientes mediante ao
perfil de compra e crédito; Técnica de clustering: técnicas de
agrupamento podem ser aplicadas para a criação de grupos e
separação de indivíduas ou criação de categorias, criação de
categorias de documentos, por exemplo, análise de dados de
postagens em redes sociais;
Estimação de valores: estimar leituras de sensores quando há
falhas na leitura ou falhas na comunicação entre uma aplicação
e o sensor;
Seleção de atributos: compreender quais são as características
que melhor definem o comportamento de uma espécie;
Análise de textos: aplicação que caracteriza um perfil social
dadas as suas postagens em uma rede social de textos;
0,5 / 0,5 ptsPergunta 4
Analise as afirmativas:
I. A mediana é o valor que separa a metade menor da metade maior da
população ou do conjunto de dados;
II. Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza a
medida de Mediana;
III. Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza a
medida de Media;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. Correto!Correto!
 I – incorreta, II – correta e III - correta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 5/21
 I – correta, II – correta e III - correta. 
Abordagens mais simples para a detecção de outliers utiliza os
valores de Quartil no conjunto de dados, que por sua vez utiliza
a medida de Mediana. A mediana é o valor que separa a
metade menor da metade maior da população ou do conjunto
de dados.
0,5 / 0,5 ptsPergunta 5
Selecione a alternativa que traz o nome da técnica ou característica
definida por: representam um padrão de relacionamento entre itens de
dados no domínio da aplicação, que ocorrem com uma determinada
frequência nas bases de dados.
 clustering. 
 regra de associação. Correto!Correto!
 padrão. 
 classificador. 
 outlier. 
Regras de Associação representam um padrão de
relacionamento entre itens de dados no domínio da aplicação,
que ocorrem com uma determinada frequência nas bases de
dados.
0,5 / 0,5 ptsPergunta 6
Analise as afirmativas:
I. Clustering é um método frequentemente usado para análise
exploratória dos dados, onde não há estimativas de quaisquer valores
ou agrupamentos,as criações dos grupos ocorrem apenas se
encontrando a semelhança entre os dados e agrupando-os em grupos
ou clusters;
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 6/21
II. Pode-se usar o método de clustering para realizar segmentação de
clientes para permitir programas de marketing direcionados ou
especiais;
III. As técnicas de clustering não podem ser utilizadas para criar
agrupamentos de documentos dada a natureza desestruturada dos
textos;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. Correto!Correto!
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
Clustering é um método frequentemente usado para análise
exploratória dos dados, onde não há estimativas de quaisquer
valores ou agrupamentos, as criações dos grupos ocorrem
apenas se encontrando a semelhança entre os dados e
agrupando-os em grupos ou clusters.
A ideia de semelhanças pode ser explicada com os seguintes
exemplos:
Considere questões como
1. Como faço para agrupar esses documentos por tópico?
2. Como faço para realizar segmentação de clientes para
permitir programas de marketing direcionados ou especiais.
0,5 / 0,5 ptsPergunta 7
Analise as afirmativas:
I. método que inicia criando-se tuplas e se vai aumentando o número
de participantes do clusters e agrupando as instâncias dada a
similaridade, conforme se observa na figura, onde um dendograma é
formado pela execução do algoritmo, onde no eixo vertical se observa
a escala de similaridade e no eixo horizontal as instâncias a serem
agrupadas;
II. nesse caso as vértices são os objetos e suas ligações ou arestas
são suas similaridades, ao analisar essa estrutura é possível se criar
os clusters;
III. a ideia principal é continuar o crescimento de um cluster à medida
em que sua densidade ou quantidade de objetos em sua vizinhança
tenha uma proximidade determinada;
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 7/21
Selecione a correta alternativa quanto às afirmativas relacionados aos
métodos de clustering:
 
I – clustering hierárquico, II – baseado em grafos e III – baseado em
densidade.
 
Correto!Correto!
 
I – clustering hierárquico, II – baseado em grafos e III – baseado em
partição.
 
 
I – baseado em densidade, II – baseado em grafos e III – clustering
hierárquico.
 
 
I – baseado em grafos, II – baseado em densidade e III – clustering
hierárquico.
 
 
I – baseado em grafos, II – clustering hierárquico e III – baseado em
densidade.
 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 8/21
Na literatura são encontrados diversos tipos de algoritmos de
clustering, dentre eles:
I. Métodos de partição: às quais são criados os clusters e são
agregadas as instâncias a cada um dos clusters dada a
execução dos algoritmos;
II. Métodos de clusters hierárquicos: método que inicia criando-
se tuplas e se vai aumentando o número de participantes do
clusters e agrupando as instâncias dada a similaridade,
conforme se observa na figura, onde um dendograma é
formado pela execução do algoritmo, onde no eixo vertical se
observa a escala de similaridade e no eixo horizontal as
instâncias a serem agrupadas. Notem que a cada nível se
aumenta no número de participantes do cluster, chegando até o
nível máximo que será o número total de instâncias do modelo.
Dendograma gerado pelo método de clustering hierárquico
(Duda e Hart, 2000)
III. Métodos com base em densidade de objetos: a ideia
principal é continuar o crescimento de um cluster à medida em
que sua densidade ou quantidade de objetos em sua vizinhança
tenha uma proximidade determinada. Este método permite criar
clusters de forma arbitrária com regiões densas separadas
entre si por dados dispersos, o algoritmo comumente
mencionado na literatura é o DBSCAN.
Exemplo de clusters utilizando a técnica de densidade (Zaki e
M i 2014)
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 9/21
Meira, 2014)
IV. Métodos que utilizam estruturas de grafo: nesse caso as
vértices são os objetos e suas ligações ou arestas são suas
similaridades, ao analisar a estrutura do grafo ou rede gerada é
possível se criar os clusters.
Exemplo de clusters usando a estrutura dos grafos(Theodoridis,
Koutroumbas, 2008)
0,5 / 0,5 ptsPergunta 8
Analise as afirmativas:
I. Caso o valor da Soma dos Erros Quadrados seja muito alto, significa
que o cluster está muito especializado, ou seja, poderá se juntar ao
outro.
II. Caso o valor da Soma dos Erros Quadrados em um cluster seja
muito alto, significa que o cluster em si não é coeso e possivelmente,
poderá ser separado;
III. A medida de soma dos erros quadrados irá mostrar o valor da soma
total das distâncias entre cada instância e seus respectivos centroides,
nesse caso utilizando a distância euclidiana como medida.;
Selecione a correta alternativa quanto às afirmativas relacionada à
medida de validação de clusters usando a soma dos erros quadrados:
 I – incorreta, II – correta e III - correta. Correto!Correto!
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
A medida de soma dos erros quadrados irá mostrar o valor da
soma total das distâncias entre cada instância e seus
respectivos centroides, nesse caso utilizando a distância
euclidiana como medida. Caso esse valor seja muito alto,
significa que o cluster em si não é coeso e possivelmente,
poderá ser separado e caso esse valor seja muito baixo,
significa que o cluster está muito especializado, ou seja, poderá
se juntar ao outro.
0,5 / 0,5 ptsPergunta 9
Analise as afirmativas:
I. empregam critérios que são derivados dos dados em si;
II. as instâncias foram previamente etiquetadas, com informações
oriundas de conhecimento de especialistas e se faz uma validação a
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 10/21
partir dos erros e acertos do algoritmo, sem levar em consideração
medidas específicas;
III. utilizam critérios que não são inerentes ao Conjunto de dados, mas
sim ao domínio de aplicação;
Selecione a correta alternativa quanto às afirmativas relacionadas às
medidas de validação de clustering internas e externas ao modelo
gerado:
 I – internas, II – internas e III - internas. 
 I – internas, II – externas e III - internas. 
 I – externas, II – externas e III – externas. 
 I – internas, II – externas e III - externas. Correto!Correto!
 I – internas, II – internas e III - externas. 
Dada a grande variedade de algoritmos de clustering, observa-
se também uma grande variedade de técnicas de validação,
que levam em consideração medidas internas aos clusters e
medidas externa, considerando o modelo completo (Zaki e
Meira, 2014).
Medidas externas: as medidas de validação externa utilizam
critérios que não são inerentes ao Conjunto de dados, mas sim
ao domínio de aplicação. Isso pode ser na forma de
conhecimento prévio ou especializado sobre os clusters, por
exemplo, as instâncias foram previamente etiquetadas, com
informações oriundas de conhecimento de especialistas e se
faz uma validação a partir dos erros e acertos do algoritmo, sem
levar em consideração medidas específicas. Para esse tipo de
técnica pode-se usar as medidas chamada F-measure, que
deverá medir a precisão do algoritmo como um todo, técnica
comumente utilizada para validação de classificadores ou
detecção de outliers.
Medidas internas: as medidas internas de validação empregam
critérios que são derivados dos dados em si. Por exemplo,podemos usar distâncias intracluster e intercluster para obter
medidas de coesão do cluster (por exemplo, quão semelhantes
são os pontos no mesmo Cluster?) e de separação (por
exemplo, quão distantes estão os pontos em diferentes
clusters?).
0,5 / 0,5 ptsPergunta 10
Analise as afirmativas:
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 11/21
I. Tipicamente o Coeficiente de Silhueta total será um valor entre -1 e
1, sendo que o modelo com K que melhor agrupa o conjunto de dados
ser o que possuir valor mais próximo de 1.
II. O coeficiente de silhueta é uma medida de coesão e separação de
clusters;
III. O coeficiente de silhueta é baseado na diferença entre a distância
média de um ponto para os pontos de seu cluster e a distância média
de um objeto a todos os objetos do cluster mais próximo;
Selecione a correta alternativa quanto às afirmativas relacionada à
medida de validação de clusters usando o coeficiente de silhueta:
 I – correta, II – correta e III - incorreta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. Correto!Correto!
 I – incorreta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
O coeficiente de silhueta é uma medida de coesão e separação
de clusters, é baseado na diferença entre a distância média de
um ponto para os pontos de seu cluster e a distância média de
um objeto a todos os objetos do cluster mais próximo.
Para que se validar o modelo proposto é importante executar
essa validação para inúmeros valores de K, ou seja, se
executar o algoritmo iniciando com K igual a 1 e aumentando
gradativamente, para cada execução do algoritmo se calcular o
coeficiente de silhueta total (SWC) e se plotar em um gráfico.
Tipicamente o SWC será um valor entre -1 e 1, sendo que o
modelo com K que melhor agrupa o conjunto de dados ser o
que possuir valor mais próximo de 1
0,5 / 0,5 ptsPergunta 11
Analise as afirmativas quanto ao processo de seleção de feições:
I. O tf define a importância de uma palavra em um documento;
II. Todos os termos que possuem valores de tf altos são importantes
para todo o conjunto de documentos;
III. Com os pesos de TF/IDF de cada palavra definidos pode-se fazer
um ranqueamento das palavras que definem a importância de cada
termo no conjunto total de documentos;
Selecione a correta alternativa quanto às afirmativas:
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 12/21
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. Correto!Correto!
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
O tf define a importância de uma palavra em um documento e é
diretamente proporcional à quantidade de vezes que o termo
aparece em um dado documento.
Observe que nem todos os termos que possuem valores de tf
altos são importantes para todo o conjunto de documentos, pois
nem todos os documentos são importantes para a análise.
Com os pesos de cada palavra definidos pode-se fazer um
ranqueamento, onde, as k feições ou palavras mais importantes
para um dado documento j são obtidos pela seleção das k
palavras com valores de tf idf ordenados (Souza, 2010).
0 / 0,5 ptsPergunta 12
Analise as afirmativas quanto ao processo de extração e seleção de
feições:
I. O coeficiente de jaccard pode ser utilizado no processo de word
stemming;
II. Após a aplicação do processo de extração de feições é aplicado o
processo de seleção de feições, que define a importância de cada
termo para um documento ou para um dado conjunto de documentos;
III. Todos os termos que permaneceram na representação dos
documentos ou extração de feições agregam conhecimento;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. ocê respondeuocê respondeu
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. esposta corretaesposta correta
 I – correta, II – incorreta e III - correta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 13/21
 I – incorreta, II – correta e III - correta. 
As palavras restantes do processo de extração de feições
passam por um processo mencionado na literatura como word
stemming, que tem por objetivo remover variações de um
mesmo termo, como por exemplo conjugações verbais. Para
esse fim pode-se usar conceitos de similaridade entre palavras,
como por exemplo o coeficiente de jaccard. Após a aplicação do
processo de extração de feições é aplicado o processo de
seleção de feições, que define a importância de cada termo
para um documento ou para um dado conjunto de documentos,
pois nem todos os termos que permaneceram na representação
dos documentos agregam conhecimento.
0,5 / 0,5 ptsPergunta 13
Analise as afirmativas quanto ao processo de seleção de feições:
I. O método comumente utilizado para o esse processo é o TF/IDF;
II. TF refere-se à frequência do termo;
III. IDF refere-se à inversa da frequência do documento;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - correta. Correto!Correto!
 I – incorreta, II – incorreta e III - incorreta. 
 I – correta, II – correta e III - incorreta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 14/21
Conforme se observa em (Souza, 2010), diversas métricas
encontradas na literatura podem ser aplicadas; por exemplo,
métodos estatísticos, entropia ou frequência dos termos. Um
método comumente utilizado é a o chamado TF/IDF, ou
frequência do termo (tf – term frequency), e a inversa da
frequência do documento, ou (idf - inverse document
frequency), o seu produto é usado para determinar o poder de
discriminação de uma dada palavra para um determinado
documento ou conjunto de documentos (HAN et al., 2006),
(CALVO; LEE; LI, 2004), (ROSE, 1994).
0,5 / 0,5 ptsPergunta 14
Analise as afirmativas quanto ao processo de extração de feições:
I. O processo de extração de feições agrupa os passos de conversão
de documentos, remoção de palavras e desambiguação;
II. Este processo pretende determinar as palavras que caracterizam ou
que possuem maior importância em um dado documento;
III. Após o processo de extração de feições a dimensionalidade do
documento não possuirá relação com a quantidade de palavras;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. Correto!Correto!
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 15/21
O processo de extração de feições agrupa os passos de
conversão de documentos, remoção de palavras e
desambiguação ilustrados na Figura XX. Este processo
pretende determinar as palavras que caracterizam ou que
possuem maior importância em um dado documento, para isso
são necessários os seguintes passos:
1. Os documentos são transformados em texto plano e dividido
em palavras individuais.
2. O conjunto de palavras obtidos com a aplicação do passo
anterior é submetido a um processo de remoção de palavras,
no qual são removidas palavras que não possuem importância
no texto, chamadas na literatura como stop words; neste caso
são removidos artigos, numerais, pronomes e verbos.
3. Por fim, as palavras restantes passam por um processo
mencionado na literatura como word stemming, que tem por
objetivo remover variações de um mesmo termo, como porexemplo conjugações verbais. Para esse fim pode-se usar
conceitos de similaridade entre palavras, como por exemplo o
coeficiente de jaccard.
Observa-se em (HAN et al., 2006) que a dimensionalidade do
documento é proporcional à quantidade de palavras que ele
possui e após a aplicação destes 3 passos, se consegue um
conjunto de palavras mais relevantes ao documento e a
consequente diminuição da dimensionalidade dele, conforme
mostrado em (BRÜCHER; KNOLMAYER; MITTERMAYER,
2002).
0,5 / 0,5 ptsPergunta 15
Analise as afirmativas quanto ao processo de extração de feições:
I. O conjunto de palavras obtidos com a aplicação do passo de
transformação é submetido a um processo de remoção de palavras, no
qual são removidas palavras que não possuem importância no texto,
chamadas na literatura como stop words;
II. As palavras restantes passam por um processo mencionado na
literatura como word stemming, que tem por objetivo remover
variações de um mesmo termo, como por exemplo conjugações
verbais.;
III. Os documentos não precisam ser transformados em texto plano e
dividido em palavras individuais para a análise;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - incorreta. Correto!Correto!
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 16/21
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
O processo de extração de feições agrupa os passos de
conversão de documentos, remoção de palavras e
desambiguação ilustrados na Figura XX. Este processo
pretende determinar as palavras que caracterizam ou que
possuem maior importância em um dado documento, para isso
são necessários os seguintes passos:
1. Os documentos são transformados em texto plano e dividido
em palavras individuais.
2. O conjunto de palavras obtidos com a aplicação do passo
anterior é submetido a um processo de remoção de palavras,
no qual são removidas palavras que não possuem importância
no texto, chamadas na literatura como stop words; neste caso
são removidos artigos, numerais, pronomes e verbos.
3. Por fim, as palavras restantes passam por um processo
mencionado na literatura como word stemming, que tem por
objetivo remover variações de um mesmo termo, como por
exemplo conjugações verbais. Para esse fim pode-se usar
conceitos de similaridade entre palavras, como por exemplo o
coeficiente de jaccard.
0 / 0,5 ptsPergunta 16
Analise as afirmativas:
I. Numa curva ROC a reta entre os pontos (0,0) e (1,1) se trata de um
classificador aleatório;
II. Para se implementar a técnica de curva ROC para a validação de
classificadores deve-se dividir a base de dados total de treinamento
em parcelas;
III. Para se implementar a técnica de validação cruzada se faz
necessária o cálculo da área abaixo da curva (AUC);
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - incorreta. esposta corretaesposta correta
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. ocê respondeuocê respondeu
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 17/21
 I – incorreta, II – incorreta e III - incorreta. 
A curva ROC ou Receive Operating Characteristic possuirá uma
área abaixo da curva AUC (Area Under Curve), onde, para um
classificador preciso sua área deverá ser 1 e para um
classificador ruim ou impreciso sua área será 0, ou seja,
classificadores que forem mais próximos de 1, tem um melhor
desempenho, classificadores aleatórios possuem AUC em 0,5.
Note que, a reta entre os pontos (0,0) e (1,1) se trata de um
classificador aleatório.
A validação cruzada é uma técnica relativamente simples, onde,
pode-se dividir a base de dados total de treinamento em
parcelas, por exemplo, validação cruzada de 50%, onde o
classificador será treinado com os 50% de dados
representativos e validado com os outros 50%, nesse caso,
dado que se sabe o resultado da classificação pode-se mediar a
acurácia do classificador.
0,5 / 0,5 ptsPergunta 17
Analise as afirmativas:
I. O aspecto fundamental é como se chegar aos pontos de divisão,
para isso existem algumas métricas;
II. Em algoritmos de classificação, uma partição de dados possui
entropia superior quando possui baixa desordem, se for relativamente
pura;
III. A entropia, em geral, mede a quantidade de desordem ou incerteza
em um sistema.;
Selecione a correta alternativa quanto às afirmativas:
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. Correto!Correto!
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 18/21
O aspecto fundamental é como se chegar aos pontos de
divisão, para isso existem algumas métricas, a mais comumente
utilizada é a entropia ou teria da informação.
A entropia, em geral, mede a quantidade de desordem ou
incerteza em um sistema. Em algoritmos de classificação, uma
partição de dados possui entropia inferior quando possui baixa
desordem, se for relativamente pura, ou seja, se a maioria dos
pontos tiverem o mesmo rótulo. Por outro lado, uma partição
possui maior entropia ou mais desordem se os objetos forem
misturados, e não há uma classe principal, em outras palavras
há objetos de classes diferentes misturados. A entropia mede
então o grau de pureza de uma classe.
0,5 / 0,5 ptsPergunta 18
Analise as afirmativas:
I. A predição numérica ou regressão é definida como uma técnica para
se prever valores numéricos a partir de uma dada entrada;
II. Para se prever uma variável dependente a partir de uma outra
independente usando a regressão linear, se faz necessário determinar
a equação da reta de regressão que melhor modela os dados;
III. As técnicas de regressão não podem ser utilizadas para a predição
dos valores;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – incorreta e III - correta. 
 I – correta, II – correta e III - incorreta. Correto!Correto!
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 19/21
Regressão Linear
A predição numérica ou regressão é definida como uma técnica
para se prever valores numéricos a partir de uma dada entrada,
por exemplo uma situação industrial, onde se deseja prever a
quantidade de metros cúbicos de água poluída por um
determinado componente na saída de água corrente em um
processo químico, dado que esse valor está relacionado à
temperatura de entrada da água. Observa-se nesse caso que a
variável de quantidade é dependente da variável de
temperatura. Nesse exemplo as técnicas de regressão podem
ser utilizadas para a predição dos valores (LARSON; FARBER,
2010) (NAVIDI, 2014).
Para se prever uma variável dependente a partir de uma outra
independente usando a regressão linear, se faz necessário
determinar a equação da reta de regressão que melhor modela
os dados. A reta de regressão e sua equação podem ser
usadas na predição do valor de y, para um dado valor de x
(LARSON; FARBER, 2010).
0 / 0,5 ptsPergunta 19
Analise as afirmativas:
I. Para a criação de classificadores se deve incialmente passar por
uma etapa de treinamento;
II. Na etapa inicial é criado um conjunto de treinamento, onde se
conhece a quais classes essas instâncias de treinamento pertencem;
III. Após a etapa de treinamento o classificador poderá associar novas
instâncias a essas classes inicialmente impostas a ele;
Selecionea correta alternativa quanto às afirmativas:
 I – incorreta, II – correta e III - correta. ocê respondeuocê respondeu
 I – correta, II – correta e III - incorreta. 
 I – incorreta, II – incorreta e III - correta. 
 I – correta, II – correta e III - correta. esposta corretaesposta correta
 I – correta, II – incorreta e III - correta. 
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 20/21
Para a criação de classificadores se deve incialmente passar
por uma etapa de treinamento, na qual é criado um conjunto de
treinamento, onde se conhece a quais classes essas instâncias
de treinamento pertencem, para que seja possível,
posteriormente, o classificador associar novas instâncias a
essas classes inicialmente impostas a ele.
0,5 / 0,5 ptsPergunta 20
Analise as afirmativas:
I. Verdadeiro positivo (TP - true positive): trata-se do número de pontos
classificados incorretamente como positivos;
II. Falso positivo (FP - false positive): o número de pontos classificados
como negativo, porém é positivo para a dada classe;
III. Falso negativo (FN - false negative): o número de pontos
classificado como positivo para uma dada classe, porém ele deveria
ser negativo;
Selecione a correta alternativa quanto às afirmativas:
 I – correta, II – incorreta e III - correta. 
 I – incorreta, II – correta e III - correta. 
 I – correta, II – correta e III - incorreta. 
 I – correta, II – correta e III - correta. 
 I – incorreta, II – incorreta e III - incorreta. Correto!Correto!
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS
https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 21/21
Vamos falar sobre a F-measure que mede na verdade a
quantidade de acertos e erros dos algoritmos, ou conhecido
como acurácia.
Essa medida soma os seguintes acertos e erros do algoritmo:
Verdadeiro positivo (TP – true positive): trata-se do número
de pontos classificados corretamente como positivos;
Falso positivo (FP – false positive): o número de pontos
classificados como positivo, porém é negativo para a dada
classe, nesse caso um erro;
Falso negativo (FN – false negative): o número de pontos
classificado como negativo para uma dada classe, porém ele
deveria ser positivo, que também se trata de um erro do
algoritmo; e Verdadeiro negativo (TN – true
negative): número de pontos classificados corretamente como
negativos, ou seja, de fato não pertencem à dada classe;

Continue navegando