Buscar

Prova Análise Estatística de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 - Segundo Witten e Frank (2005), as medidas de similaridade consistem em um aprendizado baseado em instância, em que cada nova instância é comparada com as existentes usando uma métrica de distância, e a instância existente mais próxima é usada para atribuir a classe à nova. Isso é chamado de método de classificação de vizinho mais próximo.
 
Dentre as medidas de similaridade, temos a Distância Euclidiana, a qual é definida como a soma da raiz quadrada da diferença entre x e y em suas respectivas dimensões.
 
Sobre essa medida, podemos afirmar. Assinale a opção correta:
 
 
A - Podemos definir como a medida generalizada de distância que explica as correlações entre variáveis de modo que se pondera da mesma forma todas as variáveis.
B - Devido ao seu alto grau de complexidade, a Distância Euclidiana não pode ser aplicada de maneira significativa na análise multivariada.
C - Podemos considerar como a medida mais conhecida, onde é frequentemente usada para medir a distância. Ela simplesmente é a distância geométrica no espaço multidimensional.
D - A Distância Euclidiana é definida pela soma das diferenças entre x e y em cada dimensão.
2 - O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada, responda à próxima questão.
 
Quais são os tipos de técnicas da aprendizagem supervisionada? Marque o item correto:
 
A - Somente previsão.
B - Agrupamento espontâneo.
C - Somente classificação. 
D - Classificação e Previsão.
3 - A partir da coleta de dados, podemos extrair as informações sobre o fenômeno que desejamos avaliar, seja o perfil do cliente ou do mercado. Com base no que foi visto no capítulo sobre coleta e extração de informações, vamos avaliar a seguinte questão.
 
Assinale a alternativa que indica corretamente o tipo de coleta de dados citado no trecho abaixo.
 
“Esse tipo de coleta consiste em uma conversação para obter informações envolvendo duas ou mais pessoas”. 
A - Entrevista.
B - Face a face. 
C - Telemarketing.
D - Questionário.
4 - O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação.
 
Como podemos utilizar o algoritmo KNN em negócios? Assinale a opção correta:
 
A - Para encontrar as empresas mais semelhantes aos melhores clientes do negócio.
B - Para estimar o total de vendas em um período.
C - Para analisar o perfil do cliente.
D - Para calcular a probabilidade de vendas.
5 - Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização elaborar um planejamento eficiente, baseando-se em dados consistentes.
 
Com base no que foi visto sobre gráficos, responda ao próximo questionamento. Para gerar os gráficos é preciso seguir alguns princípios.
 
Assinale a opção que informa corretamente o que é necessário para construir um gráfico:
 
A - O gráfico não precisa ser claro e legível, pois somente com a sua visualização podemos entender as informações.
B - O gráfico precisa ser claro e legível, porém, devido à sua simplicidade, não há necessidade de colocar título.
C - O gráfico precisa ser claro e legível, mas não é necessário fornecer legenda e nota de rodapé.
D - O gráfico precisa ser claro e legível, e fornecer uma legenda clara que descreva as informações contidas. O gráfico pode conter várias informações, como: Título e Nota de rodapé. 
6 - O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada, responda à próxima questão.
 
Vimos no capítulo 2 os conceitos da aprendizagem supervisionada e as principais formas de aplicação. Com base no que estudamos, marque a opção que apresenta uma situação que podemos resolver usando a aprendizagem supervisionada.
 
Marque o item correto:
 
A - Agrupar os clientes de forma espontânea com base nos seus perfis, onde eles se enquadram em diferentes grupos.
B - Calcular a probabilidade de os clientes comprarem o novo produto desenvolvido. 
C - Separar os clientes em grupos em que eles são reconhecidos por meio de características próprias.
D - Encontrar grupos de clientes que têm uma maior probabilidade de usar os serviços que uma empresa oferece.
7 - O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação.
 
  Como podemos selecionar os pontos da semente do algoritmo KNN? Assinale a opção correta:
 
A - Somente pela definição do pesquisador.
B - Não é necessário gerar pontos de semente.
C - Definição pelo pesquisador ou Gerar pela própria amostra.
D - O algoritmo gera de forma automática. 
8 - Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de dados sem referência a resultados conhecidos ou rotulados (MONARD, 2003). Com base nos conceitos vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, responda à próxima questão.
 
Quais os métodos a seguir são classificados como não supervisionados. Marque o item correto:
 
A - Clustering, Anomaly detection, Classificação e Previsão.
B - Clustering, Anomaly detection, Association mining e Previsão.
C - Clustering, Anomaly detection, Association mining e Latent variable models.
D - Clustering, Anomaly detection, Association mining e Classificação. 
9 - O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada, responda à próxima questão.
 
Assinale a opção que aborda a característica correta sobre o aprendizado supervisionado.
 
A - O aprendizado supervisionado precisa que os dados sejam rotulados obrigatoriamente por data, pois dessa forma é possível calcular as features. 
B - O aprendizado supervisionado precisa que os dados sejam rotulados para que se possa identificar padrões.
C - O aprendizado supervisionado precisa que os dados sejam rotulados, para que possa ser possível agrupar os elementos de forma espontânea.
D - O aprendizado supervisionado não precisa que os dados sejam rotulados para que se possa identificar padrões.
10 - Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento.
 
Em relação ao que estudamos no capítulo sobre distribuição de frequência, marque a opção verdadeira:
 
A - Ela pode ser formatada apenas como lista e tabela.
B - Ela é pouco usada devido à sua complexidade.
C - Ela pode ser formatada apenas em tabela, a qual mostra a frequência de vários resultados de uma amostra.
D - Ela pode ser em formato de lista, tabela ou gráfico, mostrando a frequência de vários resultados de uma amostra.
11 - As medidas de posição determinam a localização que um determinado valor possui dentro de um determinado conjunto, são as medidas estatísticas que dão uma ideia condensada de todo o conjunto de dados. Podemos definir a mediana como uma medida de posição que ocupa a posição central de um conjunto de dados. Ela é o valor que divideum conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos.
 
  Considere a amostra das idades dos alunos de pós-graduação do curso de Ciências de Dados.
  29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27, 32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26, 28, 34, 29, 23, 28
 
  Avalie os itens abaixo e marque a opção que contém a mediana do conjunto:  
A - 26.
B - 28.
C - 29.
D - 27.
12 - Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização elaborar um planejamento eficiente, baseando-se em dados consistentes.
 
Sobre as características que o gráfico de dispersão possui, assinale a alternativa correta: 
A - Ele representa os dados contínuos como tempo e pressão.
B - Utiliza-se para verificar a relação entre duas variáveis.
C - Utiliza-se para comparar um único valor entre vários grupos. 
D - Representa dados da medição de uma variável contínua. 
13 - As medidas de posição determinam a localização que um determinado valor possui dentro de um determinado conjunto, são as medidas estatísticas que dão uma ideia condensada de todo o conjunto de dados. Dentre as medidas de posição, temos a moda como o elemento que acontece com maior frequência em um conjunto de dados.
 
Foram pesadas algumas crianças com idade entre 6 e 12 anos, para medir os seus níveis de nutrição.
 
Os dados da pesagem foram: 29,34,56,23,29,24,27,28,32,34,33,36,47,28,29,25,26
 
Avalie os itens abaixo e marque a opção que contém a moda e a mediana do conjunto:
 
A -Mediana = 28 e Moda = 27.
B - Mediana = 27 e Moda = 29.
C - Mediana = 29 e Moda = 28.
D - Mediana = 29 e Moda = 29.
14 - Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de dados sem referência a resultados conhecidos ou rotulados (MONARD, 2003). Com base nos conceitos vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, responda à próxima questão.
 
Assinale a alternativa correta sobre o aprendizado não supervisionado.
 
 
A - O aprendizado não supervisionado é usado para problemas de classificação.
B - O aprendizado não supervisionado precisa que os dados sejam rotulados para que se possa identificar padrões.
C - O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados sem a necessidade de existir um conjunto de dados a priori, porém não é usado na análise exploratória de dados.
D - O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados sem a necessidade de existir um conjunto de dados a priori. 
15 - As técnicas multivariadas analisam as relações de múltiplas variáveis dependentes e/ou múltiplas variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou mais variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta das variáveis, e seja determinada a correlação entre elas (DAGNELIE, 1985).
Quais conceitos é preciso seguir para uma distribuição ser considerada multivariada?
 
Assinale a opção correta:
 
 
A - Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis podem ser significativamente interpretados se analisadas separadamente.
B - Todas as variáveis devem ser aleatórias. Todas a variáveis não podem ser inter-relacionadas.
C - Algumas variáveis devem ser aleatórias, mas não todas. Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se analisadas separadamente.
D - Todas as variáveis devem ser aleatórias. Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se analisadas separadamente.
16 - Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os elementos, na qual os dados são particionados várias vezes, para produzir uma representação hierárquica dos agrupamentos (EVERITT, 2001), com o propósito de melhorar a visualização sobre a formação dos agrupamentos em cada estágio onde ela ocorreu e com o grau de semelhança entre os agrupamentos.
 
Métodos hierárquicos precisam de uma matriz que contém as métricas de distância entre os agrupamentos em cada estágio do algoritmo. Essa matriz é conhecida como matriz de similaridades entre agrupamentos. Conforme a matriz a seguir, quais são as variáveis que têm agrupamento similar?
 
	 
	Y1
	Y2
	Y3
	Y 1
	0
	0,3
	0,2
	Y2
	0,6
	0
	0,8
	Y3
	0,2
	0,7
	0
 
Assinale o item que contém o resultado correto:
 
 
A - Y1 E Y3 
B - Y2 E Y3
C - Nehuma das variáveis mostra agrupamento similar. 
D - Y1 E Y2 
17 - Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento.
 
Sobre o que aprendemos de gráficos, marque o item correto:
 
A - Gráficos não podem identificar padrões devido à sua simplicidade para analisar dados.
B - Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples, porém, somente se usados junto com medidas estatísticas.
C - Os gráficos não são confiáveis para fazer análises dos dados, pois não existem softwares precisos o suficiente para esta função.
D - Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples, em relação a outras medidas estatísticas.
18 - K-médias é um algoritmo não supervisionado, isto é, seus dados não possuem rótulos. O principal propósito é identificar as similaridades entre os dados e agrupá-los conforme o número de cluster. O algoritmo de k-médias é interativo e poderoso para dividir um conjunto de dados em grupos separados.
 
Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F para falso:
 
(  ) Inicialização: nesta etapa acontece a atribuição ao cluster e a movimentação de centroides é repetida até o cluster se tornar estático.
(  ) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados e cada um dos centroides.
(  ) Movimentação de Centroides: nesta etapa é modificada a localização do centroide.
(  ) Otimização: nesta etapa calcula-se a média dos valores dos pontos de dados de cada cluster, e o valor médio será o novo centroide.
 
Marque a opção que contém a sequência correta:
A - F - V - F - F.
B - F - V - V - V.
C - F - F - F - F.
D - F - V - V - F.
19 - O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada grupo possuem um alto grau de similaridade.
 
Como podemos medir a qualidade do agrupamento formado a partir do método aglomerativo? Assinale a opção correta:
 
A - Através do coeficiente de correlação.
B - Através da média do agrupamento.
C - Através do desvio-padrão do agrupamento.
D - Através do coeficiente aglomerativo.
20 - O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada grupo possuem um alto grau de similaridade.
 
Nos métodos aglomerativos existem alguns passos que precisam ser seguidos. Assinale a opção que contém os passos necessários para usar o método aglomerativo.
 
A - Primeiro deve-se calcular a matriz de similaridades. Após o passo inicial é gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. 
B - Primeiro deve-se calcular um único padrão para cada agrupamento. Após o passo inicial é gerado umnovo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento.
C - O passo inicial é gerar um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. O segundo passo é calcular a matriz de similaridades. Os passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento.
D - Primeiro deve-se calcular um único padrão para cada agrupamento. O segundo passo é calcular a matriz de similaridades. Após os passos iniciais é gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento.

Continue navegando