Buscar

Análise Estatística de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645435)
Peso da Avaliação 10,00
Prova 61785207
Qtd. de Questões 20
Nota 9,00
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O 
algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo 
que representa a maior frequência dentre as k amostras mais próximas, através do esquema de 
votação.
Como podemos utilizar o algoritmo KNN em negócios? Assinale a opção correta:
A Para analisar o perfil do cliente.
B Para encontrar as empresas mais semelhantes aos melhores clientes do negócio.
C Para calcular a probabilidade de vendas.
D Para estimar o total de vendas em um período.
O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e 
gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja 
gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada 
grupo possuem um alto grau de similaridade.
Como podemos medir a qualidade do agrupamento formado a partir do método aglomerativo? 
Assinale a opção correta:
A Através do desvio-padrão do agrupamento.
B Através da média do agrupamento.
C Através do coeficiente de correlação.
D Através do coeficiente aglomerativo.
A partir da coleta de dados, podemos extrair as informações sobre o fenômeno que desejamos 
avaliar, seja o perfil do cliente ou do mercado. Com base no que foi visto no capítulo sobre coleta 
e extração de informações, vamos avaliar a seguinte questão.
Assinale a alternativa que indica corretamente o tipo de coleta de dados citado no trecho abaixo.
 VOLTAR
A+ Alterar modo de visualização
1
2
3
“Esse tipo de coleta consiste em uma conversação para obter informações envolvendo duas ou 
mais pessoas”. 
A Entrevista.
B Telemarketing.
C Questionário.
D Face a face. 
Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de 
dados sem referência a resultados conhecidos ou rotulados (MONARD, 2003). Com base nos 
conceitos vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, 
responda à próxima questão.
Assinale a alternativa correta sobre o aprendizado não supervisionado.
A O aprendizado não supervisionado é usado para problemas de classificação.
B O aprendizado não supervisionado precisa que os dados sejam rotulados para que se possa
identificar padrões.
C
O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos
dados sem a necessidade de existir um conjunto de dados a priori, porém não é usado na
análise exploratória de dados.
D O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos
dados sem a necessidade de existir um conjunto de dados a priori. 
K-médias é um algoritmo não supervisionado, isto é, seus dados não possuem rótulos. O principal 
propósito é identificar as similaridades entre os dados e agrupá-los conforme o número de cluster. 
O algoritmo de k-médias é interativo e poderoso para dividir um conjunto de dados em grupos 
separados.
Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F para falso:
( ) Inicialização: nesta etapa acontece a atribuição ao cluster e a movimentação de centroides é 
repetida até o cluster se tornar estático.
( ) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados e cada um 
dos centroides.
( ) Movimentação de Centroides: nesta etapa é modificada a localização do centroide.
( ) Otimização: nesta etapa calcula-se a média dos valores dos pontos de dados de cada cluster, e o 
valor médio será o novo centroide.
Marque a opção que contém a sequência correta:
A F - V - V - V.
B F - V - V - F.
C F - V - F - F.
4
5
D F - F - F - F.
 O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). 
O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o 
rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema 
de votação.
 Quais as medidas de distâncias usadas pelo algoritmo KNN? Assinale o item correto:
A Somente Distância Euclidiana.
B Somente Distância Manhattan.
C Distância Euclidiana e a Distância Manhattan.
D Distância Manhattan e Centroide.
 O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). 
O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o 
rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema 
de votação.
 Sobre o KNN, marque V para verdadeiro e F para falso:
 ( ) Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os K-vizinhos 
mais próximos a K .
 ( ) Na fase de classificação para um dado elemento de teste K, seus K-vizinhos mais próximos 
podem ser de uma mesma classe, e o algoritmo pode não conseguir decidir qual a classe a que esse 
elemento K pertença.
 ( ) Para encontrar a classe de um elemento que ainda não pertença a algum conjunto formado, o 
classificador KNN busca os K elementos do conjunto de treinamento que tenham a menor 
distância do elemento desconhecido.
 Marque a opção que contém a sequência correta:
A F-F-F.
B V-F-F.
C V-V-F.
D V-V-V.
6
7
8
O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto 
é, precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações 
ou previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada, 
responda à próxima questão.
Vimos no capítulo 2 os conceitos da aprendizagem supervisionada e as principais formas de 
aplicação. Com base no que estudamos, marque a opção que apresenta uma situação que podemos 
resolver usando a aprendizagem supervisionada.
Marque o item correto:
A Calcular a probabilidade de os clientes comprarem o novo produto desenvolvido. 
B Agrupar os clientes de forma espontânea com base nos seus perfis, onde eles se enquadram
em diferentes grupos.
C Encontrar grupos de clientes que têm uma maior probabilidade de usar os serviços que uma
empresa oferece.
D Separar os clientes em grupos em que eles são reconhecidos por meio de características
próprias.
Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, 
evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização 
elaborar um planejamento eficiente, baseando-se em dados consistentes.
Com base no que foi visto sobre gráficos, responda ao próximo questionamento. Para gerar os 
gráficos é preciso seguir alguns princípios.
Assinale a opção que informa corretamente o que é necessário para construir um gráfico:
A O gráfico precisa ser claro e legível, mas não é necessário fornecer legenda e nota de rodapé.
B O gráfico não precisa ser claro e legível, pois somente com a sua visualização podemos
entender as informações.
C O gráfico precisa ser claro e legível, porém, devido à sua simplicidade, não há necessidade de
colocar título.
D O gráfico precisa ser claro e legível, e fornecer uma legenda clara que descreva as informações
contidas. O gráfico pode conter várias informações, como: Título e Nota de rodapé. 
O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e 
gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja 
gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada 
grupo possuem um alto grau de similaridade.
Nos métodos aglomerativos existem alguns passos que precisam ser seguidos. Assinale a opção 
que contém os passos necessários para usar o método aglomerativo.
9
10
A
 Primeiro deve-se calcular um único padrão para cada agrupamento. Após o passo inicial é
gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau
de similaridade. Os passos1 e 2 são executados diversas vezes, até que todos os objetos
estejam em um único agrupamento.
B
Primeiro deve-se calcular a matriz de similaridades. Após o passo inicial é gerado um novo
agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade.
Os passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único
agrupamento. 
C
 O passo inicial é gerar um novo agrupamento, o qual é formado pela união dos agrupamentos
com maior grau de similaridade. O segundo passo é calcular a matriz de similaridades. Os
passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único
agrupamento.
D
Primeiro deve-se calcular um único padrão para cada agrupamento. O segundo passo é
calcular a matriz de similaridades. Após os passos iniciais é gerado um novo agrupamento, o
qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 2 e 3
são executados diversas vezes, até que todos os objetos estejam em um único agrupamento.
As técnicas multivariadas analisam as relações de múltiplas variáveis dependentes e/ou múltiplas 
variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou 
mais variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta 
das variáveis, e seja determinada a correlação entre elas (DAGNELIE, 1985).
Quais conceitos é preciso seguir para uma distribuição ser considerada multivariada?
Assinale a opção correta:
A Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis podem ser
significativamente interpretados se analisadas separadamente.
B
Todas as variáveis devem ser aleatórias. Todas a variáveis devem ser inter-relacionadas. Os
efeitos das variáveis não podem ser significativamente interpretados se analisadas
separadamente.
C
Algumas variáveis devem ser aleatórias, mas não todas. Todas a variáveis devem ser inter-
relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se
analisadas separadamente.
D Todas as variáveis devem ser aleatórias. Todas a variáveis não podem ser inter-relacionadas.
A compreensão das técnicas estatísticas depende do entendimento de alguns conceitos básicos, 
como saber a diferença entre população e amostra. População é todos os elementos do conjunto e a 
amostra é apenas uma parte desse conjunto.
Com base nos conceitos básicos das técnicas estatísticas, assinale a opção correta:
A Parâmetro: característica que descreve a população.
B População: conjuntos de todos os itens que não têm características em comum.
11
12
C Amostra: conjuntos de todos os elementos da população que será analisada.
D Estimador: característica não numérica estabelecida na amostra.
Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os elementos, na qual os 
dados são particionados várias vezes, para produzir uma representação hierárquica dos 
agrupamentos (EVERITT, 2001), com o propósito de melhorar a visualização sobre a formação 
dos agrupamentos em cada estágio onde ela ocorreu e com o grau de semelhança entre os 
agrupamentos.
Métodos hierárquicos precisam de uma matriz que contém as métricas de distância entre os 
agrupamentos em cada estágio do algoritmo. Essa matriz é conhecida como matriz de 
similaridades entre agrupamentos. Conforme a matriz a seguir, quais são as variáveis que têm 
agrupamento similar?
Y1 Y2 Y3
Y 1 0 0,3 0,2
Y2 0,6 0 0,8
Y3 0,2 0,7 0
Assinale o item que contém o resultado correto:
A Y1 E Y3 
B Y2 E Y3
C Nehuma das variáveis mostra agrupamento similar. 
D Y1 E Y2 
13
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor 
entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos 
para facilitar sua visualização e interpretação. Com base neste contexto, responda ao 
questionamento.
Sobre o que aprendemos de gráficos, marque o item correto:
A Gráficos não podem identificar padrões devido à sua simplicidade para analisar dados.
B Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e
simples, em relação a outras medidas estatísticas.
C Os gráficos não são confiáveis para fazer análises dos dados, pois não existem softwares
precisos o suficiente para esta função.
D Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e
simples, porém, somente se usados junto com medidas estatísticas.
A análise de regressão é frequentemente usada por economistas e pesquisadores de negócios, para 
auxiliar gerentes e donos de empresas a prever condições futuras, e fornece suporte quantitativo 
para a tomada de decisão dos gerentes. Também auxilia na detecção de falhas das estratégias 
gerenciais e fornece novos feedbacks que podem mudar as prospecções do negócio (PROVOST, 
2013).
Dentre as alternativas abaixo, qual caracteriza a regressão? Assinale a opção correta:
A A análise de regressão pode ser usada para inferir as relações entre variáveis independentes e
dependentes, porém somente para valores positivos.
B A análise de regressão pode ser usada para inferir as relações somente entre uma variável
independente e uma dependente. 
C A análise de regressão pode ser usada para inferir a classificação entre uma variável
independente e uma dependente.
D A análise de regressão também é usada para entender quais dentre as variáveis independentes
estão relacionadas à variável dependente e explorar as formas dessas relações. 
A técnica de regressão tenta estimar ou prever para cada indivíduo o valor numérico de alguma 
variável que pertença a ele (CHARNET, 1999). Com base nos conceitos vistos no capítulo sobre 
regressão, responda à próxima questão.
No seguinte exemplo: Na cidade de São Paulo, a Secretaria de Saúde deseja investigar se o 
número de casos de dengue aumenta com a chegada da quadra invernosa.
Quem são nossas variáveis dependente e independente? Assinale a opção correta:
A Y:Habitantes da cidade de São Paulo X: Quadra invernosa.
B Y: Quadra invernosa X: Casos de dengue.
14
15
16
C Y: Casos de dengue X: Habitantes da cidade de São Paulo.
D Y: Casos de dengue X: Quadra invernosa.
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor 
entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos 
para facilitar sua visualização e interpretação. Com base neste contexto, responda ao 
questionamento.
Em relação ao que estudamos no capítulo sobre distribuição de frequência, marque a opção 
verdadeira:
A Ela pode ser formatada apenas como lista e tabela.
B Ela pode ser formatada apenas em tabela, a qual mostra a frequência de vários resultados de
uma amostra.
C Ela pode ser em formato de lista, tabela ou gráfico, mostrando a frequência de vários
resultados de uma amostra.
D Ela é pouco usada devido à sua complexidade.
Os algoritmos de classificação tem por objetivo: classificar um indivíduo em uma classe ou 
conjunto (WEBB, 2002) no qual elas precisam ser mutuamente exclusivas (PROVOST, 2013). 
Com base nos conceitos vistos no capítulo sobre classificação, responda à próxima questão.
Qual opção abaixo podemos definir como um problema de classificação? Marque o item correto:
A Os clientes da empresa X precisam ser agrupados a partir das suas características.
B Calcular a probabilidade de um cliente comprar o produto.
C Previsão da quantidade de produtos vendidos durante um determinado período.
D Uma empresa que investiga a chance dos seus clientes comprarem ou não o novo produto
lançado. 
Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, 
evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização 
elaborar um planejamento eficiente, baseando-se em dados consistentes.
Sobre as características que o gráfico de dispersão possui, assinale a alternativa correta:
A Ele representa os dados contínuos como tempo e pressão.
17
18
19B Representa dados da medição de uma variável contínua. 
C Utiliza-se para verificar a relação entre duas variáveis.
D Utiliza-se para comparar um único valor entre vários grupos. 
A técnica de regressão tenta estimar ou prever para cada indivíduo o valor numérico de alguma 
variável que pertença a ele (CHARNET, 1999). Com base nos conceitos vistos no capítulo sobre 
regressão, responda à próxima questão.
Assinale a opção que contém a principal característica da técnica de regressão.
A O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por
Y) e somente uma variável independente (denotada por X).
B O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por
Y) e uma série de outras variáveis independentes (denotadas por X).
C O propósito da regressão é agrupar indivíduos com as mesmas características.
D O propósito da regressão é minerar os dados de maneira descritiva.
20
Imprimir

Continue navegando