Análise Estatística de Dados

•

UNIASSELVI

0

Cristiany Cristiny

30/04/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

8.749 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645435)
Peso da Avaliação 10,00
Prova 31962883
Qtd. de Questões 20
Nota 10,00
O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é,
precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou
previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada,
responda à próxima questão.

Quais são os tipos de técnicas da aprendizagem supervisionada? Marque o item correto:

A Classificação e Previsão.
B Agrupamento espontâneo.
C Somente classificação.
D Somente previsão.
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O
algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que
representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação.

Sobre o KNN, marque V para verdadeiro e F para falso:

( ) Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os K-vizinhos mais
próximos a K .

VOLTAR
A+ Alterar modo de visualização
1
2
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 1/13
( ) Na fase de classificação para um dado elemento de teste K, seus K-vizinhos mais próximos
podem ser de uma mesma classe, e o algoritmo pode não conseguir decidir qual a classe a que esse
elemento K pertença.

( ) Para encontrar a classe de um elemento que ainda não pertença a algum conjunto formado, o
classificador KNN busca os K elementos do conjunto de treinamento que tenham a menor distância
do elemento desconhecido.

Marque a opção que contém a sequência correta:
A V-V-V.
B V-F-F.
C V-V-F.
D F-F-F.
Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo,
evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização
elaborar um planejamento eficiente, baseando-se em dados consistentes.

Com base no que foi visto sobre gráficos, responda ao próximo questionamento. Para gerar os
gráficos é preciso seguir alguns princípios.

Assinale a opção que informa corretamente o que é necessário para construir um gráfico:

A O gráfico não precisa ser claro e legível, pois somente com a sua visualização podemos entender
as informações.
B O gráfico precisa ser claro e legível, mas não é necessário fornecer legenda e nota de rodapé.
C O gráfico precisa ser claro e legível, e fornecer uma legenda clara que descreva as informações
contidas. O gráfico pode conter várias informações, como: Título e Nota de rodapé.
3
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 2/13
D O gráfico precisa ser claro e legível, porém, devido à sua simplicidade, não há necessidade de
colocar título.
A técnica de regressão tenta estimar ou prever para cada indivíduo o valor numérico de alguma
variável que pertença a ele (CHARNET, 1999). Com base nos conceitos vistos no capítulo sobre
regressão, responda à próxima questão.

Assinale a opção que contém a principal característica da técnica de regressão.

A O propósito da regressão é agrupar indivíduos com as mesmas características.
B O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por Y) e
uma série de outras variáveis independentes (denotadas por X).
C O propósito da regressão é minerar os dados de maneira descritiva.
D O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por Y) e
somente uma variável independente (denotada por X).
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor
entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos
para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento.

Em relação ao que estudamos no capítulo sobre distribuição de frequência, marque a opção
verdadeira:

A Ela é pouco usada devido à sua complexidade.
B Ela pode ser em formato de lista, tabela ou gráfico, mostrando a frequência de vários resultados
de uma amostra.
4
5
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 3/13
C Ela pode ser formatada apenas como lista e tabela.
D Ela pode ser formatada apenas em tabela, a qual mostra a frequência de vários resultados de uma
amostra.
À medida que o mercado se torna tecnológico, o fluxo de informações fica mais rápido, e avaliar
essas informações é essencial. Por esse motivo, a análise de dados tem um papel cada vez mais
importante nos negócios.Com base neste contexto, responda à seguinte questão.

Quais as vantagens que a análise de dados pode fornecer para a empresa?

Assinale o item correto:
A A análise de dados permite comparar grupos e obter um quadro simples e resumido do cenário de
uma empresa, através dela um negócio pode ter estratégias inteligentes perante o mercado.
B A análise de dados faz uso das medidas estatísticas para obter comparações apenas de grupos
pequenos de clientes.
C A análise de dados permite comparar grupos e obter um quadro simples e resumido do cenário de
uma empresa, porém ela não é boa para ser usada na tomada de decisões.
D A análise de dados não gera resultados confiáveis, por esse motivo é pouco utilizada em
empresas.
Os algoritmos de classificação tem por objetivo: classificar um indivíduo em uma classe ou conjunto
(WEBB, 2002) no qual elas precisam ser mutuamente exclusivas (PROVOST, 2013). Com base nos
conceitos vistos no capítulo sobre classificação, responda à próxima questão.

Qual opção abaixo podemos definir como um problema de classificação? Marque o item correto:

6
7
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 4/13
A Os clientes da empresa X precisam ser agrupados a partir das suas características.
B Uma empresa que investiga a chance dos seus clientes comprarem ou não o novo produto
lançado.
C Previsão da quantidade de produtos vendidos durante um determinado período.
D Calcular a probabilidade de um cliente comprar o produto.
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O
algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que
representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação.

Como podemos selecionar os pontos da semente do algoritmo KNN? Assinale a opção correta:

A O algoritmo gera de forma automática.
B Somente pela definição do pesquisador.
C Definição pelo pesquisador ou Gerar pela própria amostra.
D Não é necessário gerar pontos de semente.
As técnicas multivariadas analisam as relações de múltiplas variáveis dependentes e/ou múltiplas
variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou mais
variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta das
variáveis, e seja determinada a correlação entre elas (DAGNELIE, 1985).
Quais conceitos é preciso seguir para uma distribuição ser considerada multivariada?

Assinale a opção correta:
8
9
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 5/13

A Todas as variáveis devem ser aleatórias. Todas a variáveis devem ser inter-relacionadas. Os
efeitos das variáveis não podem ser significativamente interpretados se analisadas separadamente.
B
Algumas variáveis devem ser aleatórias, mas não todas. Todas a variáveis devem ser inter-
relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se
analisadas separadamente.
C Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis podem ser
significativamente interpretados se analisadas separadamente.
D Todas as variáveis devem ser aleatórias. Todas a variáveis não podem ser inter-relacionadas.
Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de dados
sem referênciaa resultados conhecidos ou rotulados (MONARD, 2003). Com base nos conceitos
vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, responda à
próxima questão.

Assinale a alternativa correta sobre o aprendizado não supervisionado.

A
O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados
sem a necessidade de existir um conjunto de dados a priori, porém não é usado na análise
exploratória de dados.
B O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados
sem a necessidade de existir um conjunto de dados a priori.
C O aprendizado não supervisionado precisa que os dados sejam rotulados para que se possa
identificar padrões.
D O aprendizado não supervisionado é usado para problemas de classificação.
10
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 6/13
Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de dados
sem referência a resultados conhecidos ou rotulados (MONARD, 2003). Com base nos conceitos
vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, responda à
próxima questão.

Quais os métodos a seguir são classificados como não supervisionados. Marque o item correto:

A Clustering, Anomaly detection, Association mining e Previsão.
B Clustering, Anomaly detection, Association mining e Latent variable models.
C Clustering, Anomaly detection, Classificação e Previsão.
D Clustering, Anomaly detection, Association mining e Classificação.
As técnicas multivariadas analisam as relações de múltiplas variáveis dependentes e/ou múltiplas
variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou mais
variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta das
variáveis, e seja determinada a correlação entre elas (DAGNELIE, 1985).

Assinale a opção na qual podemos aplicar a técnica de multivariada para fazer a análise dos dados.

A Em uma pesquisa em que é preciso analisar a relação entre cliente e produto.
B Em uma empresa que deseja analisar se um cliente irá frequentar uma loja dado que o horário de
funcionamento foi alterado.
C Em uma empresa que deseja verificar a probabilidade de um cliente comprar um produto.
11
12
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 7/13
D Em um estudo em que precisamos analisar a relação entre as variáveis preço, produto, local e
consumidor.
O modelo logístico é uma técnica frequentemente usada para situações em que a variável dependente
(Y) é de natureza dicotômica ou binária (PROVOST, 2013). Em relação às variáveis independentes,
elas podem ser categóricas ou não. O modelo é um recurso que nos permite estimar a probabilidade
associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias.

Em qual opção abaixo podemos aplicar um modelo logístico para resolver a problemática
apresentada? Assinale a opção correta:

A Uma empresa que deseja calcular a quantidade de produtos que serão comparados durante um
determinado período.
B Uma empresa que deseja verificar se um produto vai ser comprado ou não pelo cliente.
C Uma empresa que deseja calcular a probabilidade de um produto ser comprado.
D Uma empresa que deseja avaliar o perfil dos seus clientes.
A partir da coleta de dados, podemos extrair as informações sobre o fenômeno que desejamos avaliar,
seja o perfil do cliente ou do mercado. Com base no que foi visto no capítulo sobre coleta e extração
de informações, vamos avaliar a seguinte questão.

Assinale a alternativa que indica corretamente o tipo de coleta de dados citado no trecho abaixo.

“Esse tipo de coleta consiste em uma conversação para obter informações envolvendo duas ou mais
pessoas”.
13
14
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 8/13
A Face a face.
B Questionário.
C Telemarketing.
D Entrevista.
O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e
gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja
gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada grupo
possuem um alto grau de similaridade.

Nos métodos aglomerativos existem alguns passos que precisam ser seguidos. Assinale a opção que
contém os passos necessários para usar o método aglomerativo.

A
Primeiro deve-se calcular um único padrão para cada agrupamento. Após o passo inicial é gerado
um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de
similaridade. Os passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em
um único agrupamento.
B
Primeiro deve-se calcular a matriz de similaridades. Após o passo inicial é gerado um novo
agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os
passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único
agrupamento.
C
Primeiro deve-se calcular um único padrão para cada agrupamento. O segundo passo é calcular a
matriz de similaridades. Após os passos iniciais é gerado um novo agrupamento, o qual é formado
pela união dos agrupamentos com maior grau de similaridade. Os passos 2 e 3 são executados
diversas vezes, até que todos os objetos estejam em um único agrupamento.
D
O passo inicial é gerar um novo agrupamento, o qual é formado pela união dos agrupamentos
com maior grau de similaridade. O segundo passo é calcular a matriz de similaridades. Os passos
2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento.
15
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 9/13
As medidas de posição determinam a localização que um determinado valor possui dentro de um
determinado conjunto, são as medidas estatísticas que dão uma ideia condensada de todo o conjunto
de dados. Dentre as medidas de posição temos a média aritmética, a qual representa o valor central do
conjunto de dados.
Um professor fez uma avaliação na turma e o conjunto de notas foi:

6; 5.6; 7; 8; 9; 10; 5; 7; 8.9; 4.3; 8.1; 4.1; 7.8; 3.2 ;9

Avalie os itens abaixo e assinale a opção que contém a média aritmética do conjunto:
A 6,87.
B 7,23.
C 6,59.
D 6,15.
O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é,
precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou
previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada,
responda à próxima questão.

Vimos no capítulo 2 os conceitos da aprendizagem supervisionada e as principais formas de
aplicação. Com base no que estudamos, marque a opção que apresenta uma situação que podemos
resolver usando a aprendizagem supervisionada.

Marque o item correto:

16
17
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 10/13
A Agrupar os clientes de forma espontânea com base nos seus perfis, onde eles se enquadram em
diferentes grupos.
B Encontrar grupos de clientes que têm uma maior probabilidade de usar os serviços que uma
empresa oferece.
C Separar os clientes em grupos em que eles são reconhecidos por meio de características
próprias.
D Calcular a probabilidade de os clientes comprarem o novo produto desenvolvido.
Segundo Witten e Frank (2005), as medidas de similaridade consistem em um aprendizado baseado
em instância, em que cada nova instância é comparada com as existentes usando uma métrica de
distância, e a instância existente mais próxima é usada para atribuir a classe à nova. Isso é chamado
de método de classificação de vizinho mais próximo.

Dentre as medidas de similaridade, temos a Distância Euclidiana, a qual é definida como a soma da
raiz quadrada da diferença entre x e y em suas respectivas dimensões.

Sobre essa medida, podemos afirmar. Assinale a opção correta:

A A Distância Euclidianaé definida pela soma das diferenças entre x e y em cada dimensão.
B Podemos considerar como a medida mais conhecida, onde é frequentemente usada para medir a
distância. Ela simplesmente é a distância geométrica no espaço multidimensional.
C Podemos definir como a medida generalizada de distância que explica as correlações entre
variáveis de modo que se pondera da mesma forma todas as variáveis.
D Devido ao seu alto grau de complexidade, a Distância Euclidiana não pode ser aplicada de
maneira significativa na análise multivariada.
18
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 11/13
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O
algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que
representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação.

Como podemos utilizar o algoritmo KNN em negócios? Assinale a opção correta:

A Para estimar o total de vendas em um período.
B Para encontrar as empresas mais semelhantes aos melhores clientes do negócio.
C Para analisar o perfil do cliente.
D Para calcular a probabilidade de vendas.
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor
entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos
para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento.

Sobre o que aprendemos de gráficos, marque o item correto:

A Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples,
em relação a outras medidas estatísticas.
B Gráficos não podem identificar padrões devido à sua simplicidade para analisar dados.
C Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples,
porém, somente se usados junto com medidas estatísticas.
19
20
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 12/13
D Os gráficos não são confiáveis para fazer análises dos dados, pois não existem softwares precisos
o suficiente para esta função.
Imprimir
30/04/2024, 09:29 Avaliação da Disciplina
about:blank 13/13