Análise Estatística de Dados

•

ITPAC

0

Eduardo Silva

21/02/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

8.513 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 
 O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos 
(WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o 
elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k 
amostras mais próximas, através do esquema de votação. 
 
 Sobre o KNN, marque V para verdadeiro e F para falso: 
 
 ( ) Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os 
K-vizinhos mais próximos a K . 
 
 ( ) Na fase de classificação para um dado elemento de teste K, seus K-vizinhos 
mais próximos podem ser de uma mesma classe, e o algoritmo pode não conseguir 
decidir qual a classe a que esse elemento K pertença. 
 
 ( ) Para encontrar a classe de um elemento que ainda não pertença a algum 
conjunto formado, o classificador KNN busca os K elementos do conjunto de 
treinamento que tenham a menor distância do elemento desconhecido. 
 
 Marque a opção que contém a sequência correta: 
A 
 V-V-F. 
B 
 V-V-V. 
C 
 F-F-F. 
D 
 V-F-F. 
2 
O aprendizado supervisionado tenta segmentar a população com base em rótulos 
conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que 
ele possa fazer as classificações ou previsões de maneira correta. Com base nos 
conceitos iniciais da aprendizagem supervisionada, responda à próxima questão. 
 
Quais são os tipos de técnicas da aprendizagem supervisionada? Marque o item 
correto: 
 
A 
Somente previsão. 
B 
Somente classificação. 
C 
Agrupamento espontâneo. 
D 
Classificação e Previsão. 
3 
A partir da coleta de dados, podemos extrair as informações sobre o fenômeno que 
desejamos avaliar, seja o perfil do cliente ou do mercado. Com base no que foi visto 
no capítulo sobre coleta e extração de informações, vamos avaliar a seguinte 
questão. 
 
Assinale a alternativa que indica corretamente o tipo de coleta de dados citado no 
trecho abaixo. 
 
“Esse tipo de coleta consiste em uma conversação para obter informações 
envolvendo duas ou mais pessoas”. 
A 
Face a face. 
B 
Entrevista. 
C 
Questionário. 
D 
Telemarketing. 
4 
Comunicação é o processo de transmissão de informação de uma pessoa para 
outra e compartilhada por ambas. Para que haja comunicação é necessário que o 
destinatário da informação a receba e a compreenda. A informação simplesmente 
transmitida, mas não recebida ou compreendida, não foi comunicada. MARCONDES 
FILHO, C. Para entender a comunicação: contatos antecipados com a nova teoria. 
São Paulo: Paulus, 2008. 
 
Nesse contexto, assinale V para verdadeiro e F para falso acerca das características 
da comunicação verbal e não verbal: 
( ) A comunicação verbal depende do domínio da língua. 
( ) A comunicação não verbal consiste em posturas, expressões faciais e corporais. 
( ) A comunicação não verbal pode se opor à comunicação verbal. 
Assinale a alternativa que apresenta a sequência correta de respostas: 
A 
V - V - F 
B 
F - V - V 
C 
V - V - V 
D 
V - F - V 
5 
Os algoritmos de classificação tem por objetivo: classificar um indivíduo em uma 
classe ou conjunto (WEBB, 2002) no qual elas precisam ser mutuamente 
exclusivas (PROVOST, 2013). Com base nos conceitos vistos no capítulo sobre 
classificação, responda à próxima questão. 
 
Qual opção abaixo podemos definir como um problema de classificação? Marque o 
item correto: 
 
A 
Calcular a probabilidade de um cliente comprar o produto. 
B 
Previsão da quantidade de produtos vendidos durante um determinado período. 
C 
Os clientes da empresa X precisam ser agrupados a partir das suas características. 
D 
Uma empresa que investiga a chance dos seus clientes comprarem ou não o novo 
produto lançado. 
6 
 As medidas de posição determinam a localização que um determinado valor 
possui dentro de um determinado conjunto, são as medidas estatísticas que dão 
uma ideia condensada de todo o conjunto de dados. Podemos definir a mediana 
como uma medida de posição que ocupa a posição central de um conjunto de 
dados. Ela é o valor que divide um conjunto de dados (ordenados) em dois 
subconjuntos de mesmo número de elementos. 
 
 Considere a amostra das idades dos alunos de pós-graduação do curso de Ciências 
de Dados. 
 29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27, 32, 26, 24, 36, 32, 26, 
28, 24, 28, 27, 24, 26, 30, 26, 35, 26, 28, 34, 29, 23, 28 
 
 Avalie os itens abaixo e marque a opção que contém a mediana do conjunto: 
A 
 27. 
B 
 29. 
C 
 28. 
D 
 26. 
7 
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, 
para melhor entendimento das informações. Os dados podem ser organizados em 
formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com 
base neste contexto, responda ao questionamento. 
 
Sobre o que aprendemos de gráficos, marque o item correto: 
 
A 
Gráficos identificam padrões, resultados e comparam medidas de forma mais 
rápida e simples, porém, somente se usados junto com medidas estatísticas. 
B 
Os gráficos não são confiáveis para fazer análises dos dados, pois não existem 
softwares precisos o suficiente para esta função. 
C 
Gráficos não podem identificar padrões devido à sua simplicidade para analisar 
dados. 
D 
Gráficos identificam padrões, resultados e comparam medidas de forma mais 
rápida e simples, em relação a outras medidas estatísticas. 
8 
A análise de regressão é frequentemente usada por economistas e pesquisadores 
de negócios, para auxiliar gerentes e donos de empresas a prever condições 
futuras, e fornece suporte quantitativo para a tomada de decisão dos gerentes. 
Também auxilia na detecção de falhas das estratégias gerenciais e fornece novos 
feedbacks que podem mudar as prospecções do negócio (PROVOST, 2013). 
 
Dentre as alternativas abaixo, qual caracteriza a regressão? Assinale a opção 
correta: 
 
A 
A análise de regressão pode ser usada para inferir as relações entre variáveis 
independentes e dependentes, porém somente para valores positivos. 
B 
A análise de regressão também é usada para entender quais dentre as variáveis 
independentes estão relacionadas à variável dependente e explorar as formas 
dessas relações. 
C 
A análise de regressão pode ser usada para inferir as relações somente entre uma 
variável independente e uma dependente. 
D 
A análise de regressão pode ser usada para inferir a classificação entre uma 
variável independente e uma dependente. 
9 
O termo relação interpessoal significa relação entre duas ou mais pessoas, 
podendo ocorrer em vários contextos e envolver diversos sentimentos. 
 
Diante disso, assinale a alternativa que apresenta os campos ou áreas do 
conhecimento em que surgiu o conceito de relacionamento interpessoal: 
A 
Filosofia e Antropologia. 
B 
Psicologia e Pedagogia. 
C 
Sociologia e Psicologia. 
D 
Biologia e Sociologia. 
10 
O aprendizado supervisionado tenta segmentar a população com base em rótulos 
conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que 
ele possa fazer as classificações ou previsões de maneira correta. Com base nos 
conceitos iniciais da aprendizagem supervisionada, responda à próxima questão. 
 
Vimos no capítulo 2 os conceitos da aprendizagem supervisionada e as principais 
formas de aplicação. Com base no que estudamos, marque a opção que apresenta 
uma situação que podemos resolver usando a aprendizagem supervisionada. 
 
Marque o item correto: 
 
A 
Calcular a probabilidade de os clientes comprarem o novo produto desenvolvido. 
B 
Separar os clientes em grupos em que eles são reconhecidos por meio de 
características próprias. 
C 
Encontrar grupos de clientes que têm uma maior probabilidade de usar os serviços 
que uma empresa oferece. 
D 
Agrupar os clientes de forma espontânea com base nos seus perfis, onde eles se 
enquadram em diferentes grupos. 
11 
O modelo logístico é uma técnica frequentemente usadapara situações em que a 
variável dependente (Y) é de natureza dicotômica ou binária (PROVOST, 2013). Em 
relação às variáveis independentes, elas podem ser categóricas ou não. O modelo é 
um recurso que nos permite estimar a probabilidade associada à ocorrência de 
determinado evento em face de um conjunto de variáveis explanatórias. 
 
Sobre o modelo logístico, coloque F para falso e V para verdadeiro, nas alternativas 
abaixo: 
( ) Os parâmetros do modelo devem seguir normalidade. 
( ) Ele é usado frequentemente para variáveis quantitativas. 
( ) Podemos usá-lo no caso univariado. 
( ) As variáveis do modelo devem ser dicotômicas. 
 
Assinale a opção que contém a sequência correta: 
 
 
A 
 F-F-F-F. 
B 
 F-F-F-V. 
C 
 V-F-F-F. 
D 
 F-F-V-V. 
12 
O aprendizado supervisionado tenta segmentar a população com base em rótulos 
conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que 
ele possa fazer as classificações ou previsões de maneira correta. Com base nos 
conceitos iniciais da aprendizagem supervisionada, responda à próxima questão. 
 
Assinale a opção que aborda a característica correta sobre o aprendizado 
supervisionado. 
 
A 
O aprendizado supervisionado precisa que os dados sejam rotulados para que se 
possa identificar padrões. 
B 
O aprendizado supervisionado precisa que os dados sejam rotulados, para que 
possa ser possível agrupar os elementos de forma espontânea. 
C 
O aprendizado supervisionado precisa que os dados sejam rotulados 
obrigatoriamente por data, pois dessa forma é possível calcular as features. 
D 
O aprendizado supervisionado não precisa que os dados sejam rotulados para que 
se possa identificar padrões. 
13 
A competência para elogiar consiste em um elemento relevante para a obtenção e 
manutenção da qualidade das relações interpessoais. Essa competência pode ser 
compreendida como... 
 
Assinale a alternativa que completa corretamente a frase: 
A 
Uma habilidade essencial para controlar nossos desempenhos e dos indivíduos 
com quem convivemos. 
B 
Um comentário positivo direcionado ao indivíduo, sobre ele mesmo ou algo 
realizado por ele. 
C 
Uma habilidade eficaz em decodificar, interpretar e responder determinadas 
mensagens. 
D 
Um conhecimento aprimorado sobre nossas emoções, pensamentos e 
comportamentos. 
14 
Depois de coletar os dados é conveniente organizá-los de forma simples e clara, 
para melhor entendimento das informações. Os dados podem ser organizados em 
formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com 
base neste contexto, responda ao questionamento. 
 
Em relação ao que estudamos no capítulo sobre distribuição de frequência, marque 
a opção verdadeira: 
 
A 
Ela é pouco usada devido à sua complexidade. 
B 
Ela pode ser em formato de lista, tabela ou gráfico, mostrando a frequência de 
vários resultados de uma amostra. 
C 
Ela pode ser formatada apenas como lista e tabela. 
D 
Ela pode ser formatada apenas em tabela, a qual mostra a frequência de vários 
resultados de uma amostra. 
15 
Pesquisas de mercado são frequentemente usadas para coletar os dados dos 
clientes, e informações do mercado. Com base no conceito visto sobre pesquisa de 
mercado, avalie a próxima questão. 
 
Avalie o próximo trecho: “Este é um tipo de pesquisa que está focado nas 
avaliações subjetivas e tem o propósito de identificar as percepções humanas 
sobre produtos, serviços e empresas, a fim de apontar comportamentos e 
tendências.” De qual tipo de pesquisa o trecho se refere? 
 
Assinale a alternativa correta: 
A 
Pesquisas Contínuas. 
B 
Quantitativa. 
C 
Qualitativa. 
D 
Pesquisas Discretas. 
16 
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos 
(WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o 
elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k 
amostras mais próximas, através do esquema de votação. 
 
Como podemos utilizar o algoritmo KNN em negócios? Assinale a opção correta: 
 
A 
 Para encontrar as empresas mais semelhantes aos melhores clientes do negócio. 
B 
 Para estimar o total de vendas em um período. 
C 
 Para analisar o perfil do cliente. 
D 
 Para calcular a probabilidade de vendas. 
17 
 O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos 
(WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o 
elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k 
amostras mais próximas, através do esquema de votação. 
 
 Como podemos selecionar os pontos da semente do algoritmo KNN? Assinale a 
opção correta: 
 
A 
 Somente pela definição do pesquisador. 
B 
 O algoritmo gera de forma automática. 
C 
 Não é necessário gerar pontos de semente. 
D 
 Definição pelo pesquisador ou Gerar pela própria amostra. 
18 
Algoritmos de aprendizado de máquina não supervisionado inferem padrões de 
um conjunto de dados sem referência a resultados conhecidos ou rotulados 
(MONARD, 2003). Com base nos conceitos vistos no capítulo sobre algoritmos de 
aprendizado de máquina não supervisionado, responda à próxima questão. 
 
Assinale a alternativa correta sobre o aprendizado não supervisionado. 
 
 
A 
O aprendizado não supervisionado pode ser usado para descobrir a estrutura 
subjacente dos dados sem a necessidade de existir um conjunto de dados a priori. 
B 
O aprendizado não supervisionado precisa que os dados sejam rotulados para que 
se possa identificar padrões. 
C 
O aprendizado não supervisionado pode ser usado para descobrir a estrutura 
subjacente dos dados sem a necessidade de existir um conjunto de dados a priori, 
porém não é usado na análise exploratória de dados. 
D 
O aprendizado não supervisionado é usado para problemas de classificação. 
19 
A compreensão das técnicas estatísticas depende do entendimento de alguns 
conceitos básicos, como saber a diferença entre população e amostra. População é 
todos os elementos do conjunto e a amostra é apenas uma parte desse conjunto. 
 
Com base nos conceitos básicos das técnicas estatísticas, assinale a opção correta: 
 
A 
 População: conjuntos de todos os itens que não têm características em comum. 
B 
 Amostra: conjuntos de todos os elementos da população que será analisada. 
C 
Parâmetro: característica que descreve a população. 
D 
 Estimador: característica não numérica estabelecida na amostra. 
20 
Saber formular perguntas pode parecer simples, mas é uma habilidade complexa 
que exige discernimento e flexibilidade, conforme o conteúdo, a forma e a função 
da pergunta. 
 
Nesse contexto, quanto às formas de perguntas, associe os itens que seguem: 
 
I – Abertas. 
II – Fechadas. 
III – Difusas. 
IV – Dirigidas. 
 
( ) São caracterizadas por garantirem a fonte de informação desejada. 
( ) São caracterizadas por incentivarem indivíduos com habilidades verbais. 
( ) São caracterizadas por produzirem maior quantidade de informações. 
( ) São caracterizadas por suscitarem respostas objetivas e precisas. 
 
Assinale a alternativa que apresenta a sequência correta de respostas: 
A 
IV – III – II – I. 
B 
II – III – I – IV. 
C 
IV – III – I – II. 
D 
III – II – IV – I.