QUESTIONÁRIO 1 - Ciência de Dados

Ciência de Dados

•

UNIP

1

0

1

0

Eduardo de Lucca

26/09/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.600 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 1/9

Revisar envio do teste: QUESTIONÁRIO UNIDADE I
CIÊNCIA DE DADOS 7943-30_43701_R_E1_20232 CONTEÚDO
Usuário
Curso CIÊNCIA DE DADOS
Teste QUESTIONÁRIO UNIDADE I
Iniciado 10/09/23 19:58
Enviado 10/09/23 20:13
Status Completada
Resultado da
tentativa
5 em 5 pontos
Tempo decorrido 15 minutos
Resultados exibidos Todas as respostas, Respostas enviadas, Respostas corretas, Comentários, Perguntas
respondidas incorretamente
Pergunta 1
Imagine uma empresa de varejo que vende produtos eletrônicos. Ela coleta dados de
vendas ao longo do tempo, incluindo informações como datas de venda, tipos de produtos
vendidos, preços, promoções, dados climáticos e feriados. O objetivo de um cientista de
dados é utilizar técnicas para prever a demanda futura dos produtos. Isso ajudará a
empresa a otimizar os níveis de estoque, planejar promoções e melhorar a e�ciência
operacional.
Dado o conhecimento das etapas da ciência de dados, indique qual é a etapa em que são
desenvolvidos modelos de mineração de dados.
UNIP EAD BIBLIOTECAS MURAL DO ALUNO TUTORIAISCONTEÚDOS ACADÊMICOS
0,5 em 0,5 pontos
http://company.blackboard.com/
https://ava.ead.unip.br/webapps/blackboard/execute/courseMain?course_id=_313156_1
https://ava.ead.unip.br/webapps/blackboard/content/listContent.jsp?course_id=_313156_1&content_id=_3670436_1&mode=reset
https://ava.ead.unip.br/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_10_1
https://ava.ead.unip.br/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_27_1
https://ava.ead.unip.br/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_47_1
https://ava.ead.unip.br/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_29_1
https://ava.ead.unip.br/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_25_1
https://ava.ead.unip.br/webapps/login/?action=logout
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 2/9
Resposta Selecionada: c.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Modelagem.
Coleta de dados.
Limpeza de dados.
Modelagem.
Avaliação.
Comunicação dos resultados.
Resposta: C
Comentário: Na etapa de modelagem, os cientistas de dados desenvolvem
modelos de mineração de dados, aplicando algoritmos de machine
learning e outras técnicas para criar previsões, classi�cações ou insights a
partir dos dados coletados e preparados. No contexto do exemplo dado, o
cientista de dados desenvolveria modelos para prever a demanda futura
dos produtos eletrônicos da empresa de varejo.
Pergunta 2
Resposta Selecionada: b.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Após o uso constante de um modelo para treinamento de máquina, o analista responsável
começa a observar que mesmo ampliando a complexidade dos problemas, a máquina
apresenta um desempenho insatisfatório em relação aos dados de treinamento. Ele
acredita que isso se deve ao fato de que o modelo que está sendo testado é muito simples
e, por isso, apresenta di�culdade de capturar padrões. Como podemos classi�car esse tipo
de fenômeno?
Under�tting.
Upper�tting.
Under�tting.
Over�tting.
Hiper�tting.
Down�tting.
Resposta: B
Comentário: Nesse cenário, o analista acredita que o modelo está muito
simples para capturar a complexidade dos dados, resultando em um
desempenho insatisfatório tanto em relação aos dados de treinamento
quanto em relação aos dados de teste ou validação. Esse fenômeno é
chamado de "under�tting", quando o modelo é muito simpli�cado para
representar corretamente os padrões presentes nos dados.
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 3/9
Pergunta 3
Resposta
Selecionada:
b.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Uma empresa de desenvolvimento de softwares, que inclui entre seus produtos um
sistema de envio e recebimento de e-mails, optou por criar uma nova versão do sistema
com melhorias nos �ltros de detecção de spam. Para esse propósito, a equipe de
engenharia de software recebeu a tarefa de treinar o software. Considerando esse
exemplo, analise as opções abaixo e indique aquela que explica o objetivo do treinamento
de um modelo de aprendizado de máquina.
Ajustar os parâmetros do modelo para minimizar a função de
perda.
Ajustar os parâmetros do modelo para maximizar a função de
perda.
Ajustar os parâmetros do modelo para minimizar a função de
perda.
Ajustar os parâmetros do modelo para maximizar a função de
recompensa.
Ajustar os parâmetros do modelo para minimizar a função de
recompensa.
Ajustar os parâmetros do modelo para maximizar a precisão do
modelo.
Resposta: B
Comentário: O objetivo do treinamento de um modelo de aprendizado de
máquina é ajustar seus parâmetros de forma a minimizar a função de
perda. Essa função de perda mede a discrepância entre as previsões do
modelo e os valores reais no conjunto de treinamento. Ao minimizar a
função de perda, o modelo se torna mais apto a fazer previsões precisas e
generalizadas para novos dados. No caso do exemplo dado, a empresa
busca melhorar a detecção de spam em e-mails.
Pergunta 4
Qual é a suposição feita pelos algoritmos de Naive Bayes?
0,5 em 0,5 pontos
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 4/9
Resposta
Selecionada:
a.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
As variáveis são independentes umas das outras ao fazer suas
previsões.
As variáveis são independentes umas das outras ao fazer suas
previsões.
As variáveis são dependentes umas das outras ao fazer suas
previsões.
O relacionamento entre as variáveis é sempre linear.
O relacionamento entre as variáveis é sempre não linear.
O modelo deve ser treinado com dados rotulados.
Resposta: A
Comentário: A suposição feita pelos algoritmos de Naive Bayes é que as
variáveis (ou características) são independentes entre si, dada a classe (ou
categoria) a que pertencem. Isso é conhecido como "suposição de
independência condicional". Embora essa suposição possa ser simplista
para muitos cenários da vida real, os algoritmos Naive Bayes
frequentemente apresentam um bom desempenho em problemas de
classi�cação, como a categorização de e-mails em spam ou não spam,
devido à sua e�ciência e relativa simplicidade.
Pergunta 5
Resposta
Selecionada:
e.
Analise as opções abaixo e indique qual delas corresponde aos parâmetros necessários
para se obter bons resultados na classi�cação.
Selecionar cuidadosamente as características relevantes, escolher o
algoritmo de classi�cação apropriado, ajustar os hiperparâmetros do
modelo e realizar uma avaliação rigorosa.
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 5/9
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Ter um conjunto de dados representativo e su�cientemente grande para
treinar o modelo de classi�cação, evitando vieses ou problemas de
generalização.
Compreender o contexto, identi�car as informações mais relevantes e
comunicá-las de forma clara e concisa.
Utilizar técnicas de segmentação de mercado e detecção de fraudes.
Escolher entre sumarização automática e sumarização manual.
Selecionar cuidadosamente as características relevantes, escolher o
algoritmo de classi�cação apropriado, ajustar os hiperparâmetros do
modelo e realizar uma avaliação rigorosa.
Resposta: E
Comentário: Para obterresultados satisfatórios na classi�cação, é
essencial selecionar as características relevantes, optar pelo algoritmo de
classi�cação adequado, ajustar os hiperparâmetros do modelo para
otimizar o desempenho e conduzir uma avaliação rigorosa para garantir
que o modelo generalize bem para novos dados. Essas etapas são cruciais
para construir um modelo de classi�cação e�caz e bem ajustado.
Pergunta 6
Resposta
Selecionada:
d.
Respostas: a.
b.
c.
A sumarização na mineração de dados refere-se ao processo de extrair informações ou
conhecimentos essenciais e concisos a partir de conjuntos de dados complexos e
volumosos. O objetivo é reduzir a quantidade de dados sem perder informações críticas.
Isso envolve identi�car padrões, tendências, características principais ou resumos
estatísticos que capturem o signi�cado subjacente dos dados.
Indique qual das alternativas abaixo apresenta de forma correta a diferença entre
sumarização automática e sumarização manual.
A sumarização automática é baseada em regras pré-de�nidas ou
algoritmos, enquanto a sumarização manual é baseada na
interpretação humana dos dados.
A sumarização automática é realizada por humanos, enquanto a
sumarização manual é realizada por algoritmos de aprendizado de
máquina.
A sumarização automática é mais precisa e con�ável do que a
sumarização manual.
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 6/9
d.
e.
Comentário
da resposta:
A sumarização automática é mais rápida e e�ciente do que a
sumarização manual.
A sumarização automática é baseada em regras pré-de�nidas ou
algoritmos, enquanto a sumarização manual é baseada na
interpretação humana dos dados.
A sumarização automática é mais cara e complexa do que a
sumarização manual.
Resposta: D
Comentário: A diferença entre a sumarização automática e a sumarização
manual reside no processo envolvido. A sumarização automática é
realizada por meio de algoritmos ou regras pré-de�nidas que extraem
informações importantes dos dados de forma automatizada, sem
intervenção humana direta. Por outro lado, a sumarização manual envolve
a interpretação humana dos dados para identi�car e extrair informações
relevantes e criar resumos de forma deliberada e subjetiva. Portanto, a
alternativa “d” re�ete corretamente essa diferença.
Pergunta 7
Resposta
Selecionada:
e.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
O que é necessário para avaliar o desempenho de um modelo de aprendizado de máquina?
Dados de validação ou teste e métricas como acurácia, precisão,
recall e F1-score.
Dados de validação ou teste e a de�nição adequada das
características e atributos relevantes.
A escolha do modelo correto e a otimização dos parâmetros do
modelo para minimizar o erro.
A interpretação correta dos resultados e a seleção de recursos
relevantes.
A qualidade dos dados e a escolha de uma função de perda
apropriada.
Dados de validação ou teste e métricas como acurácia, precisão,
recall e F1-score.
Resposta: E
Comentário: A avaliação do desempenho de um modelo de aprendizado de
máquina requer o uso de dados de validação ou teste, que não foram
usados durante o treinamento do modelo, para veri�car como o modelo se
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 7/9
sai em dados não vistos. Além disso, é necessário usar métricas
apropriadas para avaliar diferentes aspectos do desempenho do modelo.
Métricas comuns incluem acurácia (taxa de previsões corretas), precisão
(quantidade de verdadeiros positivos dividida pelo total de positivos
previstos), recall (quantidade de verdadeiros positivos dividida pelo total de
verdadeiros positivos reais) e F1-score (uma média harmônica entre
precisão e recall). Essas métricas ajudam a entender o quão bem o modelo
está funcionando e onde podem existir desequilíbrios ou problemas de
desempenho.
Pergunta 8
Resposta
Selecionada:
c.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Segundo Géron, A. (2017), "A preparação de dados para análise envolve várias etapas
importantes para garantir que os dados estejam limpos, consistentes e prontos para serem
usados em análises ou modelagens". Podemos citar como etapas dessa preparação a
Coleta de Dados, a Limpeza de Dados, o Pré-processamento, a Redução de
Dimensionalidade, o Tratamento de Outliers, a Codi�cação de Categorias e a Amostragem,
entre outras. Com base nas colocações de Géron, indique qual das alternativas abaixo
de�ne corretamente o pré-processamento de dados:
Um processo de limpeza, transformação e redução de dados brutos
para torná-los adequados para análise.
Um conjunto de técnicas para a análise de dados.
Um método para a visualização de dados complexos.
Um processo de limpeza, transformação e redução de dados brutos
para torná-los adequados para análise.
Um conjunto de ferramentas para a coleta de dados.
Um campo de estudo que se concentra na interpretação de dados.
Resposta: C
Comentário: O pré-processamento de dados envolve várias etapas,
incluindo limpeza, transformação e redução de dados brutos para
prepará-los para análises ou modelagens subsequentes. Essas etapas
visam melhorar a qualidade, consistência e utilidade dos dados,
garantindo que estejam em um formato apropriado para as próximas
fases da análise ou modelagem. Portanto, a alternativa “c” de�ne
corretamente o pré-processamento de dados de acordo com a colocação
de Géron.
Pergunta 9
0,5 em 0,5 pontos
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I – CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 8/9
Resposta Selecionada: d.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
Segundo Laney (2001), Big Data são conjuntos de dados extremamente grandes e
complexos que exigem tecnologias e métodos especí�cos para armazenamento,
processamento e análise devido ao seu tamanho e complexidade. Das alternativas abaixo,
qual corresponde às características de um Big Data, segundo Laney?
Volume, Velocidade e Variedade.
Intangibilidade, Granularidade e Estruturação.
Gerar valor, Privacidade, Agrupável.
Estruturação, Privacidade, Volume.
Volume, Velocidade e Variedade.
Variedade, Granularidade e Agrupável.
Resposta: D
Comentário: Segundo o autor Doug Laney, em 2001, ele propôs a
de�nição dos "3 Vs" para caracterizar Big Data: Volume (grande
quantidade de dados), Velocidade (alta taxa de geração e processamento
de dados) e Variedade (diversidade de tipos de dados, como estruturados,
não estruturados e semiestruturados). Essas características destacam a
complexidade dos conjuntos de dados que são considerados Big Data.
Pergunta 10
Resposta Selecionada: b.
Respostas: a.
b.
c.
d.
e.
Comentário
da resposta:
A descrição a seguir se refere a qual tipo de modelo de machine learning? “É um modelo
usado para problemas de classi�cação binária, em que a variável de saída é categórica com
duas classes. Ele estima a probabilidade de um evento ocorrer, mapeando a entrada para
uma função logística.”
Regressão Logística.
Regressão Linear.
Regressão Logística.
Árvores de Decisão.
Máquinas de Vetores de Suporte (SVM).
Redes Neurais Arti�ciais.
Resposta: B
Comentário: A descrição dada se encaixa no modelo de Regressão
Logística. Embora o nome possa sugerir que seja usado para regressão, a
Regressão Logística é frequentemente usada para problemas de
classi�cação binária, em que a variável de saída é categórica com duas
classes. Ela estima a probabilidade de um evento ocorrer usando uma
função logística, que mapeia as entradas para uma probabilidade entre 0
e 1.
0,5 em 0,5 pontos
9/10/23, 8:13 PM Revisar envio do teste: QUESTIONÁRIO UNIDADE I –CIÊNCIA...
https://ava.ead.unip.br/webapps/assessment/review/review.jsp?attempt_id=_97336727_1&course_id=_313156_1&content_id=_… 9/9
Domingo, 10 de Setembro de 2023 20h13min15s BRT ← OK