AOL 3 - FUNDAMENTOS EM DATA SCIENCE

•

CEDERJ

0

Julio Mariano

07/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.209 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

AOL 3 - FUNDAMENTOS EM DATA SCIENCE
Pergunta 1
Leia o trecho abaixo:
“Então surge uma pergunta: como você pode organizar os dados de uma forma mais eficiente,
na qual se possa apresentar uma quantidade maior de informações? Uma maneira de
organizar um conjunto de dados para você melhor representá-lo é por meio de uma tabela de
distribuição de freqüências (tabela onde são apresentadas as freqüências de cada uma das
classes).”
Fonte: TAVARES, Marcelo. Estatística aplicada à administração. Minas gerais: UABMEC,
2007, p.13.
Considerando essas informações e o conteúdo estudado sobre valor esperado, pode-se dizer,
ao analisá-lo, que:

Pergunta 2
“Se a instância é positive e é classificada como positive, conta-se como true positive; se é
classificada como negative, conta-se como false negative. Se a instância é negative e é
classificada como tal, conta-se como true negative; se é classificada como positive, conta-se
como false positive. Portanto, tendo um classificador e um conjunto de instâncias, pode-se
construir uma matriz de confusão de 2 por 2, no caso de 2 classes. Esta matriz serve como
base para muitas métricas que podem ser aplicadas à classificação.”
Fonte: CASTRO, Felipe. Analise Roc. Brasilia: INPE, 2006. p. 2.
Considerando essas informações e o conteúdo estudado, é correto afirmar que estudar a
relação entre matriz de confusão e curva roc pode fazer com que:

Pergunta 3
Leia o trecho a seguir:
“O conceito de chatbots não é novo. Mas, com a chegada desta funcionalidade no Facebook,
usar o Messenger para fazer vendas se tornou muito mais fácil.”
Fonte: LAROSSA, Luciano. Facebook para negócios. São Paulo: DVS. 2018. p. 150.
Em Machine Learning, a criação de um chatbot no Messenger do Facebook é útil para enviar
respostas automáticas ao cliente, quando, por exemplo, ele responde um post com uma
palavra-chave. Ordene os passos para criação de um chatbot, analisando o conteúdo:
( ) Criar uma página comercial no Facebook (Facebook Page.
( ) Entrar na conta do Facebook pelo Meet Messenger.
( ) Fazer um post na conta comercial do Facebook.
( ) Ativar, salvar e testar.
( ) Criar uma regra em cima do post no Meet Messenger de acordo com os comentários.
Agora, assinale a alternativa que apresenta a sequência correta:

Pergunta 4
Leia o trecho a seguir sobre NumPy:
“Em NumPy, o array pode ser redimensionado posteriormente. É muito eficiente (implementado
em C). Arrays NumPy podem ser criados a partir de estruturas de dados do Python (listas,
tuplas) ou a partir de funções específicas para criação de arrays.”
Fonte: Campos, Joventino. Introdução à programação com Python. Minas Gerais:
Departamento de Computação e Mecânica: 2015. p.113.
Considerando essas informações e o conteúdo estudado, podemos afirmar NumPy é utilizado,
em programação, para:

Pergunta 5
Leia trecho a seguir:
“Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver
executando. Quando o Python se lembra de algo, é porque ele está armazenando essa
informação no computador.”
Fonte: PAINE, Bryson. Ensine seus filhos a formatar: um guia amigável aos pais para a
programação Python. Brasil: São Paulo: Novatec. 2015. p. 32.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir.
I. Variáveis podem conter um ou vários dados.
II. Uma variável pode conter várias tabelas.
III. Arrays são conjuntos de dados.
IV. Uma variável pode conter um gráfico.
Está correto somente o que se afirma em:

Pergunta 6
Leia o trecho abaixo:
“A Lei da Probabilidade Total é particularmente útil quando um experimento tem duas etapas, e
é possível expressar as probabilidades condicionais de determinado aspecto da etapa final
dados os possíveis resultados da etapa inicial.”
Fonte: OLLA, Leonardo. Introdução a probabilidade. Changai: NYU-Shanghai, 2019. p. 13.
Considerando essas informações e o conteúdo estudado sobre desvio-padrão, analise as
afirmativas abaixo.
I. O desvio-padrão avalia o erro para mais ou para menos.
II. O valor esperado coloca um valor como meta.
III. Pode-se desempatar adicionando análises probabilísticas.
IV. O vizinho mais próximo analisa o percentual estatístico.

Pergunta 7
Leia trecho a seguir:
“As variáveis compostas homogêneas são capazes de armazenar somente um tipo de dado,
por exemplo, só dados do tipo inteiro ou só dados do tipo real. Os vetores são variáveis
compostas unidimensionais, ou seja, possuem uma única dimensão”.
Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos
e criando programas. São Paulo: Viena, 2015, p. 69.
Considerando essas informações e o conteúdo estudado sobre matrizes, podemos afirmar que,
ao criar uma matriz e digitar a variável mostrar times.item (4):

Pergunta 8
“Ao criar um algoritmo é fundamental armazenar dados referentes ao problema que deve ser
solucionado pelo algoritmo, como um nome, um número ou mesmo um resultado de operação
matemática.”
Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos
e criando programas São Paulo: Viena, 2015, p. 37.
Considerando essas informações e o conteúdo estudado, podemos afirmar que, ao criar uma
faixa e mostrar a seguinte variável:
variavel_range=np.arange(0,5);
variavel_range
Aparecerá/ão:

Pergunta 9
Leia o trecho a seguir:
“O tratamento massivo encadeado (workflow) de dados é composto pelas seguintes fases: a
descoberta de dados (data discovery), a integração de dados (data integration) e a exploração
de dados (data exploration).”
Fonte: MACHADO, Alexandre. E. Administração do Big Data. Brasil, São Paulo: Senac, 2017.
n. p.
Considerando essas informações e o conteúdo estudado, é correto afirmar que, para evitar
stop words, é necessário:

Pergunta 10
“As palavras podem ter diferentes extensões e campos de texto podem ter diferentes
quantidade de palavras. Às vezes, a ordem das palavras é importante, às vezes não. Como
dados, o texto é relativamente sujo. As pessoas escrevem de forma gramaticalmente incorreta,
soletram errado, juntam palavras, abreviam de forma imprevisível e pontuam aleatoriamente.”
FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: o que você precisa saber
sobre mineração de dados e pensamento analítítico de dados? Rio de Janeiro: Altabooks,
2016. p. 252.
Considerando essas informações e o conteúdo estudado sobre mineração de textos, analise as
afirmativas a seguir.
I. Ao escolher palavras, é útil definir um limite máximo de repetições.
II. O IDF (inverso da frequência no documento) divide o número de documentos contendo a
token pelo número total de documentos.
III. Ao escolher palavras, é útil definir um limite mínimo de repetições.
IV. Deve-se tomar cuidado com palavras que representam sentimentos.
Está correto apenas o que se afirma em: