Compilado fundamentos em Data science 1-3

•

UNINASSAU RECIFE

inaldo silva

20/12/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística e Análise de Dados

471 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Compilado - Fundamentos em data Science e analise estatística de dados 
Unidade 1 
 
1. Pergunta 1 
0/0 
Estruturas de controle são recursos comuns das linguagens de programação, e 
permitem controlar o fluxo de execução do código. São muito importantes, pois 
permitem realizar execuções condicionais de código, repetições e outras operações de 
controle da execução do código, de acordo com o objetivo desejado. 
Considerando essas informações e o conteúdo estudado, pode-se afirmar que a 
alternativa que relaciona exemplos de estruturas de controle é: 
Ocultar opções de resposta 
1. 
>, <, =. 
2. 
+, -, *, /. 
3. 
if, library, help. 
4. 
for, while, repeat. 
Resposta correta 
5. 
&, |, !. 
2. Pergunta 2 
0/0 
Considere o trecho de código a seguir: 
>codigo = c(9234, 7369, 0168) 
>turma = c("matutino", "vespertino", "noturno") 
>notas = c(7, 8.5, 6.7) 
>x <- cbind(codigo, turma) 
>x <- cbind(x, notas) 
De acordo com seus conhecimentos sobre tipos de objetos da linguagem R, pode-se 
afirmar que x é do tipo: 
Ocultar opções de resposta 
1. resposta correta 
Data Frame. 
Resposta correta 
2. 
Lista. 
3. 
Vetor. 
4. Incorreta: 
Matriz. 
5. 
Array. 
3. Pergunta 3 
0/0 
O número de homicídios no Brasil de 1996 a 2016 é dado, respectivamente, pelos 
valores 38.929, 40.531, 41.974, 42.947, 45.433, 48.032, 49.816, 51.534, 48.909, 
48.136, 49.704, 48.219, 50.659, 52.043, 53.016, 52.807, 57.045, 57.396, 60.474, 
59.080, 62.517. Observe que todos os valores são distintos. 
Fonte: IPEA. Atlas da Violência. Disponível em: 
<http://www.ipea.gov.br/atlasviolencia/filtros-series/1/homicidios>. Acesso em: 16 
maio 2019. 
Considerando essas informações e o conteúdo estudado sobre medidas de tendência 
central, assinale a alternativa correta sobre o valor da moda. 
Ocultar opções de resposta 
1. Resposta correta 
Não pode ser calculada. 
Resposta correta 
2. 
http://www.ipea.gov.br/atlasviolencia/filtros-series/1/homicidios
Corresponde ao valor 49.816. 
3. Incorreta: 
Corresponde ao valor 50.438. 
4. 
É igual ao valor da mediana para este conjunto de dados. 
5. 
É igual ao valor da média para este conjunto de dados. 
4. Pergunta 4 
0/0 
Vetores são estruturas unidimensionais que permitem armazenar valores de um 
mesmo tipo. É possível ter um vetor de valores inteiros, outro de caracteres, outro de 
valores booleanos etc. 
Há situações, entretanto, que existem uma quantidade maior de dimensões, para que 
seja possível armazenar, separadamente, valores que representam características 
diferentes do que desejamos representar. 
Considere a seguinte situação: 
Suponha que um professor precisa armazenar as 3 notas de cada um dos 20 alunos, 
das 5 turmas para as quais ministra aulas, utilizando uma única estrutura de dados. 
De acordo com os tipos de objetos do R vistos, e sabendo que todas as notas são 
números com duas casas decimais, o tipo de objeto que permite armazenar as notas de 
maneira simples e organizada é: 
Ocultar opções de resposta 
1. 
Matriz. 
2. 
Objeto. 
3. 
Lista. 
4. Correta 
Array 
Resposta correta 
5. 
Sequência. 
5. Pergunta 5 
0/0 
Observe o conjunto de dados a seguir: 
Milionários, por idade e sexo 
(1972, em milhares) 
 Abaixo de 50 anos 50-64 anos 65 e mais 
Mulheres 24 34 31 
Homens 39 26 25 
Fonte: FERNANDES, Edite Manuela G. P. Estatística Aplicada. Universidade do Minho, 
Braga. Portugal. 1999, p.33. (Adaptado). 
Considerando essas informações e o conteúdo estudado sobre dados quantitativos, a 
alternativa que identifica a quantidade total de milionários em 1972 é: 
Ocultar opções de resposta 
1. 
89. 
2. 
56. 
3. 
63. 
4. 
179. 
Resposta correta 
5. 
60. 
6. Pergunta 6 
0/0 
Considere a seguinte situação: 
Você foi convidado para apoiar um amigo na realização de um sorteio. Para isso, ele 
pretende automatizar o processo e precisa que você desenvolva uma solução que 
permita: 
- armazenar o nome de cada um dos inscritos no sorteio; 
- atribuir um número sequencial a cada um deles; 
- escolher aleatoriamente um dos números atribuídos. 
Considerando essas informações e o conteúdo estudado sobre funções, pode-se 
afirmar que a função da linguagem R, que permite gerar uma lista de números 
sequenciais, é: 
Ocultar opções de resposta 
1. 
list(). 
2. 
sequences(). 
3. 
list(). 
4. 
numbers(). 
5. 
seq(). 
Resposta correta 
7. Pergunta 7 
0/0 
Variáveis aleatórias podem ser qualitativas ou quantitativas. As variáveis qualitativas 
podem ser nominais, ordinais ou intervalares, conforme suas características e 
propriedades. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir 
e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( ) As espécies de pássaros que vivem numa região do Brasil podem ser 
representadas por meio de uma variável quantitativa. 
II. ( ) A resposta de um sujeito à seguinte proposição “é natural que as pessoas de um 
país queiram viver afastadas das pessoas de outros países” pode ser: concordo 
totalmente, concordo parcialmente, indiferente, discordo parcialmente, discordo 
totalmente, pode ser representada por uma variável qualitativa intervalar. 
III. ( ) O código do CEP, para fazer chegar ao destino uma carta enviada pelo correio, 
pode ser representado por uma variável qualitativa. 
IV. ( ) Os níveis de escolaridade dos habitantes de uma cidade do Brasil podem ser 
representados por uma variável qualitativa ordinal. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Ocultar opções de resposta 
1. 
F, V, F, V. 
2. 
F, F, V, V. 
3. Incorreta: 
V, V, F, F. 
4. 
V, F, V, F. 
5. Resposta correta 
F, V, V, V. 
Resposta correta 
8. Pergunta 8 
0/0 
Leia o excerto a seguir: 
“[...] A estrutura de um objeto pode ser consultada com a função str(), e os atributos 
com a função attributes(), mas nem sempre se tem essa informação, apesar de todos os 
objetos terem, como foi dito anteriormente, dois atributos intrínsecos. Em 
programação orientada a objetos, são os atributos que definem o contexto para a 
execução de um comando e, consequentemente, o seu resultado, ajudando a descrever 
um objeto. Por exemplo, os nomes das colunas num objeto da classe data.frame ajuda a 
perceber que tipo de dados estão contidos em cada uma das colunas” (MARTINS, 2016, 
p. 07). 
Fonte: MARTINS, Nuno David da Costa. Programação em R no estudo de 
probabilidades. 2016. 111f. Dissertação (Mestrado em Estatística) – Escola de Ciências, 
Universidade do Minho, Braga. Portugal. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a 
seguir. Assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( ) O objeto possui vários modos de armazenamento interno na linguagem R. 
II. ( ) Variáveis do tipo inteiro não permitem o uso da função mode(). 
III. ( ) A função mode() permite saber o modo de armazenamento do objeto. 
IV. ( ) As colunas de um objeto data.frame são também denominadas variáveis. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 
V, V, F, F. 
2. 
F, V, F, V. 
3. 
V, F, V, F. 
4. 
F, V, V, F. 
5. 
F, F, V, V. 
Resposta correta 
9. Pergunta 9 
0/0 
Data Frames representam um dos tipos de objeto mais importantes da linguagem R, 
dada sua grande utilidade ao permitir lidar com conjuntos de dados que envolvem 
tipos distintos de valores, e organizá-los em estrutura semelhante ao formato de uma 
tabela, facilitando seu manuseio. Além disso, há um conjunto de funções voltadas para 
fornecer ainda mais recursos ao lidar com objetos do tipo data frame. 
Assim, considerando as informações apresentadas e os conteúdos estudados, analise 
as funções que lidam com objetos do tipo data frame disponíveis a seguir e associe-as 
com suas respectivas definições. 
 
1) nrow(). 
2) ncol(). 
3) head(). 
4) tail(). 
5) dim(). 
( ) Permite obter a quantidade de observações e variáveis do data frame.( ) Permite obter a quantidade de colunas do data frame. 
( ) Permite obter as primeiras linhas do data frame. 
( ) Permite obter a quantidade de linhas do data frame. 
( ) Permite obter as últimas linhas do data frame. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 
2, 3, 5, 4, 1. 
2. 
3, 5, 2, 4, 1. 
3. 
5, 2, 3, 1, 4. 
Resposta correta 
4. 
1, 2, 3, 4, 5. 
5. 
1, 5, 2, 4, 3. 
10. Pergunta 10 
0/0 
 Observe o gráfico a seguir: 
 
 
 
 
Fonte: IPEA. Atlas da Violência. Disponível em: <www.ipea.gov.br/atlasviolencia/>. 
Acesso em: 14 abr. 2019. (Adaptado). 
Esse gráfico foi obtido a partir dos valores anuais da quantidade de homicídios no 
Brasil de 1996 a 2016. Considerando estas informações e o conteúdo sobre gráficos 
para variáveis quantitativas, assinale V para a(s) afirmativa(s) verdadeira(s) e F para 
a(s) falsa(s). 
I. ( ) Há três valores considerados outliers no conjunto de dados. 
 
II. ( ) Menos da metade dos valores do conjunto de dados se concentra entre 46.000 e 
54.000. 
III. ( ) Há uma concentração dos dados na faixa acima de 50.000. 
IV. ( ) Há mais valores entre 55.000 e 60.000 que entre 50.000 e 55.000. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
https://ultra.content.blackboardcdn.com/ultra/www.ipea.gov.br/atlasviolencia/
1. 
V, F, V, F. 
2. 
F, V, F, V. 
3. Resposta correta 
V, F, F, F. 
Resposta correta 
4. 
F, F, V, V. 
5. Incorreta: 
V, V, F, F. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Unidade 2 
 
1. Pergunta 1 
0/0 
A distribuição t de Student busca aproximar variáveis aleatórias que tenham uma 
distribuição em forma de sino (isto é, aproximadamente normal), em que a amostra de 
dados é reduzida. 
 
A distribuição de amostragem de uma estatística tem maior chance de ser em forma de 
sino se algumas condições forem observadas: 
• A distribuição da população é normal; 
• A distribuição da população é simétrica, unimodal, sem outliers, e o tamanho da 
amostra é de pelo menos 30; 
• A distribuição da população é moderadamente distorcida, unimodal, sem outliers, e 
o tamanho da amostra é de pelo menos 40; 
• O tamanho da amostra é maior que 40, sem outliers. 
Diante dessas condições, considere o conjunto de dados ilustrado pelo boxplot a 
seguir: 
 
 
 
Supondo que a distribuição da população para as notas dos clientes não é normal, e 
sabendo que o conjunto de dados é composto de 10 valores de nota, é possível afirmar 
que: 
 
Ocultar opções de resposta 
1. 
quando o conjunto de dados não contiver outliers, quando a população 
segue outra distribuição distinta da normal, aplicar o teste t Student é 
adequado. 
2. Resposta correta 
ainda que o conjunto de dados apresente outliers, o fato de não ter a 
população com distribuição normal implica que aplicar o teste t Student 
não é adequado. 
Resposta correta 
3. Incorreta: 
ainda que o conjunto de dados apresente outliers, o fato de ter a 
população com distribuição normal implica que aplicar o teste t Student 
é adequado. 
4. 
quando o conjunto de dados apresenta outliers, independentemente da 
distribuição da população, aplicar o teste t Student é adequado. 
5. 
para conjuntos de dados que não apresentam outliers, se a população 
segue outra distribuição distinta da normal, aplicar o teste t Student não 
é adequado. 
2. Pergunta 2 
0/0 
Suponha que um estudo revelou que uma pessoa tem, no máximo, dez carros ao longo 
da vida. É possível construir as hipóteses nula e alternativa para verificar essa 
afirmação. 
 
Considerando essas informações e o conteúdo estudado sobre teste de hipótese, a 
alternativa que apresenta as definições corretas é: 
Ocultar opções de resposta 
1. Incorreta: 
H0: μ = 10 e HA: μ ≠ 10. 
2. 
H0: μ ≠ 10 e HA: μ = 10. 
3. Resposta correta 
H0: μ ≤ 10 e HA: μ > 10. 
Resposta correta 
4. 
H0: μ > 10 e HA: μ ≤ 10. 
5. 
H0: μ > 10 e HA: μ < 10. 
3. Pergunta 3 
0/0 
Considere a seguinte situação: 
 
O campeonato brasileiro de futebol possui 20 times e é disputado em 38 rodadas ao 
longo do ano, de forma que todos os times se enfrentam duas vezes. 
Supondo que o evento A represente a possibilidade de cada time ser campeão, e 
considerando que A seja um evento aleatório, responda: 
 
Nessa situação, a probabilidade de A é de: 
Ocultar opções de resposta 
1. 
50%. 
2. 
20%. 
3. 
25%. 
4. 
5%. 
Resposta correta 
5. 
10%. 
4. Pergunta 4 
0/0 
Considere os dados a seguir: 
 
Sexo/Sabor uva coco morango chocolate outros total 
masculino 150 150 100 400 300 1100 
feminino 100 150 200 350 100 900 
TOTAL 250 300 300 750 400 2000 
 
A tabela de contingência acima ilustra o resultado de uma pesquisa hipotética sobre os 
sabores preferidos de sorvete para um grupo de 2000 pessoas. 
 
De acordo com os dados da tabela, a probabilidade de uma pessoa de qualquer sexo 
gostar de sorvete de uva ou chocolate é de: 
Ocultar opções de resposta 
1. 
10%. 
2. Resposta correta 
50% 
Resposta correta 
3. Incorreta: 
75%. 
4. 
25%. 
5. 
30%. 
5. Pergunta 5 
0/0 
O processo de amostragem dos dados pode ser realizado através de várias técnicas: 
amostra aleatória simples, sistemática, estratificada, conglomerados. 
 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir 
a respeito das técnicas de amostragem dos dados e assinale V para a(s) verdadeira(s) e 
F para a(s) falsa(s). 
 
I. ( ) A amostragem aleatória simples garante a coleta da mesma quantidade de 
elementos de cada estrato da população. 
 
II. ( ) A amostra estratificada divide a população em grupos mutuamente exclusivos. 
 
III. ( ) A amostra por conglomerados divide a população em grupos mutuamente 
exclusivos e seleciona todos os membros de alguns deles. 
 
IV. ( ) A amostragem sistemática divide a população em intervalos pré-fixados. 
 
Agora, assinale a alternativa que apresenta a sequência correta: 
 
Ocultar opções de resposta 
1. 
F, V, F, V. 
2. 
F, V, V, F. 
3. Incorreta: 
V, F, V, F. 
4. Resposta correta 
F, V, V, V. 
Resposta correta 
5. 
V, F, F, F. 
6. Pergunta 6 
0/0 
Supondo X uma variável aleatória que representa a quantidade de clientes que chegam 
ao banco ao longo do tempo, e Y uma variável aleatória que representa o tempo médio 
entre a chegada de um cliente e o próximo. 
 
Podemos dizer que as duas variáveis seguem, respectivamente, as distribuições: 
Ocultar opções de resposta 
1. 
Exponencial e Poisson. 
2. Incorreta: 
Poisson e Normal. 
3. 
Uniforme e Normal 
4. Resposta correta 
Poisson e Exponencial. 
Resposta correta 
5. 
Normal e Poisson. 
7. Pergunta 7 
0/0 
Suponha que o tempo médio para registrar as compras e pagar no caixa de um 
supermercado seja de dez minutos (taxa de atendimento de 1/10 por minuto), de 
acordo com a distribuição exponencial. Desejamos saber a probabilidade de um cliente 
ser atendido pelo caixa em até cinco minutos. 
 
Assinale a alternativa que apresenta a forma correta da função que calcula a 
probabilidade solicitada, na linguagem R: 
Ocultar opções de resposta 
1. 
pexp(rate = 1/10). 
2. 
pexp(5/10). 
3. 
pexp(5, rate = 1/10). 
Resposta correta 
4. 
pexp(1/10). 
5. 
pexp(5). 
8. Pergunta 8 
0/0 
 Considere o trecho de código e o gráfico a seguir: 
> media = 50 
> desvio = 17 
> library(ggplot2) 
> z <- seq(-4,4, by = .01) 
> densidade <- dnorm(z) 
> criterio <- factor(rep("não rejeitar", length(z)), levels=c("não rejeitar", "rejeitar")) 
> criterio[which(z < qnorm(.01))] <- "rejeitar" 
> qplot(z,densidade, geom=c("path","area"), fill=criterio) + 
 scale_fill_manual(values=c("white", "gray")) 
 
 
 
De acordo com seus conhecimentos sobre teste de hipótese, analisando o gráfico 
conclui-se que: 
 
Ocultar opções de resposta 
1. 
a área hachuradacorresponde à zona crítica ou zona de rejeição, com 
intervalo de confiança de 95% e nível de significância de 1%. 
2. 
a área não hachurada corresponde à zona crítica ou zona de rejeição, 
com intervalo de confiança de 95% e nível de significância de 1%. 
3. 
a área hachurada corresponde à zona crítica ou zona de rejeição, com 
intervalo de confiança de 99% e nível de significância de 5%. 
 
4. 
a área hachurada corresponde à zona crítica ou zona de rejeição, com 
intervalo de confiança de 99% e nível de significância de 1%. 
Resposta correta 
5. 
a área não hachurada corresponde à zona crítica ou zona de rejeição, 
com intervalo de confiança de 99% e nível de significância de 1%. 
9. Pergunta 9 
0/0 
Supondo X uma variável aleatória que representa o resultado do lançamento de um 
dado, e Y a variável aleatória que indica a altura de uma pessoa que reside no Brasil. 
 
Podemos dizer que as duas variáveis seguem, respectivamente, as distribuições: 
Ocultar opções de resposta 
1. 
Normal e Uniforme. 
2. 
Qui-Quadrado e Normal. 
3. Resposta correta 
Uniforme e Normal. 
Resposta correta 
4. Incorreta: 
Normal e Exponencial. 
5. 
Exponencial e Normal. 
10. Pergunta 10 
0/0 
Considere o trecho de um código a seguir: 
 
> a <- 100 
> b <- 15 
> c <- 1000 
> d <- 0.05 
> e <- qnorm(1-d/2)*b/sqrt(c) 
> f <- rnorm(c, a, b) 
 
Com base nesse trecho e no que foi estudado sobre teste de hipóteses, analise as 
afirmações a seguir sobre a representação das variáveis. 
 
I. A variável a representa a média da população. 
 
II. A variável b representa o intervalo de confiança. 
 
III. A variável c representa o tamanho da amostra. 
 
IV. A variável d representa o nível de significância. 
 
Assinale a alternativa que apresenta todas as afirmações verdadeiras: 
Ocultar opções de resposta 
1. 
I e III. 
2. 
I, II e III. 
3. 
I, II e IV. 
4. Resposta correta 
I, III e IV. 
Resposta correta 
5. Incorreta: 
II e III. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Unidade 3 
1. Pergunta 1 
0/0 
Leia o trecho a seguir: 
“Banco de dados consiste em um conjunto de tabelas que podem ou não se relacionar 
entre si, e, em geral, são utilizadas por um ou vários sistemas de computadores que 
acessam essas tabelas tanto para incluírem novas informações quanto para consultá-
las.”. 
Fonte: MYAGUSKU, Renata. Curso prático de SQL. São Paulo: Digerati Books, 2008, p. 6. 
A partir dessas informações e do conteúdo estudado a respeito de SQL, pode-se 
afirmar que: 
I. Dados SQL funcionam apenas off-line. 
II. SQL é uma linguagem usada para guardar dados. 
III. Sites de hospedagem possuem bancos de dados. 
IV. O acesso ao banco de dados pode ser feito via espaços de usuários web, em 
servidores como Hostnet, por exemplo. 
V. Hadoop e SQL são a mesma coisa. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. 
III e V. 
2. 
I, III e IV. 
3. 
I, II e V. 
4. 
II, III e IV. 
Resposta correta 
5. 
II e V. 
2. Pergunta 2 
0/0 
Leia o trecho a seguir: 
“A regressão linear, a regressão logística e máquinas de vetores de suporte são 
instâncias muito semelhantes de nossa técnica básica fundamental: ajustar um modelo 
linear aos dados.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você 
precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de 
Janeiro: Altabooks, 2016. p. 88. 
A partir dessas informações e do conteúdo estudado a respeito de regressão linear, 
analise as afirmações a seguir. 
I. Slope significa o quanto a reta do gráfico está fora do quadrado, e isso pode ser em 
qualquer sentido. 
II. Intercept é o valor de y, quando x for igual a 1. 
III. R é o grau de correlação entre duas variáveis, ou seja, o nível de dependência. 
IV. Há uma fórmula para descobrir o R. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. 
II e IV. 
2. 
II e III. 
3. 
I e II. 
4. 
III e IV. 
Resposta correta 
5. 
I e IV 
3. Pergunta 3 
0/0 
Leia o trecho a seguir: 
“Uma matriz de confusão separa as decisões tomadas pelo classificador, tornando 
explícito como uma classe está sendo confundida com outra. Desta forma, diferentes 
tipos de erros podem ser tratados separadamente.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você 
precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de 
Janeiro: Altabooks, 2016. p. 189. 
A matriz de confusão pode ser explicada como: 
I. Uma tabela com quatro opções, onde analisa-se quatro itens de um dataset. 
II. TF sigifica que True (positivo) era a resposta certa. 
III. TP significa um acerto referente a um dado positivo, que pode ter uma doença por 
exemplo. 
IV. FN significa a ausência de erro naquela análise, ou seja, o modelo errou. 
Está correto o que se afirma em: 
Ocultar opções de resposta 
1. 
II e IV. 
2. 
II e III. 
3. Incorreta: 
I e III. 
4. Resposta correta 
III e IV. 
Resposta correta 
5. 
I e II. 
4. Pergunta 4 
0/0 
Leia o trecho a seguir: 
“No entanto, todos os procedimentos de mineração de dados têm tendência para 
sobreajuste, até certo ponto – alguns mais que outros. A ideia é que se olharmos com 
atenção suficiente, sempre vamos encontrar padrões em conjuntos de dados.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você 
precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de 
Janeiro: Altabooks, 2016. p. 113. 
A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a 
respeito de sobreajuste. 
I. Sobreajuste é a capacidade positiva de generalizar. 
II. Evitar o sobreajuste ajuda a gerar certezas. 
III. Generalizar é a capacidade de usar um modelo para outros itens. 
IV. Viés é uma solução para evitar sobreajuste. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. 
I e II. 
2. 
II e IV. 
3. 
I e III. 
4. Resposta correta 
II e III. 
Resposta correta 
5. Incorreta: 
III e IV. 
5. Pergunta 5 
0/0 
Leia o trecho a seguir: 
Matplotlib é uma biblioteca versátil que gera visualizações de dados. Com variados 
tipos de desenhos e opções de estilos refinados, é um instrumento de trabalho bom 
para criar imagens profissionais e publicações científicas. 
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 8. 
Observe a seguir a sintaxe de uma matriz: 
plt.plot(matriz1, c='blue', label='êxitos') 
plt.title("comparação de vendas semestral em cinco meses") 
plt.ylabel(u'Aquisições') 
plt.legenda('lower right') 
plt.xlabel(u'Tentativas') 
plt.show() 
Com base no texto e no conteúdo estudado, analise as afirmativas abaixo sobre a 
sintaxe da matriz apresentada: 
I. “Aquisições” será digitado embaixo do gráfico. 
II. “Tentativas” será digitado ao lado do gráfico. 
III. “Plt.title” mostrará o nome do gráfico acima dele. 
IV. “Blue” é a cor da linha. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. 
III e IV. 
Resposta correta 
2. 
I e III. 
3. 
II e III. 
4. 
II e IV. 
5. 
I e IV. 
6. Pergunta 6 
0/0 
Leia o trecho a seguir: 
“Embora seja possível fazer consultas envolvendo junções (join) em SQL, a situação 
pode, rapidamente, se tornar complicada, tanto com a escrita SQL, quanto com o 
desempenho resultante, quando um número de junções aumenta. Isso torna o 
momento propício para apresnetar outra categoria de banco de dados.” 
Fonte: PRAMOD, Sadalage; FOWLER, Martim. NoSQL Essencial: Um guia conciso para o 
Mundo Emergente da Persistência. São Paulo: Novatec, 2013, p. 58. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir 
e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): 
I. ( ) Tabelas relacionais podem ser criadas com SQL. 
II. ( ) NoSQL é mais escalável. 
III. ( ) Enquanto joins são separações, junções são relações. 
IV. ( ) NoSQL fazem junções, mas é melhorfazer com SQL. 
 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 
F, F, V, V. 
2. 
F, V, F, V. 
3. Incorreta: 
V, V, F, F. 
4. Resposta correta 
V, V, F, V. 
Resposta correta 
5. 
V, F, V, F. 
7. Pergunta 7 
0/0 
Leia o trecho a seguir: 
“KNN é um método preguiçoso, no sentido de que nenhum modelo é aprendido com o 
treinamento. A idéia do KNN é extremamente simples e efetiva em várias aplicações.” 
Fonte: LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. 
Chicago: Springer, 2008. p. 112. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir 
e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( ) KNN estuda vizinhos mais próximos desde que menor que 10. 
II. ( ) O ideal é escolher K par. 
III. ( ) É possível calcular o melhor KNN, usando distâncias como a euclidiana, por 
exemplo. 
IV. ( ) A distância euclidiana mede a distância entre os valores dos dados. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 
F, F, V, V. 
Resposta correta 
2. 
F, F, V, F. 
3. 
V, V, F, F. 
4. 
V, F, F, V. 
5. 
F, V, F, F. 
8. Pergunta 8 
0/0 
Leia o trecho a seguir: 
“Frequentemente, um armazenamento de dados fica extremamente ocupado, pois 
várias pessoas estão acessando partes diferentes do conjunto de dados. Nestas 
circunstâncias, podemos suportar a escalabilidade horizontal, colando partes 
diferentes dos dados em servidores diferentes.” 
Fonte: PRAMOD, Sadalage e FOWLER, Martim. NoSQL Essencial: Um guia conciso para 
o mundo emergente da persistência. São Paulo: Novatec, 2013, p. 74. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir 
e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): 
I. ( ) Escalabilidade é a capacidade de dados mudarem de valor. 
II. ( ) Hoje em dia, vemos quantidades de dados exorbitantes, em terabytes. Por isso os 
sistemas necessitam de maior escalabilidade. 
III. ( ) Tecnologias ligadas a mapas diminuíram a necessidade de escalabilidade. 
IV. ( ) A velocidade de redes aumentada, devido à tecnologia, trouxe a necessidade de 
sistemas que suportassem mais dados. 
 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 
F, F, V, F. 
2. 
V, F, V, F. 
3. 
F, V, F, V. 
Resposta correta 
4. 
F, F, F, V. 
5. 
V, F, F, V. 
9. Pergunta 9 
0/0 
Leia o trecho a seguir: 
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas 
entidades descritas pelos dados. Essa capacidade forma a base de várias tarefas 
específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em 
uma base de dados.” 
FOSTER, Provost e FAWCETT, Tom. Data Science para negócios: O que você precisa 
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: 
Altabooks, 2016, p. XIV. 
A partir dessas informações e do conteúdo estudado a respeito das técnicas de 
correlações para análises de dados, pode-se afirmar que, além das semelhanças, uma 
outra correlação utilizada em análise supervisionada é: 
Ocultar opções de resposta 
1. 
sumarização. 
2. 
regressão. 
Resposta correta 
3. 
filtro automático. 
4. 
cluster. 
5. 
agrupamento. 
10. Pergunta 10 
0/0 
Leia o trecho a seguir: 
“Felizmente, com a entropia para medir o quão desordenado qualquer conjunto é, 
podemos definir o Ganho de Informação para medir quanto um atributo melhora 
(diminui) a entropia ao longo de toda a segmentação que ele cria.” 
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você 
precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de 
Janeiro: Altabooks, 2016, p. 53. 
Considerando a citação apresentada e os conteúdos abordados na unidade, analise as 
asserções a seguir e a relação proposta entre elas. 
I. O Ganho de Informação (GI) compara a capacidade que atributos distintos possuem 
de retomar a pureza, com base nas entropias. 
Porque: 
II. O GI analisa os atributos com mais capacidade para determinar um comportamento, 
através de cálculos de subtração e, depois, de comparação. 
A seguir, assinale a alternativa correta: 
Ocultar opções de resposta 
1. Resposta correta 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa 
correta da I. 
Resposta correta 
2. 
As asserções I e II são proposições falsas. 
3. 
As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa correta da I. 
4. Incorreta: 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
5. 
A asserção II é uma proposição falsa, e a I é uma proposição verdadeira.