Baixe o app para aproveitar ainda mais
Prévia do material em texto
Compilado - Fundamentos em data Science e analise estatística de dados Unidade 1 1. Pergunta 1 0/0 Estruturas de controle são recursos comuns das linguagens de programação, e permitem controlar o fluxo de execução do código. São muito importantes, pois permitem realizar execuções condicionais de código, repetições e outras operações de controle da execução do código, de acordo com o objetivo desejado. Considerando essas informações e o conteúdo estudado, pode-se afirmar que a alternativa que relaciona exemplos de estruturas de controle é: Ocultar opções de resposta 1. >, <, =. 2. +, -, *, /. 3. if, library, help. 4. for, while, repeat. Resposta correta 5. &, |, !. 2. Pergunta 2 0/0 Considere o trecho de código a seguir: >codigo = c(9234, 7369, 0168) >turma = c("matutino", "vespertino", "noturno") >notas = c(7, 8.5, 6.7) >x <- cbind(codigo, turma) >x <- cbind(x, notas) De acordo com seus conhecimentos sobre tipos de objetos da linguagem R, pode-se afirmar que x é do tipo: Ocultar opções de resposta 1. resposta correta Data Frame. Resposta correta 2. Lista. 3. Vetor. 4. Incorreta: Matriz. 5. Array. 3. Pergunta 3 0/0 O número de homicídios no Brasil de 1996 a 2016 é dado, respectivamente, pelos valores 38.929, 40.531, 41.974, 42.947, 45.433, 48.032, 49.816, 51.534, 48.909, 48.136, 49.704, 48.219, 50.659, 52.043, 53.016, 52.807, 57.045, 57.396, 60.474, 59.080, 62.517. Observe que todos os valores são distintos. Fonte: IPEA. Atlas da Violência. Disponível em: <http://www.ipea.gov.br/atlasviolencia/filtros-series/1/homicidios>. Acesso em: 16 maio 2019. Considerando essas informações e o conteúdo estudado sobre medidas de tendência central, assinale a alternativa correta sobre o valor da moda. Ocultar opções de resposta 1. Resposta correta Não pode ser calculada. Resposta correta 2. http://www.ipea.gov.br/atlasviolencia/filtros-series/1/homicidios Corresponde ao valor 49.816. 3. Incorreta: Corresponde ao valor 50.438. 4. É igual ao valor da mediana para este conjunto de dados. 5. É igual ao valor da média para este conjunto de dados. 4. Pergunta 4 0/0 Vetores são estruturas unidimensionais que permitem armazenar valores de um mesmo tipo. É possível ter um vetor de valores inteiros, outro de caracteres, outro de valores booleanos etc. Há situações, entretanto, que existem uma quantidade maior de dimensões, para que seja possível armazenar, separadamente, valores que representam características diferentes do que desejamos representar. Considere a seguinte situação: Suponha que um professor precisa armazenar as 3 notas de cada um dos 20 alunos, das 5 turmas para as quais ministra aulas, utilizando uma única estrutura de dados. De acordo com os tipos de objetos do R vistos, e sabendo que todas as notas são números com duas casas decimais, o tipo de objeto que permite armazenar as notas de maneira simples e organizada é: Ocultar opções de resposta 1. Matriz. 2. Objeto. 3. Lista. 4. Correta Array Resposta correta 5. Sequência. 5. Pergunta 5 0/0 Observe o conjunto de dados a seguir: Milionários, por idade e sexo (1972, em milhares) Abaixo de 50 anos 50-64 anos 65 e mais Mulheres 24 34 31 Homens 39 26 25 Fonte: FERNANDES, Edite Manuela G. P. Estatística Aplicada. Universidade do Minho, Braga. Portugal. 1999, p.33. (Adaptado). Considerando essas informações e o conteúdo estudado sobre dados quantitativos, a alternativa que identifica a quantidade total de milionários em 1972 é: Ocultar opções de resposta 1. 89. 2. 56. 3. 63. 4. 179. Resposta correta 5. 60. 6. Pergunta 6 0/0 Considere a seguinte situação: Você foi convidado para apoiar um amigo na realização de um sorteio. Para isso, ele pretende automatizar o processo e precisa que você desenvolva uma solução que permita: - armazenar o nome de cada um dos inscritos no sorteio; - atribuir um número sequencial a cada um deles; - escolher aleatoriamente um dos números atribuídos. Considerando essas informações e o conteúdo estudado sobre funções, pode-se afirmar que a função da linguagem R, que permite gerar uma lista de números sequenciais, é: Ocultar opções de resposta 1. list(). 2. sequences(). 3. list(). 4. numbers(). 5. seq(). Resposta correta 7. Pergunta 7 0/0 Variáveis aleatórias podem ser qualitativas ou quantitativas. As variáveis qualitativas podem ser nominais, ordinais ou intervalares, conforme suas características e propriedades. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) As espécies de pássaros que vivem numa região do Brasil podem ser representadas por meio de uma variável quantitativa. II. ( ) A resposta de um sujeito à seguinte proposição “é natural que as pessoas de um país queiram viver afastadas das pessoas de outros países” pode ser: concordo totalmente, concordo parcialmente, indiferente, discordo parcialmente, discordo totalmente, pode ser representada por uma variável qualitativa intervalar. III. ( ) O código do CEP, para fazer chegar ao destino uma carta enviada pelo correio, pode ser representado por uma variável qualitativa. IV. ( ) Os níveis de escolaridade dos habitantes de uma cidade do Brasil podem ser representados por uma variável qualitativa ordinal. Assinale a alternativa que apresenta a sequência correta. Ocultar opções de resposta 1. F, V, F, V. 2. F, F, V, V. 3. Incorreta: V, V, F, F. 4. V, F, V, F. 5. Resposta correta F, V, V, V. Resposta correta 8. Pergunta 8 0/0 Leia o excerto a seguir: “[...] A estrutura de um objeto pode ser consultada com a função str(), e os atributos com a função attributes(), mas nem sempre se tem essa informação, apesar de todos os objetos terem, como foi dito anteriormente, dois atributos intrínsecos. Em programação orientada a objetos, são os atributos que definem o contexto para a execução de um comando e, consequentemente, o seu resultado, ajudando a descrever um objeto. Por exemplo, os nomes das colunas num objeto da classe data.frame ajuda a perceber que tipo de dados estão contidos em cada uma das colunas” (MARTINS, 2016, p. 07). Fonte: MARTINS, Nuno David da Costa. Programação em R no estudo de probabilidades. 2016. 111f. Dissertação (Mestrado em Estatística) – Escola de Ciências, Universidade do Minho, Braga. Portugal. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir. Assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) O objeto possui vários modos de armazenamento interno na linguagem R. II. ( ) Variáveis do tipo inteiro não permitem o uso da função mode(). III. ( ) A função mode() permite saber o modo de armazenamento do objeto. IV. ( ) As colunas de um objeto data.frame são também denominadas variáveis. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. V, V, F, F. 2. F, V, F, V. 3. V, F, V, F. 4. F, V, V, F. 5. F, F, V, V. Resposta correta 9. Pergunta 9 0/0 Data Frames representam um dos tipos de objeto mais importantes da linguagem R, dada sua grande utilidade ao permitir lidar com conjuntos de dados que envolvem tipos distintos de valores, e organizá-los em estrutura semelhante ao formato de uma tabela, facilitando seu manuseio. Além disso, há um conjunto de funções voltadas para fornecer ainda mais recursos ao lidar com objetos do tipo data frame. Assim, considerando as informações apresentadas e os conteúdos estudados, analise as funções que lidam com objetos do tipo data frame disponíveis a seguir e associe-as com suas respectivas definições. 1) nrow(). 2) ncol(). 3) head(). 4) tail(). 5) dim(). ( ) Permite obter a quantidade de observações e variáveis do data frame.( ) Permite obter a quantidade de colunas do data frame. ( ) Permite obter as primeiras linhas do data frame. ( ) Permite obter a quantidade de linhas do data frame. ( ) Permite obter as últimas linhas do data frame. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. 2, 3, 5, 4, 1. 2. 3, 5, 2, 4, 1. 3. 5, 2, 3, 1, 4. Resposta correta 4. 1, 2, 3, 4, 5. 5. 1, 5, 2, 4, 3. 10. Pergunta 10 0/0 Observe o gráfico a seguir: Fonte: IPEA. Atlas da Violência. Disponível em: <www.ipea.gov.br/atlasviolencia/>. Acesso em: 14 abr. 2019. (Adaptado). Esse gráfico foi obtido a partir dos valores anuais da quantidade de homicídios no Brasil de 1996 a 2016. Considerando estas informações e o conteúdo sobre gráficos para variáveis quantitativas, assinale V para a(s) afirmativa(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Há três valores considerados outliers no conjunto de dados. II. ( ) Menos da metade dos valores do conjunto de dados se concentra entre 46.000 e 54.000. III. ( ) Há uma concentração dos dados na faixa acima de 50.000. IV. ( ) Há mais valores entre 55.000 e 60.000 que entre 50.000 e 55.000. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta https://ultra.content.blackboardcdn.com/ultra/www.ipea.gov.br/atlasviolencia/ 1. V, F, V, F. 2. F, V, F, V. 3. Resposta correta V, F, F, F. Resposta correta 4. F, F, V, V. 5. Incorreta: V, V, F, F. Unidade 2 1. Pergunta 1 0/0 A distribuição t de Student busca aproximar variáveis aleatórias que tenham uma distribuição em forma de sino (isto é, aproximadamente normal), em que a amostra de dados é reduzida. A distribuição de amostragem de uma estatística tem maior chance de ser em forma de sino se algumas condições forem observadas: • A distribuição da população é normal; • A distribuição da população é simétrica, unimodal, sem outliers, e o tamanho da amostra é de pelo menos 30; • A distribuição da população é moderadamente distorcida, unimodal, sem outliers, e o tamanho da amostra é de pelo menos 40; • O tamanho da amostra é maior que 40, sem outliers. Diante dessas condições, considere o conjunto de dados ilustrado pelo boxplot a seguir: Supondo que a distribuição da população para as notas dos clientes não é normal, e sabendo que o conjunto de dados é composto de 10 valores de nota, é possível afirmar que: Ocultar opções de resposta 1. quando o conjunto de dados não contiver outliers, quando a população segue outra distribuição distinta da normal, aplicar o teste t Student é adequado. 2. Resposta correta ainda que o conjunto de dados apresente outliers, o fato de não ter a população com distribuição normal implica que aplicar o teste t Student não é adequado. Resposta correta 3. Incorreta: ainda que o conjunto de dados apresente outliers, o fato de ter a população com distribuição normal implica que aplicar o teste t Student é adequado. 4. quando o conjunto de dados apresenta outliers, independentemente da distribuição da população, aplicar o teste t Student é adequado. 5. para conjuntos de dados que não apresentam outliers, se a população segue outra distribuição distinta da normal, aplicar o teste t Student não é adequado. 2. Pergunta 2 0/0 Suponha que um estudo revelou que uma pessoa tem, no máximo, dez carros ao longo da vida. É possível construir as hipóteses nula e alternativa para verificar essa afirmação. Considerando essas informações e o conteúdo estudado sobre teste de hipótese, a alternativa que apresenta as definições corretas é: Ocultar opções de resposta 1. Incorreta: H0: μ = 10 e HA: μ ≠ 10. 2. H0: μ ≠ 10 e HA: μ = 10. 3. Resposta correta H0: μ ≤ 10 e HA: μ > 10. Resposta correta 4. H0: μ > 10 e HA: μ ≤ 10. 5. H0: μ > 10 e HA: μ < 10. 3. Pergunta 3 0/0 Considere a seguinte situação: O campeonato brasileiro de futebol possui 20 times e é disputado em 38 rodadas ao longo do ano, de forma que todos os times se enfrentam duas vezes. Supondo que o evento A represente a possibilidade de cada time ser campeão, e considerando que A seja um evento aleatório, responda: Nessa situação, a probabilidade de A é de: Ocultar opções de resposta 1. 50%. 2. 20%. 3. 25%. 4. 5%. Resposta correta 5. 10%. 4. Pergunta 4 0/0 Considere os dados a seguir: Sexo/Sabor uva coco morango chocolate outros total masculino 150 150 100 400 300 1100 feminino 100 150 200 350 100 900 TOTAL 250 300 300 750 400 2000 A tabela de contingência acima ilustra o resultado de uma pesquisa hipotética sobre os sabores preferidos de sorvete para um grupo de 2000 pessoas. De acordo com os dados da tabela, a probabilidade de uma pessoa de qualquer sexo gostar de sorvete de uva ou chocolate é de: Ocultar opções de resposta 1. 10%. 2. Resposta correta 50% Resposta correta 3. Incorreta: 75%. 4. 25%. 5. 30%. 5. Pergunta 5 0/0 O processo de amostragem dos dados pode ser realizado através de várias técnicas: amostra aleatória simples, sistemática, estratificada, conglomerados. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir a respeito das técnicas de amostragem dos dados e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) A amostragem aleatória simples garante a coleta da mesma quantidade de elementos de cada estrato da população. II. ( ) A amostra estratificada divide a população em grupos mutuamente exclusivos. III. ( ) A amostra por conglomerados divide a população em grupos mutuamente exclusivos e seleciona todos os membros de alguns deles. IV. ( ) A amostragem sistemática divide a população em intervalos pré-fixados. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. F, V, F, V. 2. F, V, V, F. 3. Incorreta: V, F, V, F. 4. Resposta correta F, V, V, V. Resposta correta 5. V, F, F, F. 6. Pergunta 6 0/0 Supondo X uma variável aleatória que representa a quantidade de clientes que chegam ao banco ao longo do tempo, e Y uma variável aleatória que representa o tempo médio entre a chegada de um cliente e o próximo. Podemos dizer que as duas variáveis seguem, respectivamente, as distribuições: Ocultar opções de resposta 1. Exponencial e Poisson. 2. Incorreta: Poisson e Normal. 3. Uniforme e Normal 4. Resposta correta Poisson e Exponencial. Resposta correta 5. Normal e Poisson. 7. Pergunta 7 0/0 Suponha que o tempo médio para registrar as compras e pagar no caixa de um supermercado seja de dez minutos (taxa de atendimento de 1/10 por minuto), de acordo com a distribuição exponencial. Desejamos saber a probabilidade de um cliente ser atendido pelo caixa em até cinco minutos. Assinale a alternativa que apresenta a forma correta da função que calcula a probabilidade solicitada, na linguagem R: Ocultar opções de resposta 1. pexp(rate = 1/10). 2. pexp(5/10). 3. pexp(5, rate = 1/10). Resposta correta 4. pexp(1/10). 5. pexp(5). 8. Pergunta 8 0/0 Considere o trecho de código e o gráfico a seguir: > media = 50 > desvio = 17 > library(ggplot2) > z <- seq(-4,4, by = .01) > densidade <- dnorm(z) > criterio <- factor(rep("não rejeitar", length(z)), levels=c("não rejeitar", "rejeitar")) > criterio[which(z < qnorm(.01))] <- "rejeitar" > qplot(z,densidade, geom=c("path","area"), fill=criterio) + scale_fill_manual(values=c("white", "gray")) De acordo com seus conhecimentos sobre teste de hipótese, analisando o gráfico conclui-se que: Ocultar opções de resposta 1. a área hachuradacorresponde à zona crítica ou zona de rejeição, com intervalo de confiança de 95% e nível de significância de 1%. 2. a área não hachurada corresponde à zona crítica ou zona de rejeição, com intervalo de confiança de 95% e nível de significância de 1%. 3. a área hachurada corresponde à zona crítica ou zona de rejeição, com intervalo de confiança de 99% e nível de significância de 5%. 4. a área hachurada corresponde à zona crítica ou zona de rejeição, com intervalo de confiança de 99% e nível de significância de 1%. Resposta correta 5. a área não hachurada corresponde à zona crítica ou zona de rejeição, com intervalo de confiança de 99% e nível de significância de 1%. 9. Pergunta 9 0/0 Supondo X uma variável aleatória que representa o resultado do lançamento de um dado, e Y a variável aleatória que indica a altura de uma pessoa que reside no Brasil. Podemos dizer que as duas variáveis seguem, respectivamente, as distribuições: Ocultar opções de resposta 1. Normal e Uniforme. 2. Qui-Quadrado e Normal. 3. Resposta correta Uniforme e Normal. Resposta correta 4. Incorreta: Normal e Exponencial. 5. Exponencial e Normal. 10. Pergunta 10 0/0 Considere o trecho de um código a seguir: > a <- 100 > b <- 15 > c <- 1000 > d <- 0.05 > e <- qnorm(1-d/2)*b/sqrt(c) > f <- rnorm(c, a, b) Com base nesse trecho e no que foi estudado sobre teste de hipóteses, analise as afirmações a seguir sobre a representação das variáveis. I. A variável a representa a média da população. II. A variável b representa o intervalo de confiança. III. A variável c representa o tamanho da amostra. IV. A variável d representa o nível de significância. Assinale a alternativa que apresenta todas as afirmações verdadeiras: Ocultar opções de resposta 1. I e III. 2. I, II e III. 3. I, II e IV. 4. Resposta correta I, III e IV. Resposta correta 5. Incorreta: II e III. Unidade 3 1. Pergunta 1 0/0 Leia o trecho a seguir: “Banco de dados consiste em um conjunto de tabelas que podem ou não se relacionar entre si, e, em geral, são utilizadas por um ou vários sistemas de computadores que acessam essas tabelas tanto para incluírem novas informações quanto para consultá- las.”. Fonte: MYAGUSKU, Renata. Curso prático de SQL. São Paulo: Digerati Books, 2008, p. 6. A partir dessas informações e do conteúdo estudado a respeito de SQL, pode-se afirmar que: I. Dados SQL funcionam apenas off-line. II. SQL é uma linguagem usada para guardar dados. III. Sites de hospedagem possuem bancos de dados. IV. O acesso ao banco de dados pode ser feito via espaços de usuários web, em servidores como Hostnet, por exemplo. V. Hadoop e SQL são a mesma coisa. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. III e V. 2. I, III e IV. 3. I, II e V. 4. II, III e IV. Resposta correta 5. II e V. 2. Pergunta 2 0/0 Leia o trecho a seguir: “A regressão linear, a regressão logística e máquinas de vetores de suporte são instâncias muito semelhantes de nossa técnica básica fundamental: ajustar um modelo linear aos dados.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 88. A partir dessas informações e do conteúdo estudado a respeito de regressão linear, analise as afirmações a seguir. I. Slope significa o quanto a reta do gráfico está fora do quadrado, e isso pode ser em qualquer sentido. II. Intercept é o valor de y, quando x for igual a 1. III. R é o grau de correlação entre duas variáveis, ou seja, o nível de dependência. IV. Há uma fórmula para descobrir o R. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. II e IV. 2. II e III. 3. I e II. 4. III e IV. Resposta correta 5. I e IV 3. Pergunta 3 0/0 Leia o trecho a seguir: “Uma matriz de confusão separa as decisões tomadas pelo classificador, tornando explícito como uma classe está sendo confundida com outra. Desta forma, diferentes tipos de erros podem ser tratados separadamente.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 189. A matriz de confusão pode ser explicada como: I. Uma tabela com quatro opções, onde analisa-se quatro itens de um dataset. II. TF sigifica que True (positivo) era a resposta certa. III. TP significa um acerto referente a um dado positivo, que pode ter uma doença por exemplo. IV. FN significa a ausência de erro naquela análise, ou seja, o modelo errou. Está correto o que se afirma em: Ocultar opções de resposta 1. II e IV. 2. II e III. 3. Incorreta: I e III. 4. Resposta correta III e IV. Resposta correta 5. I e II. 4. Pergunta 4 0/0 Leia o trecho a seguir: “No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste, até certo ponto – alguns mais que outros. A ideia é que se olharmos com atenção suficiente, sempre vamos encontrar padrões em conjuntos de dados.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 113. A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito de sobreajuste. I. Sobreajuste é a capacidade positiva de generalizar. II. Evitar o sobreajuste ajuda a gerar certezas. III. Generalizar é a capacidade de usar um modelo para outros itens. IV. Viés é uma solução para evitar sobreajuste. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. I e II. 2. II e IV. 3. I e III. 4. Resposta correta II e III. Resposta correta 5. Incorreta: III e IV. 5. Pergunta 5 0/0 Leia o trecho a seguir: Matplotlib é uma biblioteca versátil que gera visualizações de dados. Com variados tipos de desenhos e opções de estilos refinados, é um instrumento de trabalho bom para criar imagens profissionais e publicações científicas. Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 8. Observe a seguir a sintaxe de uma matriz: plt.plot(matriz1, c='blue', label='êxitos') plt.title("comparação de vendas semestral em cinco meses") plt.ylabel(u'Aquisições') plt.legenda('lower right') plt.xlabel(u'Tentativas') plt.show() Com base no texto e no conteúdo estudado, analise as afirmativas abaixo sobre a sintaxe da matriz apresentada: I. “Aquisições” será digitado embaixo do gráfico. II. “Tentativas” será digitado ao lado do gráfico. III. “Plt.title” mostrará o nome do gráfico acima dele. IV. “Blue” é a cor da linha. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. III e IV. Resposta correta 2. I e III. 3. II e III. 4. II e IV. 5. I e IV. 6. Pergunta 6 0/0 Leia o trecho a seguir: “Embora seja possível fazer consultas envolvendo junções (join) em SQL, a situação pode, rapidamente, se tornar complicada, tanto com a escrita SQL, quanto com o desempenho resultante, quando um número de junções aumenta. Isso torna o momento propício para apresnetar outra categoria de banco de dados.” Fonte: PRAMOD, Sadalage; FOWLER, Martim. NoSQL Essencial: Um guia conciso para o Mundo Emergente da Persistência. São Paulo: Novatec, 2013, p. 58. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): I. ( ) Tabelas relacionais podem ser criadas com SQL. II. ( ) NoSQL é mais escalável. III. ( ) Enquanto joins são separações, junções são relações. IV. ( ) NoSQL fazem junções, mas é melhorfazer com SQL. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. F, F, V, V. 2. F, V, F, V. 3. Incorreta: V, V, F, F. 4. Resposta correta V, V, F, V. Resposta correta 5. V, F, V, F. 7. Pergunta 7 0/0 Leia o trecho a seguir: “KNN é um método preguiçoso, no sentido de que nenhum modelo é aprendido com o treinamento. A idéia do KNN é extremamente simples e efetiva em várias aplicações.” Fonte: LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Chicago: Springer, 2008. p. 112. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) KNN estuda vizinhos mais próximos desde que menor que 10. II. ( ) O ideal é escolher K par. III. ( ) É possível calcular o melhor KNN, usando distâncias como a euclidiana, por exemplo. IV. ( ) A distância euclidiana mede a distância entre os valores dos dados. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. F, F, V, V. Resposta correta 2. F, F, V, F. 3. V, V, F, F. 4. V, F, F, V. 5. F, V, F, F. 8. Pergunta 8 0/0 Leia o trecho a seguir: “Frequentemente, um armazenamento de dados fica extremamente ocupado, pois várias pessoas estão acessando partes diferentes do conjunto de dados. Nestas circunstâncias, podemos suportar a escalabilidade horizontal, colando partes diferentes dos dados em servidores diferentes.” Fonte: PRAMOD, Sadalage e FOWLER, Martim. NoSQL Essencial: Um guia conciso para o mundo emergente da persistência. São Paulo: Novatec, 2013, p. 74. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s): I. ( ) Escalabilidade é a capacidade de dados mudarem de valor. II. ( ) Hoje em dia, vemos quantidades de dados exorbitantes, em terabytes. Por isso os sistemas necessitam de maior escalabilidade. III. ( ) Tecnologias ligadas a mapas diminuíram a necessidade de escalabilidade. IV. ( ) A velocidade de redes aumentada, devido à tecnologia, trouxe a necessidade de sistemas que suportassem mais dados. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. F, F, V, F. 2. V, F, V, F. 3. F, V, F, V. Resposta correta 4. F, F, F, V. 5. V, F, F, V. 9. Pergunta 9 0/0 Leia o trecho a seguir: “Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades descritas pelos dados. Essa capacidade forma a base de várias tarefas específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em uma base de dados.” FOSTER, Provost e FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XIV. A partir dessas informações e do conteúdo estudado a respeito das técnicas de correlações para análises de dados, pode-se afirmar que, além das semelhanças, uma outra correlação utilizada em análise supervisionada é: Ocultar opções de resposta 1. sumarização. 2. regressão. Resposta correta 3. filtro automático. 4. cluster. 5. agrupamento. 10. Pergunta 10 0/0 Leia o trecho a seguir: “Felizmente, com a entropia para medir o quão desordenado qualquer conjunto é, podemos definir o Ganho de Informação para medir quanto um atributo melhora (diminui) a entropia ao longo de toda a segmentação que ele cria.” Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. 53. Considerando a citação apresentada e os conteúdos abordados na unidade, analise as asserções a seguir e a relação proposta entre elas. I. O Ganho de Informação (GI) compara a capacidade que atributos distintos possuem de retomar a pureza, com base nas entropias. Porque: II. O GI analisa os atributos com mais capacidade para determinar um comportamento, através de cálculos de subtração e, depois, de comparação. A seguir, assinale a alternativa correta: Ocultar opções de resposta 1. Resposta correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta correta 2. As asserções I e II são proposições falsas. 3. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. 4. Incorreta: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 5. A asserção II é uma proposição falsa, e a I é uma proposição verdadeira.
Compartilhar