Baixe o app para aproveitar ainda mais
Prévia do material em texto
PERGUN PERGUNTA 1 1. Leia o excerto a seguir: “Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37. Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio livro. IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Está correto o que se afirma em: II, III e IV, apenas. I, II e IV, apenas. II e IV, apenas. II e III, apenas. I, II e III, apenas. 1 pontos PERGUNTA 2 1. Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: “Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar. Pois II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. As asserções I e II são proposições falsas. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. 1 pontos PERGUNTA 3 1. Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. V, F, F, V, V. V, V, V, V, V. V, V, F, V, F. F, V, V, F, V. V, V, F, F, F. 1 pontos PERGUNTA 4 1. Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito do preço nas vendas Fonte: Elaborada pelo autor. Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o volume de vendas em cada ponto (de venda). II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente menor. III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor. IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. Está correto o que se afirma em: I, III e IV, apenas. I e III, apenas. I e II, apenas. III e IV, apenas. II e III, apenas. 1 pontos PERGUNTA 5 1. A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de lado. Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados. 1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou histogramas para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou diagramas de barras para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com ocartão de crédito. 3. Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. 4. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas lançar mão da função table() do software estatístico R, para determinar a frequência com que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, se quisesse. Está correto o que se afirma em: I e IV, apenas. II e III, apenas. I, III e IV apenas. IV, apenas. I e II, apenas. 1 pontos PERGUNTA 6 1. Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados, é comum a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de duas em duas variáveis. Comumente, também se apresenta a correlação de cada variável com ela mesma, o que sempre resulta em uma correlação perfeita, igual a 1. A tabela adiante mostra o resultado do cálculo das correlações entre 5 variáveis quantitativas de uma determinada amostra. x1 x2 x3 x4 x5 x1 1,00 - 0,85 - 0,78 - 0,87 0,42 x2 - 0,85 1,00 0,79 0,89 - 0,43 x3 - 0,78 0,79 1,00 0,66 - 0,71 x4 - 0,87 0,89 0,66 1,00 - 0,17 x5 0,42 - 0,43 - 0,71 - 0,17 1,00 2. Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 e x5 Fonte: Elaborado pelo autor. Com respeito a essa tabela de correlações, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma variável e ela mesma, uma informação de pouco valor prático. II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no valor de 0,89, que indica uma forte associação entre essas duas variáveis, e que uma aumenta com um aumento da outra. III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, no valor de - 0,87, que indica uma forte associação entre essas duas variáveis, e que uma diminui quanto a outra aumenta. IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as variáveis x4 e x5, no valor de - 0,17, que indica uma fraca associação entre essas duas variáveis, e que uma diminui quando a outra aumenta. V, V, V, V. F, F, F, F. F, V, V, F. F, F, V, V. V, F, F, V. 1 pontos PERGUNTA 7 1. Leia o excerto a seguir: “Os modelos de árvores, também chamados de Árvores de Classificação e Regressão , árvores de decisão ou apenas árvores , são um método de classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais potentes, florestas aleatórias e boosting , formam a base das ferramentas de modelagem preditiva mais potentes e amplamente usadas na ciência de dados tanto para regressão quanto para classificação.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. Quanto às árvores de decisão para classificação e regressão, analise as afirmativas a seguir: I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de cada vez, de forma hierárquica, das mais importante às menos importantes, a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em que exibe os valores estimados para a variável resposta. II. A cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou à direita do nó em questão. III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer a partição da variável tratada naquele estágio da construção da árvore. IV. Em árvores de decisão de classificação ou regressão, folha é um termo que designa os nós terminais das árvores, nos quais são exibidos os valores estimados para a variável resposta do modelo preditivo. Cada caminho da árvore indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, informadas no caminho do nó inicial até a folha. Está correto o que se afirma em: II, III e IV, apenas. II e III, apenas. I e IV, apenas. I, II, III e IV. I, II e III, apenas. 1 pontos PERGUNTA 8 1. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e b1 = 5,15. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da amostra. IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: II e III, apenas. I, II, III e IV. I e II, apenas. II, III e IV, apenas. III e IV, apenas. 1 pontos PERGUNTA 9 1. A análise descritiva dos dados é uma etapa muito importante no processo de descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas iniciais, seguida de etapas relacionadas à modelagem dos dados. Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a análise descritiva de dados, analise as afirmativas a seguir: I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis. II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva. III. Modelos preditivos são usados para a análise descritiva de dados. IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. Está correto o que se afirma em: II e III, apenas. I, III e IV, apenas. II, III e IV, apenas. I, II e III, apenas. I, II e IV, apenas. 1 pontos PERGUNTA 10 1. Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativasque podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não). 2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta). 3. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado. 4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver um maior nível de inadimplência com o cartão entre aquelas que não têm emprego estável. Assinale a alternativa que apresenta a sequência correta. V, V, V, V. F, F, F, F. F, V, F, V. V, V, F, F. V, V, F, V.
Compartilhar