Prévia do material em texto
Iniciado em sexta, 24 jun 2022, 08:45 Estado Finalizada Concluída em sexta, 24 jun 2022, 08:56 Tempo empregado 10 minutos 59 segundos Avaliar 10,00 de um máximo de 10,00(100%) Questão 1 Completo Atingiu 1,00 de 1,00 Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras. Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. a. V, V, F, V, F. b. V, V, V, V, V. c. V, F, F, V, V. d. F, V, V, F, V. e. V, V, F, F, F. Questão 2 Completo Atingiu 1,00 de 1,00 Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: a. V, V, F, F. b. F, F, F, F. c. F, V, F, V. d. V, V, F, V. e. V, V, V, V. Questão 3 Completo Atingiu 1,00 de 1,00 Questão 4 Completo Atingiu 1,00 de 1,00 Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). Obteve o resultado exibido na figura exibida adiante: Figura - Dendrograma do agrupamento dos cinco estados Fonte: Elaborada pelo autor Relativamente à interpretação desta figura, assinale a alternativa correta: a. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana. b. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico. c. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos. d. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos. e. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana. O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados para a predição da probabilidade de inadimplência com o cartão de crédito foi: Tomando como base esse modelo, que foi ajustado aos dados da amostra cedida pelo gerente, podemos estimar o valor esperado para a probabilidade de inadimplência com cartão de crédito das pessoas. Por exemplo, vamos considerar duas pessoas, uma com um gasto de médio mensal com o cartão de R$ 500,00, e a outra com um gasto médio mensal de R$ 1.000,00. Usando o modelo ajustado anterior, obtemos, respectivamente (assinale a alternativa correta): a. 7% e 37% . b. 7% e 27%. c. 27% e 7%. d. 17% e 27%. e. 37% e 17%. Questão 5 Completo Atingiu 1,00 de 1,00 Questão 6 Completo Atingiu 1,00 de 1,00 Leia o excerto a seguir: "O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados." GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201. Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A resposta à pergunta "Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?" é "não".II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato. III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica - se o candidato se sairá bem ou mal na entrevista. IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão. Assinale a alternativa que apresenta a sequência correta: a. F, V, F, V. b. V, V, F, V. c. V, V, V, F. d. F, V, V, V. e. F, V, V, F. A estatística, a ciência da computação e a ciência dos dados são mutuamente relacionadas. Todas elas fazem proveito de desenvolvimentos realizados pelas outras, fazendo-as ainda mais vigorosas do que se funcionando de forma isolada umas das outras. Quanto a esse assunto, analise as afirmativas a seguir. I. A ciência da computação tem uma relação direta com a ciência dos dados, pois derivam dela os métodos de análise estatística que são aplicados à ciência dos dados. II. A estatística é a mais antiga, se comparada com a ciência da computação e a ciência dos dados. III. A ciência dos dados faz proveito simultâneo de métodos da estatística e de algoritmos de machine learning da ciência da computação. IV. Machine learning, ou seja, aprendizagem de máquina, concerne a algoritmos que tiveram a sua origem na ciência da computação e são, atualmente, muito usados, tanto na estatística quanto na ciência dos dados. Está correto o que se afirma em: a. II, III e IV, apenas. b. II e III, apenas. c. I, II e III, apenas. d. I, II e IV, apenas. e. III e IV, apenas. Questão 7 Completo Atingiu 1,00 de 1,00 Questão 8 Completo Atingiu 1,00 de 1,00 Árvores de decisão são muito populares na estatística e na ciência dos dados. Parte dessa popularidade advém do fato de que as árvores de decisão são de muito fácil interpretação, o que contribui com a interpretação do caso (fenômeno, processo) estudado. Porém sabe-se que florestas randômicas têm melhor performance preditiva que árvores de decisão. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Mesmo sabendo-se que florestas randômicas têm melhor performance preditiva que árvores de decisão, muitas vezes o cientista de dados dá preferência a modelos de árvores de decisão frente a florestas randômicas. Pois: II. Florestas randômicas, que são constituídas de centenas ou mais árvores, não têm a fácil interpretabilidade que árvores de decisão têm. Essa facilidade de interpretação não só é útil para a análise do fenômeno estudado, mas ajuda sobremaneira na comunicação dos resultados aos clientes. A seguir, assinale a alternativa correta: a. A asserção I é uma proposição falsa e a II é uma proposição verdadeira. b. As asserções I e II são proposições falsas. c. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. d. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. e. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. Em algumas situações, o cientista de dados pode decidir transformar dados quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo, em vez de tratar idade como uma variável quantitativa contínua, podemos transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto, idoso. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A discretização (transformação) de variáveis quantitativas em qualitativas é comum na estatística e na ciência dos dados. Pois: II. A discretização, em muitas situações, simplifica a análise e, principalmente, traz maior clareza à interpretação dos resultados. A seguir, assinale a alternativa correta: a. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. b. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. c. As asserções I e II são proposições falsas. d. A asserção I é uma proposição falsa e a II é uma proposição verdadeira. e. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Questão 9 Completo Atingiu 1,00 de 1,00 Questão 10 Completo Atingiu 1,00 de 1,00 O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): a. II e III apenas; b. I, II e III apenas; c. I, II e IV apenas. d. I e II apenas; e. II, III e IV apenas; Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico. Relativamente a esse caso, analise as afirmativas a seguir. I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho. II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava. III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido. IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste. Está correto o que se afirma em: a. III e IV, apenas. b. II, apenas. c. IV, apenas. d. I e III, apenas. e. III, apenas.