Baixe o app para aproveitar ainda mais
Prévia do material em texto
PERGUNTA 1 1. Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade. Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir: I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas. II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa). III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas). IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical. Está correto o que se afirma em: I e IV, apenas. I, II, III e IV. I, II e III, apenas. II e III, apenas. II, III e IV, apenas. 1 pontos PERGUNTA 2 1. Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: V, V, F, V. F, V, F, V. V, V, V, V. V, V, F, F. F, F, F, F. 1 pontos PERGUNTA 3 1. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo. Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado. 2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período. 3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis. 4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada. Assinale a alternativa que apresenta a sequência correta. F, F, V, V. V, V, F, F. V, V, V, V. V, F, F, V. F, V, V, F. 1 pontos PERGUNTA 4 1. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e b1 = 5,15. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da amostra. IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: I, II, III e IV. II, III e IV, apenas. III e IV, apenas. II e III, apenas. I e II, apenas. 1 pontos PERGUNTA 5 1. A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais nova dessas quatro áreas de conhecimento. Com referência ao relacionamento entre essas quatro áreas de conhecimento humano, analise as afirmativas a seguir: I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na estatística, na mineração de dados e na ciência dos dados. II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios. III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. É aplicada a todas áreas de atividade humana. IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito. II e III apenas. I, II, III e IV. I, II e III apenas. I, II e IV apenas. I, III e IV apenas. 1 pontos PERGUNTA 6 1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”,pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. 1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. 2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. 3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. 4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: II e III, apenas. I, II, III e IV. II, III e IV, apenas. I e II, apenas. III e IV, apenas. 1 pontos PERGUNTA 7 1. A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de lado. Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados. 1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou histogramas para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou diagramas de barras para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 1. Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. 1. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas lançar mão da função table() do software estatístico R, para determinar a frequência com que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, se quisesse. Está correto o que se afirma em: I e II, apenas. I, III e IV apenas. IV, apenas. II e III, apenas. I e IV, apenas. 1 pontos PERGUNTA 8 1. Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. As asserções I e II são proposições falsas. 1 pontos PERGUNTA 9 1. Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() dosoftware estatístico R. Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado. II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados. IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados. Assinale a alternativa que apresenta a sequência correta: F, V, F, V. V, V, V, V. F, F, F, F. F, F, V, V. F, V, V, F. 1 pontos PERGUNTA 10 1. Leia o excerto a seguir: “O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.” GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201. Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”. II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato. III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista. IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão. Assinale a alternativa que apresenta a sequência correta: F, V, F, V. V, V, V, F. F, V, V, F. V, V, F, V. F, V, V, V. PERGUNTA 1 1. Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra).Ambas visualizações, se ja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade. Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir: I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas. II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa). III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas). IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical. Está correto o que se afirma em: I e IV, apenas. I, II, III e IV. I, II e III, apenas. II e III, apenas. II, III e IV, apenas. 1 pontos PERGUNTA 2 1. Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de pr oblemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas - pretas” - inspecionar seus de talhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o result ado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas p ara tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: PERGUNTA 1 1. Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade. Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir: I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas. II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa). III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas). IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical. Está correto o que se afirma em: I e IV, apenas. I, II, III e IV. I, II e III, apenas. II e III, apenas. II, III e IV, apenas. 1 pontos PERGUNTA 2 1. Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta:
Compartilhar