Prévia do material em texto
1/6 Prova N2 01 - Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos mode- los de regressão que existem, são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas. Considerando as técnicas discutidas de desenvolvimento de modelos preditivos pautados em modelos de regressão linear simples ou múltipla, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Modelos de regressão linear podem ser empregados na predição do peso médio (massa corporal média) de uma pes- soa em função da sua altura, idade e sexo. II. ( ) Modelos de regressão linear podem ser empregados na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso. III. ( ) Modelos de regressão linear podem ser empregados na predição da renda média mensal de uma pessoa em função da sua escolaridade, idade, sexo e classe social. IV. ( ) Modelos de regressão linear podem ser empregados na predição da classe social de uma pessoa em função da sua renda média mensal, escolaridade, idade e sexo. Assinale a alternativa que apresenta a sequência correta. 02 - Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imó- veis da amostra que a corretora lhe passou. Em relação a esses sumários, analise as afirmativas a seguir. I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao estatístico. II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada. III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada. IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo. Está correto o que se afirma em: 2/6 03 - Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de car- tão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego está- vel, renda fixa, dívidas pequenas, nome limpo e casa própria. 2. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. 3. ( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados refe- rentes a um novo cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o car- tão. 4. ( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomen- dar a aprovação ou não da concessão do cartão é de grande valor. 5. ( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final sobre a concessão de cartão para o cliente. Assinale a alternativa que apresenta a sequência correta. 3/6 04 - Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre múltiplas variá- veis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela com ela mesma. III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de 0,80. IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. 05 - Árvores de decisão são muito populares na estatística e na ciência dos dados. Parte dessa popularidade advém do fato de que as árvores de decisão são de muito fácil interpretação, o que contribui com a interpretação do caso (fenô- meno, processo) estudado. Porém sabe-se que florestas randômicas têm melhor performance preditiva que árvores de decisão. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Mesmo sabendo-se que florestas randômicas têm melhor performance preditiva que árvores de decisão, muitas vezes o cientista de dados dá preferência a modelos de árvores de decisão frente a florestas randômicas. Pois: II. Florestas randômicas, que são constituídas de centenas ou mais árvores, não têm a fácil interpretabilidade que árvores de decisão têm. Essa facilidade de interpretação não só é útil para a análise do fenômeno estudado, mas ajuda sobrema- neira na comunicação dos resultados aos clientes. A seguir, assinale a alternativa correta: 4/6 06 - O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupa- mento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropolo- gia, o marketing e a economia. DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similari- dade de suas características - é uma tarefa de agrupamento. 07 - No decorrer desta unidade, apresentamos uma série de exemplos de problemas de regressão e de classificação. A diferença entre eles reside no tipo da variável resposta, se quantitativa ou qualitativa. Problemas de classificação são aqueles em que a variável resposta é qualitativa.As variáveis de entrada, também chamadas de regressoras ou preditoras, podem ser quantitativas ou qualitativas. Em relação a problemas de classificação, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A predição de se a pessoa é diabética em função de dados gerais sobre seu quadro clínico, seu histórico médico e da- dos sobre casos de diabetes na sua família é um problema de classificação. II. ( ) A predição da falha de um componente estrutural em função das suas características químicas e físicas, da sua geo- metria e das condições de carga ao qual é submetido é um problema de classificação. III. ( ) A predição de se um e-mail que chega à sua caixa de entrada é ou não um spam, em função das características ge- rais do e-mail e do seu texto (sua origem e palavras utilizadas no texto), é um problema de classificação. IV. ( ) A predição de se o dólar vai subir ou não, em função do tipo de notícias políticas e econômicas divulgadas na tarde do dia anterior, tanto no âmbito nacional quanto internacional, é um problema de classificação. Assinale a alternativa que apresenta a sequência correta: 5/6 08 - Leia o excerto a seguir: “A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da in- formação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito. Pois II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas. 09 - A visualização da relação entre duas variáveis é, habitualmente, feita por meio de gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de gráfi- cos segue regras bem precisas, especificamente a que duas variáveis eles podem representar de forma visual. Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos valo- res observados para a variável quantitativa. III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os níveis da variável qualitativa e, no eixo hori- zontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exi- bida horizontalmente e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. 6/6 10 - Leia o excerto a seguir: “Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio li- vro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37. Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio livro. IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Está correto o que se afirma em: