Prévia do material em texto
PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE _________________________________________________________________________________________ Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso: Figura - Massa corporal (kg) versus comprimento (m) dos animais Fonte: Elaborada pelo autor Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos que você naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais natural é a que agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois grupos não são tão naturais quanto essa opção. RES.: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. _________________________________________________________________________________________ Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. Relativamente a esses dois tipos, analise as afirmativas a seguir. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa. Está correto o que se afirma em: Resposta correta. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa e um problema de classificação é um no qual a variável resposta é qualitativa. RES.: II e III, apenas. _________________________________________________________________________________________ Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego estável, renda fixa, dívidas pequenas, nome limpo e casa própria. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. ( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão. ( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor. ( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final sobre a concessão de cartão para o cliente. Assinale a alternativa que apresenta a sequência correta. Resposta correta. No passado, os bancos faziam a aprovação da concessão de cartões de crédito através da definição de regras que deviam ser atendidas por cada cliente; hoje em dia, algoritmos de aprendizado de máquina classificam se o cliente é um potencial bom ou mau pagador. Para isso, dados são necessários. Poder contar com a ajuda de um software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor para a equipe de análise de crédito. A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final sobre a concessão de cartão para o cliente. RES.: V, V, V, V. _________________________________________________________________________________________ Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: “Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar. Pois II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se requer para o agrupamento por k-médias, o usuário não especifica o número de grupos que o algoritmo deve formar. Em estágios progressivos, se parte de tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se formar um único grupo, ao final, com todos os registro do conjunto de dados analisado. Ao usuário cabe examinar essa estrutura, e decidir que agrupamentos fazem mais sentido para a sua análise. RES.: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. _________________________________________________________________________________________ Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar. Figura - Árvore de decisão ajustada aos valores dos imóveis Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica corretamente as estimativas de preço desses apartamentos: Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor dos imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos, comparando-as com os valores informados em cada nó, chegaremos às estimativas de preços de 319,20 mil reais, 448,80 mil reais, 366,50 mil reais e 390,40 mil reais, respectivamente, para cada um dos apartamentos descritos no enunciado. RES.: 319,20; 448,80; 366,50; 390,40 mil reais. _________________________________________________________________________________________ Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados sãodenominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. No que tange aos coeficientes do modelo de regressão linear simples para o valor do imóvel em função do seu andar, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função do seu, b0 = 333,71 e b2 = 6,55. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0. Pode ser interpretado como o valor estimado de um apartamento localizado no térreo, porém isso é uma extrapolação, pois, na amostra analisada, não há nenhum apartamento no andar térreo. IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 andar. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: Resposta correta. A alternativa está correta, pois todas as afirmativas dessa questão se apresentam de maneira adequada. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples, b0 = 333,71 e b2 = 6,55; os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ para b0 e kR$/andar para b2; o coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0 e pode ser interpretado como o valor estimado de um apartamento localizado no térreo; já o coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 andar. RES.: I, II, III e IV. _________________________________________________________________________________________ Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot. Assinale a alternativa que apresenta a sequência correta. Resposta correta. A única asserção falsa é a que afirma que gráficos de dispersão só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. É correto dizer que são usados para a visualização da relação entre duas variáveis quantitativas, permitindo a verificação visual de tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra aumenta, ou se não há uma relação aparente entre as duas. Sendo assim, puderam ser usados para exibir, em pares, a relação entre o valor do imóvel e a sua área e o valor do imóvel e o seu andar. RES.: F, V, V, V. _________________________________________________________________________________________ O modelo de regressão linear simples desenvolvido pelo estatístico para a predição do valor esperado para o imóvel em função da sua área foi: Ao tomar como base esse modelo, que foi ajustado aos dados da amostra cedida pela corretora ao estatístico, podemos estimar que o valor esperado para um apartamento de área igual a 58,0 metros quadrados é igual a (arredondando para mil reais): Resposta correta. A alternativa está correta. Ao substituirmos na equação do modelo pelo valor de 58,0 metros quadrados, obtemos y = 27,22 + 5,15 x 58,0 = 325,92. Esse valor, arredondado para unidades de mil reais, resulta em 326 KR$. RES.: 326. _________________________________________________________________________________________ Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo. Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada. Assinale a alternativa que apresenta a sequência correta. Resposta correta. Chamamos de análise descritiva dos dados seus sumários (ou resumos) e a sua visualização por meio de gráficos. São quatro as variáveis estudadas pela cientista de dados. Para criar sumários estatísticos das variáveis quantitativas, a cientista de dados usou as funções min(), mean() e max() do software estatístico R, e para os sumários estatísticos das variáveis qualitativas, usou a função table() do mesmo software, e assim calculou a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra analisada. RES.: V, V, V, V. _________________________________________________________________________________________ Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras. Vimos que podemos fazer análisedescritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. Resposta correta. A alternativa está correta, pois todas as afirmativas são verdadeiras. Somente podemos fazer uma análise descritiva de um fenômeno ou processo se tivermos dados sobre eles. A análise descritiva se refere a sumários estatísticos e gráficos, os quais permitem a interpretação e a visualização dos dados. A visualização de dados quantitativos é feita, principalmente, por meio de histogramas, e a de dados qualitativos, por meio de diagramas de barras. Já a visualização da relação entre dois dados quantitativos é feita por meio de gráficos de dispersão e, entre uma variável quantitativa e uma qualitativa, por meio de boxplots. Finalmente, sendo esse um curso introdutório, há muitas coisas que não discutimos aqui. RES.: V, V, V, V, V. _________________________________________________________________________________________