Buscar

PROVA N2 - UAM 2022 - ESTATISTICA APLICADA AO DATA SCIENCE - PD

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

UAM 2022 - ESTATÍSTICA APLICADA AO DATA SCIENCE 
 
PROVA N2 
 
 
1. Continuando com o mesmo caso da questão anterior, relativa à aprovação, 
pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no 
passado, a aprovação da concessão de cartões de crédito pelos bancos? E, 
hoje em dia, como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir 
e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a 
aprovação da concessão de cartões de crédito através da definição de regras 
que devem ser atendidas por cada cliente, tais como idade, emprego estável, 
renda fixa, dívidas pequenas, nome limpo e casa própria. 
( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada 
pelos bancos são algoritmos de aprendizagem supervisionada que classificam 
se o cliente é um potencial bom ou mau pagador. 
( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou 
não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com 
base nos dados que lhe são passados, a predizer clientes que são maus 
pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao 
ser alimentado com os dados referentes a um novo cliente, classificar esse 
cliente como um mau pagador potencial, o banco não aprovará o cartão. 
( ) Para equipes de análise de crédito, poder contar com a ajuda de um 
software com a capacidade de recomendar a aprovação ou não da concessão 
do cartão é de grande valor. 
( ) A recomendação feita pelo software poderá ser tratada ao lado de outras 
regras de crédito para uma decisão final sobre a concessão de cartão para o 
cliente. 
Assinale a alternativa que apresenta a sequência correta. 
RESPOSTA: V,V,V,V 
 
 
2. Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou gráficos de dispersão. Como 
cientista de dados, ela sabia exatamente em que situações empregar gráficos 
de dispersão. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser 
usados para a visualização de uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa. 
( ) Gráficos de dispersão são usados para a visualização da relação entre duas 
variáveis quantitativas, em que os dados das duas variáveis são plotados aos 
pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo 
cientista de dados, se há uma tendência de uma variável aumentar quando a 
outra aumenta, diminuir quando a outra diminui, ou se não há uma relação 
aparente entre as duas. 
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o 
valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de 
scatter plot. 
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o 
valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de 
scatter plot. 
 
Assinale a alternativa que apresenta a sequência correta. 
RESPOSTA: F,V,V,V 
 
3. A análise descritiva dos dados é uma etapa muito importante no processo de 
descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, 
pois comumente já traz muitas descobertas. Em grande parte das vezes, é 
uma das etapas iniciais, seguida de etapas relacionadas à modelagem dos 
dados. 
 
Em relação às ferramentas usadas por um estatístico ou um cientista de dados 
para a análise descritiva de dados, analise as afirmativas a seguir: 
 
I. Gráficos são usados para a visualização de cada variável ou relação entre 
variáveis. 
II. Tabelas, sumários e gráficos são as ferramentas básicas da análise 
descritiva. 
III. Modelos preditivos são usados para a análise descritiva de dados. 
IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. 
RESPOSTA: I,II e IV Apenas. 
 
4. Leia o excerto a seguir: 
“Os modelos de árvores, também chamados de Árvores de Classificação e 
Regressão, árvores de decisão ou apenas árvores, são um método de 
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo 
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais 
potentes, florestas aleatórias e boosting, formam a base das ferramentas de 
modelagem preditiva mais potentes e amplamente usadas na ciência de dados 
tanto para regressão quanto para classificação.” 
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 
conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. 
Quanto às árvores de decisão para classificação e regressão, analise as 
afirmativas a seguir: 
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando 
uma de cada vez, de forma hierárquica, das mais importante às menos 
importantes, a cada estágio da sua construção, até chegar aos nós terminais, 
suas folhas, em que exibe os valores estimados para a variável resposta. 
II. A cada estágio da construção da árvore, o nó inicial e depois os nós 
intermediários dividem o domínio da variável de entrada em questão, de onde 
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos 
no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à 
esquerda ou à direita do nó em questão. 
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor 
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para 
fazer a partição da variável tratada naquele estágio da construção da árvore. 
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que 
designa os nós terminais das árvores, nos quais são exibidos os valores 
estimados para a variável resposta do modelo preditivo. Cada caminho da 
árvore indica, dessa forma, o valor a estimar para os valores das variáveis de 
entrada, informadas no caminho do nó inicial até a folha. 
Está correto o que se afirma em: 
RESPOSTA: I, II, III, IV. 
 
5. Algoritmos de aprendizado de máquina nos permitem tratar de problemas que 
seriam difíceis de serem tratados por regras criadas por seres humanos, mas 
que, curiosamente, ficam relativamente fáceis de serem tratados por algoritmos 
criados por seres humanos. As formas de solução desses problemas são 
chamadas tarefas de aprendizado de máquina. 
 
Tomando como base esse texto e o que já discutimos sobre as tarefas de 
aprendizado de máquina, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Tarefas de regressão são capazes de predizer valores para variáveis 
resposta quantitativas e tarefas de classificação para variáveis resposta 
qualitativas. 
II. ( ) Tarefas de classificação com dados faltantes são tarefas de classificação 
aplicadas a situações em que alguns dados de entrada estão faltando. 
III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva 
um conjunto de dados não tão bem estruturados em uma forma discreta bem 
estruturada. 
IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que converta uma 
sequência de símbolos escritos em uma linguagem para uma sequência de 
símbolos em outra linguagem. 
 
Assinale a alternativa que apresenta a sequência correta: 
RESPOSTA: F,V,V,F 
 
6. Gráficos de dispersão têm emprego consagrado quando falamos a respeito de 
visualização de dados. Eles são usados, porém, de uma forma bem específica, 
pois não podem ser usados para a visualização de qualquer tipo de variável, 
nem em qualquer situação. 
 
A partir do exposto, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só podem ser 
usados para a visualização de uma única variável, a qual deve ser,obrigatoriamente, uma variável qualitativa. 
II. ( ) Gráficos de dispersão são usados para a visualização da relação entre 
duas variáveis quantitativas, em que os dados das duas variáveis são plotados 
aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo 
cientista de dados, se há uma tendência de uma variável aumentar quando a 
outra aumenta, diminuir quando a outra diminui, ou se não há uma relação 
aparente entre as duas. 
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre 
o valor do imóvel e a sua área. Esse tipo de gráfico é denominado, em inglês, 
scatter plot. 
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre 
o valor do imóvel e o seu andar. Esse tipo de gráfico é denominado, em inglês, 
scatter plot. 
 
Assinale a alternativa que apresenta a sequência correta. 
RESPOSTA: F,V,V,V. 
 
7. A escolha de grupos formados por um algoritmo de agrupamento hierárquico 
pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a 
altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que 
cruzará com as linhas verticais dos grupos formados nesta altura. O cientista 
de dados decide se esses grupos são adequados para a sua análise. 
 
Veja, por exemplo, a figura abaixo. 
 
 
 
Figura - Dendrograma do agrupamento de oito estados 
Fonte: Elaborada pelo autor 
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e 
assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
RESPOSTA: V,F,F,V 
 
8. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados 
são denominados modelos paramétricos, ou seja, que possuem parâmetros. 
Esses parâmetros devem ser determinados quando se treina (se ajusta) o 
modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou 
múltipla, esses parâmetros são denominados coeficientes do modelo. 
 
No que tange aos coeficientes do modelo de regressão linear simples para o 
valor do imóvel em função do seu andar, analise as afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de 
regressão linear simples do valor do imóvel em função do seu, b0 = 333,71 e 
b2 = 6,55. 
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel 
em função da sua área possuem unidades, que são, respectivamente, kR$ (mil 
reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y 
quanto x2 = 0. Pode ser interpretado como o valor estimado de um 
apartamento localizado no térreo, porém isso é uma extrapolação, pois, na 
amostra analisada, não há nenhum apartamento no andar térreo. 
IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um 
aumento de seu andar em exatamente 1 andar. Graficamente, esse coeficiente 
é a inclinação da reta que representa o modelo de regressão linear simples 
ajustado aos dados da amostra. 
Está correto o que se afirma em: 
RESPOSTA: I, II, III e IV. 
 
9. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados 
são denominados modelos paramétricos, ou seja, que possuem parâmetros. 
Esses parâmetros devem ser determinados quando se treina (se ajusta) o 
modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou 
múltipla, esses parâmetros são denominados coeficientes do modelo. 
 
A respeito dos coeficientes do modelo de regressão linear simples para o valor 
do imóvel em função da sua área, analise as afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de 
regressão linear simples do valor do imóvel em função da sua área, b0 = 
27,22 e b1 = 5,15. 
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel 
em função da sua área possuem unidades, que são, respectivamente, kR$ (mil 
reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y 
quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis 
com área igual a zero. Deve ser entendido, nessa situação, apenas como um 
parâmetro de ajuste do modelo aos dados da amostra. 
IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um 
aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a 
inclinação da reta que representa o modelo de regressão linear simples 
ajustado aos dados da amostra. 
Está correto o que se afirma em: 
RESPOSTA: I, II, III e IV. 
 
10. Com os dados cedidos pela corretora em mãos, o estatístico aplicou a função 
cor(), do software estatístico R, na análise da correlação entre o valor do 
imóvel e a sua área e entre o valor do imóvel e o seu andar. 
 
Relativamente a esse assunto, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) O resultado da correlação entre o valor do imóvel e a sua área, isto é, 
cor(y,x1) = 0,55, indica uma correlação negativa moderada entre essas duas 
variáveis. 
II. ( ) O resultado da correlação entre o valor do imóvel e o seu andar, isto é, 
cor(y,x2) = 0,24, indica uma correlação negativa fraca entre essas duas 
variáveis. 
III. ( ) O resultado da correlação entre o valor do imóvel e a sua área, isto é, 
cor(y,x1) = 0,55, indica uma correlação positiva moderada entre essas duas 
variáveis. 
IV. ( ) O resultado da correlação entre o valor do imóvel e o seu andar, isto é, 
cor(y,x2) = 0,24, indica uma correlação positiva fraca entre essas duas 
variáveis. 
 
Assinale a alternativa que apresenta a sequência correta. 
RESPOSTA: F, F, V, V.

Continue navegando