Buscar

PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE 
_________________________________________________________________________________________ 
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos 
identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com 
essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por 
exemplo 10, podemos tentar fazer o agrupamento visualmente. 
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente 
formaria para este caso: 
 
Figura - Massa corporal (kg) versus comprimento (m) dos animais 
Fonte: Elaborada pelo autor 
 
Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos que você 
naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais natural é a que 
agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois 
grupos não são tão naturais quanto essa opção. 
 
RES.: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. 
_________________________________________________________________________________________ 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. 
São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa. 
Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa. 
Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa. 
Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa. 
 
 Está correto o que se afirma em: 
 
Resposta correta. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é 
quantitativa e um problema de classificação é um no qual a variável resposta é qualitativa. 
 
RES.: II e III, apenas. 
_________________________________________________________________________________________ 
Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão 
de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, 
como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito 
através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego estável, renda fixa, 
dívidas pequenas, nome limpo e casa própria. 
( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de 
aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. 
( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de 
dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores 
potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo 
cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão. 
( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomendar a 
aprovação ou não da concessão do cartão é de grande valor. 
( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final 
sobre a concessão de cartão para o cliente. 
 
 Assinale a alternativa que apresenta a sequência correta. 
 
Resposta correta. No passado, os bancos faziam a aprovação da concessão de cartões de crédito através da definição de 
regras que deviam ser atendidas por cada cliente; hoje em dia, algoritmos de aprendizado de máquina classificam se o 
cliente é um potencial bom ou mau pagador. Para isso, dados são necessários. Poder contar com a ajuda de um 
software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor para a equipe 
de análise de crédito. A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para 
uma decisão final sobre a concessão de cartão para o cliente. 
 
RES.: V, V, V, V. 
_________________________________________________________________________________________ 
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: 
 
“Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os 
registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o 
número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, 
todas baseadas no conjunto de distância inter-registros.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta 
Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o 
algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos 
grupos mais próximos, até que todos os registros pertençam a um único grupo. 
 
Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se requer para o 
agrupamento por k-médias, o usuário não especifica o número de grupos que o algoritmo deve formar. Em estágios 
progressivos, se parte de tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se 
sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se formar um único grupo, ao 
final, com todos os registro do conjunto de dados analisado. Ao usuário cabe examinar essa estrutura, e decidir que 
agrupamentos fazem mais sentido para a sua análise. 
 
RES.: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
_________________________________________________________________________________________ 
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 
metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 
60 metros quadrados, no bairro, no 12º andar. 
 
 
 
Figura - Árvore de decisão ajustada aos valores dos imóveis 
Fonte: Elaborada pelo autor. 
 
Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica 
corretamente as estimativas de preço desses apartamentos: 
 
Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor dos 
imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos, comparando-as 
com os valores informados em cada nó, chegaremos às estimativas de preços de 319,20 mil reais, 448,80 mil reais, 
366,50 mil reais e 390,40 mil reais, respectivamente, para cada um dos apartamentos descritos no enunciado. 
 
RES.: 319,20; 448,80; 366,50; 390,40 mil reais. 
_________________________________________________________________________________________ 
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados sãodenominados modelos 
paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se 
ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são 
denominados coeficientes do modelo. 
 
No que tange aos coeficientes do modelo de regressão linear simples para o valor do imóvel em função do seu andar, 
analise as afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do 
imóvel em função do seu, b0 = 333,71 e b2 = 6,55. 
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, 
que são, respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0. Pode ser interpretado como o 
valor estimado de um apartamento localizado no térreo, porém isso é uma extrapolação, pois, na amostra analisada, 
não há nenhum apartamento no andar térreo. 
IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1 
andar. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples 
ajustado aos dados da amostra. 
Está correto o que se afirma em: 
 
Resposta correta. A alternativa está correta, pois todas as afirmativas dessa questão se apresentam de maneira 
adequada. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples, b0 = 
333,71 e b2 = 6,55; os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área 
possuem unidades, que são, respectivamente, kR$ para b0 e kR$/andar para b2; o coeficiente b0 é a intersecção da reta 
do modelo com o eixo vertical y quanto x2 = 0 e pode ser interpretado como o valor estimado de um apartamento 
localizado no térreo; já o coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar 
em exatamente 1 andar. 
 
RES.: I, II, III e IV. 
_________________________________________________________________________________________ 
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou 
gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. 
E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única 
variável, a qual deve ser obrigatoriamente uma variável qualitativa. 
( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados 
das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista 
de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, 
ou se não há uma relação aparente entre as duas. 
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de 
gráfico é chamado, em inglês, de scatter plot. 
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de 
gráfico é chamado, em inglês, de scatter plot. 
 
 Assinale a alternativa que apresenta a sequência correta. 
 
Resposta correta. A única asserção falsa é a que afirma que gráficos de dispersão só podem ser usados para a 
visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. É correto dizer que são 
usados para a visualização da relação entre duas variáveis quantitativas, permitindo a verificação visual de tendência de 
uma variável aumentar quando a outra aumenta, diminuir quando a outra aumenta, ou se não há uma relação aparente 
entre as duas. Sendo assim, puderam ser usados para exibir, em pares, a relação entre o valor do imóvel e a sua área e 
o valor do imóvel e o seu andar. 
 
RES.: F, V, V, V. 
_________________________________________________________________________________________ 
O modelo de regressão linear simples desenvolvido pelo estatístico para a predição do valor esperado para o imóvel em 
função da sua área foi: 
 
 
 
Ao tomar como base esse modelo, que foi ajustado aos dados da amostra cedida pela corretora ao estatístico, podemos 
estimar que o valor esperado para um apartamento de área igual a 58,0 metros quadrados é igual a (arredondando para 
mil reais): 
 
Resposta correta. A alternativa está correta. Ao substituirmos na equação do modelo pelo valor de 58,0 metros 
quadrados, obtemos y = 27,22 + 5,15 x 58,0 = 325,92. Esse valor, arredondado para unidades de mil reais, resulta em 
326 KR$. 
 
RES.: 326. 
_________________________________________________________________________________________ 
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados 
não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma 
análise descritiva deles antes do desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. 
Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do 
fenômeno ou processo estudado. 
( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, 
se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo 
do deste período. 
( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a 
cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, 
médio e máximo dos dados observados para essas variáveis. 
( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou 
não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados 
usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas 
variáveis se manifestaram na amostra estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta correta. Chamamos de análise descritiva dos dados seus sumários (ou resumos) e a sua visualização por meio 
de gráficos. São quatro as variáveis estudadas pela cientista de dados. Para criar sumários estatísticos das variáveis 
quantitativas, a cientista de dados usou as funções min(), mean() e max() do software estatístico R, e para os sumários 
estatísticos das variáveis qualitativas, usou a função table() do mesmo software, e assim calculou a frequência com que 
os níveis de cada uma dessas variáveis se manifestaram na amostra analisada. 
 
RES.: V, V, V, V. 
_________________________________________________________________________________________ 
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos 
denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma 
jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. 
Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. 
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) Dados e amostras. Vimos que podemos fazer análisedescritiva de um processo apenas se tivermos dados sobre 
esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses 
dados como amostra. 
II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos 
calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e 
visualizações produzidas por meio de gráficos. 
III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas 
são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, 
que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados 
qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. 
IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno 
observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. 
Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua 
área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots 
(diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, 
dentro dele, como se comporta a variável quantitativa. 
V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso 
decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito 
valorizadas pelo mercado de trabalho. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta correta. A alternativa está correta, pois todas as afirmativas são verdadeiras. Somente podemos fazer uma 
análise descritiva de um fenômeno ou processo se tivermos dados sobre eles. A análise descritiva se refere a sumários 
estatísticos e gráficos, os quais permitem a interpretação e a visualização dos dados. A visualização de dados 
quantitativos é feita, principalmente, por meio de histogramas, e a de dados qualitativos, por meio de diagramas de 
barras. Já a visualização da relação entre dois dados quantitativos é feita por meio de gráficos de dispersão e, entre uma 
variável quantitativa e uma qualitativa, por meio de boxplots. Finalmente, sendo esse um curso introdutório, há muitas 
coisas que não discutimos aqui. 
 
RES.: V, V, V, V, V. 
_________________________________________________________________________________________