PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE

•

UNIFACS

Luis SS

05/02/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE
_________________________________________________________________________________________
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos
identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com
essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por
exemplo 10, podemos tentar fazer o agrupamento visualmente.

Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente
formaria para este caso:

Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor

Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos que você
naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais natural é a que
agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois
grupos não são tão naturais quanto essa opção.

RES.: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
_________________________________________________________________________________________
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação.
São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si.

Relativamente a esses dois tipos, analise as afirmativas a seguir.

Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa.
Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa.
Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa.
Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa.

Está correto o que se afirma em:

Resposta correta. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é
quantitativa e um problema de classificação é um no qual a variável resposta é qualitativa.

RES.: II e III, apenas.
_________________________________________________________________________________________
Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão
de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia,
como os bancos fazem essa aprovação?

Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).

( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito
através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego estável, renda fixa,
dívidas pequenas, nome limpo e casa própria.
( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de
aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador.
( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de
dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores
potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo
cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão.
( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomendar a
aprovação ou não da concessão do cartão é de grande valor.
( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final
sobre a concessão de cartão para o cliente.

Assinale a alternativa que apresenta a sequência correta.

Resposta correta. No passado, os bancos faziam a aprovação da concessão de cartões de crédito através da definição de
regras que deviam ser atendidas por cada cliente; hoje em dia, algoritmos de aprendizado de máquina classificam se o
cliente é um potencial bom ou mau pagador. Para isso, dados são necessários. Poder contar com a ajuda de um
software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor para a equipe
de análise de crédito. A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para
uma decisão final sobre a concessão de cartão para o cliente.

RES.: V, V, V, V.
_________________________________________________________________________________________
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico:

“Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os
registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o
número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes,
todas baseadas no conjunto de distância inter-registros.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta
Books, 2019, p. 278.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o
algoritmo formar.
Pois
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos
grupos mais próximos, até que todos os registros pertençam a um único grupo.

Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se requer para o
agrupamento por k-médias, o usuário não especifica o número de grupos que o algoritmo deve formar. Em estágios
progressivos, se parte de tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se
sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se formar um único grupo, ao
final, com todos os registro do conjunto de dados analisado. Ao usuário cabe examinar essa estrutura, e decidir que
agrupamentos fazem mais sentido para a sua análise.

RES.: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
_________________________________________________________________________________________
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77
metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com
60 metros quadrados, no bairro, no 12º andar.

Figura - Árvore de decisão ajustada aos valores dos imóveis
Fonte: Elaborada pelo autor.

Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica
corretamente as estimativas de preço desses apartamentos:

Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor dos
imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos, comparando-as
com os valores informados em cada nó, chegaremos às estimativas de preços de 319,20 mil reais, 448,80 mil reais,
366,50 mil reais e 390,40 mil reais, respectivamente, para cada um dos apartamentos descritos no enunciado.

RES.: 319,20; 448,80; 366,50; 390,40 mil reais.
_________________________________________________________________________________________
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados sãodenominados modelos
paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se
ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são
denominados coeficientes do modelo.

No que tange aos coeficientes do modelo de regressão linear simples para o valor do imóvel em função do seu andar,
analise as afirmativas a seguir.

I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do
imóvel em função do seu, b0 = 333,71 e b2 = 6,55.
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades,
que são, respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais dividido pelo andar do imóvel) para b2.
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x2 = 0. Pode ser interpretado como o
valor estimado de um apartamento localizado no térreo, porém isso é uma extrapolação, pois, na amostra analisada,
não há nenhum apartamento no andar térreo.
IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar em exatamente 1
andar. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples
ajustado aos dados da amostra.
Está correto o que se afirma em:

Resposta correta. A alternativa está correta, pois todas as afirmativas dessa questão se apresentam de maneira
adequada. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples, b0 =
333,71 e b2 = 6,55; os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área
possuem unidades, que são, respectivamente, kR$ para b0 e kR$/andar para b2; o coeficiente b0 é a intersecção da reta
do modelo com o eixo vertical y quanto x2 = 0 e pode ser interpretado como o valor estimado de um apartamento
localizado no térreo; já o coeficiente b2 indica quanto varia o valor esperado do imóvel para um aumento de seu andar
em exatamente 1 andar.

RES.: I, II, III e IV.
_________________________________________________________________________________________
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou
gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão.
E você, será que você também já sabe?

Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única
variável, a qual deve ser obrigatoriamente uma variável qualitativa.
( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados
das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista
de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui,
ou se não há uma relação aparente entre as duas.
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de
gráfico é chamado, em inglês, de scatter plot.
( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de
gráfico é chamado, em inglês, de scatter plot.

Assinale a alternativa que apresenta a sequência correta.

Resposta correta. A única asserção falsa é a que afirma que gráficos de dispersão só podem ser usados para a
visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. É correto dizer que são
usados para a visualização da relação entre duas variáveis quantitativas, permitindo a verificação visual de tendência de
uma variável aumentar quando a outra aumenta, diminuir quando a outra aumenta, ou se não há uma relação aparente
entre as duas. Sendo assim, puderam ser usados para exibir, em pares, a relação entre o valor do imóvel e a sua área e
o valor do imóvel e o seu andar.

RES.: F, V, V, V.
_________________________________________________________________________________________
O modelo de regressão linear simples desenvolvido pelo estatístico para a predição do valor esperado para o imóvel em
função da sua área foi:

Ao tomar como base esse modelo, que foi ajustado aos dados da amostra cedida pela corretora ao estatístico, podemos
estimar que o valor esperado para um apartamento de área igual a 58,0 metros quadrados é igual a (arredondando para
mil reais):

Resposta correta. A alternativa está correta. Ao substituirmos na equação do modelo pelo valor de 58,0 metros
quadrados, obtemos y = 27,22 + 5,15 x 58,0 = 325,92. Esse valor, arredondado para unidades de mil reais, resulta em
326 KR$.

RES.: 326.
_________________________________________________________________________________________
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados
não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma
análise descritiva deles antes do desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização.
Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do
fenômeno ou processo estudado.
( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão,
se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo
do deste período.
( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a
cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo,
médio e máximo dos dados observados para essas variáveis.
( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou
não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados
usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas
variáveis se manifestaram na amostra estudada.

Assinale a alternativa que apresenta a sequência correta.

Resposta correta. Chamamos de análise descritiva dos dados seus sumários (ou resumos) e a sua visualização por meio
de gráficos. São quatro as variáveis estudadas pela cientista de dados. Para criar sumários estatísticos das variáveis
quantitativas, a cientista de dados usou as funções min(), mean() e max() do software estatístico R, e para os sumários
estatísticos das variáveis qualitativas, usou a função table() do mesmo software, e assim calculou a frequência com que
os níveis de cada uma dessas variáveis se manifestaram na amostra analisada.

RES.: V, V, V, V.
_________________________________________________________________________________________
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos
denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma
jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você.
Desse modo, tentaremos fazer um breve resumo dessa jornada aqui.

Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).

I. ( ) Dados e amostras. Vimos que podemos fazer análisedescritiva de um processo apenas se tivermos dados sobre
esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses
dados como amostra.
II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos
calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e
visualizações produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas
são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma,
que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados
qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família.
IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno
observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados.
Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua
área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots
(diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e,
dentro dele, como se comporta a variável quantitativa.
V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso
decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito
valorizadas pelo mercado de trabalho.

Assinale a alternativa que apresenta a sequência correta.

Resposta correta. A alternativa está correta, pois todas as afirmativas são verdadeiras. Somente podemos fazer uma
análise descritiva de um fenômeno ou processo se tivermos dados sobre eles. A análise descritiva se refere a sumários
estatísticos e gráficos, os quais permitem a interpretação e a visualização dos dados. A visualização de dados
quantitativos é feita, principalmente, por meio de histogramas, e a de dados qualitativos, por meio de diagramas de
barras. Já a visualização da relação entre dois dados quantitativos é feita por meio de gráficos de dispersão e, entre uma
variável quantitativa e uma qualitativa, por meio de boxplots. Finalmente, sendo esse um curso introdutório, há muitas
coisas que não discutimos aqui.

RES.: V, V, V, V, V.
_________________________________________________________________________________________