Estatística Aplicada ao Data Science

•

UAM

0

Claudio Mateus

11/05/2024

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

58.854 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Estatística Aplicada ao Data Science - Prova N2
Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes)
Digitalizar para abrir em Studocu
A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade
Estatística Aplicada ao Data Science - Prova N2
Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes)
Digitalizar para abrir em Studocu
A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
Prova N2
Estatística Aplicada ao Data Science
1) É da estatística que a ciência dos dados herda uma forma muito bem estudada
de classificação dos tipos de dados. Na estatística, os dados são divididos
entre dados quantitativos e dados qualitativos. Estes últimos, os dados
qualitativos, podem ser dicotômicos ou politômicos.

Acerca do exposto, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis
qualitativas que podem assumir apenas dois níveis (também denominados
classes) como seus valores, tais como sexo (feminino ou masculino), ocupação
(empregado ou desempregado), localização (bairro ou centro).
II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis
qualitativas que podem assumir três ou mais níveis como seus valores, tais
como classe social (A, B, C, D e E), escolaridade (fundamental, médio,
superior), gravidade da doença (baixa, média, alta).
III. ( ) A função table() do R permite a contagem da frequência de cada nível
assumido por uma variável qualitativa em uma dada amostra. Foi usada pelo
estatístico para contar a frequência de imóveis vendidos no bairro e no centro,
na amostra cedida pela corretora.
IV. ( ) O diagrama de barras permite a visualização gráfica da contagem da
frequência dos níveis observados de uma variável qualitativa. Foi usado pelo
estatístico para a visualização de quantos imóveis foram vendidos no bairro e
no centro.

Assinale a alternativa que apresenta a sequência correta.

R: V, V, V, V.
2) Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da
análise descritiva dos dados, ao lado das técnicas gráficas para a visualização
dos dados. Nesta unidade, usamos pela primeira vez a função summary()
do software estatístico R.

Em relação ao output dessa função, aplicada a dados quantitativos, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média,
segundo quartil e valor mínimo observado.
II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média,
terceiro quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se
encontram 25% dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50%
dos dados observados.

Assinale a alternativa que apresenta a sequência correta:
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
R: F, V, F, V.
3) A visualização da relação entre duas variáveis é, habitualmente, feita por meio
de gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic
plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de
gráficos segue regras bem precisas, especificamente a que duas variáveis eles
podem representar de forma visual.

Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é
quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de
dispersão.
II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre
uma variável quantitativa e uma variável qualitativa, em que, no eixo horizontal,
indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos
valores observados para a variável quantitativa.
III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas,
um dos gráficos preferidos é o diagrama de caixas, também conhecido como
boxplot.
IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os
níveis da variável qualitativa e, no eixo horizontal, os valores da variável
quantitativa. Nesse caso, a visualização da variação dos dados da variável
quantitativa é exibida horizontalmente e os níveis (classes) da variável
qualitativa são exibidos verticalmente.

Assinale a alternativa que apresenta a sequência correta.

R: V, V, F, V.
4) Discutimos o que são aprendizagem supervisionada e não supervisionada.
Vimos que é na forma como tratamos as variáveis estudadas que se dá a
diferença entre esses dois tipos de aprendizagens, supervisionada e não
supervisionada. Esses dois tipos são os mais importantes dentre os diversos
tipos de aprendizagem.

Relativamente a esse assunto, analise as afirmativas a seguir:

I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas
como sendo a variável resposta, a qual responde em função dos valores
assumidos pelas outras variáveis, as quais são chamadas de variáveis de
entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos
uma variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos
uma variável de entrada de variável regressora, variável preditora, variável
explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis
estudadas da mesma forma, sem procurar explicar o comportamento de uma
delas em função dos valores assumidos pelas outras.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065

R: I, II, III e IV.
5) Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um
modelo de regressão logística múltipla aos dados da amostra. Os resultados
que encontrou foram muito ricos, sugerindo uma série de explicações,
aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos
“explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser
confrontado com especialistas da área em estudo. Contudo, vamos rever o que
o modelode regressão múltipla treinado pela jovem cientista de dados sugere.
Para isso, analise as afirmativas a seguir.

1. A probabilidade da inadimplência cresce com o aumento dos gastos médios
com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados
“contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos
coragem de generalizar para outras situações, mas foi o que os dados da
amostra do gerente do banco “contaram” para o algoritmo de regressão
logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com
cartão de crédito, a probabilidade de inadimplência com o cartão é maior para
aquela sem emprego estável. Novamente, isto foi o que os dados amostrados
“contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra,
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio
mensal com cartão de crédito e se ela tem ou não um emprego estável, na
probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um
algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à
aprovação de cartão de crédito, ao lado de outros critérios e ferramentas
analíticas disponíveis para o banco.

Está correto o que se afirma em:

R: I, II, III e IV.
6) A amostra relativa aos dados de inadimplência com cartões tinha 200
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio
com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou
Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente
com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não).
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de
dados são dados relativos a variáveis quantitativas.
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de
dados são dados relativos a variáveis qualitativas.
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de
dados, dois são relativos a uma variável quantitativa e dois são relativos a
variáveis qualitativas.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de
dados, um é relativo a uma variável quantitativa e os outros são relativos a
variáveis qualitativas.

Assinale a alternativa que apresenta a sequência correta.

R: F, F, V, F.
7) Em uma análise de agrupamento examinamos os dados observados (as linhas
da tabela com os dados) e procuramos identificar, através de algum critério de
similaridade, aquelas que estão mais próximas entre si, e formamos grupos
com essas observações similares. Quando são apenas 2 variáveis e poucas
observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar
fazer o agrupamento visualmente.

Analise a figura adiante e assinale a alternativa que indica a menor quantidade
de grupos que você naturalmente formaria para este caso:
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
R: DOIS GRUPOS, UM COM 6 INDIVÍDUOS E OUTRO COM 4 INDIVÍDUOS.
8) Há diferentes formas de descrever as principais etapas de desenvolvimento de
um algoritmo preditivo, mas sempre encontraremos muitas similaridades entre
essas diferentes formas. Aqui, apresentamos uma que divide o
desenvolvimento de um algoritmo preditivo em 10 etapas.

Em relação a esse assunto, analise as afirmativas a seguir.

I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os
modelos e algoritmos preditivos são imunes a dados viciados.
II. A análise descritiva dos dados sempre vem depois das etapas de treino
(ajuste) e teste do modelo (algoritmo) aos dados coletados.
III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
importante, pois só assim saberemos se atingiu o propósito para o qual foi
desenvolvido. Com base no feedback do cliente, podemos produzir
melhoramentos no modelo.
IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para
verificar a sua performance preditiva.

Está correto o que se afirma em:

R: III e IV, APENAS
9) Um jovem cientista de dados realizou uma análise de agrupamento de apenas
cinco estados americanos parte do famoso conjunto de dados USArrests, o
qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder,
Assault, UrbanPop e Rape).

Obteve o resultado exibido na figura exibida adiante:

Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:

R: É um dendograma, ou seja, um gráfico na forma de
uma árvore, que representa os vários grupos formados
em cada estágio do processo de agrupamento
hierárquico.
10) Leia o excerto a seguir:
“Os modelos de árvores, também chamados de Árvores de Classificação e
Regressão, árvores de decisão ou apenas árvores, são um método de
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais
potentes, florestas aleatórias e boosting, formam a base das ferramentas de
modelagem preditiva mais potentes e amplamente usadas na ciência de dados
tanto para regressão quanto para classificação.”
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50
conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226.
Quanto às árvores de decisão para classificação e regressão, analise as
afirmativas a seguir:
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando
uma de cada vez, de forma hierárquica, das mais importante às menos
importantes, a cada estágio da sua construção, até chegar aos nós terminais,
suas folhas, em que exibe os valores estimados para a variável resposta.
II. A cada estágio da construção da árvore, o nó inicial e depois os nós
intermediários dividem o domínio da variável de entrada em questão, de onde
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos
no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à
esquerda ou à direita do nó em questão.
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para
fazer a partição da variável tratada naquele estágio da construção da árvore.
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que
designa os nós terminais das árvores, nos quais são exibidos os valores
estimados para a variável resposta do modelo preditivo. Cada caminho da
árvore indica, dessa forma, o valor a estimar para os valores das variáveis de
entrada, informadas no caminho do nó inicial até a folha.
Está correto o que se afirma em:
R: I, II, III e IV.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065