Buscar

Estatística Aplicada ao Data Science

Prévia do material em texto

Estatística Aplicada ao Data Science - Prova N2
Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes)
Digitalizar para abrir em Studocu
A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade
Estatística Aplicada ao Data Science - Prova N2
Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes)
Digitalizar para abrir em Studocu
A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
Prova N2
Estatística Aplicada ao Data Science
1) É da estatística que a ciência dos dados herda uma forma muito bem estudada
de classificação dos tipos de dados. Na estatística, os dados são divididos 
entre dados quantitativos e dados qualitativos. Estes últimos, os dados 
qualitativos, podem ser dicotômicos ou politômicos. 
 
Acerca do exposto, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis 
qualitativas que podem assumir apenas dois níveis (também denominados 
classes) como seus valores, tais como sexo (feminino ou masculino), ocupação
(empregado ou desempregado), localização (bairro ou centro).
II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis 
qualitativas que podem assumir três ou mais níveis como seus valores, tais 
como classe social (A, B, C, D e E), escolaridade (fundamental, médio, 
superior), gravidade da doença (baixa, média, alta).
III. ( ) A função table() do R permite a contagem da frequência de cada nível 
assumido por uma variável qualitativa em uma dada amostra. Foi usada pelo 
estatístico para contar a frequência de imóveis vendidos no bairro e no centro, 
na amostra cedida pela corretora.
IV. ( ) O diagrama de barras permite a visualização gráfica da contagem da 
frequência dos níveis observados de uma variável qualitativa. Foi usado pelo 
estatístico para a visualização de quantos imóveis foram vendidos no bairro e 
no centro.
 
Assinale a alternativa que apresenta a sequência correta.
 
 R: V, V, V, V.
2) Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da 
análise descritiva dos dados, ao lado das técnicas gráficas para a visualização 
dos dados. Nesta unidade, usamos pela primeira vez a função summary() 
do software estatístico R.
 
Em relação ao output dessa função, aplicada a dados quantitativos, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, 
segundo quartil e valor mínimo observado.
II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, 
terceiro quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se 
encontram 25% dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% 
dos dados observados.
 
Assinale a alternativa que apresenta a sequência correta: 
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
R: F, V, F, V.
3) A visualização da relação entre duas variáveis é, habitualmente, feita por meio 
de gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic 
plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de 
gráficos segue regras bem precisas, especificamente a que duas variáveis eles
podem representar de forma visual.
 
Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é 
quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de 
dispersão.
II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre
uma variável quantitativa e uma variável qualitativa, em que, no eixo horizontal,
indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos 
valores observados para a variável quantitativa.
III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, 
um dos gráficos preferidos é o diagrama de caixas, também conhecido como 
boxplot.
IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os 
níveis da variável qualitativa e, no eixo horizontal, os valores da variável 
quantitativa. Nesse caso, a visualização da variação dos dados da variável 
quantitativa é exibida horizontalmente e os níveis (classes) da variável 
qualitativa são exibidos verticalmente.
 
Assinale a alternativa que apresenta a sequência correta.
 
 R: V, V, F, V.
4) Discutimos o que são aprendizagem supervisionada e não supervisionada. 
Vimos que é na forma como tratamos as variáveis estudadas que se dá a 
diferença entre esses dois tipos de aprendizagens, supervisionada e não 
supervisionada. Esses dois tipos são os mais importantes dentre os diversos 
tipos de aprendizagem.
 
Relativamente a esse assunto, analise as afirmativas a seguir:
 
I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas 
como sendo a variável resposta, a qual responde em função dos valores 
assumidos pelas outras variáveis, as quais são chamadas de variáveis de 
entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos 
uma variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos 
uma variável de entrada de variável regressora, variável preditora, variável 
explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento de uma 
delas em função dos valores assumidos pelas outras.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
 
 R: I, II, III e IV.
5) Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um 
modelo de regressão logística múltipla aos dados da amostra. Os resultados 
que encontrou foram muito ricos, sugerindo uma série de explicações, 
aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos 
“explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser 
confrontado com especialistas da área em estudo. Contudo, vamos rever o que
o modelode regressão múltipla treinado pela jovem cientista de dados sugere. 
Para isso, analise as afirmativas a seguir.
 
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios 
com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados 
“contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média 
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos 
coragem de generalizar para outras situações, mas foi o que os dados da 
amostra do gerente do banco “contaram” para o algoritmo de regressão 
logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com 
cartão de crédito, a probabilidade de inadimplência com o cartão é maior para 
aquela sem emprego estável. Novamente, isto foi o que os dados amostrados 
“contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, 
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio 
mensal com cartão de crédito e se ela tem ou não um emprego estável, na 
probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um 
algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à 
aprovação de cartão de crédito, ao lado de outros critérios e ferramentas 
analíticas disponíveis para o banco.
 
Está correto o que se afirma em:
 
 R: I, II, III e IV.
6) A amostra relativa aos dados de inadimplência com cartões tinha 200 
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio 
com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou 
Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente
com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não).
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s).
 
1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de 
dados são dados relativos a variáveis quantitativas.
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de 
dados são dados relativos a variáveis qualitativas.
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de 
dados, dois são relativos a uma variável quantitativa e dois são relativos a 
variáveis qualitativas.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de 
dados, um é relativo a uma variável quantitativa e os outros são relativos a 
variáveis qualitativas.
 
Assinale a alternativa que apresenta a sequência correta.
 
 R: F, F, V, F.
7) Em uma análise de agrupamento examinamos os dados observados (as linhas 
da tabela com os dados) e procuramos identificar, através de algum critério de 
similaridade, aquelas que estão mais próximas entre si, e formamos grupos 
com essas observações similares. Quando são apenas 2 variáveis e poucas 
observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar 
fazer o agrupamento visualmente.
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade 
de grupos que você naturalmente formaria para este caso:
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
 R: DOIS GRUPOS, UM COM 6 INDIVÍDUOS E OUTRO COM 4 INDIVÍDUOS.
8) Há diferentes formas de descrever as principais etapas de desenvolvimento de 
um algoritmo preditivo, mas sempre encontraremos muitas similaridades entre 
essas diferentes formas. Aqui, apresentamos uma que divide o 
desenvolvimento de um algoritmo preditivo em 10 etapas.
 
Em relação a esse assunto, analise as afirmativas a seguir.
 
I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os
modelos e algoritmos preditivos são imunes a dados viciados.
II. A análise descritiva dos dados sempre vem depois das etapas de treino 
(ajuste) e teste do modelo (algoritmo) aos dados coletados.
III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito 
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
importante, pois só assim saberemos se atingiu o propósito para o qual foi 
desenvolvido. Com base no feedback do cliente, podemos produzir 
melhoramentos no modelo.
IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para 
verificar a sua performance preditiva.
 
Está correto o que se afirma em:
 
 R: III e IV, APENAS
9) Um jovem cientista de dados realizou uma análise de agrupamento de apenas 
cinco estados americanos parte do famoso conjunto de dados USArrests, o 
qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, 
Assault, UrbanPop e Rape).
 
Obteve o resultado exibido na figura exibida adiante:
 
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor
 
Relativamente à interpretação desta figura, assinale a alternativa correta:
 
 R: É um dendograma, ou seja, um gráfico na forma de 
uma árvore, que representa os vários grupos formados 
em cada estágio do processo de agrupamento 
hierárquico.
10) Leia o excerto a seguir:
“Os modelos de árvores, também chamados de Árvores de Classificação e 
Regressão, árvores de decisão ou apenas árvores, são um método de 
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais 
potentes, florestas aleatórias e boosting, formam a base das ferramentas de 
modelagem preditiva mais potentes e amplamente usadas na ciência de dados 
tanto para regressão quanto para classificação.”
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065
https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 
conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226.
Quanto às árvores de decisão para classificação e regressão, analise as 
afirmativas a seguir:
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando 
uma de cada vez, de forma hierárquica, das mais importante às menos 
importantes, a cada estágio da sua construção, até chegar aos nós terminais, 
suas folhas, em que exibe os valores estimados para a variável resposta.
II. A cada estágio da construção da árvore, o nó inicial e depois os nós 
intermediários dividem o domínio da variável de entrada em questão, de onde 
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos 
no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à 
esquerda ou à direita do nó em questão.
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor 
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para 
fazer a partição da variável tratada naquele estágio da construção da árvore.
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que 
designa os nós terminais das árvores, nos quais são exibidos os valores 
estimados para a variável resposta do modelo preditivo. Cada caminho da 
árvore indica, dessa forma, o valor a estimar para os valores das variáveis de 
entrada, informadas no caminho do nó inicial até a folha.
Está correto o que se afirma em: 
R: I, II, III e IV.
Baixado por Claudio Mateus (mgautomacao@hotmail.com)
lOMoARcPSD|41468065

Continue navegando

Outros materiais