Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Aplicada ao Data Science - Prova N2 Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes) Digitalizar para abrir em Studocu A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade Estatística Aplicada ao Data Science - Prova N2 Estatística Aplicada ao Data Science (Centro Universitário dos Guararapes) Digitalizar para abrir em Studocu A Studocu não é patrocinada ou endossada por nenhuma faculdade ou universidade Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 https://www.studocu.com/pt-br/document/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/estatistica-aplicada-ao-data-science-prova-n2/63194923?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 https://www.studocu.com/pt-br/course/centro-universitario-dos-guararapes/estatistica-aplicada-ao-data-science/6246979?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 Prova N2 Estatística Aplicada ao Data Science 1) É da estatística que a ciência dos dados herda uma forma muito bem estudada de classificação dos tipos de dados. Na estatística, os dados são divididos entre dados quantitativos e dados qualitativos. Estes últimos, os dados qualitativos, podem ser dicotômicos ou politômicos. Acerca do exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também denominados classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro). II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta). III. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra. Foi usada pelo estatístico para contar a frequência de imóveis vendidos no bairro e no centro, na amostra cedida pela corretora. IV. ( ) O diagrama de barras permite a visualização gráfica da contagem da frequência dos níveis observados de uma variável qualitativa. Foi usado pelo estatístico para a visualização de quantos imóveis foram vendidos no bairro e no centro. Assinale a alternativa que apresenta a sequência correta. R: V, V, V, V. 2) Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do software estatístico R. Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado. II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados. IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados. Assinale a alternativa que apresenta a sequência correta: Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 R: F, V, F, V. 3) A visualização da relação entre duas variáveis é, habitualmente, feita por meio de gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de gráficos segue regras bem precisas, especificamente a que duas variáveis eles podem representar de forma visual. Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos valores observados para a variável quantitativa. III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os níveis da variável qualitativa e, no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. R: V, V, F, V. 4) Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem. Relativamente a esse assunto, analise as afirmativas a seguir: I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada. II. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente. III. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora, variável explanatória ou variável independente. IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras. Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 R: I, II, III e IV. 5) Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelode regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. 1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. 2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. 3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. 4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: R: I, II, III e IV. 6) A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não). Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis quantitativas. 2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis qualitativas. 3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas. Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas. Assinale a alternativa que apresenta a sequência correta. R: F, F, V, F. 7) Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso: Figura - Massa corporal (kg) versus comprimento (m) dos animais Fonte: Elaborada pelo autor R: DOIS GRUPOS, UM COM 6 INDIVÍDUOS E OUTRO COM 4 INDIVÍDUOS. 8) Há diferentes formas de descrever as principais etapas de desenvolvimento de um algoritmo preditivo, mas sempre encontraremos muitas similaridades entre essas diferentes formas. Aqui, apresentamos uma que divide o desenvolvimento de um algoritmo preditivo em 10 etapas. Em relação a esse assunto, analise as afirmativas a seguir. I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os modelos e algoritmos preditivos são imunes a dados viciados. II. A análise descritiva dos dados sempre vem depois das etapas de treino (ajuste) e teste do modelo (algoritmo) aos dados coletados. III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 importante, pois só assim saberemos se atingiu o propósito para o qual foi desenvolvido. Com base no feedback do cliente, podemos produzir melhoramentos no modelo. IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para verificar a sua performance preditiva. Está correto o que se afirma em: R: III e IV, APENAS 9) Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). Obteve o resultado exibido na figura exibida adiante: Figura - Dendrograma do agrupamento dos cinco estados Fonte: Elaborada pelo autor Relativamente à interpretação desta figura, assinale a alternativa correta: R: É um dendograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico. 10) Leia o excerto a seguir: “Os modelos de árvores, também chamados de Árvores de Classificação e Regressão, árvores de decisão ou apenas árvores, são um método de classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais potentes, florestas aleatórias e boosting, formam a base das ferramentas de modelagem preditiva mais potentes e amplamente usadas na ciência de dados tanto para regressão quanto para classificação.” Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065 https://www.studocu.com/pt-br?utm_campaign=shared-document&utm_source=studocu-document&utm_medium=social_sharing&utm_content=estatistica-aplicada-ao-data-science-prova-n2 BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. Quanto às árvores de decisão para classificação e regressão, analise as afirmativas a seguir: I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de cada vez, de forma hierárquica, das mais importante às menos importantes, a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em que exibe os valores estimados para a variável resposta. II. A cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou à direita do nó em questão. III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer a partição da variável tratada naquele estágio da construção da árvore. IV. Em árvores de decisão de classificação ou regressão, folha é um termo que designa os nós terminais das árvores, nos quais são exibidos os valores estimados para a variável resposta do modelo preditivo. Cada caminho da árvore indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, informadas no caminho do nó inicial até a folha. Está correto o que se afirma em: R: I, II, III e IV. Baixado por Claudio Mateus (mgautomacao@hotmail.com) lOMoARcPSD|41468065
Compartilhar