Baixe o app para aproveitar ainda mais
Prévia do material em texto
N2 – ESTATÍSTICA APLICADA AO DATA SCIENCE PERGUNTA 1 Há diferentes formas de descrever as principais etapas de desenvolvimento de um algoritmo preditivo, mas sempre encontraremos muitas similaridades entre essas diferentes formas. Aqui, apresentamos uma que divide o desenvolvimento de um algoritmo preditivo em 10 etapas. Em relação a esse assunto, analise as afirmativas a seguir. I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os modelos e algoritmos preditivos são imunes a dados viciados. II. A análise descritiva dos dados sempre vem depois das etapas de treino (ajuste) e teste do modelo (algoritmo) aos dados coletados. III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito importante, pois só assim saberemos se atingiu o propósito para o qual foi desenvolvido. Com base no feedback do cliente, podemos produzir melhoramentos no modelo. IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para verificar a sua performance preditiva. Está correto o que se afirma em: III e IV, apenas. III, apenas. IV, apenas. II e III, apenas. I e III, apenas PERGUNTA 2 A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de lado. Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados. 1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou histogramas para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou diagramas de barras para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 3. Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. 4. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas lançar mão da função table() do software estatístico R, para determinar a frequência com que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, se quisesse. Está correto o que se afirma em: I e IV, apenas. II e III, apenas. IV, apenas. I e II, apenas. I, III e IV apenas. PERGUNTA 3 Leia o excerto a seguir: “Os modelos de árvores, também chamados de Árvores de Classificação e Regressão , árvores de decisão ou apenas árvores , são um método de classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais potentes, florestas aleatórias e boosting , formam a base das ferramentas de modelagem preditiva mais potentes e amplamente usadas na ciência de dados tanto para regressão quanto para classificação.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. Quanto às árvores de decisão para classificação e regressão, analise as afirmativas a seguir: I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de cada vez, de forma hierárquica, das mais importante às menos importantes, a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em que exibe os valores estimados para a variável resposta. II. A cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou à direita do nó em questão. III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer a partição da variável tratada naquele estágio da construção da árvore. IV. Em árvores de decisão de classificação ou regressão, folha é um termo que designa os nós terminais das árvores, nos quais são exibidos os valores estimados para a variável resposta do modelo preditivo. Cada caminho da árvore indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, informadas no caminho do nó inicial até a folha. Está correto o que se afirma em: I, II e III, apenas. I e IV, apenas. II, III e IV, apenas. II e III, apenas. I, II, III e IV. PERGUNTA 4 Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e b1 = 5,15. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da amostra. IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: I, II, III e IV II, III e IV, apenas. III e IV, apenas. II e III, apenas. I e II, apenas. PERGUNTA 5 Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui,mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. V, V, V, V, V. V, V, F, F, F. V, F, F, V, V. V, V, F, V, F. F, V, V, F, V. PERGUNTA 6 Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia exatamente em que situações empregar boxplots. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. 2. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que no eixo horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a variação dos valores observados para a variável quantitativa. 3. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. 4. ( ) Na construção de um boxplot, podemos representar no eixo vertical os níveis da variável qualitativa e no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente, e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. V, F, F, V. V, V, F, V. V, V, F, F. F, V, V, F. F, F, V, V. PERGUNTA 7 Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. 2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas. 3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot. 4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot. Assinale a alternativa que apresenta a sequência correta. V, V, F, V. V, V, F, F. F, F, V, V. F, V, V, V. F, V, F, V. PERGUNTA 8 Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla. Quanto ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área e do seu andar, analise as afirmativas a seguir. I. O estatístico desenvolveu um modelo para o valor esperado de y (valor do imóvel) em função de x1 (área do imóvel) e x2 (andar do imóvel), simultaneamente. Esse modelo ficou assim: y= – 2,59 + 5,12 x1 + 6,34 x2 II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, é natural que os valores dos coeficientes para cada variável sejam diferentes do que os mesmos coeficientes para cada variável sozinha em uma regressão linear simples. Isso vale sempre que adicionamos variáveis de entrada ou eliminamos variáveis de entrada de um modelo de regressão linear. III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados) e a variação unitária do seu andar (1 andar a mais). IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um apartamento com 40 metros quadrados localizado no quinto andar em 433 mil reais (arredondando para mil reais). Está correto o que se afirma em: I e II, apenas. I, II e III, apenas. I, II, III e IV. III e IV, apenas. II e III, apenas. PERGUNTA 9 O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados para a predição da probabilidade de inadimplência com o cartão de crédito foi: P(x2) = [ exp(– 4,16 + 0,0314x2) ] / [ 1 + exp(– 4,16 + 0,00314x2) ] Tomando como base esse modelo, que foi ajustado aos dados da amostra cedida pelo gerente, podemos estimar o valor esperado para a probabilidade de inadimplência com cartão de crédito das pessoas. Por exemplo, vamos considerar duas pessoas, uma com um gasto de médio mensal com o cartão de R$ 500,00, e a outra com um gasto médio mensal de R$ 1.000,00. Usando o modelo ajustado anterior, obtemos, respectivamente (assinale a alternativa correta): 7% e 27%. 37% e 17%. 17% e 27%. 27% e 7%. 7% e 37% . PERGUNTA 10 A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais nova dessas quatro áreas de conhecimento. Com referência ao relacionamento entre essas quatro áreas de conhecimento humano, analise as afirmativas a seguir: I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na estatística, na mineração de dados e na ciência dos dados. II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios. III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. É aplicada a todas áreas de atividade humana. IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito. II e III apenas. I, II e IV apenas. I, II e III apenas. I, III e IV apenas. I, II, III e IV.
Compartilhar