Baixe o app para aproveitar ainda mais
Prévia do material em texto
NOTA 9 PERGUNTA 1 1. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo. Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado. 2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período. 3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis. 4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada. Assinale a alternativa que apresenta a sequência correta. F, F, V, V. F, V, V, F. V, V, V, V. V, F, F, V. V, V, F, F. 1 pontos PERGUNTA 2 1. Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições falsas. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 1 pontos PERGUNTA 3 1. Leia o excerto a seguir: “A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito. Pois II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições falsas. 1 pontos PERGUNTA 4 1. Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. Assinale a alternativa que indica um problema de aprendizagem não supervisionada: Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das faturas de seus cartões de crédito. Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do paciente. Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização. Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de venda. 1 pontos PERGUNTA 5 1. Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica preferida de organização dos dados. Com base no exposto, analise as afirmativas a seguir. I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis estão dispostas nas linhas e as observações nas colunas. III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”. IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados organizados em qualquer tipo de estrutura. Está correto o que se afirma em: II e III, apenas. III e IV, apenas. I e III, apenas. I e II, apenas II e IV, apenas. 1 pontos PERGUNTA 6 1. Leia o excerto a seguir: “Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37.Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio livro. IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Está correto o que se afirma em: II e III, apenas. I, II e IV, apenas. II e IV, apenas. I, II e III, apenas. II, III e IV, apenas. 1 pontos PERGUNTA 7 1. Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. Murder Assault UrbanPop Rape Murder 1.00 0.80 0.07 0.56 Assault 0.80 1.00 0.26 0.67 UrbanPop 0.07 0.26 1.00 0.41 Rape 0.56 0.67 0.41 1.00 2. A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela com ela mesma. III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de 0,80. IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. F, F, V, V. F, V, V, F. V, V, V, F. F, V, V, V. F, V, F, V. 1 pontos PERGUNTA 8 1. Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas atividades humanas, na ciência, na vida social ou nos negócios. Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística simples ou múltipla. Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoa em função de sua altura, idade e sexo. 2. Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso. 3. Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e não nos outros em função de sua escolaridade, idade, sexo e classe social. 4. Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de sintomas clínicos que apresenta. Assinale a alternativa que apresenta a sequência correta. F, F, F, F. F, F, V, V. V, V, V, V. V, V, F, F. F, V, F, V. 1 pontos PERGUNTA 9 1. Gráficos de dispersão têm emprego consagrado quando falamos a respeito de visualização de dados. Eles são usados, porém, de uma forma bem específica, pois não podem ser usados para a visualização de qualquer tipo de variável, nem em qualquer situação. A partir do exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser, obrigatoriamente, uma variável qualitativa. II. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas. III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é denominado, em inglês, scatter plot. IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é denominado, em inglês, scatter plot. Assinale a alternativa que apresenta a sequência correta. V, V, F, F. F, V, F, V. F, V, V, V. F, F, V, V. V, V, F, V. 1 pontos PERGUNTA 10 1. A visualização da relação entre duas variáveis é, habitualmente, feita por meio de gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de gráficos segue regras bem precisas, especificamente a que duas variáveis eles podem representar de forma visual. Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos valores observados para a variável quantitativa. III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os níveis da variável qualitativa e, no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. V, V, F, F. V, F, F, V. F, V, V, F. F, F, V, V. V, V, F, V.
Compartilhar