Baixe o app para aproveitar ainda mais
Prévia do material em texto
O estatístico empregou gráficos clássicos, isto é, de emprego consagrado, para a visualização de dados quantitativos e qualitativos, que são histogramas e diagramas de barras. Diante do exposto, analise as afirmativas a seguir. I. O estatístico usou de histogramas para a visualização dos dados quantitativos das amostras, quais sejam: a área, o andar e o valor do imóvel. II. O estatístico usou de diagramas de barras para a visualização do único dado qualitativo da amostra: a localização do imóvel. III. Histogramas e diagramas de barra são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. IV. Gráficos de pizza são uma alternativa aos diagramas de barras para a representação visual de dados qualitativos. Está correto o que se afirma em: II e III, apenas A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais nova dessas quatro áreas de conhecimento. Com referência ao relacionamento entre essas quatro áreas de conhecimento humano, analise as afirmativas a seguir: I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na estatística, na mineração de dados e na ciência dos dados. II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios. III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. É aplicada a todas áreas de atividade humana. IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito. I, II, III e IV Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. 2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas. 3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot. 4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter plot. Assinale a alternativa que apresenta a sequência correta. F V V V Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico. Relativamente a esse caso, analise as afirmativas a seguir. I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho. II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava. III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido. IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste. Está correto o que se afirma em: III, apenas Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica preferida de organização dos dados. Com base no exposto, analise as afirmativas a seguir. I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis estão dispostas nas linhas e as observações nas colunas. III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”. IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados organizados em qualquer tipo de estrutura. Está correto o que se afirma em: I e III, apenas A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não). Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis quantitativas. 2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a variáveis qualitativas. 3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas. 4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas. Assinale a alternativa que apresenta a sequência correta. F F V F A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder. Com base nessa introdução, analise as afirmativas a seguir. 1. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes). 2. O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes). 3. O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do crédito) do cartão. 4. O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do crédito) do cartão. Está correto o que se afirma em: II e IV, apenas Leia o excerto a seguir: “O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares, como uma planilha ou tabela de banco de dados. Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representadoscomo um conjunto de características nos dados retangulares.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5-6. Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados. II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados. III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática. IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados. Assinale a alternativa que apresenta a sequência correta: F F F V Leia o excerto a seguir: “Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37. Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio livro. IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Está correto o que se afirma em: II e IV, apenas Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística: Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão.
Compartilhar