Baixe o app para aproveitar ainda mais
Prévia do material em texto
• Pergunta 1 1 em 1 pontos O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): Resposta Selecionada: I e II apenas; Resposta Correta: I e II apenas; Comentário da resposta: Resposta correta. A alternativa está correta, pois machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação, e são usados na estatística, na ciência de dados e na mineração de dados, e o processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. Também sabemos que a mineração de dados e ciência de dados são áreas relacionadas, e que é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. • Pergunta 2 1 em 1 pontos Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados, é comum a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de duas em duas variáveis. Comumente, também se apresenta a correlação de cada variável com ela mesma, o que sempre resulta em uma correlação perfeita, igual a 1. A tabela adiante mostra o resultado do cálculo das correlações entre 5 variáveis quantitativas de uma determinada amostra. x1 x2 x3 x4 x5 x1 1,00 - 0,85 - 0,78 - 0,87 0,42 x2 - 0,85 1,00 0,79 0,89 - 0,43 x3 - 0,78 0,79 1,00 0,66 - 0,71 x4 - 0,87 0,89 0,66 1,00 - 0,17 x5 0,42 - 0,43 - 0,71 - 0,17 1,00 Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 e x5 Fonte: Elaborado pelo autor. Com respeito a essa tabela de correlações, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma variável e ela mesma, uma informação de pouco valor prático. II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no valor de 0,89, que indica uma forte associação entre essas duas variáveis, e que uma aumenta com um aumento da outra. III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, no valor de - 0,87, que indica uma forte associação entre essas duas variáveis, e que uma diminui quanto a outra aumenta. IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as variáveis x4 e x5, no valor de - 0,17, que indica uma fraca associação entre essas duas variáveis, e que uma diminui quando a outra aumenta. Resposta Selecionada: V, V, V, V. Resposta Correta: V, V, V, V. Comentário da resposta: Resposta correta. A sequência está correta. Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma variável e ela mesma. A maior correlação positiva é aquela entre as variáveis x2 e x4, indicando uma forte associação entre essas duas variáveis, e que uma aumenta com um aumento da outra. A maior (em valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, indicando uma forte associação entre essas duas variáveis, e que uma diminui quanto a outra aumenta. A menor (em valor absoluto) correlação negativa é aquela entre as variáveis x4 e x5, indicando uma fraca associação entre essas duas variáveis, e que uma diminui quando a outra aumenta. • Pergunta 3 1 em 1 pontos Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar. Figura - Árvore de decisão ajustada aos valores dos imóveis Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica corretamente as estimativas de preço desses apartamentos: Resposta Selecionada: 319,20; 448,80; 366,50; 390,40 mil reais. Resposta Correta: 319,20; 448,80; 366,50; 390,40 mil reais. Comentário da resposta: Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor dos imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos, comparando-as com os valores informados em cada nó, chegaremos às estimativas de preços de 319,20 mil reais, 448,80 mil reais, 366,50 mil reais e 390,40 mil reais, respectivamente, para cada um dos apartamentos descritos no enunciado. • Pergunta 4 1 em 1 pontos Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável quantitativa e uma variável qualitativa. A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui. II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta. III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui. Resposta Selecionada: F, V, V, F. Resposta Correta: F, V, V, F. Comentário da resposta: Resposta correta. A sequência está correta. É correto afirmar que uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta, e que uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. É incorreto afirmar que uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui, ou que uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui. • Pergunta 5 1 em 1 pontos Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do software estatísticoR. Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado. II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados. IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: F, V, F, V. Resposta Correta: F, V, F, V. Comentário da resposta: Resposta correta. A sequência está correta. A ordem correta do output da função summary() do R, quando aplicada aos dados de uma variável quantitativa, como o preço da boneca falante, é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado. O segundo quartil informa o valor da variável, abaixo do qual se encontram 25% dos dados observados, e a mediana fornece o valor da variável, abaixo do qual se encontram 50% dos valores observados. • Pergunta 6 1 em 1 pontos Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica preferida de organização dos dados. Com base no exposto, analise as afirmativas a seguir. I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis estão dispostas nas linhas e as observações nas colunas. III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”. IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados organizados em qualquer tipo de estrutura. Está correto o que se afirma em: Resposta Selecionada: I e III, apenas. Resposta Correta: I e III, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas. Além disso, no software estatístico R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”. Por outro lado, o quadro mencionado é um exemplo de dados retangulares e há, sim, tanto na estatística quanto na ciência de dados, uma preferência por dados estruturados na forma de data-frames. • Pergunta 7 1 em 1 pontos Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito do preço nas vendas Fonte: Elaborada pelo autor. Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o volume de vendas em cada ponto (de venda). II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente menor. III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor. IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. Está correto o que se afirma em: Resposta Selecionada: III e IV, apenas. Resposta Correta: III e IV, apenas. Comentário da resposta: Sua resposta está correta. A alternativa está correta, pois o gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor, e isto é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. • Pergunta 8 1 em 1 pontos Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais. Figura - Árvore de decisão ajustada às vendas do produto de varejo Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda: Resposta Selecionada: Vendas altas e baixas, respectivamente. Resposta Correta: Vendas altas e baixas, respectivamente. Comentário da resposta: Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição das vendas da boneca falante, se altas ou baixas, do nó inicial aos nós terminais, e usarmos passo a passo as características dos dois pontos de venda, comparando-as com os valores informados em cada nó, chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas baixas para o segundo ponto. • Pergunta 9 1 em 1 pontos Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do local de exposição da boneca (ruim, médio, bom) no ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito do local de exposição nas vendas Fonte: Elaborada pelo autor. Quanto à relação entre o local de exposição da boneca (ruim, médio, bom) e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que vendas altas ocorrem com mais frequência nos pontos de venda onde o local de exposição da boneca é bom. II. Ao estudarmos este caso, percebemos que não há qualquer efeito do local de exposição sobre o volume de vendas da boneca nos pontos de venda. III. O gráfico exibido acima mostra que a frequência de pontos com vendas altas é baixa quando o local de exposição da boneca é ruim. IV. O gráfico de visualização da relação entre o local de exposição da boneca no ponto de venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do tipo mosaic plot, apropriado para esta situação. Está correto o que se afirma em: Resposta Selecionada: I, III e IV, apenas. Resposta Correta: I, III e IV, apenas. Comentário da resposta: Sua resposta está correta. A alternativa está correta, pois, ao estudarmos este caso, percebemosque vendas altas ocorrem com mais frequência nos pontos de venda onde o local de exposição da boneca é bom, e que a frequência de pontos com vendas altas é baixa quando o local de exposição da boneca é ruim. Também sabemos que o gráfico de visualização da relação entre o local de exposição da boneca no ponto de venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do tipo mosaic plot, apropriado para essa situação. • Pergunta 10 1 em 1 pontos Leia o excerto a seguir: “A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito. Pois II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas. Resposta Selecionada: As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. Resposta Correta: As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. Comentário da resposta: Resposta correta. A alternativa está correta, pois mesmo que algoritmos de agrupamento sejam parte dos métodos da aprendizagem não supervisionada, e não serem modelos preditivos, como afirmado na asserção II, depois que formamos e nomeamos os grupos (classificamos os grupos), podemos usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de classificação. Ou seja, a asserção I é falsa.
Compartilhar