Prévia do material em texto
N2 - PROGRAMAÇÃO ESTATÍSTICA – BIG DATA – FMU - 2021 · Pergunta 1 0 em 1 pontos O data analytics tem um objetivo simples e direto: lidar com um conjunto de ferramentas e métodos para coletar, organizar e analisar os dados e conseguir insights valiosos sobre tendências e comportamento, aperfeiçoando os processos de trabalho. Com isso, há a possibilidade de as instituições terem decisões mais precisas e, também, em alguns casos, antes da concorrência. LANEY, D. Application delivery strategies . [ S. l .]: META Group, 2001. A partir do texto apresentado e do conteúdo estudado, assinale a alternativa correta. Uma das divisões do big data é o big data analytics ; agora, responda em que o big data analytics se diferencia do business intelligence (inteligência de negócios). Resposta Selecionada: Priorizar a coleta, a transformação e a disponibilização dos dados. Resposta Correta: Verificar o que já existe e o que ainda virá, apontando novos caminhos. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois o business intelligence trata das questões que já são conhecidas e de preconcepções que se tenha em relação aos dados. Dessa forma, o seu foco está na coleta, organização, transformação dos dados já estruturados para que se possa tomar a decisão. · Pergunta 2 1 em 1 pontos A principal vantagem é a possibilidade de deixar de tomar decisões baseadas na intuição, por meio do uso de mineração de dados estatísticos e dados históricos, para se conhecer futuras tendências. GUAZZELLI, A. O que é análise preditiva? IBM , ago. 2012. Disponível em: https://developer.ibm.com/br/articles/ba-predictive-analytics1/ . Acesso em: 20 jul. 2020 A respeito da Análise Preditiva, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Análise Preditiva também pode usar a aprendizagem não supervisionada. II. ( ) Análise Preditiva é referida como um aprendizado do tipo supervisionado. III. ( ) Na Análise Preditiva, temos o uso da aprendizagem supervisionada, que inclui redes neurais, árvores de decisão e máquinas de vetor de suporte. IV. ( ) Análise Preditiva é conhecida por não conseguir descobrir as possibilidades futuras que se tem nos dados. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: V, V, V, F. Resposta Correta: V, V, V, F. Comentário da resposta: Resposta correta. A alternativa está correta, pois, na análise preditiva, temos o uso do aprendizado supervisionado (dados de entrada e a saída ou os resultados que se almeja) e o não supervisionado (dados de entrada). Logo, a análise preditiva é empregada tanto na aprendizagem não supervisionada como na supervisionada, que pode também utilizar redes neurais, árvores de decisão e máquinas de vetor de suporte. · Pergunta 3 1 em 1 pontos Outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas. Essas medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros, e se calculadas a partir de dados amostrais, são denominadas estimadores ou estatísticas. As medidas descritivas auxiliam a análise do comportamento dos dados. GUEDES, T. A. et al . Estatística descritiva . 2020. Disponível em: http://www.each.usp.br/rvicente/Guedes_etal_Estatistica_Descritiva.pdf . Acesso em: 20 jul. 2020. A respeito da definição de medidas descritivas, assinale a alternativa correta, tendo em vista o texto acima e os conceitos vistos sobre funções em R. Resposta Selecionada: As funções em R para medidas de tendência central são: mean() e median(). Resposta Correta: As funções em R para medidas de tendência central são: mean() e median(). Comentário da resposta: Resposta correta. A alternativa está correta, pois, realmente, por meio das funções mean() e median() é que são obtidos os cálculos desejados para medida de tendência central em R. A medida de tendência central representa um conjunto de dados de acordo com a sua posição central. · Pergunta 4 1 em 1 pontos O aprendizado em machine learning se dá de duas formas: pelo aprendizado supervisionado e o não supervisionado. No aprendizado supervisionado, temos algoritmos que aprendem por meio de um modelo para, assim, conseguirem prover a variável de interesse, baseando-se em variáveis dependentes. Já no aprendizado não supervisionado, temos as medições por meio de variáveis nas quais se tenha interesse, tendo como base alguma semelhança. BREIMAN, L. Statistical modeling: the two cultures. IMS , v. 16, n. 3, p. 199-215, 2001. Quanto ao texto apresentado, analise as alternativas, em relação ao aprendizado não supervisionado. I. Na aprendizagem não supervisionada, há permissão para se abordar os problemas com pouca ou nenhuma ideia de como os resultados devem se apresentar. II. A aprendizagem não supervisionada não permite a abordagem de problemas com pouca ou nenhuma ideia a respeito de como os resultados devem se demonstrar. III. Alguns exemplos de técnicas estatísticas que são aplicadas na aprendizagem não supervisionada são: redução de dimensionalidade, análise de agrupamento. IV. A aprendizagem não supervisionada também pode ser usada para se reduzir o número de dimensões em um conjunto de dados. Está correto o que se afirma em: Resposta Selecionada: I, III e IV, apenas. Resposta Correta: I, III e IV, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois, na aprendizagem não supervisionada, há sim permissão para se abordar os problemas com pouca ou nenhuma ideia de como os resultados devem se apresentar, derivando a estrutura dos dados, a partir do agrupamento dos dados com base nas relações entre as variáveis que estão presentes nos próprios dados. Faz-se o seu uso também na redução do número de dimensões para um conjunto de dados, concentrando-se, assim, nos atributos mais úteis, podendo também detectar tendências. O machine learning e a Estatística são bem relacionados, tendo como exemplo algumas técnicas estatísticas de redução de dimensionalidade e análise de agrupamento. · Pergunta 5 1 em 1 pontos O big data é uma estratégia de gerenciamento de informações abrangentes que envolvem e integra muitos tipos de dados e gerenciamentos de dados em conjunto com os dados tradicionais. Temos por definição de big data: volume, velocidade, variedade. LANEY, D. Application delivery strategies . [ S. l. ]: META Group, 2001. A respeito do Big Data, que são os grandes dados, a que se refere a sua característica de velocidade, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Velocidade refere-se à obrigatoriedade de se gerar aplicações de forma rápida. II. ( ) Velocidade refere-se à um alto fluxo de dados na entrada. III. ( ) Velocidade refere-se à rapidez com que os dados se tornam inválidos no decorrer do tempo. IV. ( ) Velocidade refere-se à urgência das aplicações em gerar respostas de forma rápida, a partir de grandes massas de dados. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: F, V, F, F. Resposta Correta: F, V, F, F. Comentário da resposta: Resposta correta. A alternativa está correta, pois a velocidade realmente está relacionada ao alto fluxo de dados na entrada, analisando os dados no momento em que são criados. É importante que as informações fluam de forma rápida; por muitas vezes, é melhor ter os dados de forma limitada, mas em tempo real, do que vários dados em uma velocidade baixa. · Pergunta 6 1 em 1 pontos Sabe-se que a origem dos dados vem de diferentes fontes, onde são transportados para o armazém de dados (ETL), seguindo para análise e decisão. Falando em ETL (Extract, Transform and Load), podemos defini-lo como um processopara se extrair dados de uma determinada fonte, transformá-los a partir de processos específicos, de acordo com sua natureza, e inseri-los em um repositório. LYRA, B. L. A. Uso de um processo etl em um modelo data warehouse para a geração de dashboards de indicadores de redes de telefonia celular . 2016. 106 f. Monografia (Graduação em Engenharia Eletrônica e de Computação) — Departamento de Engenharia Eletrônica e de Computação, Escola Politécnica, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2016. A partir do texto apresentado e do conteúdo estudado, analise a afirmativas a seguir. I. ETL é o processo mais difícil e demorado na construção de um Data Warehouse . II. As informações das ferramentas de front-end não são geradas por meio dos dados armazenados no Data Warehouse . III. Temos, no processo de ETL, a carga dos dados aplicados na base do Data Warehouse . IV. No processo de extração dos dados, há pouca preocupação em extraí-los em sua totalidade e com tanta precisão, pois não afetarão os negócios da empresa em questão. Está correto o que se afirma em: Resposta Selecionada: I e III, apenas. Resposta Correta: I e III, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, visto que o processo de ETL é sim o mais crítico e demanda um maior tempo para construção do Data Warehouse, pois representa a extração dos dados de bases heterogêneas, para transformação e limpeza desses dados e para carga dos dados na base do Data Warehouse. · Pergunta 7 0 em 1 pontos Grande tem sido a expansão da Estatística Descritiva por meio dos computadores. Esse aumento da competência na execução de grandes volumes de cálculos em pequenos intervalos de tempo transformou, quase que fundamentalmente, uma análise descritiva dos dados, tanto para efeito de apresentação de informações quanto para uso preliminar dessas informações para fins de análises (estatísticas) futuras. SOUZA, E. F. M.; PETERNELLI, L. A.; MELLO, P. M. Software livre R: aplicação estatística. 2019. Disponível em: http://www2.ufersa.edu.br/portal/view/uploads/setores/137/Apostilas%20e%20Tutoriais%20-%20R%20Project/Apostila%20R%20-%20GenMelhor.pdf . Acesso em: 20 jul. 2020. A respeito dos tipos de notações, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Na mediana, não é necessário que o conjunto de dados esteja ordenado. II. ( ) A média é a soma dos dados dividida pelo número de dados, tendo seus pontos localizados em um ponto central dentro desse conjunto de dados. III. ( ) No somatório, temos a notação de várias somas. IV. ( ) No produtório, também temos a notação de várias somas. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: F, F, V, V. Resposta Correta: F, V, V, F. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois o produtório faz referência à multiplicação. Já a mediana é alcançada quando o conjunto de dados se encontra ordenado, não importando se de forma crescente ou decrescente, pois ela mede uma tendência central. · Pergunta 8 1 em 1 pontos No princípio dos dados organizados, temos o fornecimento de uma forma padrão de organizar seus valores em um conjunto de dados. Por meio desse padrão, torna-se mais facilitada a limpeza inicial dos dados, porque você não precisa começar do zero e reinventar sempre que necessitar realizar algo. Os conjuntos de dados organizados são todos iguais, mas todos os conjuntos de dados confusos são confusos à sua maneira. WICKHAM, H. Tidy data. Journal of Statistical Software , v. 59, n. 10, 2014. Disponível em: https://www.jstatsoft.org/article/view/v059i10. Acesso em: 14 jul. 2020. A partir do excerto apresentado e do conteúdo estudado sobre o Tidy Data, assinale a alternativa correta. Resposta Selecionada: O processo de organização de dados requer muito trabalho inicialmente, porém, a longo prazo, compensa. Resposta Correta: O processo de organização de dados requer muito trabalho inicialmente, porém, a longo prazo, compensa. Comentário da resposta: Resposta correta. A alternativa está correta, pois, realmente, uma organização consistente dos dados, inicialmente, é trabalhosa, porém, em longo prazo compensa, pois terá os dados e as ferramentas organizadas, proporcionando um menor gasto de tempo nas questões analíticas. · Pergunta 9 1 em 1 pontos A Estatística é a ciência responsável pela coleta, organização e interpretação de dados, e a partir deles, permite-nos compreender quais são os mais influentes antes que sejam tomadas decisões importantes. SOUZA, E. F. M.; PETERNELLI, L. A.; MELLO, P. M. Software livre R: aplicação estatística. 2019. Disponível em: http://www2.ufersa.edu.br/portal/view/uploads/setores/137/Apostilas%20e%20Tutoriais%20-%20R%20Project/Apostila%20R%20-%20GenMelhor.pdf . Acesso em: 20 jul. 2020. Considerando o excerto apresentado sobre a Estatística Descritiva e como se divide em variáveis qualitativas e quantitativas, analise as afirmativas a seguir. I. A variável qualitativa refere-se aos dados numéricos, enquanto a variável quantitativa refere-se aos dados categóricos. II. A variável que descreve uma categoria e também a qualidade dos dados é conhecida como quantitativa. III. Na variável qualitativa, ela não assume valores numéricos, uma vez que relaciona outros fatores, como: nome, cor da pele. IV. Na variável qualitativa, temos subdivisões conhecidas como nominais e ordinais. Está correto o que se afirma em: Resposta Selecionada: III e IV, apenas. Resposta Correta: III e IV, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois, nessa variável, temos a descrição de uma categoria, assim como a qualidade dos dados, e não assume valores numéricos, uma vez que relaciona fatores como cor da pele, nomes, entre outros. Além disso, ela realmente se divide em nominais (cores, profissão) e ordinais (relação/ordenação). · Pergunta 10 1 em 1 pontos O objetivo último da análise estatística é o de tirar conclusões a partir dos dados de forma a enriquecer o nosso conhecimento da realidade. A partir disso, a análise estatística consegue prever eventos a partir dos dados históricos, refinando, assim, a tomada de decisão. SILVESTRE, A. L. Análise de dados e estatística descritiva . São Paulo: Escolar Editora, 2007. Tendo em vista o respectivo texto e o conhecimento dos processos de análise estatística, assinale a alternativa correta. Resposta Selecionada: Para um completo processo de análise estatística, devemos começar pelo problema, seguir com a explicação das medidas, com o recolhimento dos dados, a definição e a sintetização dos dados e os resultados estatísticos para, enfim, termos o relatório de estudo. Resposta Correta: Para um completo processo de análise estatística, devemos começar pelo problema, seguir com a explicação das medidas, com o recolhimento dos dados, a definição e a sintetização dos dados e os resultados estatísticos para, enfim, termos o relatório de estudo. Comentário da resposta: Resposta correta. A alternativa está correta, pois, para gerarmos um processo de análise estatística, precisamos passar por todas essas fases, a fim de obtermos os melhores resultados. Tendo cada fase a sua importância para a construção de uma melhor solução.