Prévia do material em texto
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 1/6 In ic iado em sexta-feira , 10 nov. 2023, 19:47 Estado Finalizada Conclu ída em sexta-feira , 10 nov. 2023, 19:51 Tempo empregado 4 minutos 10 segundos Notas 7,00/7,00 Av al iar 30,00 de um máximo de 30,00(100%) Questão 1 Correto Atingiu 1,00 de 1,00 O agrupamento de dados, ou clusterização, é uma técnica que identi�ca grupos de objetos semelhantes em um conjunto de dados. Nesse contexto, existem muitos modelos que podem ser utilizados para realizar a clusterização, entretanto, os mais utilizados são: modelo de conectividade, de centroide, de distribuição e de densidade. Qual desses modelos é utilizado para analisar e entender a distribuição de probabilidade de uma variável aleatória? a . Modelos de conectividade. b. Modelos centroide. c. Modelos de distribuição. d. Modelos de densidade. Sua resposta está correta . A alternativa “d” é a correta . Os modelos de densidade são ferramentas utilizadas para analisar e entender a distribuição de probabilidade de uma variável aleatória . Esses modelos são úteis para comparação de diferentes distribuições de probabilidade. A resposta correta é: Modelos de densidade. S l i idi 10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 2/6 Questão 2 Correto Atingiu 1,00 de 1,00 Questão 3 Correto Atingiu 1,00 de 1,00 A ordem correta para as etapas do processo ETL são: a . Extração, Transformação e Carregamento. b. Carregamento, Extração e Transformação. c. Transformação, Extração e Carregamento. d. Carregamento, Transformação e Extração. Sua resposta está correta . A opção correta é a “a”. A ordem correta para o processo de ETL é Extract (Extração), Transformation (Transformação) e Load (Carregamento). É uma metodologia que automatiza as tarefas relacionadas com a transformação de dados para um formato adequado para análise e, na sequência , possibilita carregá-los em um sistema de armazenamento de dados (tais como Data Lake, Data Warehouse ou banco de dados NoSQL) (ROSS; KIMBALL, 2013). A resposta correta é: Extração, Transformação e Carregamento. Sobre os modelos de centroide marque as a�rmações verdadeiras I. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é de�nida pela proximidade desses pontos aos centroides dos clusters. II. Os modelos de centroide visam identi�car centroides que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados. III. Ao utilizar um modelo de centroide, é necessário fornecer o número de clusters desejado antes da execução do algoritmo. Isso signi�ca que, ao contrário de outros modelos de clustering, como os modelos de conectividade baseados em vizinhança, estabelecer o número de clusters é um parâmetro desa�ador que precisa ser determinado antes da execução do modelo. a . I e II são verdadeiras. b. I e III são verdadeiras. c. II e III são verdadeiras. d. Todas são verdadeiras. Sua resposta está correta . A resposta é a “d”. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é de�nida pela proximidade desses pontos aos centroides (centro geométricos) dos clusters. Esses modelos visam identi�car centroides que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados. Todas as três a�rmações descrevem corretamente aspectos dos modelos de centroide. A resposta correta é: Todas são verdadeiras. Selecionar idiomaTecnologia do Tradutor https://translate.google.com/ 10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 3/6 Questão 4 Correto Atingiu 1,00 de 1,00 O estudo de algoritmos no contexto do Big Data tem se tornado cada vez mais relevante. Eles desempenham um papel fundamental na sociedade, ao lidar com o processamento de enormes volumes de dados gerados no ambiente cibernético. Sobre o conceito de algoritmos, julgue a frase a seguir como verdadeira ou falsa . Um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa especí�ca ou resolver um problema. Verdadeiro Falso A a�rmação é verdadeira . Na computação, um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa especí�ca ou resolver um problema. Os algoritmos são usados em várias áreas da computação, desde a programação de so�ware e desenvolvimento de jogos até a criptogra�a e análise de dados (SZWARCFITER; MARKENZON, 2010). A resposta correta é 'Verdadeiro'. 10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 4/6 Questão 5 Correto Atingiu 1,00 de 1,00 Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não estruturados de diversas fontes, como plataformas de mídia social , blogs, fóruns, vídeos e imagens. Esses dados são essenciais para fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car oportunidades de negócios e gerenciar a reputação online. Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados em seu formato original, sem a necessidade de transformação imediata . Diante do cenário, qual dos processos a empresa pode se bene�ciar? ELT (Extract, Load, Transformation) . ETL (Extract, Transformation, Load) Sua resposta está correta . Nesse exemplo, a escolha adequada é “ELT (Extract, Load, Transformation"). No caso descrito, a empresa se bene�cia do processo ELT (Extract, Load, Transform). Essa abordagem permite que a organização capture os dados brutos em seu formato original, sem a necessidade de transformação imediata , o que possibilita explorar e analisar os dados não estruturados em seus formatos originais, como texto, imagens e vídeos. Além disso, o ELT oferece a vantagem de manipular os dados em tempo real, permitindo que a organização forneça insights atualizados e relevantes aos seus clientes. A resposta correta é: Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não estruturados de diversas fontes, como plataformas de mídia social , blogs, fóruns, vídeos e imagens. Esses dados são essenciais para fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car oportunidades de negócios e gerenciar a reputação online. Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados em seu formato original, sem a necessidade de transformação imediata . Diante do cenário, qual dos processos a empresa pode se bene�ciar? [ELT (Extract, Load, Transformation)]. 10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 5/6 Questão 6 Correto Atingiu 1,00 de 1,00 A distribuição de dados tem o objetivo de identi�car a frequência com que determinados valores aparecem em um conjunto de dados, a �m de compreender melhor seu comportamento, além de identi�car possíveis padrões ou tendências. Para cada descrição, selecione o termo que representa o tipo de distribuição de dados correlato. a . Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor numérico da média é maior que o da mediana, e amediana é maior que a moda. b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência , sendo caracterizada por uma função de densidade de probabilidade retangular. Distribuição right skewed Distribuição normal/Gaussiana Distribuição uniforme Sua resposta está correta . A distribuição normal (Gaussiana) é uma das distribuições mais comuns na análise estatística de dados, sendo caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. A curva é determinada por dois parâmetros: a média e o desvio padrão, que descrevem a localização e a dispersão dos dados, respectivamente. Já a distribuição right skewed é caracterizada pelo valor numérico da média maior que o da mediana, e a mediana maior que a moda. Difere, por exemplo, da distribuição le� skewed , em que o valor numérico da moda é maior que da mediana, e a mediana é maior que a média . Por último, também se destaca o tipo de distribuição uniforme, na qual todos os valores possíveis têm a mesma probabilidade de ocorrência . Essa distribuição é comum em jogos de azar, como o lançamento de um dado, onde cada valor tem a mesma chance de ser sorteado. A resposta correta é: a . Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor numérico da média é maior que o da mediana, e a mediana é maior que a moda. → Distribuição right skewed, b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. → Distribuição normal/Gaussiana, c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência , sendo caracterizada por uma função de densidade de probabilidade retangular. → Distribuição uniforme. 10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 6/6 Questão 7 Correto Atingiu 1,00 de 1,00 No contexto de Big Data, dois modelos de programação se destacam: o MapReduce e o ElasticSearch. Com base nesses modelos, julgue a descrição abaixo como Verdadeira ou Falsa . O MapReduce é composto por duas etapas principais: a primeira , chamada map, responsável por realizar o processamento paralelo dos dados; e a segunda, chamada reduce, responsável por agregar os resultados parciais obtidos na etapa de map. É útil para processar grandes volumes de dados não estruturados. Já o modelo de programação ElasticSearch utiliza o conceito de índices para organizar os dados, permitindo buscar informações textuais em grandes volumes de dados em tempo real . Verdadeiro Falso frase é verdadeira e descreve corretamente os dois modelos de programação. O MapReduce é um modelo de programação distribuída que permite processar grandes volumes de dados de forma e�ciente e escalável . Ele foi desenvolvido pela Google para processar grandes conjuntos de dados em clusters de computadores, dividindo-os em tarefas menores e paralelizando o processamento em vários nós do cluster. O ElasticSearch é um mecanismo de busca e análise de código aberto. Ele é uma ferramenta poderosa para a análise de grandes volumes de dados em tempo real, tornando-se muito popular em ambientes corporativos. O ElasticSearch foi desenvolvido para ser escalável, distribuído e tolerante a falhas, permitindo que os usuários trabalhem com grandes conjuntos de dados de forma e�ciente e rápida . A resposta correta é 'Verdadeiro'.