Exercício avaliativo - Módulo 3_ Revisão da tentativa

Big Data

•

Exatas

willy azevedo

10/11/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

Prévia do material em texto

10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 1/6
In ic iado em sexta-feira , 10 nov. 2023, 19:47
Estado Finalizada
Conclu ída em sexta-feira , 10 nov. 2023, 19:51
Tempo
empregado
4 minutos 10 segundos
Notas 7,00/7,00
Av al iar 30,00 de um máximo de 30,00(100%)
Questão 1
Correto
Atingiu 1,00 de 1,00
O agrupamento de dados, ou clusterização, é uma técnica que identi�ca grupos de objetos semelhantes em um conjunto de dados.
Nesse contexto, existem muitos modelos que podem ser utilizados para realizar a clusterização, entretanto, os mais utilizados são:
modelo de conectividade, de centroide, de distribuição e de densidade.
Qual desses modelos é utilizado para analisar e entender a distribuição de probabilidade de uma variável aleatória?
a . Modelos de conectividade.
b. Modelos centroide.
c. Modelos de distribuição.
d. Modelos de densidade. 
Sua resposta está correta .
A alternativa “d” é a correta . Os modelos de densidade são ferramentas utilizadas para analisar e entender a distribuição de
probabilidade de uma variável aleatória . Esses modelos são úteis para comparação de diferentes distribuições de probabilidade.
A resposta correta é:
Modelos de densidade.
S l i idi
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 2/6
Questão 2
Correto
Atingiu 1,00 de 1,00
Questão 3
Correto
Atingiu 1,00 de 1,00
A ordem correta para as etapas do processo ETL são:
a . Extração, Transformação e Carregamento. 
b. Carregamento, Extração e Transformação.
c. Transformação, Extração e Carregamento.
d. Carregamento, Transformação e Extração.
Sua resposta está correta .
A opção correta é a “a”. A ordem correta para o processo de ETL é Extract (Extração), Transformation (Transformação) e Load
(Carregamento). É uma metodologia que automatiza as tarefas relacionadas com a transformação de dados para um formato
adequado para análise e, na sequência , possibilita carregá-los em um sistema de armazenamento de dados (tais como Data Lake,
Data Warehouse ou banco de dados NoSQL) (ROSS; KIMBALL, 2013).
A resposta correta é:
Extração, Transformação e Carregamento.
Sobre os modelos de centroide marque as a�rmações verdadeiras
I. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é de�nida pela
proximidade desses pontos aos centroides dos clusters.
II. Os modelos de centroide visam identi�car centroides que sejam representativos dos clusters e buscam encontrar o número
ideal de clusters para o conjunto de dados.
III. Ao utilizar um modelo de centroide, é necessário fornecer o número de clusters desejado antes da execução do algoritmo. Isso
signi�ca que, ao contrário de outros modelos de clustering, como os modelos de conectividade baseados em vizinhança,
estabelecer o número de clusters é um parâmetro desa�ador que precisa ser determinado antes da execução do modelo.
a . I e II são verdadeiras.
b. I e III são verdadeiras.
c. II e III são verdadeiras.
d. Todas são verdadeiras. 
Sua resposta está correta .
A resposta é a “d”. Os modelos de centroide são um tipo de algoritmo de clustering em que a similaridade entre os pontos de dados é
de�nida pela proximidade desses pontos aos centroides (centro geométricos) dos clusters. Esses modelos visam identi�car centroides
que sejam representativos dos clusters e buscam encontrar o número ideal de clusters para o conjunto de dados. Todas as três
a�rmações descrevem corretamente aspectos dos modelos de centroide.
A resposta correta é:
Todas são verdadeiras.
Selecionar idiomaTecnologia do Tradutor
https://translate.google.com/
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 3/6
Questão 4
Correto
Atingiu 1,00 de 1,00
O estudo de algoritmos no contexto do Big Data tem se tornado cada vez mais relevante. Eles desempenham um papel fundamental
na sociedade, ao lidar com o processamento de enormes volumes de dados gerados no ambiente cibernético.
Sobre o conceito de algoritmos, julgue a frase a seguir como verdadeira ou falsa .
Um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um computador para realizar uma tarefa
especí�ca ou resolver um problema.
Verdadeiro 
Falso
A a�rmação é verdadeira . Na computação, um algoritmo é um conjunto preciso de instruções lógicas que são executadas por um
computador para realizar uma tarefa especí�ca ou resolver um problema. Os algoritmos são usados em várias áreas da computação,
desde a programação de so�ware e desenvolvimento de jogos até a criptogra�a e análise de dados (SZWARCFITER; MARKENZON,
2010).
A resposta correta é 'Verdadeiro'.
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 4/6
Questão 5
Correto
Atingiu 1,00 de 1,00
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não
estruturados de diversas fontes, como plataformas de mídia social , blogs, fóruns, vídeos e imagens. Esses dados são essenciais para
fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car
oportunidades de negócios e gerenciar a reputação online.
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados
em seu formato original, sem a necessidade de transformação imediata .
Diante do cenário, qual dos processos a empresa pode se bene�ciar?
ELT (Extract, Load, Transformation)  .
ETL (Extract, Transformation, Load)
Sua resposta está correta .
Nesse exemplo, a escolha adequada é “ELT (Extract, Load, Transformation"). No caso descrito, a empresa se bene�cia do processo ELT
(Extract, Load, Transform). Essa abordagem permite que a organização capture os dados brutos em seu formato original, sem a
necessidade de transformação imediata , o que possibilita explorar e analisar os dados não estruturados em seus formatos originais,
como texto, imagens e vídeos. Além disso, o ELT oferece a vantagem de manipular os dados em tempo real, permitindo que a
organização forneça insights atualizados e relevantes aos seus clientes.
A resposta correta é:
Uma empresa de análise de mídias sociais precisa tomar uma decisão. Ela coleta grandes volumes de dados estruturados e não
estruturados de diversas fontes, como plataformas de mídia social , blogs, fóruns, vídeos e imagens. Esses dados são essenciais para
fornecer insights e análises relevantes para seus clientes, ajudando-os a entender as tendências, o sentimento do público, identi�car
oportunidades de negócios e gerenciar a reputação online.
Para lidar com essa variedade de dados não estruturados, a empresa precisa de uma abordagem que permita a exploração dos dados
em seu formato original, sem a necessidade de transformação imediata .
Diante do cenário, qual dos processos a empresa pode se bene�ciar?
[ELT (Extract, Load, Transformation)].
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 5/6
Questão 6
Correto
Atingiu 1,00 de 1,00
A distribuição de dados tem o objetivo de identi�car a frequência com que determinados valores aparecem em um conjunto de dados,
a �m de compreender melhor seu comportamento, além de identi�car possíveis padrões ou tendências.
Para cada descrição, selecione o termo que representa o tipo de distribuição de dados correlato.
a . Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a
direita que para a esquerda. O valor numérico da média é maior que o da mediana, e amediana é maior que a moda. 
b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos
dados, com uma forma de sino.

c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de
ocorrência , sendo caracterizada por uma função de densidade de probabilidade retangular.

Distribuição right skewed
Distribuição normal/Gaussiana
Distribuição uniforme
Sua resposta está correta .
A distribuição normal (Gaussiana) é uma das distribuições mais comuns na análise estatística de dados, sendo caracterizada por uma
curva simétrica em torno da média dos dados, com uma forma de sino. A curva é determinada por dois parâmetros: a média e o desvio
padrão, que descrevem a localização e a dispersão dos dados, respectivamente. Já a distribuição right skewed é caracterizada pelo
valor numérico da média maior que o da mediana, e a mediana maior que a moda. Difere, por exemplo, da distribuição le� skewed , em
que o valor numérico da moda é maior que da mediana, e a mediana é maior que a média . Por último, também se destaca o tipo de
distribuição uniforme, na qual todos os valores possíveis têm a mesma probabilidade de ocorrência . Essa distribuição é comum em
jogos de azar, como o lançamento de um dado, onde cada valor tem a mesma chance de ser sorteado.
A resposta correta é:
a . Tipo de distribuição estatística em que a cauda da distribuição se estende mais para a direita que para a esquerda. O valor
numérico da média é maior que o da mediana, e a mediana é maior que a moda. → Distribuição right skewed,
b. Tipo de distribuição que é caracterizada por uma curva simétrica em torno da média dos dados, com uma forma de sino. →
Distribuição normal/Gaussiana,
c. É uma distribuição em que todos os valores possíveis têm a mesma probabilidade de ocorrência , sendo caracterizada por uma
função de densidade de probabilidade retangular. → Distribuição uniforme.
10/11/23, 19:51 Exercício avaliativo - Módulo 3: Revisão da tentativa
https://mooc41.escolavirtual.gov.br/mod/quiz/review.php?attempt=367633&cmid=4803 6/6
Questão 7
Correto
Atingiu 1,00 de 1,00
No contexto de Big Data, dois modelos de programação se destacam: o MapReduce e o ElasticSearch.
Com base nesses modelos, julgue a descrição abaixo como Verdadeira ou Falsa .
O MapReduce é composto por duas etapas principais: a primeira , chamada map, responsável por realizar o processamento paralelo dos
dados; e a segunda, chamada reduce, responsável por agregar os resultados parciais obtidos na etapa de map. É útil para processar
grandes volumes de dados não estruturados. Já o modelo de programação ElasticSearch utiliza o conceito de índices para organizar
os dados, permitindo buscar informações textuais em grandes volumes de dados em tempo real .
Verdadeiro 
Falso
frase é verdadeira e descreve corretamente os dois modelos de programação. O MapReduce é um modelo de programação
distribuída que permite processar grandes volumes de dados de forma e�ciente e escalável . Ele foi desenvolvido pela Google para
processar grandes conjuntos de dados em clusters de computadores, dividindo-os em tarefas menores e paralelizando o
processamento em vários nós do cluster.
O ElasticSearch é um mecanismo de busca e análise de código aberto. Ele é uma ferramenta poderosa para a análise de grandes
volumes de dados em tempo real, tornando-se muito popular em ambientes corporativos. O ElasticSearch foi desenvolvido para ser
escalável, distribuído e tolerante a falhas, permitindo que os usuários trabalhem com grandes conjuntos de dados de forma e�ciente e
rápida .
A resposta correta é 'Verdadeiro'.